UnicodeとUTF-8の違いは?

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
ビッグインディアンとかなんとかかんとか
2デフォルトの名無しさん:2007/04/30(月) 20:04:11
戦力の決定的差ではない
3デフォルトの名無しさん:2007/04/30(月) 20:05:48
また、頭の悪そうなスレが・・・

>>1
それは魚とマグロの違いを訊ねるようなもんだ。
4デフォルトの名無しさん:2007/04/30(月) 20:06:49
魚と鮪というよりは、魚と刺身の違いのような気がする。
5デフォルトの名無しさん:2007/04/30(月) 20:09:31
俺もわからん。
誰か詳しく説明してよ。
6デフォルトの名無しさん:2007/04/30(月) 20:11:24
>>5
UNICODE→魚
UTF-8→刺身
7デフォルトの名無しさん:2007/04/30(月) 20:14:40
Unicodeは文字の集合で、UTF-8はそれに(語弊があるが)番号を振る方法の1つ。
8デフォルトの名無しさん:2007/04/30(月) 20:15:39
UNICODE
- 文字集合:1種類
- 符号化方式:UTF-8, UTF-16BE, etc
9デフォルトの名無しさん:2007/04/30(月) 20:19:17
小学生でもわかるように!
10デフォルトの名無しさん:2007/04/30(月) 20:28:13
Unicode => クラスメート
UTF-8 => 身長順に並べー、名前の順に並べー、誕生日の順に並べー
11デフォルトの名無しさん:2007/04/30(月) 20:30:48
自分はUCSとの違いがわからん
12デフォルトの名無しさん:2007/04/30(月) 20:32:18
2chの絵文字の#1234とかがUTF-8なのか?
13デフォルトの名無しさん:2007/04/30(月) 20:32:39
Unicode:
コードポイント: JISの句点コード
UTF-7, UTF-8, UTF-16, UTF-32: Shift_JIS, ISO-2022-JP, EUC-jp

Unicode ⊃ UTF-8
14デフォルトの名無しさん:2007/04/30(月) 20:32:52
unicode => 国民
UTF-8 => 住基コード
15デフォルトの名無しさん:2007/04/30(月) 20:42:09
Unicode = { 'a', 'b', ... }
UTF8 = { utf8encode('a'), utf8encode('b'), ... }
16デフォルトの名無しさん:2007/04/30(月) 20:42:47
UNICODE: JIS
UTF-8: SJIS or UJIS

かな?
17デフォルトの名無しさん:2007/04/30(月) 20:44:05
JISてーと、ISO-2022-JPエンコーディングのことを指すのかJIS X 0201とか08
とかを指すのかはっきりしないが、後者ならそんな感じ。
18デフォルトの名無しさん:2007/04/30(月) 20:44:56
あるいは
UNICODE: DivX or XviD or WMV9
UTF-8: AVI or MKV or OGM or ASF
19デフォルトの名無しさん:2007/04/30(月) 20:51:13
>>1
そもそもUTF-16やUTF-32と違って
バイトストリームのUTF-8にはエンディアン問題はない
UTF-8のBOMはエンディアン対策ではない

>>11
UnicodeとUCSは同義といってもいいのでは
20デフォルトの名無しさん:2007/04/30(月) 20:53:30
UNICODEって文字セットのことなのか、
文字セット+符号化方式たち のことなのかどっち?
21デフォルトの名無しさん:2007/04/30(月) 20:57:06
文字それぞれにも番号は振られているが、これは日本語の文字でいうと
区点コードみたいなもんだな。
22デフォルトの名無しさん:2007/04/30(月) 21:00:55
UTF-8とかってのは一種の圧縮方式みたいなものだよね
前cjk漢字統合で叩かれてたのはUNICODE自体の問題?
それとも非可逆圧縮への批判?
23デフォルトの名無しさん:2007/04/30(月) 21:13:09
なんという他力本願なスレ・・・
24デフォルトの名無しさん:2007/04/30(月) 21:14:46
ていうか、こんだけグチャグチャ言われたらわかるもんも
わからんようになるだろ、普通w
25デフォルトの名無しさん:2007/04/30(月) 21:18:58
>22
UnicodeがCJK漢字を統合するという
非可逆圧縮を選択したことへの批判だったと記憶している。
26デフォルトの名無しさん:2007/04/30(月) 21:26:07
.NET2.0には文字コードを自動判別する機能があるかどうかどうなんだ
27デフォルトの名無しさん:2007/04/30(月) 21:29:11
文字コードスレで聞けよ・・・
28デフォルトの名無しさん:2007/04/30(月) 21:32:55
>>22
>UTF-8とかってのは一種の圧縮方式みたいなものだよね

全然違うから。
29デフォルトの名無しさん:2007/04/30(月) 21:36:55
>>11
UnicodeはUCS-4のサブセットであり、UCS-2のスーパーセット
30デフォルトの名無しさん:2007/05/01(火) 00:35:17
UNICODEには基盤になる文字集合が一つあって、
その文字コードを固定長で(そのまま)使うのがUCS、
可変長で(圧縮して)使うのがUTFだと思ってた俺。

しかし>>28によって否定されてしまった。
調べてもなぜ間違ってるのか分からん。
31デフォルトの名無しさん:2007/05/01(火) 00:46:56
>>30
可変長と圧縮を混同するな。
32デフォルトの名無しさん:2007/05/01(火) 00:55:36
>>31
そりゃ確かに俺らからすれば圧縮とは言えないね。
でもわざわざ可変長にする理由は第一に互換性、第二にサイズぐらいしかない気がする
とりあえず大筋では合ってたようなのでよかった。サンクス
33デフォルトの名無しさん:2007/05/01(火) 05:53:08
UTF-16LEを指してUnicodeと連呼しているSDKドキュメントが存在するんだが、
あいつらの傲慢さは何とかならんのか?
34デフォルトの名無しさん:2007/05/01(火) 07:31:56
UTFのUとは何か
35デフォルトの名無しさん:2007/05/01(火) 08:12:07
さいたまてれびがうつらないのですが・・・
36デフォルトの名無しさん:2007/05/01(火) 08:18:43
なぁ、ちょっとおしえてくんねーか?
なんでutf8の「ももんが」って文字列を
PerlのJCodeでutf8に変換しようとすると文字化けしちゃうんだ?
37デフォルトの名無しさん:2007/05/01(火) 09:03:46
ももんが!!
38デフォルトの名無しさん:2007/05/01(火) 09:12:48
>>36
utf8からutf8だと、変換してないじゃないか。
39デフォルトの名無しさん:2007/05/01(火) 10:00:45
Unicode: Unicode Consociumの制定した文字集合。(U+0 - U+1FFFFF)
UTF-8/16/32: Unicode Transformation Format。Unicodeの符号化方式。
 UTF-8: 外字が無いため4Byte長まで。
 UTF-16: UCS-2+サロゲートペア+バイナリ符号化。

ISO/IEC 10646: 国際文字集合規格(群、面、区、点)。制定前にUnicodeが出て来たためそのコンパチに。Unicodeの文字はこのうち0群16面まで。
UCS-4: ISO規格の31bit符号集合。規格化文字集合+外字。
UCS-2: ISO規格の16bit符号集合。基本多言語面のみ。(例:U+1234)
UTF-8/16/32: UCS Transformation Format。UCSのバイナリ符号化方式。(例:0x12 0x34)
 UTF-8: Unicodeの方と違い6Byte長まであり。
40デフォルトの名無しさん:2007/05/01(火) 10:19:34
メモ帳でテキストを保存するときに
UnicodeやUTF-8を指定できるが、
Unicodeで保存する
としたときは
UTF-8で保存したのかUTF-16で保存したのか
わたしたちにはわからなくないか?
41デフォルトの名無しさん:2007/05/01(火) 10:22:47
コンソールのfileコマンドでわかるだろ!(:D)| ̄|_
42デフォルトの名無しさん:2007/05/01(火) 12:07:35
>>40
Microsoft Windows では "Unicode" といえば UTF-16 のリトルエンディアンという暗黙の了解になっている。
43デフォルトの名無しさん:2007/05/01(火) 12:13:22
>>33
csUnicodeっていうISO-10646-UCS-2のIANA別名があって、
こいつはUTF-16コンパチだから、あながち間違いとはいえない。
44デフォルトの名無しさん:2007/05/01(火) 16:02:40
Visual Studio.NETのSystem.IOでテキストをつくったらとくにコード指定なしのときはUTFいくつなんだ?
45デフォルトの名無しさん:2007/05/01(火) 16:21:05
windowsの標準
46デフォルトの名無しさん:2007/05/01(火) 17:07:42
UTF-8
MSDNに書いてある。
47デフォルトの名無しさん:2007/05/01(火) 17:36:36
ISO-2022でいいじゃんね
48デフォルトの名無しさん:2007/05/01(火) 17:49:18
VB.NETでも結局はBASP21を使わないと文字コード半別できんのか?
49デフォルトの名無しさん:2007/05/01(火) 18:01:26
mlangつかやいいじゃん
50デフォルトの名無しさん:2007/05/01(火) 18:25:37
文字コードのことがイマイチよくわからん・・・・
頭こんがらがり
51デフォルトの名無しさん:2007/05/01(火) 18:48:26
文字コードもOSI参照モデルみたいな階層構造の概念が必要だと思うんだよな
↓みたいな感じで

表示字形(グリフ、フォント)
文字入力(物理デバイス、IME)
符号化方式
文字集合
自然言語
52デフォルトの名無しさん:2007/05/01(火) 19:41:11
とりあえず、M$はUTF-16をUnicodeと呼ぶのを自重すべきだな。
まるでUTF-16だけがUnicodeとしたいようだ。
SJIS(MS漢字コード)を日本語テキストの標準にしたいかのように。
53デフォルトの名無しさん:2007/05/01(火) 19:50:46
自然言語ってのは普段使ってる言葉な
そこで使われてる文字を集めたのが文字集合ってヤツ

英語だとラテン文字a-z,A-Zと数字、記号なんかが文字集合になるわけ
日本語だと異体字なんかの問題があって集合を作るのが難しいんだけど
(土吉/士吉とか、はしご高/くち高みたいな)
とりあえず作って使われてるのがJIS X 0208文字集合ってヤツ
いわゆるJIS第1水準、第2水準漢字ね
54デフォルトの名無しさん:2007/05/01(火) 19:53:30
他の国でも独自に文字集合を作ってて
それらをまとめてひとつの大きな文字集合に
しちゃおうってのがUnicodeの考え方なの

ここでいうUnicodeはUCS(Universal Character Set)と
同じと思ってもらっていい
55デフォルトの名無しさん:2007/05/01(火) 19:58:06
その文字集合を実際にコンピュータ上のゼロイチで
対応させる方法のことを符号化方式っていうの

JIS X 0208文字集合を符号化する主な方法として
EUC-JP、ShiftJIS、ISO-2022-JP(JIS)
っていう3つがあって文字化けとかの問題が出てくるんだけどね
56デフォルトの名無しさん:2007/05/01(火) 20:07:29
ASCIIなんかだと文字集合と符号化方式が明確に区別されてなくて
規格として「この文字はこのゼロイチの組合せ」ってのが決められてたりして
そこらへんが文字集合と符号化方式を混乱する一因ではあるんだけど

UTF-8ってのはUCSを符号化する方法のひとつっていうだけ
それ以上でもそれ以下でもない

じゃあ、何が混乱の元かっていうと
Unicodeって言葉がUCS(文字集合)だけを指す場合と
符号化方式まで含めて使われる場合があるのだな
区別が付いてる人はいいんだけど、区別が付いてない人が
書いたり読んだりしてるとエスパー助けて状態にw
57デフォルトの名無しさん:2007/05/01(火) 20:14:21
UCSという規格の存在を知らず、
UCSという言葉を単にUCS-2やUCS-4などといった符号化形式の
総称としか思っていない奴いるだろ。
58デフォルトの名無しさん:2007/05/01(火) 20:32:56
なるへそ。
そういうことか。

Unicodeが単に世界中の文字を集めたもので、その1文字1文字にゼロとイチ
の組み合わせ対応させたものが、UTF-8と。

なんかちょっとわかったよ。
59デフォルトの名無しさん:2007/05/01(火) 20:43:00
ASP.NETのWebconfigファイルはUTF-8なんだからできればなにもかもUTF-8で統一してもらいたいんだが。
アラビア語とかを考えてUTF-16とかにする必要があるんだろうか
60デフォルトの名無しさん:2007/05/01(火) 20:58:23
Unicodeが16ビット固定長だった頃に書かれたソフトウェアを使うためということが
UTF-16の最大の存在理由だと思う。

個人的には大半の仮名漢字が2オクテットで収まるUTF-16はそんなに嫌いでない。
ASCIIの文字が2バイトになることと、プログラムで扱うときに
サロゲートペアを考慮しなければならないこと、は悩ましいけど。
61デフォルトの名無しさん:2007/05/01(火) 21:19:18
どうせ互換性なくなるならASCIIの制御文字から設計し直せばいいのにな
62デフォルトの名無しさん:2007/05/01(火) 21:29:40
このスレは文字コードスレの内容がサッパリわからない
アフォの俺には非常に助かる
63デフォルトの名無しさん:2007/05/01(火) 21:40:58
なるほど。すごく良く分かった。
エロい人に感謝。
64デフォルトの名無しさん:2007/05/01(火) 21:51:36
それじゃぁ、このスレは目的を果たしたということで埋め?
65デフォルトの名無しさん:2007/05/01(火) 21:52:18
日本で使うコードポイントはどの辺でしょうか?
http://www.ssec.wisc.edu/~tomw/java/unicode.html
66デフォルトの名無しさん:2007/05/01(火) 21:54:29
ブラウザの実装も大変みたいだね
http://openmya.hacker.jp/hasegawa/public/20061209/momiji.html
67デフォルトの名無しさん:2007/05/01(火) 21:58:43
>>39
UTFって、2種類あるんだ。Windowsのはどっちなんだろ?
というかそもそも、UCS-?とUTF-?の違いが良く分からんが。
68デフォルトの名無しさん:2007/05/01(火) 21:59:22
Basic LatinがASCIIの範囲。
CJKなんたらと付くところが漢字関連。
あとHiragana、Katakanaは当然だな。
Halfwidth and Fullwidth Formsが半角カタカナや全角アルファベット。

漏れがあるかも知れないがだいたいこんなとこだろう。

将来的にはHigh/Low Surrogatesに入る文字もあるのかな。(もう入ってる?)
69デフォルトの名無しさん:2007/05/01(火) 22:13:17
UCS-2⊂UCS-4⊂世界の文字
UTF-8∈( UCS-2→バイト列(1〜4?バイト) )
UTF-16∈( (UCS-2→バイト列(2バイト) ∩ (UCS-4-UCS-2→バイト列(4バイト)) )

こうかな…?
70デフォルトの名無しさん:2007/05/01(火) 22:22:38
UCSは集合でUTFは関数
集合の元に関数を適用するとゼロイチが出てくる
71デフォルトの名無しさん:2007/05/01(火) 22:30:20
>>65
国を意識しないで使えるのがUnicodeのメリットで
全ての国で全てのコードポイントが使える

そもそも日本語だけを使いたいのであれば
Unicodeを使う意味がない
理想論だけど
72デフォルトの名無しさん:2007/05/01(火) 22:30:37
で、実践的に、ネットからダウンロードしたのをUTF-8で保存するとして
ネットのドキュメントのいろいろな文字コードを知るにはどうするんだ?
73デフォルトの名無しさん:2007/05/01(火) 22:36:53
(1)ソース表示→charset=???の部分で判断
(2)いろんなエンコードで開いてみて読めたのが正解
74デフォルトの名無しさん:2007/05/01(火) 22:37:06
>>71
>Unicodeを使う意味がない

2バイトコードの問題から開放されるだけでもすごく意味があるぞ。
75デフォルトの名無しさん:2007/05/01(火) 22:44:55
>>67
Unicodeコンソーシアムが作った文字集合がUnicode。
ISO 10646で定義された文字集合がUCS。
両者は、互換になるように働きかけあっているので、今のところ同じ文字集合と見なして問題ない。

一時期はUnicodeを符号化するのがUTF-?、UCSを符号化するのがUCS-?だったと俺は思うが、
今はISO 10646にUTF-8/16も収録されているらしい。
UTF-8/16の正式名称はUnicodeとUTFで違うが、実際の符号化の方法は同じで、
基の文字集合も上に書いたとおり同じだからどちらのUTF-8/16も実用上基本的に違いはない。
76デフォルトの名無しさん:2007/05/01(火) 22:48:04
UCS-4は、32ビット固定長の内31ビット使用し、UCSの全ての文字を符号化できる。
UCS-2は、16ビット固定長(16ビット使用)で、UCSのうち、BMP(基本多言語面)だけしか符号化できない。
UTF-32は、32ビット固定長の内21ビット使用し、Unicodeの全ての文字を符号化できる。
UTF-16は、16ビット/32ビット(サロゲートペア)の可変長で、Unicodeの全ての文字を符号化できる。
UnicodeのUTF-8は、8ビット単位、1-4オクテットの可変長で、Unicodeの全ての文字を符号化できる。
UCSのUTF-8は、8ビット単位、1-6オクテットの可変長で、UCSの全ての文字を符号化できる。

Unicodeは、UTF-16で全ての文字を符号化できることを念頭においているが、
UCSは、UCS-4で全ての文字を符号化できることを念頭においている。
77デフォルトの名無しさん:2007/05/01(火) 22:48:19
>>74
Unicodeでも多バイト問題は付いて回るし
EUC-JPとかISO-2022-JPでいいんじゃね?
78デフォルトの名無しさん:2007/05/01(火) 22:52:58
>>69
これくらいすっきりさせろ
UCS-4 = UCSのUTF-8
UTF-32 = UTF-16 = UnicodeのUTF-8
UCS-2 ⊆ UTF-32 ⊆ UCS-4
(そもそもUnicode ⊆ UCS)
79デフォルトの名無しさん:2007/05/01(火) 22:54:52
ISO-2022-JPはステートフルなので扱うのが大変。
UTF-8はEUC-JPより多くの文字が扱える。
Shift_JISはYENとかで困るから除外。
XMLのデフォルトエンコーディングはUTF-8。
80デフォルトの名無しさん:2007/05/01(火) 23:05:23
JISX0213(ニアリイコールVistaの文字セット)でサロゲートペアって
ハマりそうだよな。

string s="○";
assert( s.length==1 );

これが成り立たない場合があるっていうのも詐欺みたいな。
81デフォルトの名無しさん:2007/05/01(火) 23:08:04
1区当たり94点しか使わないASCII絶対主義が狂ってると思う
コードポイントの5/7が使われないのはもったいなすぎ
82デフォルトの名無しさん:2007/05/01(火) 23:17:25
>>76
なるほど・・・だいぶ間違ってたなぁ。こうなるのかな?
BMP(16bit)⊂Unicode(21bit)⊂UCS(31bit)⊂世界の文字
UCS-4∈( UCS→(32bit) )
UCS-2∈( BMP→(16bit) )
(UCS)UTF-8∈( UCS→(8〜48bit) )
(Unicode)UTF-8∈( Unicode→(8〜32bit) )
UTF-16∈( BMP→(16bit) ∩ Unicode-BMP→(32bit) )
UTF-32∈( Unicode→(32bit) )

>>78
俺はずっと文字集合とエンコーディングがごっちゃになってたから
あんまり省略すると不安だったもんで
83デフォルトの名無しさん:2007/05/01(火) 23:18:50
>>80
「が」とかなら判るけど、○も文字的に2文字になるケースってあるの?
サロゲートペアだから2だとかでは、バイト長だから4という思想から
変わってないような。文字としてなら1以外ありえないと思うので、
そのassertが不成立ならstringクラスのバグ(か、lengthのバグ仕様)なんでは?
84デフォルトの名無しさん:2007/05/01(火) 23:24:41
任意の文字って意味じゃね>"○"
85デフォルトの名無しさん:2007/05/02(水) 00:10:36
あ゛、なるほど。でも任意の文字っていっても実装依存で
なるわけじゃなくて、そうなってもおかしくない文字(合字とか)で
なるだけじゃないの?言語的な文字数ではなくて内部的に確保した
記憶スロットの数を返すようなlengthはいくらなんでもバグだろう。
86デフォルトの名無しさん:2007/05/02(水) 00:33:38
>>83
いや、サロゲートペアだから2になるんだわ。
とりあえず.NETはそうなる。

http://msdn2.microsoft.com/ja-jp/library/system.string.length(VS.80).aspx
> Length プロパティは、このインスタンス内の Char オブジェクトの数を返します。Unicode 文字の数ではありません。

Javaもそうなるみたいだけど。

Java
http://java.sun.com/j2se/1.5.0/ja/docs/ja/api/java/lang/String.html#length()
> この文字列の長さを返します。長さは文字列内の 16 ビット Unicode 文字の数に等しくなります。

JavaScriptも多分?
87デフォルトの名無しさん:2007/05/02(水) 01:48:47
>>86
げーっ、そうなんだ。
「16ビットUnicode文字」の数なんて何の意味もないのにな。
「言語的な文字」の数かどうかだけが問題で、それ以外は
バイト数を返すのと同じこと(=同じ問題を抱える)なのに。
88デフォルトの名無しさん:2007/05/02(水) 02:08:02
しかし、実際サロゲートペアの
文字なんかほとんど使われないわけで。

それなのにそれを考慮して処理速度を大幅に落とす方が俺は困る。
89デフォルトの名無しさん:2007/05/02(水) 02:09:58
Javaは仕様としてサロゲートペアを
そもそもサポートしないと決められてるはず。
90デフォルトの名無しさん:2007/05/02(水) 03:25:03
>>89
最近のJavaはちょっとサポートしている。
String.codePointCount() とか、Character.codePoint*() とか。

91デフォルトの名無しさん:2007/05/02(水) 05:56:27
>>87
プログラム組む人は、バイト数が欲しい
(書面の)文を書く人は、文字数が欲しい


strcatとかの標準関数が全滅するUTF-16なんて誰が考えたんだろな?
しかも、MSは標準にするし…
92デフォルトの名無しさん:2007/05/02(水) 09:06:46
意味的にはもちろん文字数を返すのが理想なんだけど・・・
そもそもJavaなんて、stringクラス作った時はサロゲートペアなんて無い時代じゃないの
93デフォルトの名無しさん:2007/05/02(水) 09:23:29
>>68
有り難う御座います、結構飛びますね
>>71
ゲームで使うライブラリが使うコードポイントを指定して
テクスチャに書くので決める必要があるからです
海外のフォントが使えなきゃ線画ができませんし
94デフォルトの名無しさん:2007/05/02(水) 10:05:19
>>91
バイト数を気にしてた頃はJIS X 0201カナも普通に使われてたから
SJISなんつー中途半端なモンが重宝されてたんだよな
95デフォルトの名無しさん:2007/05/02(水) 10:35:00
>>87
.NETの場合、文字数はSystem.Globalization.StringInfo.LengthInTextElementで得られる。
ほかにもStringInfoには、サロゲートペアを考慮して文字単位で操作するメソッドがいくつかある。

>>91
C89の時点で既にwchar_tはあった。
wcscpyなどの関数が入ったのはC95だった気がするが。

そのwchar_tは、今のWindowsだとUTF-16だが、
そもそもwchar_tことC/C++のワイド文字は固定長で処理することを志向していたはずで、
本来のwchar_tの意義からすればUTF-16は良くない罠。

もしもUnicodeが初めから32ビットになっていれば、と思う。
96デフォルトの名無しさん:2007/05/02(水) 10:37:02
やべえええ
話についていけない
というか、文字コードの変換は出来るけど 実際の詳しい部分知らない俺はヘタレ・・・
97デフォルトの名無しさん:2007/05/02(水) 10:44:11
16bitで足りないのはすぐに判ったろうけど、似た文字はまとめちゃえば入るだろと思ったんだろな
でも、それじゃ納得しない人が出てくるのは当然。

24bitあれば足りたろうから24bitで定義しておけば最善だったかもな

それにしても \ の扱いが醜い
98デフォルトの名無しさん:2007/05/02(水) 10:54:06
7bitで足りてた人間が考え始めたコトだからw

JIS X 0201のGRはISO646ではあるけどASCIIではないからね
バイナリ的に区別付かないからフォント変えれば同じだけど

ASCIIにスラッシュとバックスラッシュが採用されたのは
当時のプログラム言語で使われてた論理記号の∧と∨を表すためらしい
99デフォルトの名無しさん:2007/05/02(水) 11:11:56
歴史的な経緯はこのページが参考になる
ttp://www.horagai.com/www/moji/code4.htm
100デフォルトの名無しさん:2007/05/02(水) 11:18:53
んじゃ、文字数とかバイト数とかのお話の説明なぞ

UTF-16っていうので16bitで全部の文字を表そうと思ってたのね
でも実際に作り始めたら16bitじゃ全然足りなかったから
その分は16bitをふたつ使って32bitで表しますよっていうコトにしたの
それがサロゲートペアって呼ばれてるモノね(ふたつ組だからペア)

そんなわけで、UTF-16は基本的に16bitで一文字なんだけど
例外的にサロゲートペアだけ32bitで一文字っていう
ヘンテコリンな規格になっちゃったわけ

サロゲートペアの処理がちゃんとされてないプログラムだと
16bitなら一文字、32bitなら二文字っていう風に
機械的に文字数を判断しちゃって困るねっていうこと
101デフォルトの名無しさん:2007/05/02(水) 11:27:33
言ってみればサロゲートペア非対応のプログラムでサロゲートペアを含む文字列を扱おうということは、
マルチバイト文字列非対応のプログラムでマルチバイト文字列を扱おうとするのと同じこと。
まあShift_JISのような駄目文字問題が生まれないのはましだけど。
102デフォルトの名無しさん:2007/05/02(水) 11:28:30
足りない領域に文字を突っ込むという点では
JIS X 0201のカタカナ集合に通じるモノがあるかも
(いわゆる半角カナのコトね)

自然な感覚だと濁点・半濁点が付いてるのも一文字だし
付いてなくても同様に一文字だと思うんだけど、
文字入れる場所がないから濁点・半濁点付き文字は
例外的に8bitふたつで表現してねっていう

「こんにちは」と「こんばんは」
一般的な感覚としては両方とも五文字だけど
8bitカタカナの世界では
「コンニチハ」は五文字で「コンバンハ」は六文字になる
103デフォルトの名無しさん:2007/05/02(水) 11:29:18
UTF-16で
1文字16bitだとして1文字32bitのものもあるってことは判った
流石に混在はしないの?

104デフォルトの名無しさん:2007/05/02(水) 11:41:16
>>103
D800-DB7FとDB80-DBFFが上位サロゲート、DC00-DFFFが下位サロゲートの領域になっていて、
任意のUTF-16 1バイト(= 2オクテット)を取り出しても、
それがサロゲートでないか、上位サロゲートか、下位サロゲートかは区別が付く。

駄目文字の問題が起こらないという点において、ASCIIとの対比で言えばShift_JISよりもEUC-JPっぽいという感じ。
EUCは、あるコードがマルチバイトのどこになるかの区別が付かなかった気がするが。
105デフォルトの名無しさん:2007/05/02(水) 11:44:46
>>104
解説サンクス
なるほど なんかUTF-16が判ってきた
でもぶっちゃけ存在は知ってるけど使ったことがない俺がいる
106デフォルトの名無しさん:2007/05/02(水) 11:50:43
文字コードなんて本来はユーザが意識するようなものじゃないからなぁ
ユーザが意識して扱わないと問題が起きる設計なんてのは
IT業界じゃなきゃ欠陥商品としてリコール対象だろw
107デフォルトの名無しさん:2007/05/02(水) 12:30:22
つまりUTF-16だとサロゲートペアで表す対象になる文字の中で、
俺が有名そうだと思うのは、吉野家の「土吉」(上部が土になっている)U+20BB7 𠮷。
メイリオなんかだとグリフを持っているので表示できる。
108デフォルトの名無しさん:2007/05/02(水) 12:44:27
DOMStringの長さはUTF-16での符号単位数ってことになってるんだよな。
これ決めた奴、死ぬべきだと思うわ。
109デフォルトの名無しさん:2007/05/02(水) 16:42:11
>>108
W3CでDOMを規格化するときには、もうJavaScriptもJavaも16bit単位ベー
スの文字列処理になってしまっていたので、仕方なくそれらに合わせた
んだと記憶してます。

110デフォルトの名無しさん:2007/05/02(水) 20:02:03
7bit文字の場合
0xxx xxxx
8-11bit
110x xxxx 10xx xxxx
11-16bit
1110 xxxx 10xx xxxx 10xx xxxx

unicodeの部分がxxxx
111デフォルトの名無しさん:2007/05/02(水) 21:38:28
1バイトだけ見た場合、

0xxx xxxxならそのバイトだけで1文字
1xxx xxxxなら
-- 10xx xxxxなら多バイト文字の2バイト目以降(先頭は遡って11xxなバイト)
-- 11xx xxxxなら多バイト文字の先頭バイト
---- 110x xxxxなら2バイト文字の先頭バイト
---- 111x xxxxなら3バイト文字の先頭バイト

と判別できるわけだな。
112デフォルトの名無しさん:2007/05/02(水) 21:57:31
>>110-111はUTF-8の場合な
113デフォルトの名無しさん:2007/05/03(木) 06:06:02
>>112
なにが言いたいのかわからんが、
UTF-8はstr系の標準関数が、ほぼそのまま使えるから大好きだぞ。
ASCIIの前半文字との比較だって、何の躊躇もいらない。
str系に限らず、UTF-8のシステムならfopen等までそのままってのはでかい。
w系使えばいいってのは何かの冗談にしか聞こえない。
ま、UTF-16は、何も考えず0x00を織り込んだのが、糞仕様ってことだ。
114デフォルトの名無しさん:2007/05/03(木) 06:28:52
>>100
根本的に認識が間違ってる。
Unicodeの文字表現は元々複数のcode pointを組合わせた可変長
UTF-16でサロゲートが無くても2 byte毎に分割してはだめだし、1文字の長さは2
byte以上の可変長としか言えない。
文字単位に処理したかったらcode pointではなく、grapheme clusterが処理単位
code pointは文字の構成要素であって文字ではない。
115デフォルトの名無しさん:2007/05/03(木) 10:21:11
そこでISO/IEC 10646の実装水準1ですよ(もうすぐ廃止されるけど)
116デフォルトの名無しさん:2007/05/03(木) 11:31:18
>>113
世の主流言語がPascalとかBasicだったら今頃はUTF-16マンセーの時代だったのかもな。
117デフォルトの名無しさん:2007/05/03(木) 11:43:25
なんでPascalやBasicだったらUTF 16マンセーなの?

というか、現代は既にUTF16マンセーだろ?
118デフォルトの名無しさん:2007/05/03(木) 11:48:34
どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの?
16bitに無理にしたかった弊害がどこまでも付いて回る
今なら24bitなり32bitなりのコードで何の問題もなかった。
ほんの5年待てばよかったのにね。
119デフォルトの名無しさん:2007/05/03(木) 12:16:54
何言ってるんだろね。こいつは。

>どうだろうね。 Unicodeだとその言語がどの言葉か判らんから翻訳ソフトなんて困ってしまうんじゃないの?
文字コードから言語を選択する翻訳ソフトってアホだろ。
自動判定するとしても、使われている文字の種別で判定するだろ。

>16bitに無理にしたかった弊害がどこまでも付いて回る
一文目と文章が繋がってなく唐突で、
何が言いたいのか、根拠は何か、さっぱりわからん。

>今なら24bitなり32bitなりのコードで何の問題もなかった。
24bitは別の問題があるし。

>ほんの5年待てばよかったのにね。
「何を」「どの時点から」5年待てばよかったのかさっぱりわからんな。
120デフォルトの名無しさん:2007/05/03(木) 12:20:56
>使われている文字の種別で判定するだろ

ってどうやるの?
121デフォルトの名無しさん:2007/05/03(木) 12:25:07
>>119
>>99 の話じゃない?

バベル倒壊
・・・
 もう一つ、問題なのは、言語指定の仕組を文字コードレベルから排除してしまったことです。
ISO 2022や DIS 10646 1.0では、コードを見るだけで、それがどこの国の文字かを識別することができます。
それはアルファベットの「a」が、英語領域、フランス語領域、ドイツ語領域等々に重複して登録してあるから
なのですが、そんなことをしていたら16bit単一平面に全世界の文字を詰めこむことはできません。
言語指定などは必要なく、それよりも16bit単一平面におさめる方がメリットがある、というのが当時の
Unicodeの考え方だったのです。
122デフォルトの名無しさん:2007/05/03(木) 12:50:46
Unicodeって多言語を扱う一部の人のためのものではないの?
自国語だけで足りてる人にも使わせようとしてるのはなぜ?
123デフォルトの名無しさん:2007/05/03(木) 12:55:36
>>120
asciiしか使われて無いなら英語とか。
文字コード判別より簡単だろ。

>>122
アプリの多言語化は一部の人だけの問題じゃないだろ。
124デフォルトの名無しさん:2007/05/03(木) 13:11:52
>>123
ウニコードの話してるんだろ? なんでasciiの話が出るんだ?
EUC-JP なら日本語と判るのに
ウニコードだと基本ラテンが続いてるだけじゃどこの言葉か判らんだろ?
125デフォルトの名無しさん:2007/05/03(木) 13:15:17
> アプリの多言語化は一部の人だけの問題じゃないだろ。

そう。一部の人だけの問題じゃないのに、一部、
特にM$とシリコンバレーが利益率を上げる為に必要と突っ走ったのが
126デフォルトの名無しさん:2007/05/03(木) 13:16:42
何語かを考えないで全て等しく文字として扱うための仕組みがUnicodeだろ
どこの国の文字かはコードポイントで判断すればいいだけ
127デフォルトの名無しさん:2007/05/03(木) 13:35:36
そのコードポイントでどう判断するんだ?
128デフォルトの名無しさん:2007/05/03(木) 13:40:50
JIS X 0208でもAとΑとАはコードポイントで何文字か区別つくっしょ
129デフォルトの名無しさん:2007/05/03(木) 13:42:09
>>124
>ウニコードの話してるんだろ? なんでasciiの話が出るんだ?
Unicodeの話だろ?
ascii範囲だけが多く使われていたらだよ。わかれよ。
Πが使われていたらロシアとかだよ。わかれよ。
130デフォルトの名無しさん:2007/05/03(木) 13:48:30
ascii ってのは 基本ラテン文字の事だろ?
http://code.cside.com/3rdpage/jp/utf-8/Bacic_Latin.html

だったら、どうしてコレだけで英語だとわかるんだ?
131デフォルトの名無しさん:2007/05/03(木) 14:02:01
完全に分かる分けないだろ。
後は単語で判別だわな。
132デフォルトの名無しさん:2007/05/03(木) 14:02:25
>>117
Pascal string と C string。
133デフォルトの名無しさん:2007/05/03(木) 14:09:18
>>132
Pascal stringって、文字列の先頭に文字の長さが格納されてるってもんじゃないの?

なんでPascal stringだとUTF-16マンセーになるか、全然説明になってないよ。
134デフォルトの名無しさん:2007/05/03(木) 14:09:49
標準関数自体が今となっては問題の種な訳だが。

strsafe.h で追加された文字列操作関数について
http://ir9.jp/prog/ayu/strsafe.htm
135デフォルトの名無しさん:2007/05/03(木) 14:13:23
kono bunshou ha nihon-go desu.
136デフォルトの名無しさん:2007/05/03(木) 14:53:41
>>124
EUC-JPの半角英数だから日本語と決めつける方がどうかしてる
コメントに日本語が使われてるC言語のソースの単語は全部日本語か?
そもそもISO-8859-1の時点ですでに欧州の文字統一しまくりなわけだが?
137デフォルトの名無しさん:2007/05/03(木) 15:11:27
>>134
バッファオーバーフローは、古い関数だからおこるの? 違うだろ。

なんであの会社は作り直しを奨励するようなことをやりたがるの?
仕事を増やすためじゃないの?
138デフォルトの名無しさん:2007/05/03(木) 15:24:04
このスレと文字コード総合スレの違いは?
139デフォルトの名無しさん:2007/05/03(木) 15:29:19
>>137
古い関数だと間違いやすく、新しい関数だと間違えづらいだろ?あってるだろ。

>なんであの会社は作り直しを奨励するようなことをやりたがるの?
古いC関数は使わないってのはもう常識なのに…
お前何十年と情報から隔絶されてたんだ…

>仕事を増やすためじゃないの?
逆逆。古い関数使うお前のようなバカの尻拭い仕事を減らすため。
140デフォルトの名無しさん:2007/05/03(木) 15:37:53
>>139
>古い関数だと間違いやすく、新しい関数だと間違えづらいだろ?あってるだろ。
何の話をしてるのかね? 関数名を間違えるのかね?
「間違いが起こりやすく」だろ? 日本語でおk。

>古いC関数は使わないってのはもう常識なのに…
常識なんつーのは、所詮、てめーの知識でしかねーんだよ。
軽々しく常識なんて単語使うな。
お前は、動いているプログラムを変更するが大好きなのか?
それこそ、お前のようなバカの尻拭い仕事をさせられるぜ。
141デフォルトの名無しさん:2007/05/03(木) 16:04:49
>>133
nullターミネートじゃないからUTF-16で間に0x00が入っててもそのまんま
扱えるってことじゃないの?
142デフォルトの名無しさん:2007/05/03(木) 17:09:13
>>140
バカかお前。動いているプログラムを変更しろなんてダレが言った?


これから間違えにくい関数を用意したら、
>なんであの会社は作り直しを奨励するようなことをやりたがるの?
>仕事を増やすためじゃないの?
こんなバカなこと言うアホは死んでね^^


>何の話をしてるのかね? 関数名を間違えるのかね?
はぁ?お前の脳内では「関数名を間違える」としか補完できないの?
「使い方を間違える」とかあるだろ。ホントバカだねお前w


「「使い方を間違える」はおかしい」とか言い出したらバカ確定なw
バッファをオーバーするような「使い方は」「おかしい」から。
143デフォルトの名無しさん:2007/05/03(木) 17:24:43
すいません、もうちょっと高度な話題でケンカしてもらえますか
144デフォルトの名無しさん:2007/05/03(木) 17:33:42
ハンドアセンブル最強
145デフォルトの名無しさん:2007/05/03(木) 18:04:08
理由を言わないといけないわけだが・・・?最強だけ言われても納得するのはどんだけ・・・・
146デフォルトの名無しさん:2007/05/03(木) 18:12:03
諦めろ。 叫んだ方の勝ちだ 
147デフォルトの名無しさん:2007/05/03(木) 19:43:27
>>142
>バカかお前。動いているプログラムを変更しろなんてダレが言った?
…作り直しを推奨する…。作り直し。新規の物に作り直しとは言わない。

>これから間違えにくい関数を用意したら、
用意しても全く構わないが、
#define等で旧式と同じようにも使えるようにするもんだろ。
それをしないから文句言ってんだ。

>「使い方を間違える」とかあるだろ。
予想も出来なかったわ。ま「使い方を間違える」なんて考える馬鹿が、あのs付きを有り難がるわけだ。
しかも、デフォルト設定。
M$も、オーバーフローも考慮できない馬鹿は、放置すりゃいいのに。
148デフォルトの名無しさん:2007/05/03(木) 20:10:56
放置して叩かれるのはWindowsですから。
149デフォルトの名無しさん:2007/05/03(木) 23:21:06
>>147
http://msdn2.microsoft.com/ja-jp/library/ms175759(VS.80).aspx
Visual C++ 2005の場合では、常に使える訳ではないが、
従来の関数がそのままセキュリティ強化版の関数呼出になるようにできる
_CRT_SECURE_CPP_OVERLOAD_STANDARD_NAMESというマクロがある。

もっとも、C++限定なので、>>134のページと同じく、
そもそもC++ならクラスでカプセル化しろよということになるのだが。
150デフォルトの名無しさん:2007/05/04(金) 00:11:02
>>124
>EUC-JP なら日本語と判るのに
確かにEUC-JPなら日本語だけど、その前に
あるバイナリ列がEUC-JPであるとどうやって判断するんだ?
ISO-8859やEUCであることはわかっても
どこの国のかは単純には判断できないだろ
151デフォルトの名無しさん:2007/05/04(金) 10:34:29
>>129は世界には言語が5つくらいしかないとでも思ってんのか?
例えば、英語とインドネシア語はどうやって判別するんだ?w 統計的手法とか言うなよ。お前の発言と矛盾するからな。
ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの?
152デフォルトの名無しさん:2007/05/04(金) 11:00:39
っ地球上の3人に1人はちうごく人
153デフォルトの名無しさん:2007/05/04(金) 11:34:10
インドも恐ろしい。下手すると、世界の現行文字の3分の1くらいはインド1国で占めかねない。
154デフォルトの名無しさん:2007/05/04(金) 12:52:20
お前ら言語タグ使えよ。
155デフォルトの名無しさん:2007/05/04(金) 13:33:44
> ウィキペディアにあるような、英文の中に日本語の単語が引用されてるテキストの扱いはどうなるの?
それはEUC-JPでも全く同じように問題なわけで
文字コードで言語判別しようとするのがそもそもの間違い
156デフォルトの名無しさん:2007/05/04(金) 13:58:05
「日本語をアルファベットで表記する」なんていうこともあるし、
言語とスクリプト(日本語では「用字」だっけ?)も分けて考えないといかん。
157デフォルトの名無しさん:2007/05/04(金) 14:02:25
yorosikuと夜露死苦と紐育と上海はそれぞれ何人の何語の何文字なのかというやつだな。
158デフォルトの名無しさん:2007/05/04(金) 17:33:09
This site is Japanese only.
と英語で書いてある日本語サイトとはこれいかに
159デフォルトの名無しさん:2007/05/04(金) 17:58:11
Sorry Japanese onlyとか
160デフォルトの名無しさん:2007/05/04(金) 18:11:29
哀れな日本人のみ利用可能
161デフォルトの名無しさん:2007/05/04(金) 18:19:31
しかも全角
162デフォルトの名無しさん:2007/05/04(金) 20:10:22
たまには縦倍角・横倍角・4倍角も思い出してあげて
163デフォルトの名無しさん:2007/05/04(金) 21:08:28
フォントの拡大縮小が自由にできなかった時代の遺物ですね
テラナツカシス
164デフォルトの名無しさん:2007/05/04(金) 21:11:07
半角全角もあぼーんしてくれ
165デフォルトの名無しさん:2007/05/04(金) 21:16:01
半角カナは組み込みでまだ使ってます
Unicode?なにそれ?

炊飯器で使われるようになったらUnicode勝利宣言してもいいかな
166デフォルトの名無しさん:2007/05/04(金) 22:05:58
そこに全角文字、マルチバイト文字はあるのか?
167デフォルトの名無しさん:2007/05/04(金) 23:38:55
笑園漫畫大王
168デフォルトの名無しさん:2007/05/05(土) 00:05:38
This Home Page is Link Free !
169デフォルトの名無しさん:2007/05/05(土) 09:05:28
This Home Page is Link GPL!
170デフォルトの名無しさん:2007/05/05(土) 11:53:34
This Home Page is Open Source.
171デフォルトの名無しさん:2007/05/13(日) 17:05:06
「私のために争わないで」文字コードのUTF8さん、自殺 : bogusnews
http://bogusne.ws/article/41580267.html

クソワロタ
172デフォルトの名無しさん:2007/05/13(日) 17:18:03
ネタにマジレスするのもアレだがUTF8とCP932の年齢がおかしくないか?
173デフォルトの名無しさん:2007/05/17(木) 13:33:45
アスキーとアンジーの違いは?
174デフォルトの名無しさん:2007/05/17(木) 13:49:36
>>173
JIS と JIS X 0201 の違いを聞いてるようなもんかな
175デフォルトの名無しさん:2007/05/17(木) 14:16:28
176デフォルトの名無しさん:2007/05/17(木) 14:29:07
UTF-8

UTF8

どっちが正しい?
177デフォルトの名無しさん:2007/05/17(木) 16:40:25
前者
178デフォルトの名無しさん:2007/05/17(木) 19:01:44
どっちも正しい
179デフォルトの名無しさん:2007/05/17(木) 19:18:30
>>174
JISじゃなくてJSAだろ。
180デフォルトの名無しさん:2007/05/17(木) 19:42:29
>>176
MIME charset名としては前者
181デフォルトの名無しさん:2007/05/17(木) 19:49:39
ISO/IEC 10646の表記も、Unicode Bookの表記も前者。
182デフォルトの名無しさん:2007/05/19(土) 05:55:00
>>177-181
沢山回答頂きありがとうございます
MySQLを使っていてデフォルトを
Latin1からUTF8に変えたんですが
こいつはUTF-8じゃなくてUTF8と
書かないといけないみたいで
なんで2種類あるのかなぁと
183デフォルトの名無しさん:2007/05/19(土) 07:43:53
ハイフンはトークンの区切りになるからでしょ。
184デフォルトの名無しさん:2007/05/29(火) 20:09:42
シフトジスは shift-jis
だけど
ジスは iso-2022-jp

こういったので迷うのは俺だけ?
185デフォルトの名無しさん:2007/05/29(火) 20:29:25
>>184
kwsk
186デフォルトの名無しさん:2007/05/29(火) 20:47:39
http://e-words.jp/w/Shift20JISE382B3E383BCE38389.html
http://e-words.jp/w/ISO-2022-JP.html

.NETのエンコードの話なんだけど、ジスコードの規格っていろいろあって、
iso-2022-jp 日本語 (JIS)
csISO2022JP 日本語 (JIS 1 バイト カタカナ可)
iso-2022-jp 日本語 (JIS 1 バイト カタカナ可 - SO/SI)
迷うよな
187デフォルトの名無しさん:2007/05/30(水) 00:17:09
いわゆるシフトJISだってShift_JIS, Shift_JIS-2004, CP932 (Windows-31J)と種類豊富
大体CP932以外使わないけどな
188デフォルトの名無しさん:2007/05/30(水) 00:20:07
WEBとかエンコードの柵が強いからいやだなぁ・・・
もう慣れたけど、うっかりで文字が化けたりする敏感なの何とかしてほしいな
189デフォルトの名無しさん:2007/05/30(水) 00:33:06
Unicode以外使ったら罰金。
190デフォルトの名無しさん:2007/05/30(水) 00:38:27
>>189
じゃぁ、まずシフトJISで書き込みを行った >>189 が率先して
UNICODEコンソーシアムに罰金を払ってください。
191デフォルトの名無しさん:2007/05/30(水) 02:45:57
俺専用コード

ロリコードとかだめっすか?
192デフォルトの名無しさん:2007/05/30(水) 03:11:59
>>191
ぷにコード(実在する)でも使ってなさい
193デフォルトの名無しさん:2007/05/30(水) 07:31:56
その括弧がきは馬鹿っぽく見える
194デフォルトの名無しさん:2007/05/30(水) 07:40:08
そういう演出は必要さ。 首相の「ザンキにたえない」発言と同じ。
195デフォルトの名無しさん:2007/05/30(水) 08:41:11
「ザンキにたえない」ってどういう意味なん?
196デフォルトの名無しさん:2007/05/30(水) 08:46:01
http://www.asahi.com/politics/update/0528/TKY200705280458.html
>首相周辺は「こういう結果に至ったことへの自らの責任を、この言葉に込めた」と解説する。
197デフォルトの名無しさん:2007/05/30(水) 10:29:13
スクリューパイルドライバーの吸い込みを防げないことだろう
198デフォルトの名無しさん:2007/05/30(水) 13:14:37
文字コードが乱用されているのはプログラマーとしてはやりづらい。
いっそのことすべてUnicodeにしてくれれば手間が省けるのにorz
199デフォルトの名無しさん:2007/05/30(水) 14:45:29
Unicode自体が何種類もある事態
200デフォルトの名無しさん:2007/05/30(水) 15:55:44
すべてUnicodeにしようってのは
そばの出前も会社の通勤も全てトラックを使おう
ってのと同じくらいナンセンス
201デフォルトの名無しさん:2007/05/30(水) 16:18:43
そのUnicodeだって、結合文字列・合成済み文字とか、文字列の向きとか
UTF-16のサロゲートペアとか、考え込むネタは尽きないわけで
202デフォルトの名無しさん:2007/05/30(水) 18:09:49
字体の扱いもおかしい
利用は辞退させて頂く
203デフォルトの名無しさん:2007/05/30(水) 18:34:53
審議中(AA略
204デフォルトの名無しさん:2007/05/31(木) 07:56:46
16bitじゃ絶対無理って最初からわかってたのに、
16bitに無理やり収めようなんて考えて自爆した欧米人は馬鹿すぎ
205デフォルトの名無しさん:2007/05/31(木) 09:59:32
8bitで十分だったから16bitにするだけでもビビってたのさ
206デフォルトの名無しさん:2007/05/31(木) 11:37:56
かれこれ20年になるのか
207デフォルトの名無しさん:2007/05/31(木) 13:38:31
アメリカに限れば、7bitででも足りてたんだよね?
208デフォルトの名無しさん:2007/05/31(木) 14:06:20
5bitでも足りるわな
ttp://www.trans-usa.com/mike/BaudCode.htm
209デフォルトの名無しさん:2007/05/31(木) 14:58:18
PCのインターフェースもパラレルからシリアルになってきたし、
文字コードも可変長なシリアルに変更しようぜ
210デフォルトの名無しさん:2007/05/31(木) 16:59:59
それとこれとは訳が違う。
しかも例えが逆だろう。
211デフォルトの名無しさん:2007/05/31(木) 17:23:43
>>209
つUTF-8
212デフォルトの名無しさん:2007/05/31(木) 20:31:39
>>201
Unicode「と」他のあらゆるコードを全部相手にするよりはマシ
213デフォルトの名無しさん:2007/06/01(金) 00:11:51
>>192
残念ながらPunycodeはピュニコードと音訳するのが近い。
214デフォルトの名無しさん:2007/06/01(金) 05:31:51
うにこーど
ゆにこーど

どっちが正しいですか?
215デフォルトの名無しさん:2007/06/01(金) 06:57:40
うにっくすとおなじくうにこーどがただしいですよ。
216デフォルトの名無しさん:2007/06/01(金) 09:39:31
ttp://www.uny.co.jp/
ここも「ウニー」だしな
217デフォルトの名無しさん:2007/06/01(金) 09:40:30
日本ウニシス
218デフォルトの名無しさん:2007/06/02(土) 08:50:03
ウではじまるとウインドーズみたいで嫌だな
219デフォルトの名無しさん:2007/06/02(土) 08:54:13
シャーペンの替え芯売ってるあのメーカってウニと読むのか
220デフォルトの名無しさん:2007/06/02(土) 10:19:14
いいえ、三菱鉛筆です。
221デフォルトの名無しさん:2007/06/02(土) 12:07:44
ウマ・サーマン?
ユマ・サーマン?
222デフォルトの名無しさん:2007/06/02(土) 12:11:32
ウマ・サーマン!
223デフォルトの名無しさん:2007/06/02(土) 12:26:54
224デフォルトの名無しさん:2007/06/02(土) 14:37:17
ウナイテッド・ステイツ・オブ・アメリカ
225デフォルトの名無しさん:2007/06/02(土) 14:45:19
知り合いのヌーヨーカー(w)は「ヤイェヨ」は変わらないけど「ユ」は「ウ」になるって言ってた。
226デフォルトの名無しさん:2007/06/02(土) 20:24:27
Nuyork ?
227デフォルトの名無しさん:2007/06/02(土) 21:31:38
ewの発音は、元来「ユー」なんだけど、「ウー」に化けているのでnewが「ヌー」になる。
228デフォルトの名無しさん:2007/06/02(土) 21:39:16
4へぇ〜
229デフォルトの名無しさん:2007/06/02(土) 22:47:15
最初 knew を /nu:/ と発音されたときはさっぱり理解できんかったなあ。
230デフォルトの名無しさん:2007/06/08(金) 10:40:47
TRONコードに統一しようぜ
231デフォルトの名無しさん:2007/06/09(土) 02:54:12
TRONコードは(少なくとも現在の実装は)日本のことしか考えてません
232デフォルトの名無しさん:2007/06/09(土) 16:03:04
233デフォルトの名無しさん:2007/06/09(土) 22:50:28
TRONコードに収録されてる文字のグリフはTRON文字収録センターで公開されてるけど
同定のための情報は提供されてないな。それは超漢字という製品に付けて売ってるから
公開できないだろうし
234デフォルトの名無しさん:2007/06/11(月) 19:41:57
エスペラントでOK
235デフォルトの名無しさん:2007/06/12(火) 09:50:19
Mi estas tre ĝoja konatiĝi kun vi.
236デフォルトの名無しさん:2007/06/12(火) 23:33:50
>>235
これエスペラントなの?
最初スペイン語かと思った。
237デフォルトの名無しさん:2007/06/12(火) 23:37:08
Mi estasでI amなのは覚えてる。
この辺の語彙はラテン語系から採用してるんだよな。

238デフォルトの名無しさん:2007/06/12(火) 23:40:10
あ、やっぱりそうなんだ。
239デフォルトの名無しさん:2007/06/13(水) 00:05:44
だから印欧語族の連中には割と覚えやすいんだよ
日本語とか圧倒的に不利
ある意味Unicodeと一緒だな
240デフォルトの名無しさん:2007/06/13(水) 00:07:46
利用者が単語登録してもいいところとかね。
241デフォルトの名無しさん:2007/06/13(水) 06:27:32
ところでかんじんのUnicodeとUTF-8の違いがまだ
のべられてないよね
242デフォルトの名無しさん:2007/06/13(水) 09:58:11
それは1桁で終わったんじゃないのか
243デフォルトの名無しさん:2007/06/14(木) 17:39:54
インディアン嘘ツカナイ
244デフォルトの名無しさん:2007/10/05(金) 16:28:22
馬鹿を見ることになるぞ
245デフォルトの名無しさん:2007/10/06(土) 00:23:04
約四ヶ月ぶりのレスがそんなでは、目が点になっちゃうだろ。 もうすこしなんかかけ。
246デフォルトの名無しさん:2007/10/06(土) 04:33:30
けっきょくいまだにスレタイトルの疑問をだれもがなtっとくできるほどうまく解説した人があらわれない
247デフォルトの名無しさん:2007/10/06(土) 11:19:13
>>246
>8で充分だろ。Unicodeの符号化方式の一つがUTF-8。
248デフォルトの名無しさん:2007/10/08(月) 01:28:21
Unicode: 人々
UTF-8: 名前一覧
249デフォルトの名無しさん:2007/10/09(火) 18:44:37
>>247
いや、Unicodeは単なる文字集合(レパートリ)ではなく、
あくまでも符号化文字集合だろ。
250デフォルトの名無しさん:2007/10/09(火) 19:20:19
Coded Character Set: Unicode
Character Encoding Form: UTF-8, UTF-16, UTF-32
Character Encoding Scheme:
UTF-8, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE, UTF-32LE
251デフォルトの名無しさん:2007/11/12(月) 04:35:06
どうして
UNICODE って UNI - CODE なはずなのに
何種類もあるのはなぜ?
252デフォルトの名無しさん:2007/11/12(月) 10:19:13
>>251
どうして>251の日本語がおかしいのはなぜ?
253デフォルトの名無しさん:2007/11/13(火) 08:37:12
雲丹には糞という意味もあるんだぜ
254デフォルトの名無しさん:2007/11/13(火) 15:09:13
バージョン違いを除けば、文字集合は常に唯一。
符号化の方法が色々あるだけ。
255デフォルトの名無しさん:2007/11/13(火) 20:32:27
ハングル……いやなんでもない
256デフォルトの名無しさん:2007/11/13(火) 21:11:28
UCS-2 ?
257デフォルトの名無しさん:2007/11/16(金) 02:58:10
UNICODE

UNCODEI
258デフォルトの名無しさん:2007/12/17(月) 18:06:40
hjfjgfjgj




ktykytk




hjkghkkg




j,jhjhklkgh




urtutrtu



jjkfjfg




259デフォルトの名無しさん:2008/02/04(月) 14:32:42
unicodeとutf-8の違いは
50音と平仮名の違いと一緒だろ
260デフォルトの名無しさん:2008/02/04(月) 15:59:19
utf-16が片仮名?
261デフォルトの名無しさん:2008/02/04(月) 16:08:46
片仮名でもローマ字でもなんでもいいよ
一つ一つマッピングする意味は無いと思うが
262デフォルトの名無しさん:2008/02/05(火) 23:56:09
いや一緒とは思えないから
263デフォルトの名無しさん:2008/02/06(水) 08:04:57
50音は平仮名でも片仮名でもないだろ。
読み方を定義したのが50音で、それに割り当てるのが平仮名であったり
片仮名なんだから。
264デフォルトの名無しさん:2008/02/07(木) 01:43:44
世界中の文字を表わせる Unicodeってのを定義しました。

じゃあそれを2オクテットで表現しよう→UCS-2

でも他の文字コードと互換性ないしいちいち全部に2オクテット使うのは不便だから
よく使う文字を1オクテットに対応させて使わないのは2,3,4オクテットに分けて符号化しよう。
これでASCIIコードと互換性できたしよく使う文字は少ないオクテットで表現できる。→UTF-8

でもUnicodeって2オクテットじゃ表現しきれなくなってます。
じゃあ4オクテット(実際は31ビット)使おう。→UCS-4

4オクテットじゃ長すぎるからよく使う文字を以下略で分けて16ビット符号化しよう。
UCS-2の範囲はそのまま表わそう、不足しているUCS-4の部分はあんまり使わないし符号2つを組み合わせて32ビットで表わそう。
内部がややこしくなったけどUnicode全部表現できるからいいよね。→UTF-16

っていう感じの認識しかないな俺は。
265デフォルトの名無しさん:2008/02/07(木) 02:55:54
どっちかというとこんな感じ。

32ビット化してUCS-4/UTF-32作った。
けど、今までのUCS-2なシステムどうしよう?
じゃあマルチバイトっぽいことしよう→UTF-16
266デフォルトの名無しさん:2008/02/07(木) 05:12:00
16ビットで世界の文字を網羅出来るなんてマジで思っていたのかね
267デフォルトの名無しさん:2008/02/07(木) 12:30:06
10年も昔の環境じゃできるだけリソース消費を抑えたいってのはわかるし
3オクテットじゃ扱いにくいし4じゃ多すぎるしで話がまとまらなかったんだろうな。
268デフォルトの名無しさん:2008/02/07(木) 21:05:02
単純に中国で既にコード化されてる分で漢字の量はOKとか考えてたんじゃないか
269デフォルトの名無しさん:2008/02/07(木) 21:49:38
そもそもそのやり方じゃ足りねえと文句付けたのは中国
270デフォルトの名無しさん:2008/02/07(木) 23:28:49
増やす気まんまんだったわけだな
271デフォルトの名無しさん:2008/02/12(火) 06:48:24
UCS-2とUTF-16の違いがわからない
272デフォルトの名無しさん:2008/02/12(火) 08:14:34
サロゲートペアでの拡張があるのがUTF-16、それがなくて16ビットだけなのがUCS-2
273デフォルトの名無しさん:2008/02/12(火) 10:54:25
WindowsXPのメモ帳で保存しようとすると
アンジーがデフォルトになってるんだけどシフトジスってのがみあたらないんだが。でも日本語ドキュメントがうまく保存される。
つまり、
アンジー = シフトジス
だと思う。
274デフォルトの名無しさん:2008/02/12(火) 17:08:33
メモ帳の選択肢のANSIというのは、
現在使用中の言語のANSIコードページの文字コードということ。
日本語の場合、それはコードページ932、つまりMicrosoftのShift_JIS。

言語の設定を変えれば、当然ANSIで保存するときの文字コードも変化する。
275デフォルトの名無しさん:2008/02/12(火) 17:30:56
>>274 そういう意味だったのか !
276271:2008/02/12(火) 23:05:35
>>272
では、Windowsの内部コードというか、hogehogeW系のUNICODE APIは、
UCS-2かUTF-16なのでしょうか?
277デフォルトの名無しさん:2008/02/12(火) 23:10:22
Windows 2000以降はUTF-16
それ以前はUCS-2(つまりサロゲートに対応していなかった)
278271:2008/02/12(火) 23:49:03
サロゲートがいまいちわからん
2バイトで足りないから、上位、下位にわけたってことは、
UCS-2が2バイトとで、サロゲートのあるUTF-16は上下合わせて4バイトってこと?
279デフォルトの名無しさん:2008/02/12(火) 23:58:17
そうだよ
280デフォルトの名無しさん:2008/02/13(水) 00:04:43
>>278
単に未使用領域の2文字分を組み合わせて使ってUCS-2に無い分の文字を表わそうというだけの話だから
・UCS-2 → そもそもその文字が無い
・UTF-16→ その部分だけ4バイト。UCS-2にもある文字は2バイト
という事になる
281271:2008/02/13(水) 04:00:14
>>280
なるほど足りないところだけ4バイトか
つまり、可変長なのね。
2バイト固定かと思ってたよ>UTF-16
へえ
282デフォルトの名無しさん:2008/02/13(水) 10:43:50
へえへえへえ
283デフォルトの名無しさん:2008/02/13(水) 23:46:44
>>281
そう。だからUTF-16の2バイトの部分がUCS-2と同じっていうメリットがあるんよ。
4バイト部分はあんまり使わない部分だからサロゲートペアっつう2つ合わせる方式で表わしてる。
284デフォルトの名無しさん:2008/02/14(木) 03:42:37
UCS-2=文字コード、UTF-16=文字エンコーディング
じゃなかったっけ?

UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。
285デフォルトの名無しさん:2008/02/14(木) 08:16:40
UCSは文字集合。
UTFはエンコーディング。

文字コードというあいまいな語はこういう議論では避けるべき。
286デフォルトの名無しさん:2008/02/14(木) 08:20:31
>UTF-16はバイト並びにリトルとビッグがあるし、BOMが引っ付いたりするし。

Unicodeではエンコーディングをencoding formとencoding schemeの二段階に
分けていてそのへんややこしいことになってる。
287デフォルトの名無しさん:2008/02/14(木) 10:39:55
 国試では、「UNICODEとは、全ての文字体系が収まる"2byte"の文字コード」というのが正解答だったりする件。
いつからバイト長が固定されたんだよタコ。
288デフォルトの名無しさん:2008/02/14(木) 10:48:36
3.0未満のUnicodeかよorz
289デフォルトの名無しさん:2008/02/14(木) 11:09:02
2byteだったら1.xじゃない?
290デフォルトの名無しさん:2008/02/14(木) 12:55:03
それぞれの構造が単純じゃないから説明するのが面倒だな。
291デフォルトの名無しさん:2008/02/14(木) 14:52:35
>>284
ユニコードに関係した規格として、次の2つがある。
ユニコードコンソーシアムの「Unicode」。
ISO/IECの「ISO/IEC 10646 Universal Multiple-Octet Coded Character Set」。

前者の規格に含まれる符号化(エンコーディング)がUTF-8、UTF-16、UTF-32など。
後者の規格に含まれる符号化がUCS-2とUCS-4、UTF-8など。

UTF-8が両方に収録されているけど、同一と思って差し支えない。
292デフォルトの名無しさん:2008/02/14(木) 15:26:33
>>284

UCSは文字集合。

そしてその文字集合から2バイトで表せる部分を切り取ってきて
そのまんま使うのがUCS-2

それを拡張して使用できる文字範囲を広げたのがUTF-16

UTF-8は別のアプローチの符号化方法
293デフォルトの名無しさん:2008/02/14(木) 21:00:42
>>289
それ以前に1バイト=8ビットとは限らない
294デフォルトの名無しさん:2008/02/14(木) 21:04:49
どういう場合に1バイト8ビットじゃなくなるの?
295デフォルトの名無しさん:2008/02/14(木) 21:13:58
マシンがPDP-11だったりした場合
296デフォルトの名無しさん:2008/02/14(木) 21:26:35
JIS X 0208/0213の規格名ではわざわざ「7ビット及び8ビットの…」と言ってるだろ。
1バイトが8ビットとは限らないからだ。
それに対してUCSは>>291にあるとおり"Universal Multiple-Octet..."で
8ビットであることを明確化している
297デフォルトの名無しさん:2008/02/15(金) 00:08:33
1バイト≠8ビットな処理系でUTFを扱うようなケースはほぼないんじゃない?
298デフォルトの名無しさん:2008/02/15(金) 07:07:52
UTF-7もdeprecatedになったしな
299デフォルトの名無しさん:2008/02/15(金) 10:17:45
UTF-9の時代だろ
300デフォルトの名無しさん:2008/02/15(金) 10:50:34
エイプリルフールにはまだ早いぜ
301デフォルトの名無しさん:2008/02/16(土) 01:39:08
>>295
PDP-11 は 16bit マシンだぞ.DEC-10/20(36bit マシン)のことか?
302295:2008/02/16(土) 08:58:39
すまん

>>301 それです
303デフォルトの名無しさん:2008/02/16(土) 11:03:02
Latin-1の設定になってしまってるMySQLにUTF-8ぶっこんでもちゃんと動くんだけど
無理にset character set utf8してアクセスするとかえって文字化けしてしまう
そのままつかってたほうがいい?
304デフォルトの名無しさん:2008/02/16(土) 11:30:47
MySQLのバージョンは?
4バイト以上のBMP外を表すシーケンスに対応したのは6.0以降だから
それより古いバージョンではLatin-1ということにして
変換は自分で行うとかの小細工が必要
305デフォルトの名無しさん:2008/02/17(日) 01:56:53
きっと、PDP-8の12bitなんですよ(を
306デフォルトの名無しさん:2008/02/17(日) 09:46:31
Unisys機(旧UNIVAC系の古い汎用機)では、
1文字=6/8/9/12ビットと、4通りあったりする。
(1ワード=36ビットのマシンの生き残り)
307デフォルトの名無しさん:2008/02/17(日) 13:41:02
ユニコードのインディアンて?
308デフォルトの名無しさん:2008/02/17(日) 14:54:58
>>307
インド人です。アメリカ原住民のことは、ネイティブアメリカンと呼んでください。
309デフォルトの名無しさん:2008/02/17(日) 15:19:14
原住民的にはむしろインディアンの方がいいらしいけど
310デフォルトの名無しさん:2008/02/17(日) 15:59:19
エンディアンの語源を考えるとインディアンと表記しても間違いじゃないなぁ。
311デフォルトの名無しさん:2008/02/20(水) 02:18:31
9bitはPDP-10だろ。過去にかなり真面目に議論されたし、ちゃんとRFCも出てるぞ。
http://www.rfc-editor.org/rfc/rfc4042.txt
>306の言うとおり、昔は1バイト6bitだってあった。ISO646だって、7bit の他に6bit版の文字コードも
規定されてたし。近年の改正で6bit文字コード規定は残念ながら消滅してしまったけどね。
312デフォルトの名無しさん:2008/02/20(水) 08:36:24
みかんはリトルエンディアンの方が白い筋がよく取れるそうだ。

でも皮が硬いときはビッグエンディアンかなー。
313デフォルトの名無しさん:2008/02/20(水) 12:17:51
シフトジスとMSPゴシックは違うものだろうか?
314デフォルトの名無しさん:2008/02/20(水) 12:29:34
>>287
Unicodeは規格/標準の名前なのになあ。
検索とか比較とか符号化とか、文字に関する処理について書いてある。
http://www.unicode.org/glossary/#unicode
http://www.unicode.org/faq/basic_q.html#a
315デフォルトの名無しさん:2008/02/20(水) 12:30:44
>>291
付録CにUCS-2, UCS-4について、
ISO 10646との関係が書いてありますね。
316デフォルトの名無しさん:2008/02/20(水) 22:15:13
>>313
全然別物。
Shift_JIS = エンコーディング
MSPゴシック = フォント名

317デフォルトの名無しさん:2008/02/21(木) 05:59:06
文字コードをMS明朝で保存するのはどうやる?
318デフォルトの名無しさん:2008/02/21(木) 06:12:40
>>317
仕事の都合上、いやいやPC使ってんなら会社で聞け。
そうじゃないなら、もっと基礎から学び直せ。
319デフォルトの名無しさん:2008/02/21(木) 09:06:33
>>317
おまえはどこのPython使いだ?
320デフォルトの名無しさん:2008/02/21(木) 15:21:52
あなたはお風呂に入るとき
みかんから食べますか?
それとも山に登りますか?
321デフォルトの名無しさん:2008/02/21(木) 16:31:47
VB.NET2005だとまだエンコードクラスにMSPゴシックがないけど
できるだけ早く対応して欲しい。
322デフォルトの名無しさん:2008/02/21(木) 20:25:57
つまらないから帰れ
ネタじゃないならなおさらさっさと帰れ
323デフォルトの名無しさん:2008/02/21(木) 21:59:36
IDEのフォントをMS Pゴシックにすれば解決?
324デフォルトの名無しさん:2008/02/25(月) 10:55:59
なんで半角文字の範囲まとまってないんだよファッキン!!
325デフォルトの名無しさん:2008/02/25(月) 11:04:20
すみません、取り乱しました。
326デフォルトの名無しさん:2008/03/07(金) 11:56:50
unicodeに含まれる文字には番号はついてるんでしょ。
どうしてそれは使えないの?
327デフォルトの名無しさん:2008/03/07(金) 11:59:19
>>326
どこからの話の流れか分からないが、
それ(コードポイント)をそのまま使う符号化には
UTF-32, UCS-4, UCS-2がある。
328デフォルトの名無しさん:2008/03/07(金) 12:55:57
ありがとさんです。
329デフォルトの名無しさん:2008/03/07(金) 15:58:57
UTF-32, UCS-4, UCS-2はどう違うの?
330デフォルトの名無しさん:2008/03/07(金) 16:08:50
UTF-32/UCS-4
1文字32ビット。
現在では2つとも同じ中身。
どの規格に含まれているかというだけの違い。>>291に書いてある。

UCS-2
1文字16ビット。U+10000以上のコードポイントを持つ文字は表現できない。
331デフォルトの名無しさん:2008/03/07(金) 16:13:56
UTF-32 は U+110000 以上は無いんじゃ?
332デフォルトの名無しさん:2008/03/07(金) 16:16:36
もうめんどくさいから今までの全部廃止してUTF-256とかに統一して欲しい
333デフォルトの名無しさん:2008/03/07(金) 16:55:24
まったくだな
334デフォルトの名無しさん:2008/03/07(金) 18:30:27
バイトオーダーも固定して64byteぐらいにしておけばいい。
335デフォルトの名無しさん:2008/03/07(金) 18:50:01
そうだね余裕がある事はすばらしい事だね。
336デフォルトの名無しさん:2008/03/07(金) 19:03:36
アルファベット件の馬鹿共のせいで混迷しているのだ
337デフォルトの名無しさん:2008/03/07(金) 19:08:01
そういやIPAとUnicodeの対応表みたいなのってないの?
338デフォルトの名無しさん:2008/03/07(金) 20:25:10
339デフォルトの名無しさん:2008/03/07(金) 20:34:37
Microsoft Visual UTF-2008 Professional Edition
340デフォルトの名無しさん:2008/03/07(金) 21:22:58
>>331
UCS-4もU+110000以上は使わないことになった。
>>330に「現在では」と書かれているのはそのへんの含みがあると思われる
341デフォルトの名無しさん:2008/03/11(火) 09:39:54
Unicode識別子についての日本語資料ってない?
342デフォルトの名無しさん:2008/03/12(水) 15:18:27
UTF-8にBOMついてるとまともに動かないソフトが多すぎて嫌すぎる
もっと細分化して、細かく細部まで決めてくれないとどーしよーもないな、実際
343デフォルトの名無しさん:2008/03/12(水) 15:41:24
アンジーってサイモンとガーファンクルだったような
344デフォルトの名無しさん:2008/03/12(水) 19:21:59
UTF-8ってBOMつけるんだっけ?
345デフォルトの名無しさん:2008/03/12(水) 19:32:18
RFC 3629 の 6. を見よ
346デフォルトの名無しさん:2008/03/12(水) 19:37:18
なる、つけるべきではないのか。
347デフォルトの名無しさん:2008/03/12(水) 19:43:49
いや、ついていても受け入れるべき
MySQLみたいにそもそもUTF-8を理解してない馬鹿げたソフト多すぎ
348デフォルトの名無しさん:2008/03/12(水) 20:25:36
>>346 一般には違う。
付けるべきじゃないのは、UTF-8であることが上位層で規定されている場合。
349デフォルトの名無しさん:2008/03/12(水) 20:28:49
BOMはエンコードを判別するためのものじゃないべさ。
Byte Order Markなんだから。
350デフォルトの名無しさん:2008/03/12(水) 20:52:02
つまりメモ帳のあの動作は正しいわけか
351デフォルトの名無しさん:2008/03/12(水) 21:18:54
>>349

まぁ元々はそうだったんだけど UTF-8に於いてはUTF-8であることを
あらわすシグネチャという位置付けにされた。

まぁ1バイト文字で済む国はシグネチャなくても全然問題ないんだろうけど
マルチバイト文字使ってる国ではシグネチャない場合は、エンコード誤認の
可能性があるからな。 UTF-8決めうちのソフトならいいんだけど
352デフォルトの名無しさん:2008/03/12(水) 21:20:13
勝手に追加するのはどうかと思うが、テキストファイルの頭にBOMついてるからって
誤動作する方が確実におかしい、無視すべき
353デフォルトの名無しさん:2008/03/12(水) 21:24:25
#!/usr/bin/env hogehoge

とかをBOM付きで保存すると死ぬって本当?
354デフォルトの名無しさん:2008/03/12(水) 22:37:41
ASCIIにしか対応していないものから見たらBOMはゴミ以外の何者でもないから
355デフォルトの名無しさん:2008/03/12(水) 22:41:24
UTF-8対応してるといいながら駄目なソフトが多いって話だろ?
356デフォルトの名無しさん:2008/03/12(水) 23:30:28
ASCIIだったらそもそもBOMは無いだろ
そしてASCII範囲外に対応してるならBOMあっても問題ないし
357デフォルトの名無しさん:2008/03/13(木) 02:15:31
俺はドラゴンボールが揃ったらBOMを廃止する。
それからDIS 10646.1、いやごめんなんでもない
358デフォルトの名無しさん:2008/03/13(木) 03:32:52
BOMよりスーパー写真塾の方がエロイよな。
359デフォルトの名無しさん:2008/03/13(木) 05:19:48
むかしのエロ本のオンナはそのままのかおだが
いまのエロ本は整形オンナばっかり
360デフォルトの名無しさん:2008/03/20(木) 20:31:17
UTF-8にBOMなんか辞めようと
そもそも、BOM=Byte Order Mark で、UTF-16、UCS-2、UTF-32、UCS-4なんかで使うものだし
そいつ(BOM)をそのままUTF-8変換した値がBOMもどきだし

Visual Studio 2005なんかはUTF-8でソース管理出来るみたいだな
今のPRJはLinuxでUTF-16使ってるから文字列は全てリソース扱い、っつかASCIIだろうとそうすべきではあるけど
ソースコードにUTF-16をhexでどかどか書いても見づらいだけだ
だけど、データ管理はUTF-16のがいい。サロゲートペアなんて使うことはまず無いし、1文字=2バイトと見なして差し支えなければ楽でいい
UTF-8は最近ISO 10646だっけ、RFCだっけ、あれUnicode.orgだっけ?規格変更で1〜4バイトの可変長になって、それとともにUTF-32の領域も狭くなったみたいだが

XMLなんかはエンコーディング付いてるから問題ないし、ソースもSJISやEUCさえなんとかなれば別に問題らしいものはない気がする>UTF-8
UTF-8自体ASCIIコンパチだしね
361デフォルトの名無しさん:2008/03/20(木) 20:59:22
UTF-32は最初からU+10FFFFまでだよ
362デフォルトの名無しさん:2008/03/20(木) 21:01:17
お前ら説明下手すぎだろ。
もっと俺にわかるように産業で説明しなさい。
363デフォルトの名無しさん:2008/03/20(木) 21:10:47
>ソースもSJISやEUCさえなんとかなれば

これがなんとかならないから UTF-8にBOMが存在しているんだろうけどね。
364デフォルトの名無しさん:2008/03/20(木) 23:18:25
>>360
>エンコーディング付いてるから問題ないし
そういう場合はBOMを付けるなとちゃんと書いてある
ttp://tools.ietf.org/html/rfc3629#section-6

BOMを付けるのはあくまでもそれがUTF-8と確定できない場合だけだから問題ないだろ
それともエンコード不明のテキストファイルを力技でエンコード推測するのが正しいとでも?
あるいはテキストファイル=UTF-8として統一するつもり?
Latin-1とかはそうそう無くならないと思うぞ
365デフォルトの名無しさん:2008/03/20(木) 23:24:46
エンコード不明のテキストファイルを力技でエンコード推測するのが正しい
366デフォルトの名無しさん:2008/03/21(金) 09:46:07
BOMダセエと思うが、
BOMも処理できないUnicode処理系は氏ねよ。
367デフォルトの名無しさん:2008/03/21(金) 16:53:25
Chinaってチャイナじゃなくてシナ=支那だったのね
勉強になった
368デフォルトの名無しさん:2008/03/21(金) 23:53:53
はい?
369デフォルトの名無しさん:2008/03/22(土) 00:19:13
いいえちがいます。
370デフォルトの名無しさん:2008/03/22(土) 01:29:01
チャイナシンドロームってどういういみ?
371デフォルトの名無しさん:2008/03/22(土) 08:02:56
何の? 一般的には原子炉のメルトダウン事故の用語だが。
372デフォルトの名無しさん:2008/03/22(土) 11:18:00
Japanてジパングじゃなくてニッポン=日本だったのね
勉強になった
373デフォルトの名無しさん:2008/03/22(土) 14:49:25
漆器のことだろ?
374デフォルトの名無しさん:2008/03/22(土) 20:25:36
sorry japanese only.
375デフォルトの名無しさん:2008/03/23(日) 00:40:01
かわいそうな日本人専用
376デフォルトの名無しさん:2008/03/23(日) 03:26:12
漆塗りのペニスキャップとか作ると
やっぱりかぶれたりするんだろうか
377デフォルトの名無しさん:2008/03/23(日) 03:36:46
漆塗りの器で唇かぶれた話とか聞いたことないけど。
378デフォルトの名無しさん:2008/03/23(日) 09:25:29
漆がかぶれるのは生(?)の漆だけじゃないかと
379デフォルトの名無しさん:2008/03/23(日) 10:50:49
シャープの芯のUniもこれが語源なん?
380デフォルトの名無しさん:2008/03/23(日) 12:41:34
http://ja.wikipedia.org/wiki/%E4%B8%89%E8%8F%B1%E9%89%9B%E7%AD%86

| 国内では「三菱鉛筆」と、旧財閥の三菱グループ各社と混同されないように
| 「uni」(ユニ)のブランドも使っている。「uni」は、英語で「単一の」を
| 表す接頭語「uni」から比類無き品質ということを表したもの。
381デフォルトの名無しさん:2008/03/23(日) 13:11:50
単一はmonoだったよーな
⇔pori

モノ

トリ
テトラ
382デフォルトの名無しさん:2008/03/23(日) 14:04:20
monoもuniも一つという意味
383デフォルトの名無しさん:2008/03/23(日) 14:11:37
×pori
○poly

釣りなのかこれは
384デフォルトの名無しさん:2008/03/24(月) 09:41:03
ユニークのユニ
385デフォルトの名無しさん:2008/03/24(月) 12:14:05
ギリシャ語系のmono, di, tri, tetraと、ラテン語系のuni, bi, ter(tres, tri), quadriの違いだな。
多角形も両方の表現があって、trigon, tetragon, pentagonとするかtriangle, quadrangle, quintangleとするか。
# 尤も、アメリカ辺りだと入り混じっていて、septagon, septangle, heptagon, heptangleのどれも見かけるけど。
## ついでに言えば、polygonに対するラテン語はmultiangleになる筈だけど……
386デフォルトの名無しさん:2008/03/24(月) 12:38:42
rectangleは?
387デフォルトの名無しさん:2008/03/24(月) 13:10:35
>>386
ラテン語由来。ラテン語にも、rectangulasという言葉があるらしい。英語に直訳すると、right angleになるそうな。
つーか、m-w.comでちょっと調べれば済むことなんですが。
388デフォルトの名無しさん:2008/03/24(月) 13:41:24
都市ガスはtoshi gus だからペリーが運んできたオランダ語っぽい
389デフォルトの名無しさん:2008/03/24(月) 13:44:07
トナカイってアイヌ語だったんだな
390デフォルトの名無しさん:2008/03/24(月) 17:13:23
ラッコもな
391デフォルトの名無しさん:2008/03/26(水) 03:23:13
MacのZIP解凍したら濁点や半濁点で文字化けするんだけど
これの変換てどうしたらええの?
392デフォルトの名無しさん:2008/03/26(水) 08:26:24
NFCしてください。
393デフォルトの名無しさん:2008/03/26(水) 11:01:30
NFDとNFCの違いか。
オレもそれやらかして、Perlのモジュール使って直したなあ
394デフォルトの名無しさん:2008/03/26(水) 21:32:28
ありがとう
一部元に戻らないトコもあるけど中身が理解できる分には戻せたよ
395デフォルトの名無しさん:2008/04/10(木) 09:02:55
結局UTF-8みたいなASCII互換の可変長コードが主流になるんだったら、
80h〜FFhをコードページ指定にして、
その後の1〜2オクテットをまとまった文字種セットにしとけば、
すっきりしたコードになったのになあ。
396デフォルトの名無しさん:2008/04/10(木) 22:30:07
状態持ちはイヤン
397デフォルトの名無しさん:2008/04/10(木) 22:39:27
それなんてISO 2022?
398デフォルトの名無しさん:2008/04/12(土) 03:23:48
>>395
Arena-i18n内部コードやん
あれは固定長だけど。
399デフォルトの名無しさん:2008/04/23(水) 07:54:25
>>367
>Chinaってチャイナじゃなくてシナ=支那だったのね
あー!そういう意味だったのか。
支那支那っていうから判らんかった。
支那の語源がChinaなのね。
400デフォルトの名無しさん:2008/04/23(水) 09:52:54
どちらの語源もサンスクリットの同じ単語だそうだが
401デフォルトの名無しさん:2008/04/23(水) 12:02:46
いくつか説があるようだが
ttp://www004.upp.so-net.ne.jp/teikoku-denmo/html/history/honbun/cina2.html
は「秦」を語源としてるな
まぁJapanもニッポンがジパングを経てジャパンになったんだから
シナとチャイナ位の違いは普通か
402デフォルトの名無しさん:2008/04/23(水) 13:12:28
日本の現代中国語読みがリーペンで、マルコポーロが東方見聞録で書いたのがジパング。
この違いがかなりデカい気がするが、どう理解すればよいのやら。
古代中国語で日本をジパングと読む?
403デフォルトの名無しさん:2008/04/23(水) 22:01:44
ri4ben3は現代普通話でのピンイン
「日」は漢音で"ji" 「本」は呉音で"hong"
404デフォルトの名無しさん:2008/04/24(木) 02:02:24
今の日本語で日を「ジツ」と読むのは古い中国語からきてるわけだし。
中国は現代音、中古音、古音と何度も大きな変貌を経ている。特にマルコポーロの時代である
元は中国語の発音が大きく変化した時代の一つ。
405デフォルトの名無しさん:2008/04/26(土) 03:58:14
誰もそんな話は聞きたくないし。
UTF8とユニコードの違いが聞きたいし。
406デフォルトの名無しさん:2008/04/26(土) 05:29:15
いやいや
>>401の話は重要だよ。

たとえば天安門。
これは自動的に排除するようにプログラムを組むことが義務付けられていて、守らなければ毒ガスの人体実験されて体を切り刻まれる。

>>401の話は、少なくとも一つのキーワードについてそれをしなくてよいと確認できる根拠だから。
407デフォルトの名無しさん:2008/04/26(土) 10:05:46
聖火リレーで旗を広げようとした人がそれを広げる間もなく大勢の警官に取り押さえられ逮捕されたけど、日本って中国並みに怖いな。
408デフォルトの名無しさん:2008/04/26(土) 10:26:45
http://tvde.web.infoseek.co.jp/cgi-bin/jlab-dat/s/216761.jpg
http://tv.dee.cc/jlab-maru/s/maru1209168412846.jpg

Japanese police suppressed a member of Tibetan human rights group
日本警察によるチベット人弾圧の様子
409デフォルトの名無しさん:2008/04/26(土) 10:57:08
>>408
警官の数が異常すぎ。

「たかだか芸能人が怪我するかも」程度なのに洞爺湖サミットの何倍の警官を投入してるんだと。
410デフォルトの名無しさん:2008/04/26(土) 11:24:17
それは勘違いだよ。
この場合、芸能人の命の火が消えること以上に、聖火が消えることのほうにピリピリしてるんだよw

聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、
活動家を抑えられずに聖火消しちゃったら日本の恥だからね。
411デフォルトの名無しさん:2008/04/26(土) 12:10:20
そもそもくだらんイベントに税金使うなよ。
412デフォルトの名無しさん:2008/04/26(土) 12:12:01
Unicode関係ないだろうおまえら……。
413デフォルトの名無しさん:2008/04/26(土) 12:27:16
>>410
でも火を消そうとはしてないんだ。

むしろさらに火を大きくしようとして発炎筒やら布切れやら持ち込んでるわけで。
414デフォルトの名無しさん:2008/04/26(土) 12:31:37
それは始まってからじゃないとワ絡んだろ
415デフォルトの名無しさん:2008/04/26(土) 12:32:28
.NETはたとえ完全でないのでもいいから文字コード自動判別クラスを用意すべき
416デフォルトの名無しさん:2008/04/26(土) 12:33:36
>>414
普通に殺されかけて通報したときは「ナイフが心臓に刺さったらもう一度通報してください。」って言われるのに。
417デフォルトの名無しさん:2008/04/26(土) 21:23:08
設計や管理がテケトーだから自動判別なんてのが必要なシステムになるんだ

恥を知れ!
418デフォルトの名無しさん:2008/05/06(火) 07:28:17
>>415
禿同
419デフォルトの名無しさん:2008/05/06(火) 09:11:19
>>415
間違えると「バグだ!金返せ」と言うバカの相手にいいかげんうんざりしたんだろう。
420デフォルトの名無しさん:2008/05/11(日) 17:40:38
>>410
>聖火という「設定」がどんなに馬鹿馬鹿しくても、その馬鹿設定を国際的に共有しちゃってる以上、

これは暗にUnicodeのことを言ってるんだよな?
だよな?
421デフォルトの名無しさん:2008/05/11(日) 22:49:27
批判くらい小学生でもできる。気に入らないなら代案を示すべき。
ここでグダグダ文句ばっかしタレてるヤツは小学生なのか?
422デフォルトの名無しさん:2008/05/12(月) 01:07:59
これは暗にみんしゅとうのことを言ってるんだよな?
だよな?
423デフォルトの名無しさん:2008/05/12(月) 01:49:03
>>421
まぁそうなんだが、正しすぎて2ch全否定になってるな。
424デフォルトの名無しさん:2008/05/12(月) 06:44:47
>>353
カーネルが1バイト目の#を見てスクリプトと機械語を
識別しているから、その前にBOMがついていたら機械語
として実行しようとして暴走するだろう


425デフォルトの名無しさん:2008/05/12(月) 06:52:41
機械語って、おまえELFとか知らんのか
426デフォルトの名無しさん:2008/05/12(月) 07:10:45
COMファイルしか知らないんだよきっと
427デフォルトの名無しさん:2008/05/12(月) 08:50:43
あれ?最近COMファイルって見かけないな。
使わなくなったの?
428デフォルトの名無しさん:2008/05/12(月) 08:52:49
拡張子のCOMならDOS専用だから。
429デフォルトの名無しさん:2008/05/12(月) 09:54:42
もうやだこの低レベルスレ
430デフォルトの名無しさん:2008/05/12(月) 21:25:44
>>428
ところがどっこい。Windowsは拡張子COMのPEを平気で実行する。
例えばNT系のformat.com
431デフォルトの名無しさん:2008/05/12(月) 21:28:54
スレ違い止め止め
432デフォルトの名無しさん:2008/05/12(月) 23:28:26
>>429
おこぼれを貰いに来てるだけのお前みたいな奴は、
自分じゃその下がったレベルを引き上げられないからつらいよね。

でも、おこぼれ貰いに来てるだけの奴が嘆いても、「勝手に嫌がってれば?」としかw
433427:2008/05/13(火) 01:52:21
俺も428と同じ認識でネタを書いたつもりだったが。動くのな。
まあ確かにMSだったら拡張子.comでも動くようにしてそうだ。
434デフォルトの名無しさん:2008/07/19(土) 10:20:15
タイのヤフーにアクセスするとブラウザにタイ語がきちんと表示されるけど、それをコピペして
エディタに貼り付けると文字化けするのは何故でしょうか?

エディタはUnicode版サクラエディタを使いました。

Yahoo! ?????????
http://th.yahoo.com/

FrontPage - サクラエディタUNICODE化プロジェクト
http://mofmof.nsf.tc/soft/sakura_unicode/
435デフォルトの名無しさん:2008/07/19(土) 10:42:17
こんなところで聞くより、開発元で聞いたほうが早いと思うぞ。
436デフォルトの名無しさん:2008/07/19(土) 10:45:19
unicode->ウニ
utf-8->アワビ
437デフォルトの名無しさん:2008/07/19(土) 10:47:01
>>432
おまえもな
438デフォルトの名無しさん:2008/07/19(土) 11:43:42
>>435
なるほどサクラエディタの問題なのか。
EmEditorだとタイ語というのがあったので、それでするときちんと表示されました。
439デフォルトの名無しさん:2008/07/19(土) 12:52:32
たぶんクリップボードからANSI文字列として取得してるんじゃないかな。
440デフォルトの名無しさん:2008/07/19(土) 14:13:18
>>434
普通に表示できたけど、フォントリンクがうまくいってないだけとかじゃないの
441デフォルトの名無しさん:2008/07/19(土) 14:21:07
>>439
EmEditorにコピペすると、ちゃんとタイ語で表示されたので、多分そうではないと思います。
そこで疑問がまた出てきました。

Unicodeってほぼ全文字を扱っているんですよね?
EmEditorのUTF-8を選んでも、上記のタイ語は文字化け。
タイ語を選んでやっときちんと表示される。

タイ語用のUTF-8とかがあるんですかね?
442デフォルトの名無しさん:2008/07/19(土) 14:22:19
>>440
フォントリンクとはどういうことでしょうか??
443デフォルトの名無しさん:2008/07/19(土) 14:29:15
扱ってる文字集合にタイ文字が含まれてないせいで表示されないのか、
ただ単にフォントが足りなくて表示されないだけなのか、
問題を切り分けろっていってるんだよ。
444デフォルトの名無しさん:2008/07/19(土) 15:27:41
UTF16は終端文字がNULLバイト2つだから嫌い
445439:2008/07/19(土) 15:38:17
>>441
そういう意味じゃなくて。
サクラエディタ自体がミスってて、コピーされた文字列をAPIで取得する時に、
Unicode指定じゃなく、ANSIを指定しちゃってるかもってこと。
まあさすがにそんなことは無いだろうけど。
446デフォルトの名無しさん:2008/07/19(土) 15:43:26
>>445
それはないな。俺が確かめたから。
447デフォルトの名無しさん:2008/07/19(土) 16:01:27
>>443
UTF-8というのはタイ語は含まれていないのでしょうか?
ブラウザとEmEditorではタイ語をきちんと表示しているので、タイ語のフォントはあると考えてはダメなの
でしょうか?

タイ文字をブラウザからEmEditorにコピペして、それを保存したのをバイナリエディタで見ると、UTF-8じゃ
ないみたいだ。

EmEditorのタイ語という文字コードはUTF-8とは別物ということか?

>>440さんの言っていることは、、自分の環境ではUTF-8のタイ語を表すコード領域とタイ語のフォントが
うまく結びついていないということかな?

でもブラウザではちゃんと表示されているんだよな。
よくわからん。
448デフォルトの名無しさん:2008/07/19(土) 16:17:46
>>447
少なくともIEとFirefoxは言語別に使用するフォントの設定を持っていて、
タイ語の文字を見つけたら、タイ語用のフォントでタイ語の文字を描く。
ところがサクラエディタはそうなっていないのではないのか、ということ。
(無理に日本語フォント使って豆腐になるとか)

>UTF-8じゃないみたいだ。
保存時にデフォルトでShift_JISが選ばれるなんてことはない?

あと、試しにsakuraW_r1398.zipをダウンロードして
コピペしてみたが、うまくいっているように見えるけど。
449デフォルトの名無しさん:2008/07/19(土) 18:15:17
>>448
>保存時にデフォルトでShift_JISが選ばれるなんてことはない?
設定を色々見ましたが、そんなのはなさそうな感じです。
EmEditorには、UTF-8の他にタイ語(Windows)という文字コードが選択できるんですよね。

1文字だけコピペして、それをタイ語(Windows)で保存。
それをバイナリエディタで見ると3バイトでした。だから多分Shift_JISではないと思います。

>>448さんではうまくいってるということは、やはり自分の環境の何かが悪いってことなんしょうね。
450デフォルトの名無しさん:2008/07/19(土) 18:43:59
>>449
あたまだいじょうぶか
451デフォルトの名無しさん:2008/07/19(土) 18:45:28
そもそもサクラエディタはShift_JISで扱える文字しか対応していないはず
452デフォルトの名無しさん:2008/07/19(土) 18:47:10
>>451
Unicode版の話だといってるだろ…
よくよめよ
453デフォルトの名無しさん:2008/07/19(土) 18:51:26
Unicode対応版を謳っていても実際に満足にUnicodeに対応している
テキストエディタはVisual Studioのエディタと秀丸くらいしかないよね。
454デフォルトの名無しさん:2008/07/19(土) 19:22:12
>>449

タイ語(Windows)って選択肢はUNICODEとかじゃなくて、CPなんとかというコードページ
(WindowsのShift JISだと CP932)をタイ語のコードページに切り替えてるだけじゃないの?

だからコードページ切り替えに対応していないエディタでは文字化けする。

一旦EmEditorで UTF-8で保存して、そのあと他のエディタで読み込ませてみたら?
455デフォルトの名無しさん:2008/07/19(土) 19:26:17
サクラエディタスレでやれば?
456デフォルトの名無しさん:2008/07/19(土) 19:56:00
>>453
秀丸は合字処理がおかしい
457デフォルトの名無しさん:2008/07/19(土) 20:23:26
>>454
UTF-8で保存して、サクラエディタと秀丸で開いてみましたが、ダメでした。
とりあえず自分の環境では、Unicodeとそれに対応するフォントがうまく対応付けされていないと
結論ずけておきます。
458デフォルトの名無しさん:2008/07/19(土) 22:19:03
うちの秀丸は、http://th.yahoo.com/ をコピペしてもぜんぜん文字化けしないよ。
もちろんタイのにょろにょろした文字が画面いっぱいな。
459デフォルトの名無しさん:2008/07/20(日) 01:58:58
コピペがOS依存だって事忘れてるわけじゃないよな
460デフォルトの名無しさん:2008/07/20(日) 09:59:56
>>453
おまえが知らないだけ。
461デフォルトの名無しさん:2008/07/20(日) 13:17:41
Alphaとかいうエディタは異字体セレクタまで対応してたな。
462デフォルトの名無しさん:2008/07/20(日) 18:24:26
Unicodeは16ビットで全ての文字が収まると早合点したことが失敗の始まりですか?
463デフォルトの名無しさん:2008/07/20(日) 18:50:18
いいえ、全ての文字を符号化できると思ったのがそもそもの誤りでした
464デフォルトの名無しさん:2008/07/20(日) 20:32:10
TRONや今昔文字鏡のことですね、わかります
465デフォルトの名無しさん:2008/07/20(日) 20:58:54
もっと言えば、文字とは符号化できるものである、という前提から間違っている。
466デフォルトの名無しさん:2008/07/20(日) 21:00:25
いや、TRONは存在自体が間違っている。
467デフォルトの名無しさん:2008/07/20(日) 21:49:53
>>465
文字って符号じゃないの? 符号化できない文字表現という存在自体が想像付かない。
あ、一応、1:1マッピングできない(適切でない)ケースがあることくらいは想像が付く。
468デフォルトの名無しさん:2008/07/20(日) 21:56:14
そんなネタにマジレスしなくても
469デフォルトの名無しさん:2008/07/20(日) 22:03:45
龜甲占いの結果を写生しました/写真に撮りました。
この画像は符合ですか?
一応「龜」ですが。

「龜」と字を書きました。画像として保存しました。符合ですか?
この画像ファイルには"1.jpg"という名前をつけました。符合ですか?
「龜」の代りに<img src="1.jpg">とすることにしました。符合ですか?
470デフォルトの名無しさん:2008/07/20(日) 22:13:02
連番をつけて符号化しようと思ったあたりが、問題なんじゃね
471デフォルトの名無しさん:2008/07/20(日) 23:41:19
合成文字とか似ている漢字は一緒にしようとか
めんどくさい事考えるから・・
472デフォルトの名無しさん:2008/07/21(月) 00:08:21
> 似ている漢字は一緒にしよう
これはまったくやらずに済まそうとするのは無理じゃない?
デジタル化以前には表記揺れするのがあたりまえだったんだし。

どこまでやるかを間違った、という批判ならその通りだと思うけども。
473デフォルトの名無しさん:2008/07/21(月) 00:15:23
いや,揺れたものをそのまま保存・表示できない時点でダメ
揺れたものを対象にした論文などが表現できなくなるから
474デフォルトの名無しさん:2008/07/21(月) 01:29:46
人間が文字の生き死にを自由にしようなんて、おこがましいとは思わんかね・・・・・・
475デフォルトの名無しさん:2008/07/21(月) 03:09:30
本間先生?
476デフォルトの名無しさん:2008/07/21(月) 09:22:12
結局、「国番号+JISコード」 で16ビットとか32ビットとか、みたいな形にすればよかったんじゃない?
(外国はJISコードとは言わんが、ま、その国ごとで規格化されてるコード、って理解してくれい)

変に世界中の文字をシャッフルしちゃったのが間違いだな。
477デフォルトの名無しさん:2008/07/21(月) 09:56:33
それがサロゲートペアだろ。
478デフォルトの名無しさん:2008/07/21(月) 10:48:55
なんでやねん
479デフォルトの名無しさん:2008/07/21(月) 11:28:35
>>473
そいつは画像でやれよ……

一般的な用途ではある程度ユニファイされてる方がいい。
微妙な違いなんて日常的な文章には不要だし、検索とかにも不便だし。
480デフォルトの名無しさん:2008/07/21(月) 11:53:14
>>477
(;゚д゚) ・・・
 
(つд⊂)ゴシゴシ
  _, ._
(;゚ Д゚) …!?
481デフォルトの名無しさん:2008/07/21(月) 13:30:19
>一般的な用途ではある程度ユニファイされてる方がいい
これはその通りだと思うけど、符号化のレベルではやらない方が良かったかと・・

もう1つ上のレイヤを用意して表記ゆれを吸収するのはそこの層がやる
とかにすればやり方を失敗してもそこの層を差し替えるとかして何とかなったのに
482デフォルトの名無しさん:2008/07/21(月) 19:58:48
同意.一番下でマージしちゃったらどうしようもない
画像でやれって言う人は,実際に自分でやってないから
どれだけ大変かつ不便で読み難くなるか分からないんだろうな
483デフォルトの名無しさん:2008/07/21(月) 20:39:00
実際に文字コード設計したことない人が国コード付けろとか128ビットにしろとか
妄想語るのももはやお約束ですよねー
484デフォルトの名無しさん:2008/07/21(月) 21:19:59
UnicodeでAdobe Japan1-6互換の字形切替をする枠組みが既に正式規格化されているにも関わらず、
「みたいな形にすればよかったんじゃない?」
「もう1つ上のレイヤを用意して」
「一番下でマージしちゃったらどうしようもない」
とか言ってるヤツってナンなの?ゆとり?
ttp://www.unicode.org/reports/tr37/
ttp://www.unicode.org/ivd/
ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1435_ivs-demo-irg30.pdf
ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1435_ivs-white-paper.pdf

上記PDFに書かれている対応製品以外にも、フリーソフトやフリーフォントで既に対応しているものもある。
ttp://alpha.sourceforge.jp/
(↑:日記の2008年1月〜に詳細記述)
ttp://yozvox.web.infoseek.co.jp/
(↑:掲示板の2008年1月〜に詳細記述)

てか、文字コードの話をするなら↓の方がいいだろ、常識で考えて。
文字コード総合スレ part3
ttp://pc11.2ch.net/test/read.cgi/tech/1180250376/
485デフォルトの名無しさん:2008/07/21(月) 21:42:42
>>483
いかにも 「ワタシが文字コードを設計しました!」 って言いたげだな
486デフォルトの名無しさん:2008/07/21(月) 21:43:44
何事にも失敗はある。
487デフォルトの名無しさん:2008/07/21(月) 21:48:47
Unicodeは失敗
488デフォルトの名無しさん:2008/07/21(月) 22:15:27
ROMっているだけだったが、ここが文字コードスレだと錯覚していた。
489デフォルトの名無しさん:2008/07/21(月) 22:17:37
ゆとり教育は失敗
490デフォルトの名無しさん:2008/07/21(月) 22:26:55
失敗したら反省が必要。そして次回はどうすべきか案を出し合う。
491デフォルトの名無しさん:2008/07/23(水) 19:39:46
>>453
しゅーまる(何故か変換(ry)は、アラビア語ちゃんと扱えるんだ。すごい。
xyzzyはアラビア語無理なんだよなあ・・・
492デフォルトの名無しさん:2008/07/23(水) 21:00:50
有名どころだと秀丸とEmEditorくらいだな。
493デフォルトの名無しさん:2008/07/24(木) 09:32:45
しゅーまるぐみはやわじゃねえ!
しゅーまるぐみにはいるんだ!
494デフォルトの名無しさん:2008/07/24(木) 10:12:30
EmEditorのフリー版のUnicode対応はイマイチだけど
有料版はいいんかな
495デフォルトの名無しさん:2008/07/24(木) 14:54:39
Alphaはどうよ
496デフォルトの名無しさん:2008/07/24(木) 15:03:58
>>494
たぶんエディタ部分のコードは同じだと思うよ。
497デフォルトの名無しさん:2008/07/24(木) 15:38:06
>>495
アラビア語の結合は対応してるみたいだけど、キャレットとか選択領域の端とかと重なると切れちゃう。
ただ、いまのところシンタックスハイライティングがびみょんで、この板的な実用には向かんかなあ。

>>492
EmEditorや秀丸って右から左に表示するオプションあったっけ?
前に試したときはどっちもダメだった気がしたんだけど、それから対応したのかな。
498デフォルトの名無しさん:2008/07/24(木) 15:48:06
直接指定するわけじゃなくて、エンコードで判断
499デフォルトの名無しさん:2008/07/24(木) 15:59:43
>>498
それはEm? 秀丸?

でも、そうなるとUnicode系の文字コードじゃRTL文書書けないのかな。
500デフォルトの名無しさん:2008/07/24(木) 22:25:06
>>497
> この板的な実用には向かんかなあ。

プログラム技術@2ch掲示板
ttp://pc11.2ch.net/tech/

この板はプログラムを作る人のための板です。

プログラム・ソフトの使い方は PC 初心者板やソフトウェア板へ。
ウイルス、ハッキング・クラッキングを求めるような発言は禁止です。
Javascript は Web 制作板、CGI は Web プログラミング板へ。
業界談義、愚痴はプログラマ板へどうぞ。
ゲーム関係の話題はゲーム製作板へどうぞ。
ネタ、板とは関係の無い話題はご遠慮ください。
501デフォルトの名無しさん:2008/07/24(木) 22:31:19
>>500は有名な基地外だから無視していいです
502デフォルトの名無しさん:2008/07/24(木) 22:36:12
>>500
Alphaは、アラビア語が(比較的)まともに扱えるけど
「シンタックスハイライトが微妙」だから
「プログラムを作る人」が使うエディタとしては「実用には向かん」
って行ってる様にみえるんだけどなんでそのコピペなのか理解できません!
503499:2008/07/24(木) 22:42:59
試してみたけど、秀もEmも右から左にする方法を見つけらんなかった…
504デフォルトの名無しさん:2008/07/24(木) 22:43:33
夏休みだから話題が逸れる前に予防線張ろうとしたと解釈してあげよう。
505デフォルトの名無しさん:2008/07/24(木) 23:00:11
     ///////
    ///////____________
    ///////  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄| ̄ ̄
   ///////              (~) チリンチリン
   ///////              ノ,,
  ///////     ∧_∧         / ̄ ̄ ̄ ̄ ̄ ̄
  ///////     ( ´∀`)( 厨 ) )) <  夏だなあ〜
 ///////      (つ へへ つ      \______
///////   //△ ヽλ  ) ) 旦
//////  l ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄l
/////    ̄| .| ̄ ̄ ̄ ̄ ̄ ̄ ̄| .| ̄
////     ^^^          ^^^
506デフォルトの名無しさん:2008/07/24(木) 23:29:12
>>500
コイツ、バッチファイルのスレで誰にも相手にしてもらえないから
こんなスレを荒らしてやがる。
507デフォルトの名無しさん:2008/07/29(火) 07:43:38
↓メタ夏厨議論どうぞ
508デフォルトの名無しさん:2008/07/30(水) 06:59:11
Unicode は、夏厨
UTF-8 は、メタ夏厨議論
509デフォルトの名無しさん:2008/07/30(水) 15:04:31
UNICODE: 数社の企業が決めたもの、使用できる文字とその番号を定義。
UCS: 国際標準、内容はUNICODEとほほ同じ
UTF: UNICODEやUCSをコンピュータ上に表現するための仕組み

この認識あってる?

UNICODEとUCSってのはJavaScriptとECMAScriptの関係に似てるんかねぇ。
510デフォルトの名無しさん:2008/07/30(水) 17:01:28
コンソーシアムとその規格が Unicode
国際標準規格が ISO/IEC 10646

そしてそのそれぞれで UCS とか UTF とか定義してる
511デフォルトの名無しさん:2008/07/30(水) 17:16:04
ISO/IEC 10646の名称(の頭文字とったもの)がUCSだろ。
509の理解で合っているぞ。
512デフォルトの名無しさん:2008/07/30(水) 18:07:10
大は小を兼ねるんだから、
Shift-JistとEUCもこれからはUTF-8で扱えばすべて解決。
ユニックス派のカタブツはEUCにこだわるからいけない
513デフォルトの名無しさん:2008/07/30(水) 19:32:12
文字集合は大は小を兼ねてるけど符号化方式が違ってるだろ
514デフォルトの名無しさん:2008/07/30(水) 19:47:50
最近のUNIXなら、日本語環境でもだいたいUTF-8だと思うが。
515デフォルトの名無しさん:2008/07/30(水) 20:54:34
>>512
むしろS-JISの方が圧倒的に量が多くて、移行できないだろ。
516デフォルトの名無しさん:2008/07/31(木) 02:18:53
>>509
> この認識あってる?

間違ってます。
517デフォルトの名無しさん:2008/07/31(木) 09:20:32
>>516
kwsk
518デフォルトの名無しさん:2008/07/31(木) 13:25:21
>>517
間違ってますなんて書くだけの奴に詳しく説明できるほどの根拠なんかあるわけ無いだろ。
ちゃんと根拠があって指摘してるなら>>510 のようにはじめから書くしな。
519デフォルトの名無しさん:2008/08/01(金) 06:28:17
>>518
「間違ってますなんて書くだけの奴に詳しく説明できるほどの根拠なんかあるわけ無い」
「ちゃんと根拠があって指摘してるなら>>510 のようにはじめから書く」
そう考える根拠は?

あ、そうか、根拠をはじめから書いていない奴には、詳しく説明できるほどの根拠が無いんだっけ。
ごめんごめん、訊くだけ無駄だった。
520デフォルトの名無しさん:2008/08/01(金) 09:08:55
>>519
まあ、その、なんだ、悪かったよ…。図星つかれてレスもまともに読めなくなるほど泣く
とは思わなかったんだよ。もう言わないから勘弁してくれ、な?
521デフォルトの名無しさん:2008/08/01(金) 09:25:39
泣かしたな悪者め
522デフォルトの名無しさん:2008/08/01(金) 10:47:03
子ども泣かすの良くない
523デフォルトの名無しさん:2008/08/01(金) 11:21:50
><
524デフォルトの名無しさん:2008/08/01(金) 20:07:25
   、_人_人_人_人_人_人_人_人_人_人_人_,
  、_)                       (_
   _)  夏   厨   警   報  !! (_
   _)                     (
   '⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒Y⌒`
                   //
           ヘ,(゚∀゚)y'^     アーヒャ ヒャ ヒャ ヒャ ヒャ
          、  _L_;二;_.j_  , \\
           ̄ ト、~Y~,/| ̄
             ,|yΛ=スイ|、   アーヒャヒャヒャ   _
             ' | | !;∀Y i| `          /##;〉
           |イYト〉イY.|           /  ̄
   アヒャヒャ     レYy'`vレ|     ヽ(゚∀゚ )ノ
            Vy  V'       (夏 )ヘ
   ヽ( ゚∀゚)ノ               <
     ( 夏)ヘ
     <
525デフォルトの名無しさん:2008/08/01(金) 20:51:53
>>520
夏のどさくさに紛れて、そういうキャラ付けで逃げるのはよくないよ。気持ち悪いし。
526デフォルトの名無しさん:2008/08/02(土) 00:49:27
鸚鵡返し、人格攻撃はスレが機能しなくなるからやめようよ・・・
527デフォルトの名無しさん:2008/08/02(土) 09:11:38
>>516>>509に対して説明すれば済むだけの話。
528516:2008/08/03(日) 21:29:00
529デフォルトの名無しさん:2008/08/04(月) 01:36:40
本来は
Unicode ⊂ UTF-8
であることは明白だが、

事Windows OSではUTF-16の事を単にUnicodeと表記するので、
Windows上では
Unicode ≠ UTF-8
とも言える
530デフォルトの名無しさん:2008/08/04(月) 10:02:52
釣りですか
531デフォルトの名無しさん:2008/08/04(月) 14:51:21
ググれカス
532デフォルトの名無しさん:2008/08/04(月) 21:52:42
ネタにマジレス( ´;゚;ё;゚;)きんも〜☆彡
533デフォルトの名無しさん:2008/08/05(火) 04:13:34
   【JISコード】
デコード↑/↓エンコード
     シフトJIS
      EUC

   【ユニコード】
デコード↑/↓エンコード
     UTF8
UTF16LE/UTF16GE
     UTF32

     【音声】
デコード↑/↓エンコード
      WAV
      MP3
      WMA

    【ビデオ】
デコード↑/↓エンコード
      AVI
      MPG
      FLV
534デフォルトの名無しさん:2008/08/05(火) 05:55:43
全角で書く奴って、やっぱりアレだな…
535デフォルトの名無しさん:2008/08/05(火) 06:28:39
ときに、UTF16GEってなんだろ。
536デフォルトの名無しさん:2008/08/05(火) 07:17:57
デコードした先がコードとは何ともかんとも
537デフォルトの名無しさん:2008/08/05(火) 09:48:19
>>535
ゲルググエンディアン
538デフォルトの名無しさん:2008/08/05(火) 12:00:16
あまりの非の打ち所の無い完璧な説明なため
全角や誤字しかツッコミどころが無いな。
539デフォルトの名無しさん:2008/08/05(火) 13:13:37
確かにゲルググエンディアンは完璧だ
540デフォルトの名無しさん:2008/08/05(火) 14:10:58
コンテナはどうなんだ
541デフォルトの名無しさん:2008/08/05(火) 23:19:58
>>533
おい大漁だなw
やったじゃねーかw

>>533-539
釣られまくり乙
542デフォルトの名無しさん:2008/08/06(水) 02:34:28
全角と誤字以外のツッコミは無いのかい?
543デフォルトの名無しさん:2008/08/06(水) 11:32:08
へんなのが住みついたね
544デフォルトの名無しさん:2008/08/06(水) 13:00:18
夏だね。
545デフォルトの名無しさん:2008/08/06(水) 16:11:48
そろそろ秋だよ
546デフォルトの名無しさん:2008/08/06(水) 16:16:05
暦の上でどうだろうと、今は夏真っ盛りだ
547デフォルトの名無しさん:2008/08/07(木) 02:01:12
では、全角と誤字以外には非の打ち所の無い
カンペキな「Unicode と UTF-8 の違い」の解答という事で
無事にこのスレを閉じたいと思います。
みなさん、長い間ごくろうさまでした。
548デフォルトの名無しさん:2008/08/07(木) 02:16:28
お疲れさまでした。
549デフォルトの名無しさん:2008/08/07(木) 02:35:31
先生の次回作にご期待ください。
550デフォルトの名無しさん:2008/08/07(木) 04:19:12



    世 界 迷 作 劇 場


                おわり
551デフォルトの名無しさん:2008/08/07(木) 21:56:12
思ったこと。
・広義の「ユニコード」はUTF-8等の規格を含めることがあるので不正確
>>536指摘済みだけど、音声のenc/decと、文字のenc/decを一緒にするのは
 違和感あり。JISコードは既に「符号(コード)化」されてるから。
 俺的には
  音楽→(量子化)→PCM→(各種圧縮)→MP3 の3段階が
  文字→符号化文字集合→テキストエンコーディング に対応する感じ
・AVIって格納形式の概要だけ決まってて、圧縮アルゴリズムは別じゃなかった?
552デフォルトの名無しさん:2008/08/07(木) 22:59:54
狭義のユニコードっていうのはM$が決めつけたUnicodeのことか?
例えば、ttp://msdn.microsoft.com/ja-jp/library/ms191200.aspx
>Unicode 仕様は 2 バイトを使用して 1 つの文字をエンコードすることでこの問題を解決しました。2 バイトには 65,536 個のパターンがあるため


つーか、広義も狭義もねーよ。バーヤ。
553デフォルトの名無しさん:2008/08/08(金) 00:08:21
まだやる気か?
554デフォルトの名無しさん:2008/08/08(金) 01:50:13
>>552
MSが決めつけたというよりも、まだUTF-8もサロゲートペアもなかった昔を引きずっているだけ。
555デフォルトの名無しさん:2008/08/08(金) 04:17:35
サロゲートペア厨必死だな。無視されてんのによw
556デフォルトの名無しさん:2008/08/08(金) 09:21:22
サロゲートペアは、32bit wchar_tの入り口ですよ。
557デフォルトの名無しさん:2008/08/08(金) 09:33:01
マイクロソフトで統一すれば市場に一致して解決
558デフォルトの名無しさん:2008/08/08(金) 09:38:44
けど駄目仕様に駄目実装が蔓延ると思うよ
競合いてもあれだもん
559デフォルトの名無しさん:2008/08/08(金) 10:57:45
結論
>>1みたいなのが現れるのはMSが糞だから
560デフォルトの名無しさん:2008/08/08(金) 11:58:30
何でも他人のせい、日本のせいにする人たちみたいですね。
561デフォルトの名無しさん:2008/08/08(金) 12:35:44
批判だけならパートのおばちゃんでも出来る。
問題は、どう改善すべきか、改善するに当たって
予算・人員・スケジュールをどう工面するのか、だ。
それを何一つ提示していない。
おまいら、パートのおばちゃん以下のクズ。
562デフォルトの名無しさん:2008/08/08(金) 14:04:35
その理屈だとパートのおばちゃんと同等であって以下とは読み取れないが
563デフォルトの名無しさん:2008/08/08(金) 22:59:01
少なくともパートのおばちゃんは働いてるからな
                   ^^^^^^^^^
564デフォルトの名無しさん:2008/08/09(土) 00:51:35
>>552
マイクロソフトの言うUnicodeはエンコーディングの一つでしょ。>>533からの
流れからして
協議:符号化文字集合としてのUnicode
広義:符号化文字集合およびそのエンコーディング仕様。Unicode規格
以外の解釈はありえんと思うが。このスレ>>14ぐらいまで読み直せ。
565デフォルトの名無しさん:2008/08/09(土) 04:22:32
だからわざと、マイクロソフトのUnicodeと区別するためにカタカナで【ユニコード】と書いたがな。
566デフォルトの名無しさん:2008/08/09(土) 07:01:57
お前ら、紛らわしいと思わないのか?
MSは正義だからOKとか、思考停止杉。
567デフォルトの名無しさん:2008/08/09(土) 08:34:38
え、誰か「MSは正義」とか言ってる?
その脳内設定が、お前の思考停止なんじゃないの?
思春期のオトコノコの「自分以外はみんなバカ症候群」みたい。
568デフォルトの名無しさん:2008/08/09(土) 09:53:28
>>567
>>557

>思春期のオトコノコの「自分以外はみんなバカ症候群」みたい。
569デフォルトの名無しさん:2008/08/09(土) 11:23:13
> お前ら

たった一人書いてただけで、「お前ら」か。
知ってる?「デフォルトの名無しさん」は全部同一人物なんだぞ。
570デフォルトの名無しさん:2008/08/09(土) 13:07:27
以下でOK?

・(文字集合としての)Unicode
扱う文字の一覧を定めて、識別用に符号をつけたもの。
「あ」=U+3042、「A」=U+0041・・・

・UTF-8
Unicodeの文字列を電子データとして扱う際の表現を定める「エンコーディング」の一つ。
あA(U+3042 U+0041)→E3 81 82 41

エンコーディングの他の例としてシフトJIS・UTF-16 BE・マイクロソフトのUnicode 等がある。
よってUnicodeとは
 1. 符号化文字集合の一つ
 2. 文字コードの規格
 3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
の3つの意味があり、一方UTF-8は、エンコーディングの一つとしての意味しかない。
571デフォルトの名無しさん:2008/08/09(土) 13:21:53
>>570
> よってUnicodeとは
>  1. 符号化文字集合の一つ

こんな使い方はない。

>  3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい

アホドキュメント、アホアプリは無視するのがいい。
572デフォルトの名無しさん:2008/08/09(土) 13:24:33
×符号化文字集合
○文字集合
だよね?
MSは無視できないほど規模があるのが憎たらしくて困ったチャンなわけで。
573デフォルトの名無しさん:2008/08/09(土) 13:39:23
「マイクロソフトの」と書いているが、
まともなドキュメントもあるわけで…
メモ帳の文字コード選択ウィンドウとかそういう部分的なことで、
>  3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
を言葉の定義の一つに同列に並べてるのは馬鹿っぽいね。
574デフォルトの名無しさん:2008/08/09(土) 13:42:08
>>573
メモ帳もUnicode/Unicode big endianだけど。
575デフォルトの名無しさん:2008/08/09(土) 13:52:08
とりあえず「UTF-8にBOM」という意味がわからん表現はやめて欲しいもんだ
576デフォルトの名無しさん:2008/08/09(土) 15:01:15
>  3. マイクロソフトのエンコーディングの一つで、UTF-16 LEに等しい
典拠は?

>>552だけ?
これってSQL Server 2005のドキュメントだよね?
577デフォルトの名無しさん:2008/08/09(土) 15:32:53
>>576
Office XP リソース キット
Unicode サポートと多国語ドキュメント
ttp://msdn.microsoft.com/ja-jp/library/cc389880.aspx
>Unicode では、どの文字に対しても 2 バイトからなる固有のエンコードが割り振られます。
578デフォルトの名無しさん:2008/08/09(土) 15:51:22
やっぱりアプリ屋はフレームワーク屋よりレベル低くなるね。
周辺技術の知識については。
579デフォルトの名無しさん:2008/08/09(土) 16:21:00
抱き合わせ販売禁止

というのが文字コード氾濫を招いた。

最初からOSとセットで組まれていれば文字コードはマイクロソフトのやつがスタンダードになって
ユーザーはいくつものコードに悩まされることがなかった
580デフォルトの名無しさん:2008/08/09(土) 23:37:35
Shift JISで悩まされてた人って多いんじゃないの?
581デフォルトの名無しさん:2008/08/10(日) 02:42:19
>>572
「符号化文字集合」でいいのでは?
文字の集合を定義して、各文字に対して符号化表現(例:A=U+41)を規定してるから。
582デフォルトの名無しさん:2008/08/10(日) 02:59:24
「符号化文字集合」の定義はJIS/ISOとW3C/IETFですら違うからどちらのつもりなのか
くらいはっきりさせろ
583デフォルトの名無しさん:2008/08/10(日) 05:13:31
>>580
それで悩むのはUNIX屋だけ。
584デフォルトの名無しさん:2008/08/10(日) 07:29:26
>>579
えーっとどこから突っ込めば?(笑)

つーか貧弱な16bitマシンで日本語とかやろうとしてShiftJISなんてもんをつくったとこからおかしくなってるよなぁ、いろいろと。
585デフォルトの名無しさん:2008/08/10(日) 07:57:24
>>583
携帯メール入れるとどのプラットフォームも悩ましいのでは?
586デフォルトの名無しさん:2008/08/10(日) 09:20:58
>>584
しかも、SJIS作ったの誰だ?って話だよな。
587デフォルトの名無しさん:2008/08/10(日) 10:57:11
当時の状況を考えれば仕方ないかんじだろ
一文字16bitなんて贅沢の極み
588デフォルトの名無しさん:2008/08/10(日) 12:24:15
贅沢の極み。と言ってた人が、
年金記録問題を予見できなかったんだろうな〜。
氏名をカナで管理ってありえねーよ。
589デフォルトの名無しさん:2008/08/10(日) 14:08:27
むしろカナしかないだろ
590デフォルトの名無しさん:2008/08/10(日) 22:24:23
仮に漢字を使っていたとしてもやっぱり年金問題は起こっていたと思う。
略字正字の入力がずさんだとか、読み方分かんなくてうやむやにデータ入力するとか。
591デフォルトの名無しさん:2008/08/11(月) 20:51:33
氏名に漢字をつかえば
全国のグリーンピアは莫大な赤字を抱えずに済んだのだろうか?
592デフォルトの名無しさん:2008/08/11(月) 21:56:05
グリーンピアって暴力団が接待するための専用設備だろ
593デフォルトの名無しさん:2008/08/12(火) 00:30:44
年金台帳の問題って朝鮮脳が主犯ぽいな
594デフォルトの名無しさん:2008/08/12(火) 17:49:01
>>588

昔はカタカナと英数しか印刷できないプリンタがほとんどで、
漢字やひらがなな印字できるプリンタは「漢字」プリンタとか
「日本語」プリンタとか名前が付いて特別扱いされてたのさ
595デフォルトの名無しさん:2008/08/12(火) 17:52:16
>>594
それを最初から分かってて、あえてコンピュータで管理しようとしたんだろ?
もうアフォとしか言いようが無い。
596デフォルトの名無しさん:2008/08/12(火) 18:34:30
いやいや、当時でも立派に稼動してたシステムはあるさ。
597デフォルトの名無しさん:2008/08/12(火) 20:21:19
>>595
そういう問題じゃないだろ。
アホかよw
598デフォルトの名無しさん:2008/08/12(火) 23:19:25
>>595
現代からだったらなんとでも言えるよ。
例えば、将来DNAを登録出来る、確実に本人に紐付けられるシステムが出来たとして、
「昔は」名前を登録するだけしか出来なかったんだと。
で、
> それを最初から分かってて、あえてコンピュータで管理しようとしたんだろ?
> もうアフォとしか言いようが無い。
と言うようなもんじゃないか?
599デフォルトの名無しさん:2008/08/13(水) 03:49:07
官公庁では今でも”「漢字」プリンタとか「日本語」プリンタとか”を使ってるね。
こないだ海上自衛隊の護衛艦を見学する機会があったが
艦内に古めかしい漢字プリンタが鎮座ましましておられた。
600デフォルトの名無しさん:2008/08/13(水) 03:53:16
何を調達するにしても防衛スペックの準拠を求められるからね
それがかなり無茶苦茶な要求だったりするから一度通った物は三十年前の図面でもそのまま流用する。
601デフォルトの名無しさん:2008/08/13(水) 07:57:01
いやぁ、防衛省関連はそんなもんじゃないよ。「スペックの準拠」じゃなくて他のものが要求されているんだ。判るだろ?w
602デフォルトの名無しさん:2008/08/19(火) 15:12:27
幹部用最新PC一式(個人宅へ配送。伝票は廃棄のこと)なのか
ケツの穴なのか。
603デフォルトの名無しさん:2008/08/19(火) 22:39:57
>>602
んにゃ、世間をにぎわした件とか、○○システムと抱き合わせとか。
604デフォルトの名無しさん:2008/08/31(日) 02:27:12
VB6.0が受け取るコマンドラインはどんな文字コードでもいいんだろうか。
VB.NETアプリからVB6.0アプリをコマンドライン付きで呼び出すとコマンドラインはUTF-8でわだすが
しかしVB6.0はShift-Jisじゃないと扱えないし
どうなっとるんじゃ
605デフォルトの名無しさん:2008/08/31(日) 04:55:33
>>604
VB6の内部コードはUTF-16LE
しかしエディタではsjisという素敵仕様
606デフォルトの名無しさん:2008/08/31(日) 10:15:36
いや、それは知ってて、
とりあえず、コマンドラインでユニコード文字のトランプ図柄をVB6.0アプリに送ってみるとどうなるよ
607デフォルトの名無しさん:2008/08/31(日) 10:59:37
VB6はそこ等辺の境界で勝手に文字コード変換しまくる
どんな仕様かはもう使ってないから忘れた
608デフォルトの名無しさん:2008/09/03(水) 01:22:45
>VB.NETアプリからVB6.0アプリをコマンドライン付きで呼び出すとコマンドラインはUTF-8でわだすが
というか、これが訳わからん。
VB.NETのエンコーダ選択が間違っとるんでないの。
609デフォルトの名無しさん:2008/09/03(水) 01:50:50
コマンドラインをUTF-8で渡すって言うのが俄に信じがたいな
610デフォルトの名無しさん:2008/09/04(木) 20:12:13
VB6だろうと何だろうとエントリポイントはWinMainかwWinMainな訳で、
UTF-8なんてあり得ん。OSの仕組みをよく考えろ。
アプリがWinMainの時はOSがシフトJISで渡し、アプリがwWinMainの時は
OSがUTF-16で渡してくる。
611adsl-75-61-122-97.dsl.pltn13.sbcglobal.net :2008/09/22(月) 09:06:03
>>610
WinMainとかを呼ぶのはランタイムだろうに……
コマンドライン取得もランタイムが GetCommandLine() で取得
してるので、OS がやっているわけではないよ。
612デフォルトの名無しさん:2008/09/22(月) 10:14:59
>>611
専ブラ、アップデイトしろよ。
613デフォルトの名無しさん:2008/09/22(月) 16:03:59
>>612
実はアップデートテストをかねて書きこんだんだけど
うまくいってなかったみたい :-)
614デフォルトの名無しさん:2008/10/30(木) 09:34:52
>>100あたりでようやく判った。

http://www.atmarkit.co.jp/fxml/askxmlexpert/024utf/24utf.html

これも判りやすかった。
615デフォルトの名無しさん:2008/10/30(木) 09:51:55
>>100は微妙に誤解を産む表現だぞ。
UTF-16は、16bit単位が一つか二つで一文字。
32bitじゃない。BEとLEがあるからこの違いは本質的。
616デフォルトの名無しさん:2008/11/01(土) 22:53:49
えぇぇぇぇ?16ビット2つで32ビットじゃ無いの?
もしそうなら、128ビット暗号とか、32ビットCPUじゃ絶対に扱えないじゃん。
617デフォルトの名無しさん:2008/11/01(土) 22:55:27
32bitの文字一文字と
16bitの文字二文字ではビットの並びが違う

という事を言いたかったんではないかと
618デフォルトの名無しさん:2008/11/02(日) 12:13:27
>>617
釣りにマジレス
619デフォルトの名無しさん:2008/11/02(日) 21:53:17
「ビットの並び」 なんて言ってる時点でアフォ丸出し。
同じ値をあらわす32ビットの数値であっても、
ディスクファイル上とメモリー上とCPU内部のALUとでは
ぜんぶ同じとは限らん。
620デフォルトの名無しさん:2008/11/02(日) 22:16:27
意味がわからんならレスしなくていいよ
621デフォルトの名無しさん:2008/11/03(月) 00:46:47
会話の粒度を間違う奴ってどうしようもないよな。
一番細かい視点に立つ自分が一番確かで賢い話をしていると勘違いするし。
622デフォルトの名無しさん:2008/11/04(火) 02:55:18
>>620
>>621
だから釣りだって
623デフォルトの名無しさん:2008/11/04(火) 11:55:41
Numberを略すとなんでNoになるん?
624デフォルトの名無しさん:2008/11/04(火) 13:28:20
>>623
Numberを略しているんじゃなくて、MiddleEnglishのnombreの略かラテン語のnumeroの略なんでしょ。
625デフォルトの名無しさん:2008/11/04(火) 16:09:55
626デフォルトの名無しさん:2008/11/04(火) 21:46:18
AをBにコピーできない。
AがBにコピーできない。
どちらも同じ意味?正しい日本語?
627デフォルトの名無しさん:2008/11/04(火) 21:51:48
>626
後者はあまり正しい日本語ではないね。
628デフォルトの名無しさん:2008/11/18(火) 23:25:51
> AがBにコピーできない。

AがBにコピーされない。 
だと違和感少ないけど意味違っちゃうか。

ところでこれはスレとなんか関係あるのか?
629デフォルトの名無しさん:2009/01/17(土) 07:21:45
hosiyu
630デフォルトの名無しさん:2009/01/18(日) 09:02:26
 
631デフォルトの名無しさん:2009/06/12(金) 01:37:33
utf-8nってなんなの?
632デフォルトの名無しさん:2009/06/12(金) 08:55:14
BOMなし
633デフォルトの名無しさん:2009/06/12(金) 20:15:32
勝手にBOMをつけるエディターってなんなの?
イヤガラセなの?
634デフォルトの名無しさん:2009/06/13(土) 03:41:22
javaコンパイラ javac はソースコードに BOM が付いてるとエラーを出す。
eclipseのjavaソーコードエディタは BOM が無いと文字化けする。

うんこ
635デフォルトの名無しさん:2009/07/16(木) 11:20:59
UTF-8っていつ発生したんだっけか?
636デフォルトの名無しさん:2009/07/16(木) 11:47:06
そんなことよりUFT-8にBOMをつけた基地外を知りたい
637デフォルトの名無しさん:2009/07/16(木) 11:50:15
オレも知りたいわ、それ
638デフォルトの名無しさん:2009/07/16(木) 11:54:07
BOMがバカ正直に付いてるのは、Windowsのテキストファイルだけだと思うお。
Mac OS X とか付けないっぽいw
639デフォルトの名無しさん:2009/07/16(木) 12:04:46
バカ正直ならBOM付いてるUTF-8は不正として開かないだろ
折角のバイトストリームに先頭の概念持ち込むとか基地外にも程がある
そんなゴミ以下の物付けるならせめて文字長位は格納できる様にしとけって話だな
640デフォルトの名無しさん:2009/07/16(木) 12:47:05
>>635
UNIXを作ったKen Tompson大先生が1992/09/02に考えた。
http://www.cl.cam.ac.uk/~mgk25/unicode.html#history
641デフォルトの名無しさん:2009/07/16(木) 12:58:22
d

UNIX作った人たち天才。
642デフォルトの名無しさん:2009/07/16(木) 13:00:32
先頭にZERO WIDTH SPACEがあるUTF-8テキストが不正だとは知らなかった
これからはエラーを吐くようにしないと
643デフォルトの名無しさん:2009/07/16(木) 13:14:22
>1992/09/02

WinNT3.1って1994年発売だし、UTF-8にしとけば良かったのにね。
なんでUTF-16(だよね?)にしたんだろ。
644デフォルトの名無しさん:2009/07/16(木) 13:39:19
後からならどうとでも言える典型だなw
645デフォルトの名無しさん:2009/07/16(木) 13:42:11
とは言っても、
言語の変数レベルに侵食する
超巨大な問題&選択なんだけど。

BeOSとかLinux新ディストリとかはUTF-8な希ガス。
646デフォルトの名無しさん:2009/07/16(木) 14:12:55
可変バイトだと文字列処理が遅くなりそうでや
UTF-32がいい
647デフォルトの名無しさん:2009/07/16(木) 17:04:03
>>646
まさにその理屈で、Windows NTやJavaは16ビットになったんだろ。
まだ当時の欧米人は16ビットで足りると思っていたみたいだからね。

ところで、結合文字列があるから、まじめにテキスト処理しようとすると
UTF-32にしたところでちっとも固定長として扱えない罠。
648デフォルトの名無しさん:2009/07/16(木) 17:21:57
そこで
UTF-4
でつよ
649デフォルトの名無しさん:2009/07/16(木) 17:22:56
もとい
UTF-64
でつよ
650デフォルトの名無しさん:2009/07/16(木) 17:45:08
>>649
3文字以上からなる結合文字列は?
651デフォルトの名無しさん:2009/07/16(木) 20:08:38
結局いろいろ加味するとUTF8が最強なのかね
652デフォルトの名無しさん:2009/07/16(木) 20:11:09
結合で全ての文字を表せるとか言い張ったUnicodeは馬鹿の仕様
そんな糞仕様を包括できるUTF-8は神の仕様
基地外のつけたBOMすら許容できる懐の深さは計り知れない
653デフォルトの名無しさん:2009/07/16(木) 20:38:06
母国語EUCにサロゲートペア付けた符号化が最強
そう云う意味でラテン文字圏ではUTF-8が最良なのは事実だね
654デフォルトの名無しさん:2009/07/16(木) 20:42:09
とりあえず、標準では何を使えばいいのか決めてくれ。
655デフォルトの名無しさん:2009/07/16(木) 23:22:52
バカ言うな。
BOM無しでいったいどうやって ISO8859 と UTF8 を区別できるんや!
ラテン文字市ね!
656デフォルトの名無しさん:2009/07/16(木) 23:31:58
>>653
その最強様は文字境界問題とか仕様レベルで解決してるの?
可変長だがストリームとして扱えないとかゴミじゃない?
657デフォルトの名無しさん:2009/07/17(金) 09:09:39
Fの女SE(笑)がUnicodeのこと丸で知らなくて引いたな。
658デフォルトの名無しさん:2009/07/17(金) 09:21:23
そんなの不実でつ
659デフォルトの名無しさん:2009/07/17(金) 09:43:05
大丈夫、某芝の言語処理のSEがUTF-8を知らないくらいだから。
660デフォルトの名無しさん:2009/07/17(金) 09:45:21
つーか、もうユニコードやめて欲しい。
661デフォルトの名無しさん:2009/07/17(金) 09:45:29
丸投げかと思っていたがUnicode知らなくて困るくらいの仕事はしていたのか
662デフォルトの名無しさん:2009/07/17(金) 10:07:22
>>660
同意だが、もう_
663デフォルトの名無しさん:2009/07/17(金) 10:15:49
サロゲートを埋め尽くした後で、真UTF-32を作ればいいじゃん。
664デフォルトの名無しさん:2009/07/17(金) 10:21:27
>真UTF-32

誰も欲しがってない希ガス。

古いメインフレームとかで文字列サイズ計算に有難がられただけで、
ウェブアプリ時代になって、文字列はどれだけでも入れれるのが当たり前で、
1文字長が完全固定ってことが特に要求されない。
665デフォルトの名無しさん:2009/07/17(金) 12:16:53
不満を並べるだけなら、15歳少年にだってできる。
建設的な意見、代替案は出せないのか?
ユニコードに代わるものを発案して、規格化して、世界中に普及させろや。
それができないなら、おまいら15歳少年と同じ。
666デフォルトの名無しさん:2009/07/17(金) 12:21:51
今その権力を蓄えてる。
667デフォルトの名無しさん:2009/07/17(金) 12:28:25
>>665
自分は権威にすがるだけの高2病定番レスだなw
668デフォルトの名無しさん:2009/07/17(金) 12:51:05
何かのブラウザかエディタであたかも無関係なものとしてエンコードリストに載ってるのがあれだね
669デフォルトの名無しさん:2009/07/17(金) 19:05:53
で?
建設的な意見は?
670デフォルトの名無しさん:2009/07/17(金) 23:09:14
64bitOSが主流になるとUTF-64とか使われるようになるのかね
671デフォルトの名無しさん:2009/07/17(金) 23:23:26
リトルインディアンとビッグインディアンは
何が小さくて大きいんだ?
672デフォルトの名無しさん:2009/07/17(金) 23:40:23
>>670
そんなもん、そもそも定義されていないから。
673デフォルトの名無しさん:2009/07/18(土) 00:37:14
>>671
お前の家の冷蔵庫に玉子はあるか?
あったら、小一時間ぐらい眺めてみるんだ。
674デフォルトの名無しさん:2009/07/18(土) 01:03:42
ウチは横からだ
675デフォルトの名無しさん:2009/07/18(土) 10:28:22
リトルインディアンとビッグインディアン

16階建てのビルを
右に倒すか
左に倒すか
の違い
676デフォルトの名無しさん:2009/07/21(火) 11:16:31
×インディアン
○エンディアン

>>675
ミドルエンディアンは?
677デフォルトの名無しさん:2009/07/21(火) 16:04:17
×アップル
○アポー
678デフォルトの名無しさん:2009/07/21(火) 16:44:31
×ミドルエンディアンは?
○ミディアムポインターは?
679デフォルトの名無しさん:2009/07/21(火) 16:56:42
>>677
釣りはいいから。まさかとは思うが、エンディアンとインディアンが同じ単語だと思っていないよね?

>>678
--
ウェブ全体から検索 日本語のページを検索

ウェブ検索ツールを閉じる検索ツールを表示
"ミディアムポインター"との一致はありません。
--
何それ?
680デフォルトの名無しさん:2009/07/21(火) 17:00:44
>ミディアムポインター

ファーポインターとニアーポインターの混ざる
リンクライブラリのミディアムモデルってのがあった。
681デフォルトの名無しさん:2009/07/21(火) 17:07:19
ミドルエンディアンは聞いたことあるし、
タイニー、スモール、コンパクト、ミディアム、ラージ、ヒュージのメモリモデルも
思い出したくない思い出だが、
ミディアムポインターってのは初耳だな。
682デフォルトの名無しさん:2009/07/26(日) 01:55:17
よく分かってないんだけど

wchar_t str[] = L"日本語";

これってUTF-16なの?
683デフォルトの名無しさん:2009/07/26(日) 03:39:24
Windowsでは9割9分9厘UTF-16。

ただ、一般にそうとは決まっていない。LinuxとかではUTF-32。
CやC++の標準規格ではそもそもUnicodeであることすら要求していない。
684デフォルトの名無しさん:2009/07/26(日) 10:39:59
今はどうだか知らないけれど Solaris とかだと wchar_t は
32 bit 表現の EUC だったような。
685デフォルトの名無しさん:2009/07/27(月) 00:54:00
>>684
そっちはlocale依存なんじゃね?
686デフォルトの名無しさん:2009/07/27(月) 01:17:38
一文字に16bitしか使わないときのUTF-16の値はUnicodeコードポイントにイコール?
687デフォルトの名無しさん:2009/07/27(月) 03:17:39
んなもん人に聞くな
688デフォルトの名無しさん:2009/07/27(月) 04:31:48
確かに。
アイちゃんに問いかけるべきだ
689デフォルトの名無しさん:2009/07/27(月) 10:09:38
>>682 >>683 >>684 >>685
つまり、標準C/C++でも、Lは規定されてて、
Lの後の文字列はLocaleで決めて下さいね、
って意味?
690デフォルトの名無しさん:2009/07/27(月) 13:33:30
コンパイラによって違う
691デフォルトの名無しさん:2009/07/27(月) 13:41:24
なるほど。

でもC/C++の文法的に、Lは存在するわけですね。
692デフォルトの名無しさん:2009/07/27(月) 15:26:35
> C/C++の文法的に、Lは存在するわけですね。

もちろん。
693デフォルトの名無しさん:2009/07/27(月) 17:03:20
すべては.NETに文字コードを自動判別するクラスがないのが悪い?
694デフォルトの名無しさん:2009/07/27(月) 17:45:03
.NETイラネ
695デフォルトの名無しさん:2009/07/28(火) 18:25:38
結局C/C++文法的には、LはLocaleなの?UNICODE指定なの?
人に説明するときのために知っておきたい。
696デフォルトの名無しさん:2009/07/28(火) 18:41:15
long
697デフォルトの名無しさん:2009/07/28(火) 18:48:56
ワイドキャラクターなのに Long の L とは。
数値型の int/ling の ling とまぎらわしいよね。
実際、1文字が int 幅なのか long 幅なのかはコンパイラ次第。
698695:2009/07/28(火) 18:52:19
d

Localeと間違えて恥かくとこダタwww
699695:2009/07/28(火) 18:54:06
>ワイドキャラクターなのに Long の L とは。

long型じゃなくて、長いって意味なのね、サンクツ。
危うく「2バイトだからlong」って新人でも間違えないような事言って疑われるところだったwwwww
700デフォルトの名無しさん:2009/07/31(金) 23:18:46
700
701701:2009/08/01(土) 08:52:48
このスレッドは700を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
702デフォルトの名無しさん:2009/08/01(土) 21:48:25
702
703デフォルトの名無しさん:2009/08/02(日) 10:38:43
utf-8ってアジア圏涙目じゃねーかw
704アメリカ人:2009/08/02(日) 12:54:02
なんで東洋のわけわかめな文字を使ってる連中のために俺たちがコストを払う必要が
あるんだよ。一応使えるようにしてあるんだから文句言うな。ヨーロッパの連中?
お前ら同じ文字使えねぇなら少し苦労しろよ。
705デフォルトの名無しさん:2009/08/09(日) 10:49:26
VHFとかUHFってなに?
706デフォルトの名無しさん:2009/08/09(日) 20:52:04
まあなポーランドとかスウェーデンのキーボードでC/C++のソースを
打ち込むと涙目なんだってな

俺らが見ると暗号にしか見えないらしい
707デフォルトの名無しさん:2009/08/11(火) 20:16:21
>>706
ただのトライグラフじゃなくって?

>>705
VeryHighFrequency
UltraHighFrequency
708デフォルトの名無しさん:2009/08/14(金) 13:06:59
用語おかしいよね。
ELF : Extremely low frequency : 極限に低い周波数
SLF : Super low frequency : 超超低い周波数
ULF : Ultra low frequency : ちょー低い周波数
VLF : Very low frequency : とっても低い周波数
LF : Low Frequency : 低い周波数
MF : Medium Frequency : 中ぐらいの周波数
HF : High Frequency : 高い周波数
VHF : Very High Frequency : とっても高い周波数
UHF : Ultra High Frequency : ちょー高い周波数
SHF : Super High Frequency : 超超高い周波数
EHF ] Extremely High Frequency : 極限に高い周波数
709デフォルトの名無しさん:2009/08/14(金) 13:32:52
VHFの上にUHFを命名した後、それより上のネーミングに困ってアルファベットの逆順と言うルールを作ったとか。
日本語名がまた揮っていて、HFが短波、以下VHF:超短波、UHF:極超短波、SHF:極極超短波だったり。
710デフォルトの名無しさん:2009/08/15(土) 22:08:18
PC98のconfigなんとかとオートエグゼドエグゼスなんちゃらは
なんの文字コードでかいたらえんだ?
711デフォルトの名無しさん:2009/08/15(土) 22:53:34
Shift_JIS
712デフォルトの名無しさん:2009/08/16(日) 02:41:34
cp932
713tor.rootkit.de:2009/08/17(月) 17:57:37
自動焼人 ★ = 自動保守 ◆KAWORUKOFI = 自動保守#K9K?_D[L

名言集 その3
『いつもサボってばかりのキャップがウゼえ』

http://yutori7.2ch.net/test/read.cgi/news4vip/1249830540/ ID:PVAf+dux0 = 自動焼人 ★
> 71 :以下、名無しにかわりましてVIPがお送りします [sage] :2009/08/10(月) 00:58:57.28 ID:PVAf+dux0
> >>69
> 大変って言うか
> 毎日、報告されたのを見て、判断して、処理して、完了報告して、以下ループ。
> ちょっとでもミスすると、普段は作業もしてないキャップさんたちがさんざん文句言ってきて
> その言いわけを考えないと、キャップはく奪されたりアカウント凍結されたりするから
>
> 登録されてから一年以上経って、やっといいたいこと言えるようになってきたよ。



----------------------------------------------
この自動焼人 ★メールマガジンの配信停止をご希望される方は
http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/
にて自動焼人 ★までご連絡ください
714tor.rootkit.de:2009/08/17(月) 17:57:50
自動焼人 ★ = 自動保守 ◆KAWORUKOFI = 自動保守#K9K?_D[L

名言集 その1
『アパッチ砲はワシが作った』

http://jbbs.livedoor.jp/bbs/read.cgi/internet/134/1229674638/5062
自分の管理するしたらばで借りた掲示板にて

> 5062 :自動保守 ◆AOIMAD.NZM [] :2009/08/16(日) 00:46:29 ID:nQYgq9jg0
> そもそも、アパッチ砲っていうのは、私が指揮官になった時代に私の先輩たちが導入して
> 先輩たちが命名したもの、っていうかまぁ、そういう砲は今まで存在してないから
> 名前つけなくちゃいけないしw
>
> ってことで、使っているうちに広まった名前なので、それが正式名称になるんじゃないかと。
>
> http://www.paradisearmy.com/doujin/pasok_apache.htm(俺の先輩が命名)
> http://www.paradisearmy.com/doujin/pasok_hping.htm(俺が命名?)

※注 「アパッチ砲」の正式名称は「Apache Jmeter」で、もちろん自動焼人の先輩が作ったものではありません


----------------------------------------------
この自動焼人 ★メールマガジンの配信停止をご希望される方は
http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/
にて自動焼人 ★までご連絡ください
715デフォルトの名無しさん:2009/08/17(月) 22:42:47
オイ俺のコピペ脳、まで読んだ。
716デフォルトの名無しさん:2009/09/23(水) 23:06:08
こんばんは

こんばんわ
どっちが正しくて、その理由がわからん
717デフォルトの名無しさん:2009/09/23(水) 23:18:08
けふはてふてふがとんでゐるのをみたでせう
718デフォルトの名無しさん:2009/09/24(木) 02:07:28
今晩は好い夜で御座いますね。
719デフォルトの名無しさん:2009/09/24(木) 03:48:07
今晩は好い夜で御座いますね。

今晩わ好い夜で御座いますね。
どっちが正しくて、その理由がわからん
720デフォルトの名無しさん:2009/09/24(木) 10:41:48
わ なんて助詞は無い。
後スレ違い。
721デフォルトの名無しさん:2009/09/24(木) 12:36:30
あるよ。終助詞だけど。
722デフォルトの名無しさん:2009/09/25(金) 13:44:37
そんな話はしてないわ
723デフォルトの名無しさん:2009/09/26(土) 03:57:26
時々だけど、「電車は遅れるわ、財布は落とすわ……」の「わ」も「は」にする人を見かける。
あれは間違いなのか、それともそっちもアリなのか、面倒だから調べたことは無いけど。
724デフォルトの名無しさん:2009/09/26(土) 08:33:26
終助詞だな。精選版日国でも「わ」の項にも載ってる(「は」とも書く、とある)から、
どっちでもいいらしい。
学校じゃ教えない言い回しだから、「学校ではこっちを教えてる」という正解もないな多分。
725デフォルトの名無しさん:2009/09/26(土) 19:15:40
Char("わ") = Char("は")
ってこと?
726デフォルトの名無しさん:2009/09/26(土) 19:30:39
ノンノン
727デフォルトの名無しさん:2009/09/26(土) 20:55:36
> 学校じゃ教えない言い回しだから、「学校ではこっちを教えてる」という正解もないな多分。

文化庁「国語表記の基準」にあるぞ。
728デフォルトの名無しさん:2009/09/28(月) 20:58:53
UCS-4=UTF-32 ですか?
729デフォルトの名無しさん:2009/09/29(火) 02:12:20
ノンノノノン
ノンノノノン
ノンノノノン
ノンノノノン
730デフォルトの名無しさん:2009/10/04(日) 03:05:24
ELFっとどのくらいのことを言うんだ?
731デフォルトの名無しさん:2009/10/04(日) 08:13:26
3Hz〜30Hz
732デフォルトの名無しさん:2009/10/07(水) 15:43:38
jk
っていう文字列がワケワカメ
733デフォルトの名無しさん:2009/10/12(月) 00:34:37
734デフォルトの名無しさん:2009/11/30(月) 13:58:04
保守
735デフォルトの名無しさん:2009/12/01(火) 00:35:36
このスレ、まとめられてたな。ところで UTF-1 とか UTF-7 って今はどうなったんだっけ?
736デフォルトの名無しさん:2009/12/01(火) 04:30:19
アンジーとアスキーとシフトジスの違いは?
737デフォルトの名無しさん:2009/12/01(火) 23:05:55
ああ米内ってあの射殺されたやつかw
738デフォルトの名無しさん:2009/12/17(木) 23:04:11
>>735
UTF-8に抹殺された。
739デフォルトの名無しさん:2009/12/19(土) 16:56:57
>>640
おかしいな。
コード体系は1970年代に僕が考えたものだけど。
740デフォルトの名無しさん:2009/12/19(土) 18:09:31
12ビット符号化はオレが先。
741デフォルトの名無しさん:2009/12/19(土) 23:23:27
もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz
--------------------
あのスレってどのスレ?
742デフォルトの名無しさん:2009/12/20(日) 01:30:42
UTF8(BOMなし)が最強。25年はこれで大丈夫。
全世界で一斉に統一汁
743デフォルトの名無しさん:2009/12/20(日) 10:25:06
もっと行けると思うけどな。
元の文字コード体系が追加で拡張してもついていけるし
744デフォルトの名無しさん:2009/12/20(日) 10:31:01
100年は行ける。
745デフォルトの名無しさん:2009/12/20(日) 14:31:48
世界で最も優秀な文字
国際神学大学院大学が主催して、ハングル学会などが後援する第1回世界文字オリンピック[6]でハングルが1位となり、
世界最高の文字と認められた[7]。しかし、韓国で開催される・ハングル学会が後援する・変化の少ない文字を
数年間隔で比較するなど、明らかに合理性に欠けた出来レースだと思われる点が多々存在する。
第2回世界文字オリンピックは、2011年に韓国の釜山で開催予定。
746デフォルトの名無しさん:2009/12/20(日) 14:43:11
>>742-744
あと100億文字追加しても余裕だよな
747デフォルトの名無しさん:2009/12/20(日) 14:48:15
万に一つ、もし文字コードが統一されたら、統一の弊害を洗い出す事が
一大研究分野になるだろうな。そしてバベルは崩壊する。
748デフォルトの名無しさん:2009/12/20(日) 14:49:52
いや、ハングルを廃止して、漢字を康煕字典に統一、
全てを16bitで収めて欲しい
749デフォルトの名無しさん:2009/12/20(日) 15:01:40
真面目な話、合成済み文字を全部廃止すれば、
表音文字は1プレーンで収まりそう。
750デフォルトの名無しさん:2009/12/20(日) 15:14:47
まぁ確かに漢字を康煕字典で統一すれば16bitに収まるが...

社会の側の負担が半端ないw
751デフォルトの名無しさん:2009/12/20(日) 15:21:39
VS併用すれば桶
752デフォルトの名無しさん:2009/12/20(日) 22:05:57
インバーターってなに?
753デフォルトの名無しさん:2009/12/21(月) 00:02:33
インバータ(Inverter)とは、直流電力から交流電力を電気的に生成する
電源回路、またはその回路を持つ電力変換装置のことである。
逆変換回路、逆変換装置などとも呼ばれる。インバータと逆の機能を持つ
回路(装置)はコンバータ、または整流器(順変換器)とも言う。

提供: フリー百科事典『ウィキペディア(Wikipedia)』
754デフォルトの名無しさん:2009/12/21(月) 02:49:08
フーン
755デフォルトの名無しさん:2010/01/07(木) 23:21:13
郡と群の違いは?
756デフォルトの名無しさん:2010/01/08(金) 02:24:13
757デフォルトの名無しさん:2010/01/08(金) 22:59:02
スレをまとめとUTF-8ってゆーのは
0をあ
1をい
01をう
11をえ
011をお
111をか
っていう2進と1文字の1対1対応の事なんでしょ?
758デフォルトの名無しさん:2010/01/09(土) 03:06:51
たしかにそのとおりだが、
それはUnicodeにも言えることだ。
「UnicodeとUTF-8の違い」
の説明にはなってないぞ。
759デフォルトの名無しさん:2010/01/09(土) 08:54:49
1と01の違いがわからなかった
760デフォルトの名無しさん:2010/01/09(土) 09:03:10
結局具体的な解説はまだミシュツなんじゃ
761デフォルトの名無しさん:2010/01/09(土) 11:11:08
お前が理解できないだけだろ。
762デフォルトの名無しさん:2010/01/09(土) 13:36:06
Unicodeはコード体系
UTF-8は実装
猿でも分かるだろこんなの
763デフォルトの名無しさん:2010/01/09(土) 14:43:09
実装ってなんだよ実装って。
近頃はエンコーディングも学校じゃ教えないのか。
764デフォルトの名無しさん:2010/01/09(土) 15:08:54
中学校ならさすがに教えてない
765デフォルトの名無しさん:2010/01/09(土) 15:39:14
>>763
物凄い馬鹿を晒してるから反省した方がいい
766デフォルトの名無しさん:2010/01/10(日) 13:50:29
JISとSJISの関係
767デフォルトの名無しさん:2010/01/10(日) 15:03:17
後者が「シフト符号化表現」とか、(0208:1997)
「Shift_JIS-2004」とかならまだわかる。(0213:2004)
768デフォルトの名無しさん:2010/01/10(日) 15:06:38
Unicodeは文字集合で世界中から文字や記号を集めた物。
21bitで表現されて、収録可能な文字数は約209万字。(U+0000〜U+10FFFF)

U+0000〜U+10FFFFの範囲の文字を、ビットの並びとしてどう表現するかを決めたのが
符号化形式でいくつかの種類がある。
代表的な物は UTF-7 / UTF-8 / UTF-16 / UTF-32 など。

UTF-8はUnicodeを符号化する為の形式の一つ。
他のUTF-16やUTF-32と異なり、データの並びの順番(エンディアン)が一意に定まる。
ASCIIコードとの互換が高く、従来の文字列処理のやり方で扱いやすい符号化方法。
可変長なので、文章中の文字数をはじき出すには、文字数を数える必要がある。(=データサイズから文字数を求められない)
日本語を表現させるとシフトJISよりサイズが増えてしまうのが泣き所。
769デフォルトの名無しさん:2010/01/10(日) 17:19:15
>>768
正しいけど>>758>>760みたいなサルには理解不能だなw
770デフォルトの名無しさん:2010/01/10(日) 19:17:02
今では「Unicode」は文字集合も、それに対するコーディングシステムも、
文字を扱うときの規則も全て含んだ文字コード体系全体を指すことの方が多いのでは?
771デフォルトの名無しさん:2010/01/10(日) 19:38:07
>>770
そりゃ、「Unicodeとは何か?」って聞かれりゃね。
>>1の質問はそうじゃ無いし。
772デフォルトの名無しさん:2010/01/10(日) 21:02:08
インディアンがまだ続いてたのか・・・
773デフォルトの名無しさん:2010/01/11(月) 11:08:59
うそつかない
774デフォルトの名無しさん:2010/01/11(月) 12:30:02
符号化方式の存在意義が不明
775デフォルトの名無しさん:2010/01/11(月) 14:54:01
使われる場面が違うと、符号化形式に求められる物も違ってくるって事だな。
あとは歴史的な経緯もある。

最も古いUTF-16は、2オクテット(16bit)を基本として、主要な言語の文字は
その範囲に収まるようにしてある。本当は2オクテット固定長にしたかったのだが、
文字数が足りなくなってしまったので、16bitで表現可能な範囲を超える分については
サロゲートと言ってさらに2オクテット必要とする。
これは「文字コードは16bitあれば十分!」なんて思われていた時代の傷跡。
ちなみにUnicodeが21bitなのはサロゲートで表現可能な上限が21bitだから。
WindowsやJavaの内部文字コードとして採用されたので、普及率が高い。

UTF-7は、7bitでしか通信が行えない古いSMTPサーバー間の
通信路で使われる事を想定されていた。
UTF-16のASCIIコード互換領域以外をbase64で7bitエンコードする物だが、
そんな面倒な事をするならUTF-8あたりをbase64で丸々くるんで使えよって話になった。
ステートフルなので、文章の頭から順に読み込んで行かないとならない。

UTF-8は、1オクテット(8bit)を基本とする物で、最初から1〜4オクテットの可変長。
ASCIIコードを処理しているプログラムと相性が良くて、それが好まれる。
ASCIIコードの範囲ならほぼ1オクテットに収まるが、日本語は殆ど3オクテットになる。
これもHTML/XML標準やMac OS XやLinuxで使われてるので普及率が高い。
可変長なので内部文字コードとして使うには面倒くさい部分もあるが、
バイトの並び順が固定されているので、その分はやりやすい。
何らかのアクシデントでビットが欠落しても文字の境界が分かりやすい利点もある。

UTF-32は、4オクテット(32bit)を基本とする物で、4オクテットの固定長。
32bitとは言っても、そのうち文字の表現に使われるのは21bit。
1文字が絶対に4オクテットなので、文章の保存にはサイズの問題からまず使われない。
文字数は文章サイズを4で割れば求まるかというと、実はそうでも無い。
合成文字や異字体セレクタなどがあると、その目論見は脆くも崩れ去る。
データの境界が常に4オクテット単位であってほしい、メモリ上や、データベース上の内部コード向け。
776デフォルトの名無しさん:2010/01/11(月) 15:08:30
バカみたいに文字種の増えるハングルを字母だけの収録にすれば16bitで十分収まる
もちろん公平に日本語の濁点やラテン文字の補助符号等もAA方式で組合せ文字にする
777デフォルトの名無しさん:2010/01/11(月) 15:10:48
スレの表題にあるように単に「UnicodeとUTF-8の違いは?」と聞かれたら、UTF-16とUTF-8の符号化方式の違いを問われてるように感じるんだが。

単に「Unicode」と言えば、UTF-16の事だと受け取る感覚が古いのだろうか?
778デフォルトの名無しさん:2010/01/11(月) 15:18:55
>>777
その感覚自体がよくわからんのだが、MSどっぷりだとまた違うのだろうか。
>>1のとっかかりってメモ帳の文字コード指定なんだろうし。
# 俺的感覚では「UnicodeつーたらふつーUTF-8だろjk」だったりするが。
779デフォルトの名無しさん:2010/01/11(月) 15:23:29
>776
漢字は異なる字体を全てひとつのコードで表す事にすれば16bitで収まるのかも知れないが、既に地理的、歴史的事情でいろんな字体が共存してしまってるからな。

「この状況ではこの字体を使う」と言う統一的なルールをつくるのも難しいだろうと思える。
780デフォルトの名無しさん:2010/01/11(月) 15:34:13
俺の感覚ではUnicodeは何百ページもある巨大な仕様なのに、
ただ単にUnicodeと言えば単一の符号化形式を指してるような
感覚で物を言う奴は分かってないのが多いので信用しない。
こういう奴は、文字集合と符号化形式の区別もついてないのが多い。
781デフォルトの名無しさん:2010/01/11(月) 15:51:55
UTF-16のリトルエンディアンとUTF-16LEが別物っていうのを最近知ったわ
782777:2010/01/11(月) 15:55:19
>778 >780
私がUnicodeと言う言葉を最初に知ったときにはUTF-16しか無かったからね。

そのためつい、単に「Unicode」と言われるとUnicode文字セット UTF-16と同一視してしまう。
783デフォルトの名無しさん:2010/01/11(月) 16:47:30
>>781
UTF-16も、
 UTF-16LE(リトルエンディアン) ※BOMを付けてはいけない。
 UTF-16BE(ビッグエンディアン) ※BOMを付けてはいけない。
 UTF-16のリトルエンディアン BOM付き
 UTF-16のビッグエンディアン BOM付き
 UTF-16のBOM無し(bit列はUTF-16BEと同じ)
と5種(bit列としては4種)あるからねぇ。

Windowsのメモ帳は、Unicodeの規格には無いBOM付きのUTF-8とかで保存しやがるし。
UTF-8はバイトオーダー固定だからBOMなんか無いってのに、
そんな事をするもんだからUTF-8とかUTF-8Nとか別れちゃうし。
文字コードの世界はややこしい。

※BOMはByte Order Markでエンディアンを明示するためのコードね。
784デフォルトの名無しさん:2010/01/11(月) 18:26:02
あ、Unicodeの最大収録文字数間違えたわ。申し訳ない。
2^21=約209万字じゃなくて、

サロゲートペアは1024^2の領域で表せられるので、全部で1048576字
これに基本言語面の65536字から、サロゲート用の2048領域を除いた物を加えると、
1048576+(65536-2048)=1112064文字だった。というわけで約111万字だった。
785デフォルトの名無しさん:2010/01/11(月) 20:45:03
>>776
>もちろん公平に日本語の濁点やラテン文字の補助符号等もAA方式で組合せ文字にする
NFDで既にそうなってるから
786デフォルトの名無しさん:2010/01/12(火) 00:17:14
すべての文字を画像として扱えばどんな文字でも表現できるのになもうハードも画像ベースで扱えるぐらい進化したし
787デフォルトの名無しさん:2010/01/12(火) 00:41:21
>786
すべての文字が画像として表現されていて、表示がクソ重いWebページなんて俺は嫌だぞ。
788デフォルトの名無しさん:2010/01/12(火) 02:44:03
すべてとは言わず極端に頻度の低い異体字なんかを外部参照にして都度ストロークやビットマップで表現するってのはありかも
編集を重ねた文書がクソ重いデータに成るっぽいのはイヤだけど
789デフォルトの名無しさん:2010/01/12(火) 05:41:00
>>786
馬鹿すぎw
790デフォルトの名無しさん:2010/01/12(火) 07:49:36
>>783

UTF-8のBOMはUnicodeの規格に入ったんじゃなかったっけ?
バイトオーダーを示すBOMとしてではなくて、UTF-8を表すシグネチャーという扱いで
791デフォルトの名無しさん:2010/01/12(火) 13:44:10
> UTF-16BE(ビッグエンディアン) ※BOMを付けてはいけない。
> UTF-16のBOM無し(bit列はUTF-16BEと同じ)
この2つが別なの??マジワケわかんねぇ……
792デフォルトの名無しさん:2010/01/12(火) 14:34:02
>>790
この資料によると、UTF-8の際でもsignatureとしてのみBOMを使えるって書いてあるね。
http://unicode.org/faq/utf_bom.html#bom5
Where a BOM is used with UTF-8,
it is only used as an ecoding signature to distinguish UTF-8 from other encodings
? it has nothing to do with byte order.

という事はUTF-8に対応しているって表明しているプログラムの場合、
厳密に解釈するならBOMがあると正常に動作しないような実装は、中途半端って事か。
(BOMを付けるかどうかは選択自由だけど。)

>>791
Unicodeの規格上、符号化方式はUTF-16とUTF-16BEで別の扱いだが、
符号化された結果は同じになるって事。
793デフォルトの名無しさん:2010/01/12(火) 23:36:20
「オブジェクト」ってなに?
794デフォルトの名無しさん:2010/01/31(日) 18:11:33
物っぽいナニカ。
795デフォルトの名無しさん:2010/01/31(日) 19:38:45
物のたとえ
796デフォルトの名無しさん:2010/02/01(月) 00:12:25
コンパイルしてリンクする前のバイナリ
797デフォルトの名無しさん:2010/02/03(水) 11:48:51
オブジェクトとインスタンスの違いは?
798デフォルトの名無しさん:2010/02/03(水) 11:58:14
オブジェクトは広い意味でクラスも含んでる場合があるな
そういう曖昧さを避けるためにまともな本では
クラスとオブジェクトという対比ではなく
クラスとエンティティと表現している
っつーかスレ違いじゃぼけ
799デフォルトの名無しさん:2010/02/04(木) 11:19:08
すれ違いに続けるのもなんだけど。
>>798
いやいやオブジェクトとエンティティは別物でしょう。
クラスと(クラス)インスタンスって言うと思うけど。
800デフォルトの名無しさん:2010/02/04(木) 11:27:06
U+FFFCをオブジェクトと略しても通じないと思う
801デフォルトの名無しさん:2010/02/04(木) 11:27:59
オブジェクトとエンティティが別物じゃないとは誰も言ってないぞ
っつーかスレ違いじゃぼけ
802デフォルトの名無しさん:2010/02/04(木) 11:44:03
いや別物だといってるんだけど。
803デフォルトの名無しさん:2010/02/04(木) 11:51:44
スレも別物になってる
804デフォルトの名無しさん:2010/02/04(木) 11:53:29
>>802
どこ?
805デフォルトの名無しさん:2010/02/04(木) 14:31:56
ラーメンと野球の違いは?
806デフォルトの名無しさん:2010/02/04(木) 14:46:23
打球はのびるとうれしいが
ラーメンはのびるとうれしくない
807デフォルトの名無しさん:2010/02/04(木) 14:47:37
お前どこにでもいるな
808デフォルトの名無しさん:2010/02/04(木) 15:57:03
808
809デフォルトの名無しさん:2010/02/04(木) 16:17:20
オブジェクト指向で「エンティティ」と言う言葉はあまり聞いた事が無いなと思ってたら、その関係はなかなか微妙みたいだな。

http://itpro.nikkeibp.co.jp/free/NIP/NIPCOLUMN/20021225/2/

スレ違いを続けてスマソ。
810デフォルトの名無しさん:2010/02/05(金) 02:01:58
と、エンティティという言葉を覚えたての素人がほざいております
811デフォルトの名無しさん:2010/02/05(金) 07:45:02
812デフォルトの名無しさん:2010/02/05(金) 15:35:55
>>811
お前馬鹿じゃね?
813デフォルトの名無しさん:2010/02/05(金) 16:43:31
お前どこにでもいるな
814デフォルトの名無しさん:2010/04/27(火) 23:25:51
age
815デフォルトの名無しさん:2010/05/01(土) 14:01:55
たいく
が変換できないんだけどシステムのなにがこわれたのかしら
運動のことなんだけど
816デフォルトの名無しさん:2010/05/01(土) 14:29:50
>>815
体育の読みは「たいいく」だから。漢字の勉強をやり直す事をお勧めする。
817デフォルトの名無しさん:2010/05/01(土) 17:42:06
>>815 素で言ってたら相当間抜けだな。素でなくても間抜けだけど。
818デフォルトの名無しさん:2010/05/01(土) 21:08:35
体躯 であってるんじゃないのかな

っつーかなんでこのすれ
819デフォルトの名無しさん:2010/05/01(土) 22:08:45
それ運動のことじゃないし
820デフォルトの名無しさん:2010/05/02(日) 12:16:22
ふいんき
821デフォルトの名無しさん:2010/05/03(月) 02:05:08
いい加減
文字コードはなんかひとつに統一してくれ
プログラム書く時とかうっとおしいんだよ
822デフォルトの名無しさん:2010/05/03(月) 02:34:51
あるじゃん。UTF-8が。
823デフォルトの名無しさん:2010/05/03(月) 08:58:24
せっかく Unicode が使えるようになっても、
今まで使ってきた経験のある EUC-JPを選んでしまう運用管理者が許せない。
お前ら、いつまでも文字コードを乱立させておくつもりかと。
824デフォルトの名無しさん:2010/05/03(月) 12:26:50
UTF-8以外は廃止して良いと思う
825デフォルトの名無しさん:2010/05/03(月) 12:51:52
Unicodeの符号化方法が乱立してて余計にややこしい
826デフォルトの名無しさん:2010/05/03(月) 13:21:46
UTF-8以外は廃止して良いと思う
827デフォルトの名無しさん:2010/05/03(月) 14:06:01
>>824
内部表現としては使われてるからダメ。

けど、テキストファイルに使うのはUTF-8だけで十分。
828デフォルトの名無しさん:2010/05/05(水) 15:57:28
>>827
素人
829デフォルトの名無しさん:2010/05/05(水) 16:31:54
>>828
天才ハッカー
830デフォルトの名無しさん:2010/05/05(水) 16:46:01
>>829
あらわる!
831デフォルトの名無しさん:2010/05/06(木) 06:54:56
>>827が無知すぎる
内部表現って何の事を言いたいんだよ
832デフォルトの名無しさん:2010/05/06(木) 11:01:30
Windows内部ではUTF-16だとかいう話じゃないの。
833デフォルトの名無しさん:2010/05/06(木) 20:49:01
普通に考えてそうだよなあ。
「内部表現」が何のことか分からないのに>>827が無知って何で言えるんだ?
無知をさらしてるのは>>831だな。>>
834デフォルトの名無しさん:2010/05/06(木) 21:13:35
>>833
それじゃ話がおかしくなるからあえて聞いてんだよバカ
835デフォルトの名無しさん:2010/05/07(金) 00:43:20
Windowsに限らずUTF-16を内部で使ってる系はあるみたいだよ。
それよりも何がどう話がおかしくなるのか、示してくれる人はいないのかい?
836デフォルトの名無しさん:2010/05/07(金) 19:39:27
JavaとかJavaScriptもUTF-16だね。
>>834の説明に期待
837デフォルトの名無しさん:2010/05/07(金) 22:52:13
834じゃないけど

>>827
内部処理に使われてるから廃止しちゃダメってのは変じゃね?
内部処理だけに使われてるなら別に廃止してもいいと思う
勿論、現実にはそうじゃないから、廃止には反対だけど
838デフォルトの名無しさん:2010/05/07(金) 23:38:40
プログラマーは内部処理意識してプログラム書かないといけないから困るんじゃね?

個人的にはUCS-4とUTF-8だけでいい。文字aが4バイト取っても構わん。
839デフォルトの名無しさん:2010/05/07(金) 23:40:58
>>837
> 834じゃないけど
> >>827
> 内部処理に使われてるから廃止しちゃダメってのは変じゃね?
使われているものを廃止するってのが変じゃなくてなんなんだ?データ交換用のエンコーディングと
しては使用しないだけ、ってぇならわかるけど、廃止されたら何を基準にエンコーディングを扱えば
いいんだ?俺様エンコーディング?OSとアプリケーションでエンコーディングの基準が食い違うようじゃ
ダメだろ。
840デフォルトの名無しさん:2010/05/07(金) 23:44:56
>使われているものを廃止するってのが変じゃなくてなんなんだ?

使われていないものをどうやって廃止するんだ?
841デフォルトの名無しさん:2010/05/07(金) 23:58:50
でもさ、交換用はすべてUTF-8として、内部表現が「1文字=1キャラクタ」ならOSごとに
文字コード違っても問題なくね?
842デフォルトの名無しさん:2010/05/08(土) 00:56:16
>840
たとえばUTF-7なんかは使われていないから廃止、とかはありでしょう?
843デフォルトの名無しさん:2010/05/08(土) 01:40:54
        ゴガギーン
             ドッカン
         m    ドッカン
  =====) ))         ☆
      ∧_∧ | |         /          / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
     (   )| |_____    ∧_∧   <  おらっ!出てこい>>834
     「 ⌒ ̄ |   |    ||   (´Д` )    \___________
     |   /  ̄   |    |/    「    \
     |   | |    |    ||    ||   /\\
     |    | |    |    |  へ//|  |  | |
     |    | |    ロ|ロ   |/,へ \|  |  | |
     | ∧ | |    |    |/  \  / ( )
     | | | |〈    |    |     | |
     / / / / |  /  |    〈|     | |
    / /  / / |    |    ||      | |
   / / / / =-----=--------     | |
844デフォルトの名無しさん:2010/05/08(土) 01:48:50
>>842
バッカじゃねぇの?UTF-7は俺のアプリの内部表現で使われてるからダメに決まってんだろ
この考え方は>>827もお前らも支持している考え方だから、異論は認めん
845デフォルトの名無しさん:2010/05/08(土) 01:53:47
このスレは「内部表現」の解釈について語るスレとなりました。
846デフォルトの名無しさん:2010/05/08(土) 02:07:48
>>842
バッカじゃねぇの?
使われてないものはわざわざ廃止しなくても使われてないんだから問題ないんだよ
使ってるものでも廃止して整理した方がいいものは廃止するべきって話をしてるんだが
847デフォルトの名無しさん:2010/05/08(土) 03:06:55
使われてるからダメとか言ってたら何一つ統合されねーってのに
何得意げに内部表現内部表現言ってんだかな
「内部表現に使われてるからダメ」とか、全く場違いで全然意味が無いって気付けないの?
848デフォルトの名無しさん:2010/05/08(土) 04:09:06
sumimasenga itteru imiga yokuwakarimasen
849デフォルトの名無しさん:2010/05/08(土) 04:57:02

821 名前:デフォルトの名無しさん[sage] 投稿日:2010/05/03(月) 02:05:08
いい加減
文字コードはなんかひとつに統一してくれ
プログラム書く時とかうっとおしいんだよ


824 名前:デフォルトの名無しさん[sage] 投稿日:2010/05/03(月) 12:26:50
UTF-8以外は廃止して良いと思う


827 名前:デフォルトの名無しさん[sage] 投稿日:2010/05/03(月) 14:06:01
>>824
内部表現としては使われてるからダメ。


バッカじゃねぇの?
850デフォルトの名無しさん:2010/05/08(土) 05:02:27
やっぱUTF-32とUTF-8以外は廃止だな。
851デフォルトの名無しさん:2010/05/08(土) 05:06:45
UTF32は合成文字がある時点で固定長足りえないからゴミクズだろ
なら最初から可変長のUTF8の方が統一感がある
852デフォルトの名無しさん:2010/05/08(土) 05:14:02
それでもサロゲートペアのあるUTF-16よりはまだマシ
853デフォルトの名無しさん:2010/05/08(土) 05:22:58
いや、マシとか言えるのは日本だからだろ
合成文字が当たり前の国もあるし、エンコード統一の観点からはゴミ
854デフォルトの名無しさん:2010/05/08(土) 08:10:15
あーもうバカばっか
何が出て来いゴガギーンだよ死ね


>内部表現としては使われてるからダメ。
どういうこと?何故ダメなの?使われてたらダメなの?内部表現だとダメなの?>>844て事なの?馬鹿なの?
結局ごく普通の意味で内部表現と言いたかったの?例えば日本向けWindowsのFAT32の内部表現はSJISだし、内部表現にUTF-8が使われてるOS等の環境もあるんだけど?
それらを一緒くたに引き合いに出して何の話がしたかったの?たかが内部表現をどこまで特別視してるの?

そもそも「色々使われててウザイから統一してくれ」と言う話題に「使われてるからダメ」と答えることの間抜けさを認識出来るだけの脳みそは持ち合わせてないの?
855デフォルトの名無しさん:2010/05/08(土) 08:48:05
ゐゑ
856デフォルトの名無しさん:2010/05/08(土) 11:28:56
>>854
みなまで言わないと分からないのか。そんなに極論が好きなのか。面倒くさい奴を相手してしまった。
そんなに頻繁に代行スレ使うのやだから、規制解除されるまではもう聞かれても答えないよ。

UTF-16はUnicodeと互換性があって内部表現としてそれなりに使いやすい(実装例も多い。数例あるとかそういう話をしているのではない)。
それを規格として保守しておいて、常にUnicode文字集合と対応付けられるのは大きな利点。

内部表現だからといってオレオレエンコーディングの使用は苦労に比べて利点がないし、
まともな設計のソフトウェアなら内部表現にも規格化された表現を使うが、そのときUTF-8よりもUTF-16の方が使いやすいことが多々ある(だからこそ、実装例が多い)
それが、UTF-16を規格に残しておく意義。

>>824には「色々使われてて」のくだりはないし、少し前あたりにもUTF-16を廃止する意義のあるレスは見られない。
君が勝手に話題だと妄想してただけ。
857デフォルトの名無しさん:2010/05/08(土) 11:39:39
代行レスってお願いする物じゃなくて、使うものだったのかw
858デフォルトの名無しさん:2010/05/08(土) 11:46:36
>>854
>>826が「UTF-8以外は廃止して良い」とかいうから、
>>827は、UTF-8以外の文字コードでもシステム内部で使われてる
文字コード(UTF-16など)があるから
UTF-8を除く全廃は駄目だと言ってるんだろ。
Unicodeがどうこういう前に日本語が理解できないんだな。

ああ、こう書いたらUTF-8も含めて全廃しろって意味に取られるかな? 馬鹿には。
859デフォルトの名無しさん:2010/05/08(土) 12:14:14
>>858
おいおい・・・果てしないバカだな

>>821が「色々使われててウザイから統一してくれ」

>>824が「統一するならUTF-8」という主張だわな

お前の妄想ではこの話題は>>824から始まっていたわけな
もう何も言えんわ
860デフォルトの名無しさん:2010/05/08(土) 12:17:30
>>856
お前の言いたい事って結局「UTF-8以外も広く使われてるから廃止は難しい」って事でしょ?
んなもん誰でもわかってんだよアホw
861デフォルトの名無しさん:2010/05/08(土) 12:31:31
Unicodeの糞さは最早どうしようもない
では諸問題を含め、統一された場合を仮定し、どの符号化方式が一番優れていると言えるかを語ろうか
俺はサロゲートペアをデコードしたUTF-8を推す
当然BOM無し
862デフォルトの名無しさん:2010/05/08(土) 14:21:37
>861
UTF-16のサロゲートをそのままエンコードしたらUTF-8とはいわんと思うが?
個人的には統一するならUTF-32で。
863デフォルトの名無しさん:2010/05/08(土) 19:03:20
そうだよなあ……。
文字ごとにバイト数が違うなんて面倒くさすぎてやってられるかと。
864デフォルトの名無しさん:2010/05/08(土) 19:13:12
URL符号化を弄ってるともう何でもいいんじゃね?とアキラメの気持ちが
865デフォルトの名無しさん:2010/05/08(土) 19:36:06
>>862
サロゲートをそのままエンコードしない素のUTF-8だっての

>>863
Unicodeである限り文字毎にバイト数は違う
バグ突っ込む無能乙
866デフォルトの名無しさん:2010/05/08(土) 19:51:17
>865
だからそれ以外のものはUTF-8っていわんだろ、って話。まさか
> UTF-16のサロゲートをそのままエンコードした
ものまでUTF-8と呼ぶのか?
867デフォルトの名無しさん:2010/05/08(土) 20:04:04
UTF-32って1文字の区切りはどうやって判断するんでしょうか?
シフトJISとかEUCなら簡単に1文字が判断できますけど。
868デフォルトの名無しさん:2010/05/08(土) 20:06:47
>>866
うるせえよ馬鹿
UTF-8の派生がいくつかあんだろ
務めて明確に言っただけだよ
869デフォルトの名無しさん:2010/05/08(土) 20:11:11
1MBのUTF32バイトストリームの481211バイト目から得る事が出来ました。
文字境界はどうやって求めますか?ここは何文字目か分かりますか?
870デフォルトの名無しさん:2010/05/08(土) 21:04:26
>867
単純に4バイト境界。ただし区別されるのは文字ではなく要素。
871デフォルトの名無しさん:2010/05/08(土) 21:08:51
>>862
100GBのログファイルが400GBになるとかカンベンw
872デフォルトの名無しさん:2010/05/08(土) 21:11:36
一定量のコードポイントがいくつの文字図形になるかは、
フォント依存だから、「何文字」なんてのは決めつけられない。

例えばU+30ab, U+309aという並びは、最近のフォントなら
「半濁点付きのカ」という一つの文字図形に置き換えられるだろうけど、
古いフォントだと「カ」+豆腐という二つの文字図形になる、というように。
873デフォルトの名無しさん:2010/05/08(土) 21:14:54
それじゃ現実的なニーズから言うと話にならないんだよね
874デフォルトの名無しさん:2010/05/08(土) 21:22:07
理論上の文字境界は、UnicodeData.txtで属性を見れば分かる
それが表示上何文字になるかはフォント次第
875デフォルトの名無しさん:2010/05/09(日) 00:06:40
→SJISでいいよもう
876デフォルトの名無しさん:2010/05/09(日) 02:06:48
SJISいらねー。
文字列先頭からスキャンしないと文字境界わからないし、
2バイト目が処理系のメタキャラクタと衝突して酷い目に遭うし、
ベンダ拡張の文字使われると環境によって出る文字が違うし、
ろくでもねー。
まー、UTF-8に欠陥がないかというとそんなことは全然ないわけだが、
少なくとも上記の問題が解消される分、我慢できないこともない。
877デフォルトの名無しさん:2010/05/09(日) 03:01:19
EUCも半角カタカナ混ぜるとおかしくなったりするからな
JISが最強言われた時代もあったが
UTF-8ですっきりしたな
日本人が文字コードでいがみあってる間に
毛唐にいいところもって行かれたよねw
878デフォルトの名無しさん:2010/05/09(日) 05:30:22
UTF-8には欠陥は無いが、Unicodeがもうどうしようもない
879デフォルトの名無しさん:2010/05/09(日) 11:37:53
>>876
Unicodeなんか 文字の境界もよくわからんですよ
880デフォルトの名無しさん:2010/05/09(日) 21:22:40
クワティーはなんでクワティー?
881デフォルトの名無しさん:2010/05/10(月) 02:49:10
>>876
キミ、素人だね
882デフォルトの名無しさん:2010/05/10(月) 04:10:20
合成文字って、1文字目を見ただけじゃ合成文字かどうか判断つかなかったり、次の文字が
来ないと合成文字の終わりがわかんないのって、何でこんな仕様になってんのかな
883デフォルトの名無しさん:2010/05/10(月) 08:22:25
発想を変えて自然言語のほうを1つに統一するのはどう?
884デフォルトの名無しさん:2010/05/10(月) 15:28:22
あっという間に方言ができまくって結局バラバラになるんじゃない?
バベルの塔みたいの作ってるやつらもいるしな
885デフォルトの名無しさん:2010/05/10(月) 20:10:24
エスペラント語のこと?
886デフォルトの名無しさん:2010/05/11(火) 03:12:19
>>882
Unicode用語の使い方が間違ってるぞ。

誤:合成文字
正:結合文字
887デフォルトの名無しさん:2010/05/11(火) 04:00:49
マイナー言語は年々滅んでいってるらしいし、いつか統一言語になるんじゃね
888デフォルトの名無しさん:2010/05/12(水) 19:00:52
英語と日本語と中国語が統一されるにはあと50年はかかるだろ
889デフォルトの名無しさん:2010/05/13(木) 06:09:35
何か言語が滅びても記録に残す必要とか研究する必要はでてくるから結局Unicodeはどんどん脹らむ(w

890デフォルトの名無しさん:2010/05/13(木) 19:43:00
UTF-32が可変長でもいいから、サロゲートペアのUTF-16は今すぐ死んで欲すぃ
891デフォルトの名無しさん:2010/05/13(木) 20:37:47
>>877
Ken Thompsonすごすぎ。
単純なアイデアの組合わせにすぎないんだが…
892デフォルトの名無しさん:2010/05/13(木) 20:38:32
>>887
手話の研究により、そのような考えは完全に否定されている。
893デフォルトの名無しさん:2010/05/13(木) 20:54:41
UTF-8 は 7bit クリーンじゃないし、EUCとSJISの半角カナの相性が悪いのは、
どちらに責任があるわけでもない。

別にUTF-8がたいして優れてるわけじゃない。ワードアライン取れないし。
894デフォルトの名無しさん:2010/05/13(木) 20:56:39
じゃあUTF-7で
895デフォルトの名無しさん:2010/05/13(木) 21:52:09
>>891
話が分かる人が居て良かったw
896デフォルトの名無しさん:2010/05/14(金) 00:37:57
TRONコードってどうなの?
897デフォルトの名無しさん:2010/05/14(金) 01:33:11
>>893
今時7bitって、、じゃあISO-2022でも使ってな。

> EUCとSJISの半角カナの相性が悪いのは
相性悪いってのは判別がつかないってこと?
文字コードに関するのメタ情報無しで読もうとすること自体問題だと思うけど。

>ワードアライン取れないし。
何で取る必要があるのかな? まあUTF-32でも使ってな

どう考えても
UTF-8 >> その他の文字コード > Unicode だろ
898デフォルトの名無しさん:2010/05/14(金) 02:12:53
UTF-8 >> EUC > JIS > その他の文字コード > Unicode > TRONコード > SJIS
899デフォルトの名無しさん:2010/05/14(金) 02:49:05
並存してる時点でEUCもかなりの糞
UTF-8 >> その他の文字コード
これは揺るがない
今時7bitとか言ってる奴は流石に馬鹿
900デフォルトの名無しさん:2010/05/14(金) 03:57:01
7-bitっていったらエロ画像もエロ動画も見れないじゃないか!
901デフォルトの名無しさん:2010/05/14(金) 06:13:37
エロサイトさんの思うとおりにはさせないぜ。
902デフォルトの名無しさん:2010/05/14(金) 20:18:57
日本語しか扱わないシフトJISと多国語を扱えるJISを同列に扱うのは如何な物か
903デフォルトの名無しさん:2010/05/14(金) 21:49:35
UTF-7があるじゃない
904デフォルトの名無しさん:2010/05/14(金) 22:24:59
そろそろメールもUTF-8にしたいな。仕事で中国とやりとりするとき便利。
905デフォルトの名無しさん:2010/05/14(金) 22:53:14
UTF-8でいいんじゃない。base64かQuoted-printableすればSMTPへ流しても安全。
906デフォルトの名無しさん:2010/05/14(金) 23:32:14
いい加減、8ビット転送も許可するSMTPの拡張って出て来ないかな。

SMTPはテキストベースなんだから、
非対応なサーバを通るときだけBase64/Quoted-printableへ変換すれば良さそうな気がするけど。
907デフォルトの名無しさん:2010/05/14(金) 23:47:44
>>906
まさにそれを行う、ESMTPってのがあるよ。
http://www.wdic.org/w/WDIC/ESMTP
908デフォルトの名無しさん:2010/05/14(金) 23:51:18
>>906
RFC1426 - SMTP Service Extension for 8bit-MIMEtransport
『February 1993』

ちなみに1652でobsoleteされている。
909デフォルトの名無しさん:2010/05/15(土) 00:16:38
拡張版でサポートされても元のhttp://www.ietf.org/rfc/rfc2821.txtで
8ビット保証されてないから意味ない。あと俺の会社ではUTF-8が文字化けする
糞メールソフトが標準になっている
910デフォルトの名無しさん:2010/05/15(土) 01:17:00
糞メールソフトを使い続ける企業は消えても問題無い。
911デフォルトの名無しさん:2010/05/15(土) 18:48:51
デフォをUTF-8にしないとどんなメーラでもバケバケ
912デフォルトの名無しさん:2010/05/17(月) 10:14:27
UTF-8は使えない糞コードってことでOK?
913デフォルトの名無しさん:2010/05/17(月) 20:45:19
インタネットエクスプロラでEUCのホームペジをソース表示するとメモ超がぐちゃグチャになるのはなんとかならんの
914デフォルトの名無しさん:2010/05/17(月) 21:02:08
板違い
915デフォルトの名無しさん:2010/05/18(火) 19:17:22
>>913
メモ帳以外を使う
916デフォルトの名無しさん:2010/05/19(水) 09:15:20
メモ帳が文字コード自動認識しないのはEU対策かな?
917デフォルトの名無しさん:2010/05/19(水) 15:02:57
世界中の文字コードの自動判別は結構大変
918デフォルトの名無しさん:2010/05/20(木) 23:08:54
windows SDKのCLでコメントにutf-8、unix式改行コードを使ってたらバグった。
初期設定
の次の行の変数定義が飛んだ。
utf-8でもMS-DOS式の改行にすると通る。
utf-8も文字列の最後が\になる問題あったっけ?
919デフォルトの名無しさん:2010/05/20(木) 23:46:11
>>918
最後の文字のUTF-8での最後のバイトがSJISの1バイト目とみなされて、
次の改行コードがSJISの2バイト目として消費されたんじゃね?

920デフォルトの名無しさん:2010/05/20(木) 23:48:59
>>919
ああ、その可能性があるか。
linuxとwindowsでコードを共通化するのは色々面倒くさいなぁ。
921デフォルトの名無しさん:2010/05/21(金) 16:22:18
>>920
//形式のコメントじゃなくて/**/形式使う。*/の前には半角スペースを少なくとも1個入れる。
これで大抵いけるんじゃないかなぁ。

それか、日本語は行末に句読点をいれることにしてもやっぱダメな場合ってある?
922デフォルトの名無しさん:2010/05/21(金) 18:46:48
Visual C++10で普通に動いたけど?
ソースきぼん
923デフォルトの名無しさん:2010/05/21(金) 18:56:27
まさかBOM無しにしてる? そりゃダメだよ

>utf-8も文字列の最後が\になる問題あったっけ?
無い。(Unicode規格3.9より)
924デフォルトの名無しさん:2010/05/21(金) 22:33:48
>>922
正確には
//OpenCLの初期設定
だったかな。
日本語のコメント面倒くさいから消したのでもうわからん。

UTF-8だと行の前の空白とかでもなにか変わったっけ?
925デフォルトの名無しさん:2010/05/21(金) 22:44:18
あと、windows SDK v6.1のCLでダメだったんだが、VC++10だとUTF-8対応しているのかも
926デフォルトの名無しさん:2010/05/22(土) 01:17:19
Visual C++がUTF-8対応したのは確か2005(VC8)から。2008(VC9)もOKだった。
SDK v6.1ってのはいつの時代のだ?
927デフォルトの名無しさん:2010/05/22(土) 01:21:24
>>926
いつのだろ?
2008 server 64bit版用のSDKを取ってきたらこれが入ったはずだが。
versionは15.00.21022.08 for x64

この次のPlatform SDKは今のwindows 7用だと思うので、最新の一つ前。
多分、2008 Expressを64bit化しようとして当時の最新版を入れたから2008の世代だと思うけど。
928デフォルトの名無しさん:2010/05/22(土) 01:25:01
>>923
meadowで作ったUTF-8だけど何か入るのかな。
929デフォルトの名無しさん:2010/05/22(土) 01:35:05
BOM有りUTF-8(LF)で別に文字化けしないな。Visual C++ 2008(cl /EHsc)


#include <cstdio>//OpenCLの初期設定

#include <vector>//OpenCLの初期設定


int main()//OpenCLの初期設定

{//OpenCLの初期設定

  std::printf("aaかきく\n"//OpenCLの初期設定

    );

  std::printf("aaさしす\n");//OpenCLの初期設定

  fgetc(stdin);//OpenCLの初期設定

}
930デフォルトの名無しさん:2010/05/22(土) 01:41:44
>>929
改行がLF(unix風)の時だよ。
CRLFだとバグらない。(多分CRが犠牲になってくれていると思う)
931デフォルトの名無しさん:2010/05/22(土) 01:51:43
わかってるさ。これで試して ↓
http://www.dotup.org/uploda/www.dotup.org903315.cpp.html
リンクを右クリックで保存。
932デフォルトの名無しさん:2010/05/22(土) 01:56:57
>>931
utf.cpp: warning C4819: The file contains a character that cannot be represented in the current code page (932). Save the file in Unicode format to prevent data loss
utf.cpp(3): error C2143: syntax error: missing ';' before 'printf'
あとは連鎖的にエラー
933デフォルトの名無しさん:2010/05/22(土) 01:58:40
残念ながら君が使ってるcl.exeは古いようださようなら
934デフォルトの名無しさん:2010/05/22(土) 02:05:06
ああ、すまん
/EHscをつけたら、
warning C4819 ...
までは一緒だがコンパイルは通った。
実行すると(画面じゃグチャグジャなのでリダイレクトしてemacsで見る)出力は

aaかきく\naaさしす\n

\nは改行じゃなくて\nという文字で。
935デフォルトの名無しさん:2010/05/22(土) 09:48:31
「15.00.21022.08 for x64」ってVC9だろ。メッセージ英語だし何か間違ってるんじゃね?
あとLinuxならG++だろうから、そんなBOMも扱えない糞は窓から捨てるか、おとなしく
EUCに文字コード変換でもしてな
936デフォルトの名無しさん:2010/05/23(日) 01:25:02
"の初期設定\n"はutf-8で
e3 81 ae e5 88 9d e6 9c 9f e8 a8 ad e5 ae 9a 0a
なわけだけど、これをsjisで解釈すると
縺ョ蛻晄悄險ュ螳
になって、改行文字食われるね。
937デフォルトの名無しさん:2010/05/23(日) 01:57:46
何でBOM付いてるテキストをシフトJISで解釈しようとするのかわからんな。
保存の時にBOM削ってんじゃねーの? utf.cppうぷしてみ

>utf.cpp(3): error C2143: syntax error: missing ';' before 'printf'
3行目ってことは間違いなく改行コードが食われてるな
938デフォルトの名無しさん:2010/05/23(日) 10:13:53
>>937
>>931にあるよ。
そもそもエンコードの自動判別をする気が一切なければ、
BOM付いててもsjisで解釈しようとするんじゃないの?
939デフォルトの名無しさん:2010/05/23(日) 12:22:46
そもそもボムッてなに?
940デフォルトの名無しさん:2010/05/23(日) 14:18:58
BOMはバイトオーダーマークのことで
本来はUTF-16のバイト並びがビッグエンディアンかリトルエンディアンかを
区別するために付ける最初の1文字。
バイトオーダーなので本来はUTF-8には必要無いが、UTF-8であることを
区別するために、UTF-16のBOMをそのままUTF-8にしたものが使用される
941デフォルトの名無しさん:2010/05/23(日) 16:55:42
ちなみにUTF-8にBOMつけた場合の、BOMの呼び名はsignatureとなる
942デフォルトの名無しさん:2010/05/23(日) 18:02:43
むずかしす
943デフォルトの名無しさん:2010/05/23(日) 19:53:14
一応整理しておく。

BOMってのはByte Order Markの事でUTF-16やUTF-32ではバイトオーダを表す。
UTF-8では、UTF-8をASCIIと区別する為のUnicode signatureとして扱われる。

BOMのコードポイントはU+FEFF

これを各符号化形式に変換すると、
UTF-8のUnicode signatureはEF BB BF
UTF-16のビッグエンディアンはFE FF
UTF-16のリトルエンディアンはFF FE
UTF-32のビッグエンディアンは00 00 FE FF
UTF-32のリトルエンディアンはFF FE 00 00
となる。
944デフォルトの名無しさん:2010/05/23(日) 20:44:00
lol
945デフォルトの名無しさん:2010/05/23(日) 21:04:58
>>941
>ちなみにUTF-8にBOMつけた場合の、BOMの呼び名はsignatureとなる
Unicode規格のどこにそんなこと書いてあった?
946デフォルトの名無しさん:2010/05/23(日) 21:06:57
>>945
日本限定の糞ローカルルールだからないよ
947デフォルトの名無しさん:2010/05/23(日) 21:16:24
948デフォルトの名無しさん:2010/05/23(日) 21:25:22
>>946
日本限定じゃないよW3Cだって使ってる。
http://www.w3.org/International/questions/qa-utf8-bom.en.php
949デフォルトの名無しさん:2010/05/23(日) 21:26:03
>>947
書いてねーじゃん。2章読んでも16章読んでもそんな記述は見当たらないんだが
950デフォルトの名無しさん:2010/05/23(日) 21:32:47
>>949
Q: Can a UTF-8 data stream contain the BOM character (in UTF-8 form)?
  If yes, then can I still assume the remaining UTF-8 bytes are in big-endian order?

A: Yes, UTF-8 can contain a BOM.
  However, it makes no difference as to the endianness of the byte stream.
  UTF-8 always has the same byte order. An initial BOM is only used as a signature
   ? an indication that an otherwise unmarked text file is in UTF-8.
  Note that some recipients of UTF-8 encoded data do not expect a BOM.
  Where UTF-8 is used transparently in 8-bit environments,
  the use of a BOM will interfere with any protocol or file format that expects specific
  ASCII characters at the beginning, such as the use of "#!" of at the beginning of Unix shell scripts. [AF] & [MD]
951デフォルトの名無しさん:2010/05/23(日) 21:36:38
>>950
だからどこに「BOMの呼び名はsignatureとなる」って書いてあるんだよ?
952デフォルトの名無しさん:2010/05/23(日) 21:37:44
>>950
あぁ、呼び名じゃないな、役割だったね。
953デフォルトの名無しさん:2010/05/23(日) 22:27:34
細かい揚げ足取りだな。
どっちみちUTF-8でBOMは
仕様書的にもありなんじゃん。

無いって言いたかったんじゃないの?
ただ呼び方に文句つけてただけ?
954デフォルトの名無しさん:2010/05/23(日) 22:40:27
これ見ると下手な食事療法とかダイエットよりも効果あったよ。
http://www.petatv.com/tvpopup/video.asp?video=agri_long&Player=wm&speed=_med
955デフォルトの名無しさん:2010/05/23(日) 22:48:43
ちゃんとRFC3629にも出てくるよ。

Network Working Group F. Yergeau
Request for Comments: 3629 Alis Technologies
STD: 63 November 2003
Obsoletes: 2279
Category: Standards Track

UTF-8, a transformation format of ISO 10646

6. Byte order mark (BOM)

The UCS character U+FEFF "ZERO WIDTH NO-BREAK SPACE" is also known
informally as "BYTE ORDER MARK" (abbreviated "BOM"). This character
can be used as a genuine "ZERO WIDTH NO-BREAK SPACE" within text, but
the BOM name hints at a second possible usage of the character: to
prepend a U+FEFF character to a stream of UCS characters as a
"signature". A receiver of such a serialized stream may then use the
initial character as a hint that the stream consists of UCS
characters and also to recognize which UCS encoding is involved and,
with encodings having a multi-octet encoding unit, as a way to
recognize the serialization order of the octets. UTF-8 having a
single-octet encoding unit, this last function is useless and the BOM
will always appear as the octet sequence EF BB BF.
956デフォルトの名無しさん:2010/05/23(日) 22:55:53
prependなんて単語はじめて知った。
957デフォルトの名無しさん:2010/05/23(日) 23:00:18
揚げ足取りとか言われたようだが、
「UTF-8にBOMつけた場合の、BOMの呼び名はsignatureとなる 」
ってことは、UTF-8について語る時は「BOM」という用語を使っちゃいけないってことだろ。
んなわけあるかって言いたかったんだよ。
プログラマーなら仕様は絶対。用語はきちんとしてくれないと困る。
958デフォルトの名無しさん:2010/05/23(日) 23:08:04
正確な用語が重要なのは分かるけど
UTF-8のsignatureって言うよりUTF-8のBOMって言った方が通りがよさそう
959デフォルトの名無しさん:2010/05/23(日) 23:23:15
UTF-8にBOMつけた場合の、BOMの扱いはsignatureとなる
960デフォルトの名無しさん:2010/05/23(日) 23:33:42
技術英語さえまともに読めないのか。
961デフォルトの名無しさん:2010/05/23(日) 23:41:49
>959
BOMはシグネチャとして扱われる、のほうがいいかも。
962デフォルトの名無しさん:2010/05/24(月) 00:14:09
pythonにてプログラム勉強してるんですが
utf-8BOM無しで統一しているつもりなんですが u'一' (漢数字の一)がエラー解説の時にu'荳?'と出ます(実行には正常に出力されます)
これはunicodeとutf8を理解していないことによる何らかの弊害なのでしょうか
よろしくおねがいします
963デフォルトの名無しさん:2010/05/24(月) 01:20:58
pythonスレでやれ
964デフォルトの名無しさん:2010/05/24(月) 01:53:42
>>963
スレチと言われコチラに誘導されたもので
965デフォルトの名無しさん:2010/05/24(月) 04:22:11
>>964
こっちでやる方が遥かにスレチ
失せろ
966デフォルトの名無しさん:2010/05/24(月) 05:57:58
まずはバイトオーダーとシグナツレについて解説シル
967デフォルトの名無しさん:2010/05/24(月) 11:45:22
ここでのシグネチャは単にしるしという意味かな
バイトオーダーはCPUによって変わる、
ワード以上のデータがメモリ上でどういう配置になるかということ
だいたいビッグエンディアンかリトルエンディアンかの2通り
てこれはググればすむかと
968デフォルトの名無しさん:2010/05/24(月) 11:51:09
UTF-8ではエンディアンの影響を受けずOctetの順序は不変なのでByte Order Markとして機能しない
969デフォルトの名無しさん:2010/05/24(月) 12:36:56
>>962
>エラー解説の時に
をもっと具体的に。

あと、setdefaultencoding とか弄ってないよな?
アレを弄ることで本来出るべきエラーを隠したら、エラーにならず文字化けして問題が何処にあるのか
発見が難しくなる。
970デフォルトの名無しさん:2010/05/24(月) 13:50:54
>>969
Traceback (most recent call last):
File "C:\Python26\test\test04.py", line 8, in <module>
print b.index(u'荳?')
ValueError: list.index(x): x not in list

setdefaultencoding はいじってません
環境はwindowsXP python2.6です
以後向こうで聞きます。お騒がせしました
971デフォルトの名無しさん:2010/05/24(月) 20:09:15
結局UnicodeとUTF-8の違いは何なのでしょうか。
符号化文字集合Unicodeにも各文字に符号が振られているのに
さらにUTF-8が符号化方式とかわけわかりません。
972デフォルトの名無しさん:2010/05/24(月) 20:15:38
Unicodeは文字に番号を振っているだけ。ビットもバイトも関係ない。
そのUnicode番号を、バイト(正確にはオクテット)データの連続として
表現する方法の一つがUTF-8。
973デフォルトの名無しさん:2010/05/24(月) 22:06:07
Unicode: 単なる「文字の表」で、あいうえお表のようなもの。
      便利にするために、文字ごとに番号がついてあるけど、
      その番号はコンピュータ上のデータとは何ら関係がない。単なる整理番号。

UTF-8, UTF-16など: Unicodeの表にある文字をコンピュータ上で表現したいとき、
      どういう手順で表せばいいかを定めた「決まりごと」。
      Unicode表の文字をコンピュータ上のデータに変換する規則、
      コンピュータ上のデータをUnicode表の文字に変換する規則が定められている。

Unicode系の規格では「文字の表」と「決まりごと」が一組そろってはじめて、文字とデータの対応付けができる。
ASCIIコードでは、表と決まりごとの区別はあんまり明確じゃない。

Shift_JIS, iso-2022-jp, euc-jpは全部「決まりごと」で、やっぱり「文字の表」がないと意味をなさない。
そいつらはUnicode表じゃなくて、JISコードって表のための決まりごと。
974デフォルトの名無しさん:2010/05/25(火) 00:38:41
でも「JISコードで保存」とか言うじゃん。何ソレ?
975デフォルトの名無しさん:2010/05/25(火) 00:51:55
VB6ではEUCもShiftJisも自動で一旦UTF16インディアン付きに変換してるってこと?
976デフォルトの名無しさん:2010/05/25(火) 01:00:54
>>974
その場合のJISコードとはiso-2022-jpのこと。
977デフォルトの名無しさん:2010/05/25(火) 09:34:36
>>975
VB6の動作は知らないが、インディアン付きってなんだw
BOM付きか、リトルエンディアンかどっちかの勘違いだと思うけど。

エンディアン: ガリバー旅行記に出てくる、卵を尖った方から割る種族、丸い方から割る種族に由来。
    データの格納順序。例えば、16ビットデータ0xFEFFを表すとき、
    FE FFのように、桁の大きい方から表すのがビッグエンディアン
    FF FEのように、8ビットずつ区切って桁の小さい方から表すのがリトルエンディアン

    CPUによって、どっちがやりやすいかはある程度決まってくる。
    例えばx86系(パーソナルコンピュータのCPUは全部これ、と思っても特に差し支えない)は
    リトルエンディアンなCPUなので、何も考えずにUTF-16テキストを作るとリトルエンディアンになる。

BOM(Byte Order Mark): ユニコード表のU+FEFFの文字のこと。
    UTF-16で、この文字を頭に入れておくと、あら不思議。エンディアン(バイトの並び順=Byte Order)が分かっちゃう。
    より具体的には、UTF-16でU+FEFFは0xFEFFなので、
    これがFE FFのように入っていたらビッグエンディアン、FF FEのように入っていたらリトルエンディアン。

    UTF-8には、エンディアンの違いはないので、Byte Orderを示す必要がない。
    けれども、これが頭に入ってたらUTF-8だって判別しやすいよね、ということでsignature(しるし)として
    入れることが認められている。
978デフォルトの名無しさん:2010/05/25(火) 11:23:00
>これがFE FFのように入っていたらビッグエンディアン、FF FEのように入っていたらリトルエンディアン

つーか、何も考えずにワードで読んで0xFEFFなら変換不要0xFFFEなら必要、でいいじゃない
979デフォルトの名無しさん:2010/05/25(火) 11:28:14
>>978
実装のときはそれでいいとも思ったが、めんどくさかったので書かなかった。
x86の説明入れてるの見て分かる通り、なんでム板にいるの?ってくらいの人を対象に書いた。
980デフォルトの名無しさん:2010/05/25(火) 12:01:16
揚げ足取り
981デフォルトの名無しさん:2010/05/25(火) 16:17:15
最後にスレタイの質問が解決したということで埋め
982デフォルトの名無しさん:2010/05/25(火) 16:41:33
ずいぶんかかったなw
983デフォルトの名無しさん:2010/05/25(火) 20:13:45
>>978
非対称で気持ち悪い。処理速度も測定限界不能な位にしか変わらんだろ。
あとデータが奇数アライメントで配置されてたらどうするつもりだ?

>>977
>>CPUによって、どっちがやりやすいかはある程度決まってくる。
えっ、ビットとバイトを逆にする変なのがビッグエンディアンで、統一性のあるのが
リトルエンディアンじゃないの? やりやすさの問題じゃないと思うけど。
984デフォルトの名無しさん:2010/05/25(火) 20:24:18
ストリームでもテキストファイルでもメモリアクセスでもIOアクセスでもリトルエンディアンが有利
ビックリエンディアンはありえない
985デフォルトの名無しさん:2010/05/25(火) 20:33:18
ハードウェアの進化したいまではなんでもビッグでやっちゃえばいいんじゃないの
大きい集合は小さい集合を含む
986デフォルトの名無しさん:2010/05/25(火) 20:37:26
両対応で変換命令も含むのが最近じゃ多くない?
987デフォルトの名無しさん:2010/05/25(火) 20:59:04
>>977
> FE FFのように、桁の大きい方から表すのがビッグエンディアン
> FF FEのように、8ビットずつ区切って桁の小さい方から表すのがリトルエンディアン
それは文字を左から右に書く場合だろ。右から左に書けばリトルエンディアンが
如何に優れているかよくわかる。
988デフォルトの名無しさん:2010/05/25(火) 21:44:58
そもそも、ビット列のときは下から0, 1, 2, ...と番号をふるのに、バイト列になると上位桁からアドレスの若い順に並べようというビッグエンディアンの発想はキモい。
989デフォルトの名無しさん:2010/05/25(火) 22:09:41
> ガリバー旅行記に出てくる、卵を尖った方から割る種族、丸い方から割る種族に由来。

と書いたが、その2つの種族はお互いをキモい、変だと言い合って長年戦争してる。
ガリバー旅行記は風刺小説で、そういう些細なことが大きな争いに発展することを風刺してる。
990デフォルトの名無しさん:2010/05/25(火) 22:20:25
それを引用した上で、改めてその対立を実写化するとは大したやつらだぜ…
991デフォルトの名無しさん:2010/05/25(火) 22:22:30
>>983
>処理速度も測定限界不能な位にしか変わらんだろ。
には同意するが、>>978の方法で読めなかったらエンディアンを判定してから読む方法でも読めないよ。

>えっ、ビットとバイトを逆にする変なのがビッグエンディアンで、統一性のあるのが
>リトルエンディアンじゃないの? やりやすさの問題じゃないと思うけど。

ビットとバイトを逆にする、の意味が分からんが、どっちにせよ、それは一般的に認められた意見とは言い難い気がする。
与えられたCPUを使う以上は、やりやすさは大いに関係がある。どっちでも変わらないのであれば、好きな方を使えばいいが。
992デフォルトの名無しさん:2010/05/25(火) 23:25:34
32bitで1を書き込んで同じアドレスを8bitで読んでも
16bitで読んでも1が読めるのがリトルエンディアン。
32bitで1を書いて16進ダンプすると
8bitでダンプしても16bitでダンプしても
00000001になるのがビッグエンディアン。
アセンブラレベルだとビッグエンディアン
高級言語レベルだとリトルエンディアンの方がわかりやすい。
993デフォルトの名無しさん:2010/05/25(火) 23:31:25
>>984
ぎゃくじゃないか
994デフォルトの名無しさん:2010/05/25(火) 23:39:33
マップドIOとポートIOの違いから派生してるわけで
今時マップドIOだけで動いてるMPUなんて無いんだからリトルエンディアンに統一してしまえばいいのに
995デフォルトの名無しさん:2010/05/25(火) 23:54:49
5
996デフォルトの名無しさん:2010/05/26(水) 00:36:14
統一っていったところで、x86はリトルエンディアンでTCP/IPはビッグエンディアン。今更どうにも。
そして、リトルエンディアン・ビッグエンディアンって呼び方はこういう、くだらない論争を揶揄したもの。
先人たちが散々不毛な論争を続けた結果、こいつらをそう呼ぶことになったわけだ。
997デフォルトの名無しさん:2010/05/26(水) 00:56:29
ビッグエンディアンは非ワードアクセス時に
バイトレーン切り替え必須でハード的に不利。
998デフォルトの名無しさん:2010/05/26(水) 06:26:38
TUVとか@ABってなんの問題が?
999デフォルトの名無しさん:2010/05/26(水) 07:28:42
>えっ、ビットとバイトを逆にする変なのがビッグエンディアンで、統一性のあるのが

上位ビットが上位アドレスに書かれるのがリトルエンディアン。
上位ビットが下位アドレスに書かれるのがビッグエンディアン。
1000デフォルトの名無しさん:2010/05/26(水) 08:19:51
今年の流行語大賞決定
「隠してないで土地を出せ」

【口蹄疫】赤松「隠してないで土地を出せ」(本音が出ちゃった)
http://www.nicovideo.jp/watch/sm10843509
10011001
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。