UnicodeとUTF-8の違いは？　その2

1 ：デフォルトの名無しさん：2010/11/30(火) 09:00:05

富士通だとデフォルトでは生成されない
frt -c -Am -M./ (なんとか.f90)
でいけるのではなかろうか。いずれにせよ、
frt -help | less
とかやって、"module"で検索を掛けるのが吉。

2 ：デフォルトの名無しさん：2010/11/30(火) 10:52:07

アイちゃんによる誤爆スレ立てでした

3 ：デフォルトの名無しさん：2010/11/30(火) 13:18:27

このスレッドは天才チンパンジー「アイちゃん」が
言語訓練のために立てたものです。

アイと研究員とのやり取りに利用するスレッドなので、
関係者以外は書きこまないで下さい。

　　　　　　　　　　　　　　　　　　京都大学霊長類研究所

4 ：デフォルトの名無しさん：2010/12/09(木) 09:43:39

つ゚

5 ：デフォルトの名無しさん：2010/12/09(木) 16:52:06

|　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 ,．-――――‐　、　　　　　　..|
|　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　／　　　　 ,．-――┴- 、　　　　 .|
|　以下　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 / 　 |　　／: : l、: : : ;l: : : : :＼.　　　.|
|　イカペディア創設者　　　　　　　　　　　　　　　　　　　　 /　　 :!　./: : :､: :!_＼;/ _V＼ : |｀　　 |
|　イカ娘からの　　　　　　　　　　　　　　　　　　　　　　　　〈＿＿_Ｖ: : : :|∧|　　　 __｀|∨　　　　|
|　メッセージをお読みください　　　　　　　　　　　　　　｀￣丁 |: |:l :｜　__　　〃⌒V|　　　　|
|　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　ヽ|: ＮV:!〃⌒＿＿　//}|　　　　|
|　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 /: :{_|: :|//ｆ´　　ヽ}　八　　　　|
|　　　　　　　　　　　　　　　　　　　　　　　　　　　　　＿/: :/:/ : ト .丶＿__,ノイ＼_:＼.　　|
|　　　　　　　　　　　　　　　　　　　　　　　　　　　　＿_,／: :＿;／: ／,.ｲ⌒ヽ!ヽ: ﾄ､＼　 !: |__　|
￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣

6 ：デフォルトの名無しさん：2010/12/15(水) 07:54:00

　　　　　　　　　　　　　　 ,.　――- ､＿
　　　　　　　　　　／　　　　　＼｀　､
　　　　　　　　　　　／　　　　＿＿＿　＼　＼　　　　　人類よ、よく聞け！
　　　　　　　／/　　 .　 ´: : : : : : : :｀　､ヽ　＼　　　今からこのスレを
　　　　　　 /　/　.／: : : : : : : : : : : : : : : ＼i:　　〉　　人類侵略の拠点に
　　　　　 /　/ ／ : : : : : : : : : : : 八: : : : : : :ヽ.／　　　させていただくでゲソ
.　　　　　 /　 :i/: : : :＼: __: : : : :-/―}ﾊ‐ : : : : : i　　　　　　 __
　　　　　〈　 /: : : : : ／＼: : : : /　,x≠ミx、: :∧|　　　　　　／　}
　　　　　　＼ｉ: : : : :/ |:|　　＼:/　　んｨﾊ }}Ｖ:|）:{　　　　　./　　/
　　　　　　　 |: : : : : : ﾄ|　　　　　　弋ぅり　 {: :､: ＼＿＿/　　/＿＿　　 ,. ┐
　　　　　　　　∨＼: : :| 　 ,ｘ≠ 　 ,　　　　ﾊ: : ＼:＿_:/　　/: : : : : :｀ﾝ'’　ﾉ
　　　　　　　　＼|ﾍ〃　　 r　　￣}　 /: : ＼:_____/　　/´￣￣／　／＼
　　　　　　　　 / : : ∧　　＼　__ノ／L.,ｨ'⌒ヽ:_/　　/:￣｀ﾝ'　　／ヽ: : : :!
　　　　　　　　 /: : :〃: :,＞ｰ;‐┬　 ´ 　 /{{　／:/　　ﾊ:＞'´　／､　　 j: : : |
　　　　＿＿_,／: :／/: : :{　〃八　　　 /　∨／　　　　　　／ヽ: : '， /: : :/
　　／ : : : : : : :／／: : :,ハ　{{　|＼　 __/　 V:f　　　　　　　 '⌒ヽ }: :｜＼: :＼
　　/ : :／´￣￣／ : : ／ j : ヽ}}:！　　 /　　 |: |　　 {　　　　／　 /},: : / ＿/: : /
　　{: : :{　　　　/ /＞くつ/: : : :ﾘ　 '.　 / /　　:! : ､　Ｖ´￣　　 ,.ｲ/ : /　| : : : :｜
　　、: : 、　｜:{　　 r_〉}ヽ: : :{　　 ∨　　　＼: ＼　＼―　´ /' : 〈　 ! : : : : |
　　　＼: :＼　　､:＼＿＿）: }＼:、　　　　　　　 ` ┬ヽ._}=一'´　〉: : 〉 ! : : : : |

7 ：デフォルトの名無しさん：2010/12/16(木) 08:43:29

524 名前：デフォルトの名無しさん [sage]： 2010/09/26(日) 02:22:11
BOMの扱いが決定不可能な問題について質問と言う形で出す
↓
変な子が、ファイルサイズと文字長は違うよと言ってくる
↓
知ってると返す
↓
変な子が、人が扱う文字長とプログラムで扱う文字長は違うと言ってくる
↓
知ってると返す
↓
変な子が、いやおれの中では文字長と言えばこう定義されてるし別物なんだよと言ってくる
↓
だから、そんな話はしていないからもうレスしなくていいよと返す
↓
変な子が、人が扱う文字長とプログラムで扱う文字長は違うんだよ！昔からの当たり前の話だろうと言ってくる
↓
開いた口がふさがらない
↓
変な子が、コンピュータ処理で言う１文字と人が認識する１文字とは違うんじゃないのと、また繰り返してる
↓
もうやだこの馬鹿　←いまここ

8 ：デフォルトの名無しさん：2010/12/16(木) 17:04:23

1 名前：デフォルトの名無しさん [sage]： 2007/04/30(月) 20:02:37
ビッグインディアンとかなんとかかんとか

9 ：デフォルトの名無しさん：2010/12/17(金) 19:47:50

　　　　　　　　　　　皆様へのお願い

　このスレッドは高次機能障害をもたらす
病理の臨床実験のために立てたものです。

　被験者と研究員のやり取りに使うため、
書き込み等は自重されるようお願いいたします。
もし、書き込み等をすることで不愉快な思いをされましても、
当研究所は責を負いかねます。

　　　　　　　　　　　　　　　　　　　　　 (社)京都微生物研究所

10 ：デフォルトの名無しさん：2010/12/17(金) 22:09:58

　　　　　　,．-――　、
　　　　／　　　 ,．- ┴- 、
　　　 /.| 　／:´ : : : : : : : :ヽ
.　　 /　:! i{: : : :/＼;/ V }: :ゝ
　　〈._＿Ｖ l:l:V-‐　´ ‐ ,'l:/　＜人間ども、昔ＥＴという映画があったことを知らなイカ？
.　　　　　ヽ|: l: l､　ヮ_.ノ:l 　　＜ＥＴという宇宙人によって地球が侵略される話でゲソ
.　　　　＿/:/｀,}:｀ｽ/￣￣￣￣/　＜そして、次の瞬間、貴様はキーボードのＥとＴを見て驚愕するでゲソー
　　　／: : :(__::::つ/　 FMV 　/　ｶﾀｶﾀ
..￣￣￣￣￣＼/＿＿＿＿/￣￣

11 ：デフォルトの名無しさん：2010/12/17(金) 22:39:28

うーん、EとTを見ても驚愕すべきものがなにも見つからない。
目の前にキーボードが2台並んでいるのだが……

12 ：デフォルトの名無しさん：2010/12/17(金) 22:45:23

EとTの間にはRがある
Rと言えば思い出すのは
そう
Ruby

13 ：デフォルトの名無しさん：2010/12/18(土) 08:07:40

1 名前：デフォルトの名無しさん [age]： 2010/05/27(木) 14:17:17
前スレでなんとなくわかったのですが、インディアンがどうとかいうあたりで
話について行けなくなりました。

2 名前：デフォルトの名無しさん [sage]： 2010/05/27(木) 14:20:27
次スレいるのかよｗ

14 ：デフォルトの名無しさん：2010/12/18(土) 08:08:41

117 名前：デフォルトの名無しさん [sage]： 2010/06/22(火) 08:42:27
おかしい人は相手をせず放置するのがいちばんですよ。

でもここはおかしい人隔離スレかw

15 ：デフォルトの名無しさん：2010/12/18(土) 08:09:23

173 名前：デフォルトの名無しさん [sage]： 2010/07/05(月) 21:18:23
>>164
文字コードと改行コードの話はキチガイ信者が集まるものだよ。
ネットニュースのうさげの時代からずっと。
そんな人達の隔離スレがここゆっくりしていってね

16 ：デフォルトの名無しさん：2010/12/19(日) 12:42:03

17 ：デフォルトの名無しさん：2010/12/19(日) 13:44:38

ここはシフトジスです。美乳はいりません。

18 ：デフォルトの名無しさん：2010/12/19(日) 21:31:42

19 ：デフォルトの名無しさん：2010/12/20(月) 08:57:56

971 名前：デフォルトの名無しさん [sage]： 2010/05/24(月) 20:09:15
結局UnicodeとUTF-8の違いは何なのでしょうか。
符号化文字集合Unicodeにも各文字に符号が振られているのに
さらにUTF-8が符号化方式とかわけわかりません。

972 名前：デフォルトの名無しさん [sage]： 2010/05/24(月) 20:15:38
Unicodeは文字に番号を振っているだけ。ビットもバイトも関係ない。
そのUnicode番号を、バイト(正確にはオクテット)データの連続として
表現する方法の一つがUTF-8。

973 名前：デフォルトの名無しさん [sage]： 2010/05/24(月) 22:06:07
Unicode: 単なる「文字の表」で、あいうえお表のようなもの。
　　　　　　便利にするために、文字ごとに番号がついてあるけど、
　　　　　　その番号はコンピュータ上のデータとは何ら関係がない。単なる整理番号。

UTF-8, UTF-16など: Unicodeの表にある文字をコンピュータ上で表現したいとき、
　　　　　　どういう手順で表せばいいかを定めた「決まりごと」。
　　　　　　Unicode表の文字をコンピュータ上のデータに変換する規則、
　　　　　　コンピュータ上のデータをUnicode表の文字に変換する規則が定められている。

Unicode系の規格では「文字の表」と「決まりごと」が一組そろってはじめて、文字とデータの対応付けができる。
ASCIIコードでは、表と決まりごとの区別はあんまり明確じゃない。

Shift_JIS, iso-2022-jp, euc-jpは全部「決まりごと」で、やっぱり「文字の表」がないと意味をなさない。
そいつらはUnicode表じゃなくて、JISコードって表のための決まりごと。

20 ：デフォルトの名無しさん：2010/12/20(月) 08:59:50

977 名前：デフォルトの名無しさん [sage]： 2010/05/25(火) 09:34:36
>>975
VB6の動作は知らないが、インディアン付きってなんだw
BOM付きか、リトルエンディアンかどっちかの勘違いだと思うけど。

エンディアン: ガリバー旅行記に出てくる、卵を尖った方から割る種族、丸い方から割る種族に由来。
　　　　データの格納順序。例えば、16ビットデータ0xFEFFを表すとき、
　　　　FE FFのように、桁の大きい方から表すのがビッグエンディアン
　　　　FF FEのように、8ビットずつ区切って桁の小さい方から表すのがリトルエンディアン

　　　　CPUによって、どっちがやりやすいかはある程度決まってくる。
　　　　例えばx86系(パーソナルコンピュータのCPUは全部これ、と思っても特に差し支えない)は
　　　　リトルエンディアンなCPUなので、何も考えずにUTF-16テキストを作るとリトルエンディアンになる。

BOM(Byte Order Mark): ユニコード表のU+FEFFの文字のこと。
　　　　UTF-16で、この文字を頭に入れておくと、あら不思議。エンディアン(バイトの並び順=Byte Order)が分かっちゃう。
　　　　より具体的には、UTF-16でU+FEFFは0xFEFFなので、
　　　　これがFE FFのように入っていたらビッグエンディアン、FF FEのように入っていたらリトルエンディアン。

　　　　UTF-8には、エンディアンの違いはないので、Byte Orderを示す必要がない。
　　　　けれども、これが頭に入ってたらUTF-8だって判別しやすいよね、ということでsignature(しるし)として
　　　　入れることが認められている。

21 ：デフォルトの名無しさん：2010/12/25(土) 22:49:24

>>1
本スレ>>1です。紛らわしいスレを立てないでください。
とはいえ、本スレが埋まったらまたここに来ますです。

22 ：デフォルトの名無しさん：2011/01/01(土) 13:32:38

unicodeはfffeのボムつきutf-16リトルエンディアン
メモ帳がそうだ

23 ：デフォルトの名無しさん：2011/01/18(火) 17:52:43

JIS漢字コードとシフトJISコードの違いは何でしょうか。
区点コードとシフトJISコードの違いは何でしょうか。

24 ：デフォルトの名無しさん：2011/01/18(火) 17:54:39

http://msdn.microsoft.com/ja-jp/library/cwe8bzh0(v=VS.100).aspx
＞Unicode は 16 ビットの文字セットで、すべての言語に対する十分な表現能力を持っています。
＞すべての ASCII 文字は、拡張文字として Unicode の中に含まれます。

WindowsにおけるUnicode（の文字符号化方式）とはUTF-16（またはUCS-2）の意味。

＞このドキュメントでは、MBCS は、Unicode でサポートされていないすべてのマルチバイト文字を指します。
＞Visual C++ では、MBCS は常に DBCS を意味します。 2 バイトを超える文字セットはサポートされていません。

WindowsにおいてはUnicodeがUTF-16（またはUSC-2）の意味なので
UTF-7やUTF-8はサポートされない。

http://msdn.microsoft.com/en-us/library/dd317756(VS.85).aspx
＞1200 utf-16 Unicode UTF-16, little endian byte order (BMP of ISO 10646); available only to managed applications

コードページ1200（UTF-16）はネイティブなVC++では使えない。

VC++でネイティヴアプリケーションを記述する限り、
Unicodeの全文字を利用する方法はない。

これでOK？＾＾；

25 ：デフォルトの名無しさん：2011/01/18(火) 21:38:24

>>23
JIS漢字コードってなんですか。JIS X 0208 のことですか。
シフトJISコードってなんですか。シフト符号化表現のことですか。
区点コードってなんですか。区点番号のことですか。

勝手な用語を使われたら誰も何も答えられません。

26 ：デフォルトの名無しさん：2011/01/18(火) 22:21:26

目指してる未来が違うｗｗｗｗ　ｂｙシャープ
http://twitter.com/ozawa_yuuki/status/6549767047872513　　

27 ：デフォルトの名無しさん：2011/01/18(火) 23:27:12

最近ようやくわかってきたんだ。つまり、Unicodeを扱えないのはコンソールなんだよ。

28 ：デフォルトの名無しさん：2011/01/18(火) 23:52:45

ええ～～っ！JIS漢字コードを知らないひとがいるのぉ？
ええ～～っ！シフトJISコードを知らないひとがいるのぉ？
ええ～～っ！区点コードを知らないひとがいるのぉ？

ばっかみた～い

29 ：デフォルトの名無しさん：2011/01/18(火) 23:53:27

「コンソール」って何ですか？

30 ：デフォルトの名無しさん：2011/01/19(水) 00:16:22

command.com のことかな

31 ：デフォルトの名無しさん：2011/01/19(水) 00:34:40

chcp 65001

32 ：デフォルトの名無しさん：2011/01/19(水) 00:50:05

cp65001はUTF-8なので今度はVC++が対応しないね。

33 ：デフォルトの名無しさん：2011/01/19(水) 01:39:24

Windowsのシステムロケールを英語にしてからcp650001にすると逝ける

34 ：デフォルトの名無しさん：2011/01/19(水) 10:31:45

>>28 自分がバカを晒していることに気付かないバカ

35 ：デフォルトの名無しさん：2011/01/26(水) 00:29:48

前スレが見当たらないんだが、物凄い勢いでDAT落ち?

36 ：デフォルトの名無しさん：2011/01/26(水) 00:34:53

987で落ちたみたいだね
UnicodeとUTF-8の違いは？　その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/

37 ：デフォルトの名無しさん：2011/01/26(水) 16:26:32

980超えて24時間書き込みがないと自動的に落ちる、だっけ。

38 ：デフォルトの名無しさん：2011/01/28(金) 19:01:23

隔離スレ浮上

39 ：デフォルトの名無しさん：2011/02/01(火) 06:41:44

コンソールってのは辞書を引くと「慰める」。
つまりオナニーのことだったんだよ

40 ：デフォルトの名無しさん：2011/02/01(火) 07:17:12

確かに肌荒れしたところに塗ると痛みが引くよね

41 ：デフォルトの名無しさん：2011/02/01(火) 15:03:50

42 ：デフォルトの名無しさん：2011/02/02(水) 00:13:35

珍宝に塗るのがオヌヌメ

43 ：デフォルトの名無しさん：2011/02/02(水) 08:12:08

>>39
琉球語で「いらっしゃい」の意味じゃなかったの？

44 ：デフォルトの名無しさん：2011/02/03(木) 21:48:55

>>24
>VC++でネイティヴアプリケーションを記述する限り、
>Unicodeの全文字を利用する方法はない。

どれだけ無知なんだよ。Unicode(UTF-16)版API使うに決まってんだろ。

>>25
>シフトJISコードってなんですか。シフト符号化表現のことですか。
相変わらずJIS信者はキモいな。シフトJISはシフトJISだよ。

45 ：デフォルトの名無しさん：2011/02/03(木) 22:37:43

それはWindows SDKであって、Visual C++ではないんじゃないか？

みたいなつっこみでどうでしょう。

46 ：デフォルトの名無しさん：2011/02/04(金) 00:22:50

>>45
で、それが問題になるケースは？

47 ：デフォルトの名無しさん：2011/02/04(金) 00:25:11

ないね。2003以降はSDKにVCコンパイラくっついてるし。逆もまた真だし。

48 ：デフォルトの名無しさん：2011/02/04(金) 01:21:00

VC++ で BOM なしで UTF-8 通るようになったら
もう完全に引っ越すんだけどな

49 ：デフォルトの名無しさん：2011/02/04(金) 06:57:05

引っ越さない理由がわからない。BOMありで何か問題が?

50 ：デフォルトの名無しさん：2011/02/04(金) 07:12:45

> >シフトJISコードってなんですか。シフト符号化表現のことですか。
> 相変わらずJIS信者はキモいな。シフトJISはシフトJISだよ。

CP932 とか Windows-32J で混乱して死ねばいいと思うよ。

51 ：デフォルトの名無しさん：2011/02/04(金) 07:21:36

Unix - 「UTF-8にBOMはいらないんだよ糞が」派
Windows - 「BOMねえとエンコーディングの判別が面倒すぎるだろ糞が」派

52 ：デフォルトの名無しさん：2011/02/04(金) 10:50:26

俺 - じゃあ、なんも悩まなくいいように全部何から何までBOMなしUTF-8にしようぜ！
　　　バイト列だからとかホザいてるFSもな！

53 ：デフォルトの名無しさん：2011/02/04(金) 11:42:13

>>51
「shebang の次の行に書いておけばいいだろ」派

54 ：デフォルトの名無しさん：2011/02/04(金) 11:47:16

Cのソースとかにまでshebang書いてたらアホだと思われるぞ
実際アホなんだろうけど

55 ：デフォルトの名無しさん：2011/02/04(金) 19:11:35

もともとUTF-8の規格にはBOMないし
BOMがあるとUTF-8の利点である1バイト部分がLaten-1互換ってのも失われちゃうし
おっぱいぱいなんじゃなかったっけ？

56 ：デフォルトの名無しさん：2011/02/04(金) 20:39:51

綴り間違ってるし互換性なんてないし
古いエンコードでバシッと表示できる可能性がミジンコくらい有るのはASCIIだけだよ

57 ：デフォルトの名無しさん：2011/02/04(金) 21:56:15

>>56
バックスラッシュとチルダは？

58 ：デフォルトの名無しさん：2011/02/05(土) 11:35:57

ASCIIだから問題ないでしょ。
JIS X 0201左面じゃないんだから。

59 ：デフォルトの名無しさん：2011/02/06(日) 01:07:58

>>51
ファイル名に BOM 付ける訳にいかないしなぁ

60 ：デフォルトの名無しさん：2011/02/06(日) 02:07:45

>>59
実はお前、馬鹿ですね

61 ：デフォルトの名無しさん：2011/02/06(日) 02:11:36

>>54
shebang という事は TCC 使いなのかもね。

http://bellard.org/tcc/

62 ：デフォルトの名無しさん：2011/02/06(日) 04:33:14

>>61
申し訳ございませんが
tcc と shebang の関係について私には分かり兼ねますので
ご高説賜りたく望む所存でございます

63 ：デフォルトの名無しさん：2011/02/06(日) 05:13:24

>>61
TCCでコンパイルすると出来上がったexeにアンチウィルスソフトが反応してワロス

ここのひとも同じみたいだ
>ttp://www.mail-archive.com/[email protected]/msg02244.html

64 ：デフォルトの名無しさん：2011/02/06(日) 06:51:10

>>62
リンク先嫁

65 ：デフォルトの名無しさん：2011/02/06(日) 07:35:26

>>64
># C script supported : just add '#!/usr/local/bin/tcc -run' at the first line of your C source, and execute it directly from the command line.

ありがとうございました

66 ：デフォルトの名無しさん：2011/02/06(日) 13:00:21

>>61
TCC でも動作確認出来ました。
ttp://www1.axfc.net/uploader/Sc/so/202217.zip&key=tcc
ほんとうにありがとうございました。

67 ：デフォルトの名無しさん：2011/02/06(日) 13:15:56

>>59-60
ファイル名に BOM 付けたければ付ければ？

68 ：デフォルトの名無しさん：2011/02/06(日) 15:13:49

RFCは規格とイコールではないし、規格だって法とイコールでもない
Unicode関連が元々どうしようもないクソ規格なんだから、適当にならざるを得ないんだよ
四角四面に適用可能なほど出来のいい規格じゃねーし

69 ：デフォルトの名無しさん：2011/02/06(日) 17:16:43

BOMって結局>>51の言うように、｢美乳｣の代わりなの？
BOMのバイト列が先頭に出現する符号化方式って他に無いの？

70 ：デフォルトの名無しさん：2011/02/06(日) 17:18:23

>>69
> BOMのバイト列が先頭に出現する符号化方式って他に無いの？
Latin-1をはじめとするシングルバイト全部

71 ：デフォルトの名無しさん：2011/02/06(日) 17:31:36

じゃあUTF-16って言う前提が無いとダメなの？
具体的に役立つ場面が想像付かない。
あまり聞くのも迷惑だろうし、判りやすいサイトがあれば誘導してほしいです

72 ：デフォルトの名無しさん：2011/02/06(日) 21:07:11

たしかにBOM付いてると
UTF-8でもVC++通るな

73 ：デフォルトの名無しさん：2011/02/06(日) 22:39:52

>>71
君の疑問は君の無知から来ているわけではなく、
BOMの矛盾がそのままあなたの頭の中のモヤモヤになってるだけ。

74 ：デフォルトの名無しさん：2011/02/06(日) 23:03:58

>>70
確かに[FE FF 41 41]のファイルはLatin-1ともUTF-16とも。
(VC#で確認したけどデフォルトではEncoding無視してBOM優先なんですね。ちょっと驚いた)

前スレも見てきたけどBOMについては賛否あるみたいなんで、
あんまり関わらないようにします。

75 ：デフォルトの名無しさん：2011/02/09(水) 01:01:41

>>71
偶然先頭にBOMが来ることは少ない、という前提の元では、
ファイルが、自身のエンコード方式を明確にする目的での利用にはそれなりに役に立つ。

けどBOMなしUTF-16というものもあるので、
アプリが、ファイルのエンコードを知るという目的では微妙。

76 ：デフォルトの名無しさん：2011/02/09(水) 23:56:09

>>73
>BOMの矛盾
何も矛盾してないだろ。矛盾とは何?
エンコーディングを確実に判断するにはメタデータが必要に決まっているし、
BOMはUnicodeを他のエンコーディングと区別できることを保障している
わけではない。

77 ：デフォルトの名無しさん：2011/02/10(木) 00:29:49

>>71も>>73も同レベルの無知だと思うよ

78 ：デフォルトの名無しさん：2011/02/10(木) 00:31:47

じゃあ俺も！

79 ：デフォルトの名無しさん：2011/02/10(木) 00:47:30

だな
>>75も無知の部類

80 ：デフォルトの名無しさん：2011/02/10(木) 00:53:16

うざいなあ
低能なネタ振りは無視すれいちいちツッコミ入れるな

81 ：デフォルトの名無しさん：2011/02/10(木) 00:55:10

それも無視すれば良いんじゃないの

82 ：デフォルトの名無しさん：2011/02/10(木) 01:55:30

>>75の認識で何が間違ってる？
無知じゃない人おしえて

83 ：デフォルトの名無しさん：2011/02/10(木) 06:15:01

------ はいはいここまで読んだ ------

84 ：デフォルトの名無しさん：2011/02/10(木) 06:41:56

>>75はあれだろ。
「挨拶は人間同士のコミュニケーションを円滑にするが、
挨拶しない人もいるので、挨拶の必要性を感じない」ってレベル。

85 ：デフォルトの名無しさん：2011/02/10(木) 08:36:09

コードポイントとスカラー値の違いは何でしょうか？

86 ：デフォルトの名無しさん：2011/02/10(木) 09:26:48

コードポイントというのは抽象的な概念で、Unicode 以外の文字集合の
（たとえば JIX X 0208 の「何区何点」）も「コードポイント」。

スカラー値というのは Unicode の概念で、コードポイントを示す具体的な
整数値。

87 ：デフォルトの名無しさん：2011/02/10(木) 09:48:53

>>86
そういうことなんだ。
㌧

88 ：デフォルトの名無しさん：2011/02/10(木) 10:16:57

バカと無知の違いは何でしょうか？

89 ：デフォルトの名無しさん：2011/02/10(木) 10:18:13

無知は知識を獲得すれば問題なくなる
バカは死ななきゃ治らない

90 ：デフォルトの名無しさん：2011/02/10(木) 10:37:47

const int バカ = 0;
int 無知; // uninitialized

91 ：デフォルトの名無しさん：2011/02/10(木) 12:28:24

人格的な理由によるバカならば、稀にconst_castが効くこともある

92 ：デフォルトの名無しさん：2011/02/10(木) 15:27:41

ただし膨大なコストを伴う

93 ：デフォルトの名無しさん：2011/02/10(木) 20:00:10

UTF-8 なファイルに BOM を付けるのは、渋谷の交差点ですれ違う人全員に挨拶するレベルかな

94 ：デフォルトの名無しさん：2011/02/10(木) 21:34:49

的外れなたとえ話は要らん

95 ：デフォルトの名無しさん：2011/02/10(木) 23:01:51

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf8">

これでじゅうぶんやん。何が不満なの？ワケがわかりません。

96 ：デフォルトの名無しさん：2011/02/10(木) 23:06:18

<?xml encoding="UTF-8">

これでもいいし。まぁ煮たようなのは他にも
-*- coding: UTF-8 -*-
とか
vim:fileencoding=UTF-8
とか
use utf8;
とかあるらしいけど、実際に使った事がないから知らん。
なんでソレじゃダメなのさ？

97 ：デフォルトの名無しさん：2011/02/10(木) 23:07:04

おそらく誰も明確には答えられんだろうな。

98 ：デフォルトの名無しさん：2011/02/10(木) 23:16:46

<?xml encoding="UTF-8">
-*- coding: UTF-8 -*-
vim:fileencoding=UTF-8

これらは
coding="UTF-8"
coding: UTF-8
coding=UTF-8
の部分のマッチだけ見てるよ

99 ：デフォルトの名無しさん：2011/02/11(金) 00:42:47

コーディングマッチ子先生

100 ：デフォルトの名無しさん：2011/02/11(金) 01:31:28

その手の手法は、元来レイヤーが違うところに情報を持たせている気持ち悪さはあるな
例えば、文字コード変換との相性は明らかに良くないし、対処法も美しくない
BOMと比べてどうかはまた別の話だが

101 ：デフォルトの名無しさん：2011/02/11(金) 03:51:56

実際のエンコーディングと異なるエンコーディング名を指定できるし
UTF-16で破綻するしBOMより酷いと思う

102 ：デフォルトの名無しさん：2011/02/11(金) 08:38:34

世の中の流れとしては
旧 HTML → media type で指定。デフォルトなし
↓ XML → デフォルトは Unicode だが指定可能
新 JSON, YAML → Unicode 以外不可

となっている。Unicode 以外不可なら BOM で判別がつく(なければ UTF-8)。

103 ：デフォルトの名無しさん：2011/02/11(金) 14:01:51

>>84
そう解釈したのならバカ。挨拶ってのがセンスのない例えなので、違和感は出るが
挨拶しない人もいるから、挨拶してもらえるつもりでいてはいけない
の方が近い。

104 ：デフォルトの名無しさん：2011/02/11(金) 14:19:06

>>102
昔のHTMLは、そもそも多言語対応
してなかった。
JSONは、パーサー次第だろ。

「世の中」としては、UTF-8に収束
しつつも、統合されるのはまだまだ
遠い将来、くらい？

105 ：デフォルトの名無しさん：2011/02/11(金) 14:26:29

YAMLもUTF-8で通るライブラリと通らないのがある

>>104
>しつつも、統合されるのはまだまだ
>遠い将来、くらい？

もう目の前まで来てる

106 ：デフォルトの名無しさん：2011/02/11(金) 14:34:35

最初っからUCS-4なら統合も素直に喜べたんだけどねぇ

107 ：デフォルトの名無しさん：2011/02/11(金) 16:40:26

>>104
多言語対応と複数文字コード対応は全く違う話。

108 ：デフォルトの名無しさん：2011/02/11(金) 21:05:52

＞実際のエンコーディングと異なるエンコーディング名を指定できるし

そげなことを言い始めたら話が先に進まんぜ。
シフトJISの文書ファイルにUTF-8のBOMを埋め込むことだってできる。
偽装しようと思えば何だってできるやろ。
他人の考えを否定するばかりでなく、自分で何か建設的な意見は言えんの？

109 ：デフォルトの名無しさん：2011/02/11(金) 21:12:19

動画とおんなじようにテキストファイル用のコンテナフォーマットを作って
BOMだの言語タグだのコーディング指定だのはそっちに入れるのがいい
テキストとBOMとごっちゃに規格管理しようとするから混乱する

110 ：デフォルトの名無しさん：2011/02/11(金) 21:23:42

まあ安易だわな。
必須にならなくてよかったよ。
そのうち死滅するだろう。

111 ：デフォルトの名無しさん：2011/02/11(金) 21:28:41

SJISにBOMを付けるなんてのは意図的に破壊しないと出てこないと思うが。少なくとも
文字コード変換と同列の問題じゃない。
実際問題、文字コード変換をしようとしたら、どれが一番楽かはともかく、データ内に
文字コード情報を埋め込むやり方は一番面倒だ。設計的には美しくない。かといって、
既存の枠組みから大幅に異なるコンテナを作ったところで誰も使わないだろう。
UTF-8で全部片付くほど綺麗な世界でもない。BMPだけなのか、UCS-4まで行ける
のか、同じUTF-8でも別扱いにしないとまずい世界が既にあるのだし。
BOM付きUTF-8への対応も進んでいるし、推奨もしないが排除する必要も無かろう。
大体、CJKなんて糞仕様を作った糞コンソーシアムに盲従する必要も全く感じない。

112 ：デフォルトの名無しさん：2011/02/11(金) 21:30:19

いいかげんすぎるのも困るが、原理原則でガチガチなのも困るわな

113 ：デフォルトの名無しさん：2011/02/11(金) 21:48:01

これだけ対応ソフトが出回ると、死滅はしないんじゃないか？
まぁ、使わなくても個人的には全く困らないっつーか、BOM無しに統一された世界なら
むしろその方が楽だから、非対応に戻すのが流行ったりしたら死滅するだろうけど。
あと、美しく新しいテキストファイルのコンテナ、とか考えていいのは中学生までだな。

114 ：デフォルトの名無しさん：2011/02/11(金) 22:13:45

コンテナとか難しいこと考えんでも、"\033$@" と "\033(J" で囲めばええやん

115 ：デフォルトの名無しさん：2011/02/12(土) 00:50:26

>>108
他人の考えを否定するばかりって…ｗ
conding=UTF-8埋め込みじゃあ例えばSJISにコード変換しただけで破綻するじゃない
コード変換は普通に行われるから、それを指摘しただけなのにw

116 ：デフォルトの名無しさん：2011/02/12(土) 00:56:01

>>115
> conding=UTF-8埋め込みじゃあ例えばSJISにコード変換しただけで破綻するじゃない
それは現状のコード変換がconding=UTF-8を認識せずにコード変換するからであって
conding=UTF-8をコード指定として認識するコード変換ツールは、変換後のコード名を
埋め込み直すんじゃないでしょうか？

117 ：デフォルトの名無しさん：2011/02/12(土) 02:18:01

コード変換ツールは必ず coding=*** を正しく認識して埋め込み直しなさい。
ユーザーは一行目に coding *** などと間違われやすいテキストを書いてはいけない。
ユーザーはテキストエディタで開けば書き直せる状態だけど coding=*** を書き換えてはいけない。
制約が多いなあ。

118 ：デフォルトの名無しさん：2011/02/12(土) 02:23:36

それは文字コード変換なのだろうか？

そもそも文字コード間の文字って完全に対応が決まってるわけじゃないし
どうやっても何らかの問題を含んでしまいそうだ
コンセンサンスのある文字コード変換手法が定まってればいいんだろうけど
どうせ「Windowsと同じ挙動にすること」ってなったりしそうで実装者がかわいそう

119 ：デフォルトの名無しさん：2011/02/12(土) 03:21:01

>>108
馬鹿にかまうな

120 ：デフォルトの名無しさん：2011/02/12(土) 04:55:24

詭弁のガイドライン

121 ：デフォルトの名無しさん：2011/02/12(土) 12:43:08

おまいらアフォ杉ｗ
コード変換する必要の無いように、coding=*** を埋め込むんじゃないか。
コード変換する必要があるのは、コードが不明だから。
判明してれば変換する必要は無いだろ。

122 ：デフォルトの名無しさん：2011/02/12(土) 13:00:10

>>121
アフォなプログラマ・アプリは山ほどあるぞ

123 ：104：2011/02/12(土) 14:35:09

>>107
何が違うのかわかんね。

ちなみに「多言語対応」は、英語系以外の
言語の対応のつもりで書いた。

124 ：デフォルトの名無しさん：2011/02/12(土) 14:36:40

>>105
＞もう目の前まで来てる
ガラパゴスなめんな！

125 ：デフォルトの名無しさん：2011/02/12(土) 20:16:29

コード変換ツールは、METAタグ、XMLタグ、coding=*、using文、その他もろもろを正確に
認識しなければならない。
また、例えばプログラムのコード、ログファイル、ドキュメントなどにMETAタグがサンプル
として埋まっている場合は、それは言語コード指定ではないので変換してはならない。

アホかと。
「コード変換ツールが対応すればいい」とか言ってる奴は、一生プログラムを書くべきじゃ
ないレベルだろ。

126 ：デフォルトの名無しさん：2011/02/12(土) 20:22:12

>>121が何を言いたいのか分からん
適当な言語で非ASCIIで破綻しない正規表現マッチングをしようとしたとして、シフトJISと
判明しているテキストが送られてきた場合、coding=Shift_JISって埋まってたら、どんな
プログラム言語でも変換せずに処理できるとでも？

127 ：デフォルトの名無しさん：2011/02/12(土) 20:39:57

日本語でおねがいします

128 ：デフォルトの名無しさん：2011/02/12(土) 23:02:11

この場合適当とは文字通り適当ということを指します

129 ：デフォルトの名無しさん：2011/02/26(土) 09:39:55.26

http://hibari.2ch.net/test/read.cgi/tech/1295493964/210-

130 ：デフォルトの名無しさん：2011/02/26(土) 12:23:31.69

>>129
UTF-32は固定長でないと書いてありますが、これはどういう意味でしょうか？
合成文字があるから1文字が必ずしも32bitでないということを言っているのでしょうか？

http://hibari.2ch.net/test/read.cgi/tech/1295493964/228
＞228 ：デフォルトの名無しさん：2011/02/26(土) 02:22:47.15
＞いまどき、欧米人以外でUTF-32が固定長とか思ってる奴がいるんだな。
＞CJKの当事者としてもうちょっと勉強しようぜ。

131 ：デフォルトの名無しさん：2011/02/26(土) 14:19:42.86

>>130
普通に考えたらそうだと思うけど、その人が本当に何を考えてそう発言したのかは
向こうで聞かないと分からないと思われ

コードポイントの話に反論が無かった所を見ると、まあ間違いないとは思うけどね

132 ：デフォルトの名無しさん：2011/02/26(土) 14:20:00.77

合成文字だろ。

133 ：デフォルトの名無しさん：2011/02/26(土) 15:25:56.28

>>131-132
やはりそういうことですよね。
㌧

134 ：デフォルトの名無しさん：2011/02/26(土) 16:50:59.12

CJKとかアホなことして切り詰めた意味は全く無かったよな

135 ：デフォルトの名無しさん：2011/02/26(土) 17:33:27.17

そうだね

136 ：デフォルトの名無しさん：2011/02/26(土) 18:00:45.17

http://benlynn.blogspot.com/2011/02/utf-8-good-utf-16-bad.html

CJK を使ってなくても分かる話だよな

137 ：デフォルトの名無しさん：2011/04/16(土) 07:00:33.60

突然だけど、俺、今日ソープで童貞捨ててくる。
11時に電話で予約入れた。どきどき
お前らも今時シフトジスなんて使わずMancode使えよ

138 ：デフォルトの名無しさん：2011/04/16(土) 07:39:18.44

139 ：デフォルトの名無しさん：2011/04/16(土) 09:30:15.01

>>137
体験レポートもよろしく。
自分の場合、マンコの中がゆるく感じて、あまり気持ちいいとは思わなかった。

140 ：デフォルトの名無しさん：2011/04/16(土) 10:15:37.30

シフトジスは最大２バイトだからしまりが良い

141 ：137：2011/04/16(土) 13:54:15.82

川崎ソプに行ってきた。
騎乗位は何故かチソコ痛いだけで苦痛だったけど
正常位はむちゃくちゃ気持ち良かった。
緊張して何話したか覚えてないけど、優しくしてもらえたよ。
お前らもMancodeなんて使ってないで。UTF-8使った方がいいよマジ

142 ：デフォルトの名無しさん：2011/04/30(土) 09:25:16.40

最近ＯＵＴＬＯＯＫの設定を「Unicode(UTF-8)」にしたんだけど、
相手が読めなかったり問題ある？
あとUTF-8が括弧書きされてるのはUTF-8はUnicodeの一種ってい
理解でいいのかな

143 ：デフォルトの名無しさん：2011/04/30(土) 13:17:17.60

>UTF-8はUnicodeの一種

軽く目まいがしたぜ・・・

144 ：デフォルトの名無しさん：2011/04/30(土) 14:59:14.76

問題ないだろ。Unicode規格で定められたエンコーディングの一つがUTF-8。
「Unicode」が符号化文字集合の名前だなんてUnicode規格のどこにも書いてないし、
「Unicode」をUTF-16の意で使うのはマイクロソフトだけ

145 ：デフォルトの名無しさん：2011/04/30(土) 15:29:57.76

Unicodeの一種、っていう呼び方は語弊があるな。
「魚の一種」というなら対象は魚であるべきだし
「Unicodeの一種」というなら対象はUnicode（つまり規格）であるべきなんだ
日本語の問題だな

UTF-8は規格は規格でもUnicodeの符号化方式の規格であって、言うなれば
上の例でたとえるなら「フグの白子って魚の一種ですよね？」と聞いているようなもの
フグは魚の一種だが、フグの白子は魚の一種ではない

「Unicodeの一種」と呼べるのは、例えばUnicode 1.0.1とかUnicode 6.0.0とかだな
この二つは全然違うけどどちらもUnicode

146 ：デフォルトの名無しさん：2011/04/30(土) 15:43:17.08

まああれだ。「原材料：魚(フグの白子)」みたいなもんだ。

147 ：デフォルトの名無しさん：2011/04/30(土) 22:14:03.44

区点コードってJISコードの一種ですよね？

148 ：デフォルトの名無しさん：2011/04/30(土) 22:45:48.73

JISの文字集合のインデックスです。

149 ：デフォルトの名無しさん：2011/05/01(日) 02:25:41.72

とある文字集合の・・・

150 ：デフォルトの名無しさん：2011/05/01(日) 06:12:28.61

>>147 JISコードの定義は？

151 ：デフォルトの名無しさん：2011/05/01(日) 10:30:43.79

JIS X 0208文字集合

152 ：デフォルトの名無しさん：2011/05/01(日) 12:36:34.07

いまどきのガキはJIS26も知らんのか。

153 ：デフォルトの名無しさん：2011/05/01(日) 20:50:07.03

知らん

154 ：142：2011/05/14(土) 18:23:02.15

Unicodeの理解が間違ってたようですみません。
メール本文は文字化けしないようなのですが、返信メールの宛先が
「"=?utf-8?B?=" aaa@bbb」みたいになってしまいます。
相手のメールソフトがMIMEエンコードを認識できないことがあるようです。

155 ：デフォルトの名無しさん：2011/05/15(日) 00:27:53.50

携帯に歩数計アプリ入れてるんだけどさ、今日は10646歩だったぜ。キリがいい

156 ：デフォルトの名無しさん：2011/05/29(日) 07:37:03.28

前スレの、ISO-2022-JPがIEで文字化けする問題だけど、MSのブログはアホが多いな。
「文字コードの指定の無いページで文字化けが起こるようになりました」とか言う奴は
死んだ方がいい

157 ：デフォルトの名無しさん：2011/06/02(木) 00:01:47.43

前スレとか半年越しで言われても何の話かわからん

158 ：デフォルトの名無しさん：2011/06/02(木) 02:53:51.08

984 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 14:21:57
いや、最近IEを更新すると、
META書いてあってもISO-2022-JPが化けるようになった。

985 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 17:03:21
>>984
ISO-2022-JP は IE でも見れるって
話じゃなかったのか？
見れなくなったのか。

986 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 21:39:59
>>985
http://blogs.msdn.com/b/ie_jp/archive/2010/12/17/ms10-090.aspx

987 名前：デフォルトの名無しさん [sage]： 2011/01/23(日) 22:57:09
HTTPヘッダだと認識してhttp-equivで認識しないってなんだよ。
いずれにせよHTMLでのISO-2022-JPに未来はないと。

159 ：デフォルトの名無しさん：2011/06/05(日) 00:19:36.36

Unicodeはインディアン依存で、UTF-8はインディアン無関係っていう理解でOK？

160 ：デフォルトの名無しさん：2011/06/05(日) 00:22:01.40

合ってるような、合ってないような

161 ：デフォルトの名無しさん：2011/06/05(日) 00:30:48.61

規格としてのUnicode:バイトオーダー依存のUTF-16や非依存のUTF-8を含む規格
MS用語としてのUnicode:リトルエンディアン固定のUTF-16
UTF-8: バイトオーダー非依存でおk

162 ：デフォルトの名無しさん：2011/06/05(日) 01:23:32.87

嘘つかない

163 ：デフォルトの名無しさん：2011/06/05(日) 03:17:36.76

正規化NFCとNFDって、こっちが標準形式とか決まってるものですか？
それともWinとMacでカオス？

164 ：デフォルトの名無しさん：2011/06/05(日) 04:26:54.21

"Unicode" をUTF-16の意味で使うのは、Windowsだけじゃなくて
Javaもなんだな。
http://download.oracle.com/javase/1.5.0/docs/guide/intl/encoding.doc.html

165 ：デフォルトの名無しさん：2011/06/05(日) 20:08:59.54

>>163
カオスです。

詳しいことはMacOSXの方しか知らないけど、
NFDじゃないのが紛れ込んだりすると、
フレームワークも標準アプリもとても馬鹿げた動作をする。
要するにNFDを徹底できてない。

166 ：デフォルトの名無しさん：2011/06/05(日) 21:12:30.76

>>163
どちらも標準形式、両者を扱えないといけない。
>>165
OSXは両刀、テキスト入力とかはNFCだよ。
NFCをファイル名に渡すと自動的にNFDにnormalizeする。
変換、比較のAPIも揃ってる。

167 ：デフォルトの名無しさん：2011/06/05(日) 21:20:40.21

MacはUTF-8(NFD)に似た独自の文字コード。
正規化できてないってことはUTF-8と呼ぶことすら問題がある

168 ：デフォルトの名無しさん：2011/06/05(日) 21:32:28.48

>>167
それはVFSレイヤに限定した話。
専用のnormalize APIもある。
テキスト等でどんな正規化を使っても構わない、って言うか普通はNFC

169 ：デフォルトの名無しさん：2011/06/05(日) 21:57:45.92

POSIXとかCarbon使うと簡単に破綻するけどな。

170 ：デフォルトの名無しさん：2011/06/05(日) 22:10:46.58

>>168
>VFSレイヤに限定した話
独自コードの使用場所がファイルシステム限定っていうのは知らんかった。でも
　NFCでファイルシステムに書き込み要求→独自コードに変換される
　→lsの結果を読み込むと独自コードのまま→元のNFCと比較するとアウチ
Mac内だけで既にカオスだね

171 ：デフォルトの名無しさん：2011/06/05(日) 22:41:39.84

>>170
正規化無視するにしても、ファイルシステムによって使えない文字(/:とか)や
同一視される文字(大文字小文字とか)は異なるから、ファイル作ったりしたら
実際どういうファイル名になったかは確認する必要あるよ。指定した文字列が
そのまま使われる保証は無い。

172 ：デフォルトの名無しさん：2011/06/06(月) 08:09:48.24

VFSレイヤでやってないからそういう問題が頻発するんだろ。
VFS関係ではNFDのコードはhfs+ドライバにしかないから。
Cocoaでもうまく出来てない。
hfs+以外は全部プログラマー任せだから。

173 ：デフォルトの名無しさん：2011/06/06(月) 08:52:33.29

/:と文字コードとを同じにしないで欲しいな。
\が/になっても文句言わないけど、シフトJISで
書き込んだファイル名がEUC-JPになったら困るじゃないか。

174 ：デフォルトの名無しさん：2011/06/06(月) 18:46:43.25

>>172
>VFS関係ではNFDのコードはhfs+ドライバにしかないから。
>Cocoaでもうまく出来てない。
それは君が知らないだけ。自動変換で不十分ならUnicodeConverterを使えばHFS+ルール
でのNFD/NFC変換もできる。
>hfs+以外は全部プログラマー任せだから。
HFS+以外だと具体的に何が必要になるの？

>>173
>シフトJISで書き込んだファイル名がEUC-JPになったら困るじゃないか。
古目のWindowsのアプリはそうでしょ。ファイル名はUnicodeで保存されてるのに未だに
Shift_JISで扱ってる。zipアーカイブのファイル名をShift_JISで記録してるため、本当の
ファイル名と違うし、UTF-8使ってるOSX等unix系の物と互換性が無いのは有名な話。

175 ：デフォルトの名無しさん：2011/06/06(月) 19:25:09.50

>>174
> ファイル名はUnicodeで保存されてるのに
ダウト

176 ：デフォルトの名無しさん：2011/06/06(月) 21:04:50.04

保存されてるだろ。実体がUTF16でもそれを隠蔽して
シフトJISに見せてるWindowsをマクとと一緒にすんな
と思ったけど、ラウンドトリップが完全でないからNEC選定IBM拡張文字を書くと
IBM拡張に化けるのかな

177 ：デフォルトの名無しさん：2011/06/06(月) 21:12:42.72

>>176
> 保存されてるだろ。実体がUTF16でも
ダウト
http://jp.rubyist.net/magazine/?0025-Ruby19_m17n#f07

178 ：デフォルトの名無しさん：2011/06/06(月) 21:19:47.11

文字集合を切り替えて使う方式が最も合理的だろ。

179 ：デフォルトの名無しさん：2011/06/06(月) 21:26:00.93

>>177
> >>176
> > 保存されてるだろ。実体がUTF16でも
> ダウト
> http://jp.rubyist.net/magazine/?0025-Ruby19_m17n#f07
正確には今もなお UCS-2 らしい。つまり、サロゲートペアの片方のみの場合がある

180 ：デフォルトの名無しさん：2011/06/06(月) 21:58:53.32

>>177
著者成瀬って成瀬ゆいか？　あんなアホ男のことを真に受けるとは。

>UCS-2 らしい。つまり、サロゲートペアの片方のみの場合がある
らしいってソース無しかよ。
しかも「つまり、サロゲートペアの片方」って意味わかんね。さすが池沼成瀬

181 ：デフォルトの名無しさん：2011/06/06(月) 22:03:20.02

結局レッテル貼りかw

182 ：デフォルトの名無しさん：2011/06/06(月) 22:12:52.07

どうせならもっと圧縮率の高いエンコードにしようぜ。

183 ：デフォルトの名無しさん：2011/06/06(月) 23:03:57.57

>>181
レッテルっていうけど、自分で試してみればわかるでしょ。
FILE *f = _tfopen(_T("d:\\tmp\\\xD844\xDE3D.txt"), _T("wb")); // ??: U+2123D
明らかにWindowsはUCS-2じゃないよ

184 ：デフォルトの名無しさん：2011/06/06(月) 23:24:04.52

>>174
>zipアーカイブのファイル名をShift_JISで記録してるため
日本語版WindowsはシフトジスだがShift_JISではないな。Windows-31J

185 ：デフォルトの名無しさん：2011/06/06(月) 23:50:27.43

>>175と>>177のダウトは何なの？
UTF-16かUCS-2かは置いておいて
WindowsがUnicodeなのは疑いようの無い事実だと思うんだけど

186 ：デフォルトの名無しさん：2011/06/06(月) 23:56:38.49

Unicodeと聞いてUnicode規格でなくUTF-16LEを想像したに決まってんだろ。
そっとしておいてやれ

187 ：デフォルトの名無しさん：2011/06/07(火) 00:26:01.87

_T の意味を理解してない奴まだいたんだ。

188 ：デフォルトの名無しさん：2011/06/07(火) 00:44:02.43

どうしてunicode=UTF-16LEなのは何で？

189 ：デフォルトの名無しさん：2011/06/07(火) 01:19:45.40

Windowsの場合、MBCSに対してのunicodeだよ。
MBCSが文字コードを指定してるわけじゃないのと同じで、
Unicodeも実際のコードを特に名指ししてるわけじゃない。
そこはまた別問題な。
MBCS ←→ unicode
ANSI ←→ wide character
この関係な

190 ：デフォルトの名無しさん：2011/06/07(火) 01:23:52.96

UnicodeとUTF-16の違いは？

191 ：デフォルトの名無しさん：2011/06/07(火) 01:35:45.36

可逆な圧縮形式と考えたらいい。
実データ……Unicode
圧縮形式……UTF-8 UTF-16等

生waveを圧縮するのにMP3とかWMAとか色々あるだろ。
まあ、これは不可逆だけど。

192 ：デフォルトの名無しさん：2011/06/07(火) 02:17:46.91

>>174
FAT32のファイルを扱う時に必要。

193 ：デフォルトの名無しさん：2011/06/19(日) 05:08:50.30

>>189
>Windowsの場合、MBCSに対してのunicodeだよ
どうしてそんな嘘付くかなあ。
メモ帳の保存オプション見れば「Unicode」「Unicode big endian」「UTF-8」
が選択できるでしょ。明らかにMS用語のUnicodeはUTF-16のLE(BOM付き)

194 ：デフォルトの名無しさん：2011/06/19(日) 22:59:22.95

最初の頃ははBOM付きUCS-2だったんじゃない?

195 ：デフォルトの名無しさん：2011/06/19(日) 23:52:11.55

話が噛み合ってないぞ。
　>>188曰く　「MSのUnicode=UTF-16LEはなぜ？」
　>>189曰く　「MSのUnicodeは規格のUnicodeであってLEとか関係ない」
　>>193曰く　「嘘付くな。MSのUnicodeはUTF-16のLE限定」
　>>194曰く　「MSのUnicodeは当初UCS-2の範囲しか扱えなかった」
当初U+10000以上が扱えなかったのは事実だけど、>>193が言ってるのは
リトルエンディアン限定ということ。

ちなみにUCS-2は符号化文字集合だからエンコーディングであるUTF-16と
同列に扱うべきじゃない。BOM付きUCS-2とかいうものは存在しない。

196 ：デフォルトの名無しさん：2011/06/20(月) 01:01:12.89

昔はUCS-2がエンコーディングでもあった時代があった。> Unicodeコンソーシアム

197 ：デフォルトの名無しさん：2011/06/21(火) 02:43:05.15

Unicode 3.0かな。
ISO 10646ってひょっとしてUCS-2が前提で
U+10000以上をUTF-16で扱えなかったりするの？

198 ：デフォルトの名無しさん：2011/06/21(火) 11:47:38.99

UCS-2が前提なのは、DIS 10646 1.0の頃のUnicodeコンソーシアム。
だからUnicodersがDIS 10646 1.0を廃案にした。
その頃Unicodeコンソーシアムは16bitで全て賄うつもりだったから。
結局ダメでサロゲートペア→UCS-4という流れ。
UTF-16はずっと後。

199 ：デフォルトの名無しさん：2011/06/22(水) 01:31:59.98

Unicodeが昔16ビット前提だったのは確かだけど、
UCS-2/UCS-4はISOの概念でUnicodeとは直接関係なくね？

200 ：デフォルトの名無しさん：2011/06/23(木) 11:36:55.26

ISO/IEC 10646-1:1993 UCS-2
と
The Unicode Starndard, Version 1.1
は同じ。そのための1.1。
UTF-8, UTF-16は2から。

201 ：デフォルトの名無しさん：2011/06/25(土) 20:56:52.95

すいません、
「あんたねぇ、UnicodeとUTF-8の違いが分かってるの？」
を英語に翻訳していただけますか？
バカなアメ公がクソなコードをアップロードしてしまうんで困ってます。

202 ：デフォルトの名無しさん：2011/06/25(土) 23:06:12.21

You seems you don't understand difference between Unicode and UTF-8 at all, fucking guy!
適当に翻訳サイトで訳した

203 ：デフォルトの名無しさん：2011/06/25(土) 23:19:37.00

youなのにseems？

204 ：デフォルトの名無しさん：2011/06/25(土) 23:55:11.65

つか丁寧な出だしなのに最後がfuckingで面白い

遠回りな表現しないで確実にUTF-8の文字コードでアップしろでいいじゃん
二つの違いを教えたいわけじゃない

205 ：デフォルトの名無しさん：2011/06/26(日) 00:35:52.32

書きだし you seems はいらんな

Why don't you understand the difference between Unicode and UTF-8 ?

206 ：デフォルトの名無しさん：2011/06/26(日) 00:50:25.50

>>196 嘘つくな
「UCS」は符号化文字集合。「UCS-2」はエンコーディング。
ちゃんとISO/IEC 10646読め。

>>201
TOEIC 330点の俺が訳すと
Please seive file as UTF-8 encoding, not as Unicorde.

207 ：デフォルトの名無しさん：2011/06/26(日) 02:01:46.16

UnicodeとUTF-8の違いがわかっていない発言の例だな >>201

208 ：デフォルトの名無しさん：2011/06/27(月) 13:35:43.31

確かにそのようにも取れるが
易に断罪してしまうのは間違いだと思う。

209 ：デフォルトの名無しさん：2011/06/27(月) 19:45:43.18

「文字コードとシフトジスの違いがわかってんのか？糞な文字コードでうｐするな」
って言っているようなもの。あきらかな理解不足

210 ：デフォルトの名無しさん：2011/06/27(月) 20:54:21.02

Unicode規格って、文字集合とエンコーディングひっくるめた規格だっけ？
なんかそこらへん曖昧になる。>>19はあってるのか？

211 ：デフォルトの名無しさん：2011/06/27(月) 23:23:17.83

>>210
>Unicode規格って、文字集合とエンコーディングひっくるめた規格だっけ？
その通り。
　エンコーディングに関する仕様: http://www.unicode.org/versions/Unicode6.0.0/
　文字集合の定義:http://www.unicode.org/charts/

>>>19はあってるのか？
違う。Unicodeは規格であって、文字集合の名前じゃない

212 ：デフォルトの名無しさん：2011/06/27(月) 23:53:43.78

文字集合を指すときは、なんて言えばいいんだ? Unicode表?
UCS-2とかUCS-4はどっちだっけ

213 ：デフォルトの名無しさん：2011/06/28(火) 00:09:11.90

UCSが何の略かを思い出せ

214 ：デフォルトの名無しさん：2011/06/28(火) 00:09:51.48

UCS-4はISOのエンコーディングの名前。
UCSはISOの文字集合の名前。
Unicodeの文字集合に名前はない。

215 ：デフォルトの名無しさん：2011/06/28(火) 00:12:21.43

>>213
Universalだろ。Unicodeとは関係なし

216 ：デフォルトの名無しさん：2011/06/28(火) 00:21:52.80

CSはどこいっちゃったんだよ

217 ：デフォルトの名無しさん：2011/06/28(火) 00:34:05.00

UCSはUniversal Coded Character Setの略。
Cが一個どこに行っちゃったのか不明。
Unicodeの文字集合は「Unicodeの文字集合」でいいんじゃない？

218 ：デフォルトの名無しさん：2011/06/28(火) 10:29:58.08

201です。
まず訂正。
×バカなアメ公
○バカなイタ公
クソコードを投稿（正確にはsvnリポジトリーにコミット）してたのは、イタリア人でした。
でもコードを管理してるコミュニティの親分はアメリカ人で、そいつのチェックでＯＫが出た上で投稿されたんです。

コードというのは、javaで書かれたプログラムコードのことで、テキストのエンコードのことではありません。
話が長くなるのでアレですが・・・
javaでは内部的に文字列をユニコードで処理しています。１文字は16ビットです。
Windowsも皆さんご存知の通り、内部的に文字列をユニコードで処理しています。１文字16ビットです。
Win32APIの末尾に w が付くやつがそうですね。
つまり、javaで何も考えずにフツーにプログラミングすれば、アメ公が作ってもイタ公が作っても
自動的に日本語対応になるんです。
あとは画面に表示されるメッセージを言語別に作成して、利用者の言語にあわせて切り替える仕組み
にしてやれば、マルチリンガルなアプリケーションの一丁あがり！ってワケです。
javaにはもともと、そういう仕組みが用意されてるので簡単です。
ところが、件のバカなイタ公は、文字列を一旦 UTF-8 にエンコードしてから表示しようとするんです。
もちろん文字化けします。バカなイタ公はなぜ文字化けするのか理解できないので
今度はそのUTF-8エンコードされた文字を、javaからWin32APIのWriteConsoleWに渡そうとします。
もちろん文字化けします。バカなイタ公はなぜ文字化けするのか理解できないので
今度はコンソールのコードページを無理やりUTF-8に変更するAPIを使いドツボにハマっています。
何もしなくていい、ただ System.out.println()関数でフツーに表示すればいい、ってのが理解できんのです。

アプリケーションをユニコード対応して国際化したい一心で一生懸命がんばってくれてるキモチはアリガタイwのですがw
ユニコードとUTF-8の違いが理解できてないため、まったくトンチンカンなプログラムコードを書いて投稿します。

このイタ公を何とかして退治したいです。イタ公の愚行をやめさせるナイスな文章を教えてください。
コミュニティは英語以外禁止なので英語で構いません。

219 ：デフォルトの名無しさん：2011/06/28(火) 10:46:16.97

おまへは先ず日本語を勉強汁

220 ：デフォルトの名無しさん：2011/06/28(火) 10:46:39.02

>>211
> 　エンコーディングに関する仕様: http://www.unicode.org/versions/Unicode6.0.0/

ここで文字集合も定義しているが?

221 ：デフォルトの名無しさん：2011/06/28(火) 20:25:40.31

>>218
TOUIC 420点の俺が説明すると

Don't use JNI.
Don't use new String() or String#getBytes().
Never change code page for console window (use default always).
Simply, you should pass String objects to System.out.println.
ex 1. println("native text")
ex 2. println(str)

Encoding conversion as below is performed:
source text(Native encoding) ->(compilation)-> UTF-16/class file
-> String object(UTF-16) -> System.out.println -> Windows
　　 -> (Windows converts UTF-16 to native encoding)

222 ：デフォルトの名無しさん：2011/06/29(水) 11:02:32.90

>>218
中学生の妹のことで困っています。
ここ最近、妹は風呂上りに毎回僕の部屋にやってきます。
脱衣所でしっかり体を拭いていないせいか、濡れたタンクトップに乳首が透けて浮き出ています。
視線を逸らしながら注意すると「やっぱ妹のでも気になるんだ？」
と俺をからかいはじめる始末です。
こんな調子で二三時間も居つかれては堪ったもんじゃありません。
この高見盛そっくりの妹を退治するにはどうしたらいいのでしょうか。

223 ：デフォルトの名無しさん：2011/06/29(水) 11:03:28.46

UnicodeとUTF-8の違いわかってない土方大杉

224 ：デフォルトの名無しさん：2011/06/29(水) 14:56:27.20

>>218 四行目で読むのやめた
>>222 三行目まで読んだ

225 ：デフォルトの名無しさん：2011/06/29(水) 16:20:10.45

>>221
TOUICってのは何万点満点なんだい？

226 ：デフォルトの名無しさん：2011/06/29(水) 22:41:25.18

>>222
漏れにくれ

227 ：デフォルトの名無しさん：2011/06/30(木) 08:19:39.53

>>223
このスレは３スレ目なのに、酷いものだ

228 ：221：2011/06/30(木) 08:27:39.19

>>225
ん？よくしらないけど1000点じゃね。
そのくらい自分で調べな

229 ：デフォルトの名無しさん：2011/06/30(木) 12:00:51.80

>>228
そもそもTOUICってなんの試験？
馬鹿レベルを計るもの？恥レベル？

230 ：忍法帖【Lv=14,xxxPT】：2011/06/30(木) 13:58:51.40

>>229
Test Of Unwise International Computation.

231 ：デフォルトの名無しさん：2011/07/01(金) 13:39:03.71

なんか長文あったから読んでみたけどいらない情報多すぎだし、このスレに来る人なら知ってることをダラダラ書いてるし途中でやめた

232 ：デフォルトの名無しさん：2011/07/03(日) 03:52:20.12

Windowsでサロゲートペアのファイル名がZIP圧縮出来ないんだけど、なんとかならんの？
今時シフトJISしか扱えないなんて糞過ぎる。
スマホ上で作ったUTF-8ファイル名のZIP持ってくると文字化けしまくる。
ファイル名にBOM付けてもいいからマジ何とかしてほしい

233 ：デフォルトの名無しさん：2011/07/03(日) 05:03:45.92

コントロールパネル
　→個人設定
　　→システムロケールの変更
　　　→再起動

234 ：デフォルトの名無しさん：2011/07/03(日) 05:33:52.76

ZIPそのものが古代の遺物。7-Zipにすればよろしい。

235 ：デフォルトの名無しさん：2011/07/03(日) 14:42:31.19

>>232
お前が使ってる糞解凍ツールを見直すべきかと

236 ：デフォルトの名無しさん：2011/07/09(土) 13:45:03.50

Unicodeの文字に言語情報ってある？　日本語かどうか判断したいんだけど。
JIS2004は日本語と判断したい

237 ：デフォルトの名無しさん：2011/07/10(日) 04:31:44.19

>>236
そんなものは無いし、JIS2004をそのまま含んでいる訳ではないので不可能。

JIS2004に追加された文字でUNICODEに無かった分をUNICODE3.1や3.2でUNICODEに追加した分というのなら調べればわかる。

238 ：デフォルトの名無しさん：2011/07/10(日) 17:04:21.42

極端な話アルファベットで日本語の文章を書くことも出来るわけで、
言語とスクリプトは別というのはわりと基礎知識。

239 ：デフォルトの名無しさん：2011/07/10(日) 19:43:44.83

そんな極論聞いてるわけじゃないんだよねえ

240 ：デフォルトの名無しさん：2011/07/10(日) 20:40:34.17

極論じゃないでしょ。
>>236の言う「日本語かどうか」がどういう意味かによって、
やり方が全然変わってくるんだから。
JISで登録されてる文字集合に含まれてるかどうかでいいってのなら、
テーブル見れば済む。
けどそんなこと質問するかね。

241 ：デフォルトの名無しさん：2011/07/10(日) 21:22:02.68

>>240
Unicodeの文字集合はUnifiedだから、一つの文字が複数の言語に
対応するのは>>236もわかってるでしょ。>>236は
　「A」: 英語,日本語
　「百」: 日本語,中国語
　「あ」: 日本語
みたいなテーブルが欲しかったんでしょ。そんなものは無い。

>>240
>テーブル見れば済む
どこかに正式なものが公開されてる？
無保証でいいなら http://x0213.org/codetable/sjis-0213-2004-std.txt とかあるけど

242 ：デフォルトの名無しさん：2011/07/11(月) 13:36:38.84

>>218
超一般論として、説明してもわからない
我々がどっか外国のLatinなんとかの違いでの動作の違いを英語で追求されてもぶっちゃけよくわからんのと一緒だ

エラーが出るテストを作ってそれをつき突けろ
最終的にはそれしかない
「よくわからんがこのテストが通ってるんだからあちらでも問題はないんだろう」というものを作ってさしあげろ

243 ：デフォルトの名無しさん：2011/07/11(月) 19:57:07.03

一塊の文章としてなら、IMultiLanguageで文字コードを推定することはできるはずだぜ？

244 ：デフォルトの名無しさん：2011/07/12(火) 08:47:17.73

>>242
>我々がどっか外国のLatinなんとかの違いでの動作の違いを英語で追求されてもぶっちゃけよくわからんのと一緒だ

ぶっちゃけこの業界はコミュ障が多いから
そこまで他人の立場に立って理解出来る香具師は少ない

245 ：デフォルトの名無しさん：2011/07/12(火) 16:41:00.55

つーか、駄目なコードの例と正しいコードの例を提示すればいいだけなんじゃねーの？

246 ：デフォルトの名無しさん：2011/07/14(木) 00:29:31.56

流れを断ち切って申し訳ないが、
UTF-8がバイトオーダーの影響を受けてLE,BEに分かれないのはどうして？
いや、UTF-16だけが特殊なのか？
CPUがメモリ上の複数バイトを読み書きする際の配置の都合からLE,BEがあるのなら、
UTF-8だってASCII文字以外は複数バイトでしょ？

247 ：忍法帖【Lv=24,xxxPT】：2011/07/14(木) 00:58:37.24

UTF-8は1バイトずつ読み書きする。

248 ：デフォルトの名無しさん：2011/07/14(木) 01:17:06.25

>>246
1文字(16bit整数値1つ)を、どういうバイト列に変換するかの問題。
UTF-16LEは、UCSの1文字を2byteのバイト列に変換する。その順番も規定されている。あ(\u3042) → 42 30
UTF-16BEは、UCSの1文字を2byteのバイト列に変換する。その順番も規定されている。あ(\u3042) → 30 42
UTF-8は、UCSの1文字を1-4byteのバイト列に変換する。その順番も規定されている。あ(\u3042) → e3 81 82

2byteの整数をサイズ2のバイト列に変換する方法は、簡単で合理的な2種類ある(BE,LE)ので、
どちらを使えばいいか迷ってしまい、みんなで混乱する。
一方、2byteの整数をサイズ1～3のバイト列に変換する方法は、それほど自明ではないので、
誰かが「UTF-8」としての変換ルールを決めた。そしてみんながそれに従った。現状、それがうまくいっている。

仮に、「UTF-8なんとか」というUTF-8に似て非なるルールが乱立するなら、UTF-16のLE/BEの混乱と
近いことが起こるかもしれないけど、たまたま現実はそうなっていない。

249 ：デフォルトの名無しさん：2011/07/14(木) 07:28:59.02

MIME64と一緒か

250 ：デフォルトの名無しさん：2011/07/14(木) 08:26:50.94

>>246
UTF-8はエンコーディングフォームが1オクテット単位だから、
UTF-8エンコーディングスキームはバイトオーダーに依存しない。

UTF-16とUTF-32エンコーディングフォームが2/4オクテット単位だから、
エンコーディングスキームが複数必要となった。

251 ：デフォルトの名無しさん：2011/07/14(木) 19:26:49.50

LEとかBEとか分けないで、どちらかに統一すればいいのに。

252 ：デフォルトの名無しさん：2011/07/14(木) 20:23:18.94

できなかったからこうなってるんだろ

253 ：デフォルトの名無しさん：2011/07/14(木) 21:58:52.88

UTF-16/32は内部表現として採用されることが多い。
だからバイトオーダーの問題が出てくる。

UTF-8はそんまんま垂れ流すのでなければ、
内部表現としてのUTF-16/32と併用されることが多く、
その場合decodeがいずれにせよ必要となるので、
バイトオーダーと逆順になっていても大した手間じゃない。

254 ：デフォルトの名無しさん：2011/07/14(木) 22:48:24.40

LEとBEは、規格上で相互運用とかをあんまり考えなかった結果…ではある
どっちかに我慢してもらって無理してでもどっちかに決めてしまえばよかった
本当はね
LEでもBEでもどちらでももちろん構わないというのは、うんざりするほど正当で当たり前だが、うんざりだ

255 ：246：2011/07/15(金) 07:20:47.59

レスthxです。
おかげさまでずっと疑問だったのが解消しました。
CPUの都合を考慮して2種類規格化してくれただけなんですね。
>>253
これは少し考えていました。
画像ファイルに例えるならばUTF-8=JPEG,UTF-16=BMPで、
JPEGはメモリ上にBMP形式で展開＆編集され、最終的にJPEGで再保存される。
JPEG(UTF-8)がデータ交換用としての相互運用性を重視される一方、
BMP(UTF-16)はメモリ上での編集のし易さが重視される。
UTF-16においては、それはLE,BEの許容にあたる。
という認識です。

しかし内部形式って意識されるべきですか？
恥ずかしながらVB以降の言語しか分かりませんが、
通常charの型変換には符号化方式の指定が必要なので気にしたことがありません。
(short)charをファイルにシリアル化するような事があったとしても、
これはテキストと見せかけてバイナリファイルですと言い張るかも。

C言語なんかだと意識するんですか？
UNICODEをAPIで扱うならば内部的にはポインタ/byte[]で持つんですよね？
だとしたら意識しないといけないのかな？

あ、JAVAでもif('A'<=VALUE || VALUE <= 'Z')と書けるのはUTF-16BEだからですか！
無意識に書いてましたorz

256 ：忍法帖【Lv=25,xxxPT】：2011/07/15(金) 07:47:31.64

画像に擬える辺り、根本から判ってない悪寒。

257 ：デフォルトの名無しさん：2011/07/15(金) 07:59:23.90

低レベルの挙動を考えたら、LEとBEは両方必要だろと普通に思うがな

258 ：デフォルトの名無しさん：2011/07/15(金) 08:02:47.23

ネットワークバイトオーダーっつうもんがあるように、
交換形式はどっちかにしちまえよ、って思ったことはある。

259 ：デフォルトの名無しさん：2011/07/15(金) 08:59:25.19

>>258
それは実質UTF-8だな
UTF16/32のままネットワークを流れることはあまりない

260 ：デフォルトの名無しさん：2011/07/15(金) 14:23:43.37

>>258
大量のテキストを処理したい時に、
内部表現と同じテキスト形式が存在しないのは不便。
実行環境の内部形式に依存しても、軽快に扱いたい局面はある。
たとえばテキストデータベースの二次記憶保存など。

ネットワークバイトオーダーについては、
TCP/IPのヘッダー部はデータ量が少ないし、
最近はハードウェア評価だからオーバーヘッドにはならない。
それにデータ交換についてはプロトコル毎に決めればいい。

261 ：デフォルトの名無しさん：2011/07/15(金) 21:33:02.35

>>255
>しかし内部形式って意識されるべきですか？
意識する必要は無いし、UTF-16フォームにLEとBEの区別は無い。
ただし外部形式であるUTF-16スキームにはLEとBE区別が当然ある。

262 ：デフォルトの名無しさん：2011/07/15(金) 23:55:08.88

>>255
せめてPNGにしとけ。それなら話が通じる

263 ：デフォルトの名無しさん：2011/07/16(土) 11:30:38.92

ヒント：
Unicode = UTF-16
UTF-8 = UTF-8

もともと、Unicodeに準拠した文字コードはUTF-16しかなかったから
文字コードはUnicodeという記述をするとUTF-16をさす

その後、UTF-8というものが増えた為、
それと差別をするために、UTF-16という言葉が発生しました

なので今となっては
Unicodeは文字一覧を指し、
UTF-16/UTF-8は文字コードの種類を指す
という意味が正しいのだが、昔の事情があったため、
文字コードUTF-16をUnicodeという言い方をする場合がある

264 ：デフォルトの名無しさん：2011/07/16(土) 11:37:43.86

ドヤ顔でそんな事言われても

265 ：デフォルトの名無しさん：2011/07/16(土) 12:16:52.83

しかしエンコーディングをUnicodeって言うのはやめてほしい
昔はそうだったのかもしれないけど、気持ち悪くて

266 ：デフォルトの名無しさん：2011/07/16(土) 12:37:51.74

UCS-2ですよ。Unicodeって言われた時代はありません。

267 ：デフォルトの名無しさん：2011/07/16(土) 20:26:19.26

>>263
> 文字一覧

文字セットの方が好き

268 ：デフォルトの名無しさん：2011/07/17(日) 16:28:44.12

マクのSJIS-Unicode変換ルールを知りたいのですが、
どこかに公開されていないでしょうか。
特にNEC特殊文字やIBM拡張文字(「①」(U+2460)など)がどうなるか知りたいです。

269 ：デフォルトの名無しさん：2011/07/17(日) 16:53:25.93

どうもならんよ

270 ：デフォルトの名無しさん：2011/07/17(日) 17:13:37.77

数多いShift_JISベンダー拡張の「MacJapanese」からのなら
http://unicode.org/Public/MAPPINGS/VENDORS/APPLE/JAPANESE.TXT
にあるけど、今もこの変換通りなのか不明。
Microsoft拡張のCP932との関係も少しだけコメントが書いてある。

271 ：デフォルトの名無しさん：2011/07/17(日) 17:14:29.89

どうにもならない、というのは、
U+2460をシフトジスに変換すると24 60の2バイトになるということかな？

272 ：デフォルトの名無しさん：2011/07/17(日) 17:15:05.68

これを挙げ忘れた。
http://unicode.org/Public/MAPPINGS/VENDORS/APPLE/Readme.txt

273 ：デフォルトの名無しさん：2011/07/17(日) 19:22:02.19

>>270
>今もこの変換通りなのか不明
今も昔もこのルールか実装されたためしなんて無い。
|0x5C 0x00A5 # YEN SIGN

274 ：デフォルトの名無しさん：2011/07/17(日) 20:23:16.02

>>273
Character ViewerからShift-JIS(X0208)指定して005Cダブルクリックで入力すると
アプリ側にはU+00A5が渡るけど
CoreFoundationで変換してもU+00A5になる。

275 ：デフォルトの名無しさん：2011/07/17(日) 21:07:44.60

>>268
MacはもうShift_JISは使ってないよ。
UnicodeとShift_JISの変換は当然できるけど、動作はAPIに対するパラメータ次第。
例えばU+2460に対しては古いMacJapaneseを指示すれば0x8540が返るし、X0208を
指示すると変換できずエラー、X0213を指示すると0x8740が返る。
端的に言うとパラメータで指示した規格に沿った値に変換される。

276 ：デフォルトの名無しさん：2011/07/17(日) 22:33:23.51

シフトJISを規定の文字コードとするアプリケーションは、Mac OS Xには無いそうです。
JDK 6とかな。

277 ：デフォルトの名無しさん：2011/07/17(日) 23:13:50.55

Shift_JISX0213のエンコーディングを実装してるなんて、マッコステンて無駄にすげーな。
シフトジスの84 BF(丸付き21)をUTF-16に変換すると27D0になったり、
シフトジスのFCA3をUTF-16に変換するとD867 DFCEになっちゃうわけ

278 ：デフォルトの名無しさん：2011/07/18(月) 21:57:13.75

Windowsも正確には MS932(CP932やWIN31Jとも言うが)なんだけどな

279 ：デフォルトの名無しさん：2011/07/18(月) 23:46:46.27

そんな偉そうにIANAに登録されていない名前を列挙されても

280 ：デフォルトの名無しさん：2011/07/19(火) 01:26:36.91

ドヤ顔でズレたこと言ってるのはお前じゃねーの
>>278はshift_jsと違うってことが言いたいんだろ

281 ：デフォルトの名無しさん：2011/07/19(火) 02:20:03.27

まぁ、ちゃんとした名前で言っておけばつっこまれなかったかもしれんぞ。
Windows-31J な。
http://www.iana.org/assignments/character-sets

282 ：デフォルトの名無しさん：2011/07/19(火) 03:23:11.11

WIN31J「とは言わない」からな
その時点でいろいろ知れる

283 ：デフォルトの名無しさん：2011/07/19(火) 06:06:29.06

>>280
node.jsの親戚かと。

284 ：デフォルトの名無しさん：2011/07/19(火) 10:14:52.68

>>278
MS932とはあまり言わないだろう、Microsoftの「Code Page 932」って規格だから略称としては「CP932」が適切

285 ：デフォルトの名無しさん：2011/07/19(火) 10:39:36.67

>>284
MS932はJava語で、おおむね、Windows-31Jを指すはず（IBM版CP932とは違う）
Javaが独自分類表現を使用しているなんて夢にも思わない人がJavaの外に持ち出して恥をかくことがある

286 ：デフォルトの名無しさん：2011/07/19(火) 11:26:26.69

よくこんな細かいことで争えるなあ・ω・

287 ：デフォルトの名無しさん：2011/07/19(火) 11:39:43.38

別に細かくはない
ギョウザを頼んだらシュウマイが出てきた、くらいには違う

288 ：デフォルトの名無しさん：2011/07/19(火) 11:44:54.65

Wikipediaが正しいかわからないけど、色々な経緯が載ってる

http://ja.wikipedia.org/wiki/Microsoft%e3%82%b3%e3%83%bc%e3%83%89%e3%83%9a%e3%83%bc%e3%82%b8932

289 ：デフォルトの名無しさん：2011/07/19(火) 14:43:58.56

CP932はLLのコード指定なんかでも良く使われる名前だし、突っ込むほどでもないと思うがな

290 ：デフォルトの名無しさん：2011/07/19(火) 15:44:26.12

>>289
CP932は問題になってはいない
っていうかお前>>278だろ

291 ：デフォルトの名無しさん：2011/07/19(火) 23:27:12.20

Windows-31J はJavaのJSPだっけ？でしか
聞いたことがない。

292 ：デフォルトの名無しさん：2011/07/21(木) 23:17:57.44

日本語版Windowsのメモ帳の文字コードがWindows-31Jなのは
間違いないし、Shift_JISでないのも確かだが、
「シフトジスではない」と言われるとそれは違うだろう。
どう考えてもWindows-31Jはシフトジス。

293 ：デフォルトの名無しさん：2011/07/21(木) 23:33:26.32

>>288
|マイクロソフト及び、MS-DOS の OEM ベンダが Shift JIS を独自に拡張した文字コードである。
でたらめな説明だな。

もともとアスキーマイクロソフトが考えた文字コードが「シフトJIS」と呼ばれ、
正確な定義はどこにも無かった。
1997年にJISが「Shift_JIS」を定め、それは世の中にあるシフトJISの
共通部分であるX 0201,X 0208のみを対象としたものだった。

だからShift_JISもWindows-31JもシフトJISの一種でしか無い。
拡張なんて嘘がどこからでてきたんだ。

294 ：デフォルトの名無しさん：2011/07/21(木) 23:55:46.23

文中では「Shift JIS」で、
wikipedia項目に飛ぶと「Shift_JIS」になってるな。無茶だなw

Windows-31Jは、初期の「Shift JIS」からは文字が足されて拡張されているけど、
その飛び先が「Shift_JIS」ではな。
「Shift_JIS」の項目内で「Shift JIS」と「Shift_JIS」の使い分けが甘い。

295 ：デフォルトの名無しさん：2011/07/22(金) 02:15:49.92

>>294

Wikipedia のリンク名には制約があって、「_」と「」が区別できない。

296 ：デフォルトの名無しさん：2011/07/22(金) 02:17:52.27

リンク名というか記事名だな
他にも記事名に使えない記号ってあるのよね

297 ：デフォルトの名無しさん：2011/07/23(土) 09:13:21.14

Wikipedia のタイトルの制約には昔から悩まされてる。

1. アンダースコアが空白になる
2. ふたつ以上の空白がひとつにまとめられる
3. 先頭と最後の空白が除去される
4. [ ] { } < > | # が使えない
5. : が特殊な意味を持つことがあり、たとえば「:」からはじまるタイトルが作れない
6. 先頭の1文字が大文字になる
7. 長さ制限(UTF-8 で 255バイト以内)がある

リンクするときにはさらに複雑な制約がかかる。

298 ：デフォルトの名無しさん：2011/07/23(土) 10:12:07.29

文字コードの話じゃないけど、入力文字に複雑な制限があるのは
エスケープ前と後の区別がつけられないできの悪いエンジニアが
作ったんだろうな。そういう人たちがSQLインジェクションとか起こす。

299 ：デフォルトの名無しさん：2011/07/23(土) 10:46:25.58

記事名がURLになる、というのは便利なんだがそういう弊害もあるよな。
逆にハッシュ値のような長いURLは不便だし、シリアルナンバーも微妙。

MediaWikiって内部的に持ってる記事名も空白が _ になってたりして、
そのへんの設計も微妙だな。

300 ：デフォルトの名無しさん：2011/07/23(土) 12:35:06.53

スレ違い

301 ：デフォルトの名無しさん：2011/07/23(土) 13:06:04.48

Not スレ違い

http://ja.wikipedia.org/wiki/神
http://ja.wikipedia.org/wiki/%EF%A8%99
http://ja.wikipedia.org/wiki/%E7%A5%9E

302 ：デフォルトの名無しさん：2011/07/23(土) 17:00:46.82

記事名の問題だけじゃなくShift JISの記事は内容がおかしいな。

303 ：デフォルトの名無しさん：2011/07/23(土) 19:16:54.74

そういう時は君が修正すれば良い。

誰でも修正できるのだから、それをせずに
間違っていると言ったところで信用されない。

言う前に直してから、直したよと報告すればいい。

304 ：デフォルトの名無しさん：2011/07/23(土) 19:50:47.55

>そういう時は君が修正すれば良い。
これはそうなんだが

>誰でも修正できるのだから、それをせずに
>間違っていると言ったところで信用されない。
こういうことを言う奴って頭おかしいんじゃないかと思う。
ただ間違ってるものを見たときに間違ってると言ってはいけないだろうか。

305 ：デフォルトの名無しさん：2011/07/23(土) 21:02:27.38

好きにすればいいんじゃねーの？
俺は>>304みたいのを見ると頭おかしい人なんだなと思うけど
言いたいこと言うのはいいことだと思うようん

306 ：デフォルトの名無しさん：2011/07/23(土) 21:12:44.57

>>304
お前は間違っている。

間違っているものを見たので
つい言ってしまったｗ

307 ：デフォルトの名無しさん：2011/07/23(土) 21:28:03.23

A: ○△に～って書いてあったよ
B: それ間違ってるね
A: 間違ってるって言う前に○△を修正しなよ
B: ハァ？　何で俺が○△とかいうのを直さなきゃいけないの

>>304はともかく、>>303が変なのは確定的に明らか

308 ：デフォルトの名無しさん：2011/07/23(土) 21:32:53.91

A: ○△に～って書いてあったよ
B: それ間違ってるね
A: 間違ってるって言う前に○△を修正しなよ
B: ハァ？　何で俺が○△とかいうのを直さなきゃいけないの
A: ○△は誰でも修正できるものだから。

309 ：デフォルトの名無しさん：2011/07/23(土) 21:41:10.14

「誰でも修正できる」がなんで「見つけた人は修正する義務がある」にすり替わるよ。
頭だいじょうぶ？

310 ：デフォルトの名無しさん：2011/07/23(土) 21:44:07.47

誰が義務があるって言ったんだ？

311 ：デフォルトの名無しさん：2011/07/23(土) 22:19:21.22

おまえら楽しそうだな。

312 ：デフォルトの名無しさん：2011/07/23(土) 22:44:52.69

仲良くしてね

313 ：デフォルトの名無しさん：2011/07/23(土) 23:11:11.98

とりあえずシフトジスって書かれたときは99%はWindows-31Jのことだから、
Windows-31Jって書いておけば問題ない。

314 ：デフォルトの名無しさん：2011/07/24(日) 10:08:13.04

Windows-31JはJava用語で一般的ではないから
他では通じない。CP932と言ったほうがいい。

315 ：デフォルトの名無しさん：2011/07/24(日) 10:26:45.92

>>314
2点
レス欲しいなら狂人の真似を

316 ：デフォルトの名無しさん：2011/07/24(日) 11:58:46.32

いや事実を言っただけなんだが。

317 ：デフォルトの名無しさん：2011/07/24(日) 12:50:28.09

「Windows-31J」はIANAに登録された一般的な名前で、Java固有ではない。
HTTPのContent-Typeにも(条件付きではあるが)正式に使用できる名前。

なお.NET FrameworkのEncoding.GetEncodingは、文字コード名をパラメーターに
取るのではなくWindowsコードページ名を受け取るので、Windows-31Jは指定できない。

318 ：デフォルトの名無しさん：2011/07/24(日) 17:21:27.70

>>317
GetEncodingは.NETのウニコード文字をローカルに
変換するルールでしょ
IANAが決めているのは文字コードであって、
ユニコードとの変換ルールでないんだから当然

319 ：デフォルトの名無しさん：2011/07/24(日) 20:34:52.28

>>315
861 ：デフォルトの名無しさん：2011/01/04(火) 20:39:59
SJISはウンコ、CP932はウンチ

320 ：デフォルトの名無しさん：2011/07/25(月) 11:13:51.23

IANAのcharset名、Windows関連は
"Windows-コードページ番号"で統一できたらよかったのにな。

321 ：デフォルトの名無しさん：2011/07/25(月) 15:50:16.53

Wikipediaなんて間違いだらけなのは、まともな技術屋ならしょっちゅう見て理解してるだろ…
内輪ルールがめんどくさすぎて修正しねーことも多いわ
一応、楽に修正できそうな範囲ならするけどな

322 ：デフォルトの名無しさん：2011/07/25(月) 18:40:44.97

間違いっていうか意図的な捏造もかなりあるぞ
特に反日歴史関連は酷い

323 ：デフォルトの名無しさん：2011/07/25(月) 18:53:37.20

ウヨ脳乙

324 ：デフォルトの名無しさん：2011/07/25(月) 22:23:54.09

えっ

325 ：デフォルトの名無しさん：2011/07/26(火) 18:33:59.96

要するに>>278の言いたい「正確」ってのが何だったのかが分からんということだな

326 ：278：2011/07/27(水) 01:27:57.83

拡張漢字（NEC選定IBM拡張・IBM選定IBM拡張・NEC特殊文字）を含む場合は
MS932かCP932あるいはWindows-31J
が正しい
Shift_JISに拡張文字は無い

なので、
「MS932かCP932あるいはWindows-31J」＞「Shift_JIS」
なのだろう

それが正確

327 ：デフォルトの名無しさん：2011/07/27(水) 08:04:57.93

正式名称と通称は区別してよ。

シフトジス
　├Windows-31J(X 0201,X 0208,NE特殊,NEC選定IBM拡張,IBM拡張)→通称MS932,CP932
　└Shift_JIS(X 0201,X 0208)

328 ：デフォルトの名無しさん：2011/07/27(水) 10:09:52.09

文字エンコーディング・文字コードは技術ではなく（おそらくは残念なことに）ただの政治なので、
ちょろっと読んだ人がしたり顔できるほど相関関係は単純ではない

329 ：デフォルトの名無しさん：2011/07/27(水) 11:56:11.29

CP932はMicrosoft的には正式名称でしょ。

330 ：デフォルトの名無しさん：2011/07/27(水) 20:47:15.11

>>329
コードページの932番というのは正式な番号だけど、
「CP932」という名前はちょっと違うんじゃね

331 ：デフォルトの名無しさん：2011/07/27(水) 23:11:17.71

microsoft.comの公式文書でcp932と表現してる所がある。

332 ：デフォルトの名無しさん：2011/07/28(木) 04:13:07.78

cp65001

333 ：デフォルトの名無しさん：2011/07/28(木) 13:21:19.41

IANAだけ正式だと思ってるのは勘違いだわな

334 ：デフォルトの名無しさん：2011/07/28(木) 22:52:57.57

ソースが出てこないから突っ込まれるんだよ。
MSの文書で文字コード名cp932が定義されているソース出してみろや。
コードページの932番じゃなくて「cp932」な

335 ：デフォルトの名無しさん：2011/07/28(木) 23:41:20.22

後付けくさい理由で絡んでるようにしか見えないが

336 ：デフォルトの名無しさん：2011/07/28(木) 23:41:29.23

ぐぐれ
http://social.msdn.microsoft.com/search/ja-JP?query=cp932

337 ：デフォルトの名無しさん：2011/07/28(木) 23:48:40.52

socialはちょっと…
msdn本家ページにもあるよ。

338 ：デフォルトの名無しさん：2011/07/29(金) 16:00:03.50

今度は「使っているというだけでは正式な定義ではない」とか絡んでくるんじゃねーの
ぶっちゃけ心底どうでもいいんだが

339 ：デフォルトの名無しさん：2011/07/29(金) 23:51:06.97

仕様がどうでもいいとかいうやつは、
プログラマーやめたほうがいいんじゃねーの

340 ：デフォルトの名無しさん：2011/07/29(金) 23:59:57.74

プログラマにとっての仕様なんて、
「コメントを求む」程度の文章でいいんだよ。

341 ：デフォルトの名無しさん：2011/07/30(土) 02:47:52.95

自ら勉強する気が無いならやめてしまえ

342 ：デフォルトの名無しさん：2011/07/30(土) 10:43:39.89

自ら勉強する気はあるが、
会社のためにしかならないことを
勉強する気にはならない。

343 ：デフォルトの名無しさん：2011/07/30(土) 14:40:35.21

向上心が無いのは仕方ないが、仕様が守れない奴は会社やめれ
例えば　Content-Type=text/htm; charset=Shift_JIS
で、丸付き数字とか送られてきた日にはブチ切れですよ。
僕のパソコンの僕のブラウザでは表示できましたとか言い出すと殺意を覚える

344 ：デフォルトの名無しさん：2011/07/31(日) 00:31:57.60

text/htmってのひどいな

345 ：デフォルトの名無しさん：2011/07/31(日) 01:37:05.98

typoにマジレス。カコワルイ

346 ：デフォルトの名無しさん：2011/07/31(日) 03:22:17.45

>>343
世の中仕様が全てではないんだよ。

347 ：デフォルトの名無しさん：2011/07/31(日) 03:33:15.68

仕様書に必要なこと全てが書いてあるとは限らんが、
>>343のは仕様で禁止されたことをやってんでしょ。
それはまずい。

348 ：デフォルトの名無しさん：2011/07/31(日) 11:22:19.48

charset=Windows_31J
なら良かったのか

349 ：デフォルトの名無しさん：2011/07/31(日) 13:39:25.25

JavaやってるとContent-Typeと文字コードがリンクしてるから死活問題だな。
鯖と端末双方が「①」を使うと合意した上でWindows-31J使うのが正しいと思う。

350 ：デフォルトの名無しさん：2011/07/31(日) 22:12:23.38

> JavaやってるとContent-Typeと文字コードがリンクしてるから

設計が現実を処理できない仕様になってる。
ダメな設計だ。

351 ：デフォルトの名無しさん：2011/08/01(月) 06:21:06.64

Ruby1.9.3がSJISをWindows-31Jと認識するようになった

352 ：デフォルトの名無しさん：2011/08/01(月) 07:09:08.98

何か問題が？

353 ：デフォルトの名無しさん：2011/08/04(木) 20:55:45.64

世の中で使われているシフトジスの実態を考えれば
SJISをWindows-31Jにすることは妥当だと思うが。
SJISをShift_JISにしたところで安岡センセイ以外喜ばない。

354 ：デフォルトの名無しさん：2011/08/04(木) 21:26:58.69

>>353
> SJISをWindows-31Jにする
> SJISをShift_JISに

どういう意味で言っているのか?
「SJIS」とは何なのだ?

355 ：デフォルトの名無しさん：2011/08/04(木) 22:49:17.03

文字コード名に"SJIS"を指定されたときの動作をどうするかってことじゃねーの

356 ：デフォルトの名無しさん：2011/08/04(木) 22:53:19.60

そんなの好きにしたらいいじゃん。

357 ：デフォルトの名無しさん：2011/08/06(土) 00:15:01.41

もともとこのスレはUnicodeをUTF-16系のエンコーディングと勘違いした
人が立てたんだと思うが、MSだけでなくJavaもUnicode=UTF-16なんだっけ？

358 ：デフォルトの名無しさん：2011/08/06(土) 00:38:20.18

>>354
>>351

359 ：デフォルトの名無しさん：2011/08/07(日) 04:48:33.66

>>357
おＪＡＶＡ様の"Unicode"は
　デコード時：ビッグエンディアンUTF-16、BOM許可
　エンコード時：ビッグエンディアンUTF-16、BOMあり
Windowsの"Unicode"は
　デコード時：リトルエンディアンUTF-16、BOM許可
　エンコード時：リトルエンディアンUTF-16、BOMあり

360 ：デフォルトの名無しさん：2011/08/07(日) 14:43:57.06

>>359
>UTF-16、BOM許可
冗長な表現だな。UTF-16エンコーディングスキームは常にBOM許可なんだよ。
"UTF-16LE"→BOM禁止
"UTF-16BE"→BOM禁止
"UTF-16"→BOM許可
Javaの"Unicode"は先頭のBOMを読み飛ばすから"UTF-16"。
ちなみにJavaの"UTF-8"はBOMをNBSPと認識する統一性の無い仕様。

Javaも.NETも、文字コードに表現の曖昧さのあるものは
区別できるようならないものかな
　"UTF-8"　→実行環境の規定のUTF-8表現
　"UTF-8:wBOM"　→先頭にBOM必須
　"UTF-8:w/BOM　"→先頭のFEFFはNBSP
　"UTF-8:autoBOM"　→　先頭にFEFFがあればBOM　　みたいな

361 ：デフォルトの名無しさん：2011/08/07(日) 14:47:36.25

BOMって文字コードの一部なのか？

たとえば、「あいうえおかきくけこ」という文字列を
split関数で2つに分けたとき、「(BOM)あいうえお」「(BOM)かきくけこ」になるのか？
違うだろう？

BOMはマックバイナリみたいなもので
文字の一部ではなくファイル形式の一種だと思うんだが。

362 ：デフォルトの名無しさん：2011/08/07(日) 14:55:48.67

BOMはデータストリームの一部で、
データストリームの先頭にあるとシグネチャと看做されます。

363 ：デフォルトの名無しさん：2011/08/07(日) 15:02:40.62

ISO-2022のエスケープシーケンスを文字コードに含むぐらいには文字コードかな。

Unicode 6.0の16.8には「U+FEFF at the very beginning of a file or stream」とあるね。
ただの文字列がstreamに含まれるかと言えば普通の感覚ではNoだけど、
絶対ダメと断言するには表現が曖昧な気がする。
streamの定義をきかれたら「一連のcharacter」としか言いようが無いから。

364 ：デフォルトの名無しさん：2011/08/07(日) 15:29:54.27

はっきりとin the unicode data streamと書いてる。

http://unicode.org/faq/utf_bom.html#bom1
Byte Order Mark (BOM) FAQ

Q: What is a BOM?

A: A byte order mark (BOM) consists of the character code U+FEFF at
the beginning of a data stream, where it can be used as a signature
defining the byte order and encoding form, primarily of unmarked
plaintext files. Under some higher level protocols, use of a BOM may
be mandatory (or prohibited) in the Unicode data stream defined in
that protocol. [AF]

365 ：デフォルトの名無しさん：2011/08/07(日) 16:33:38.94

仕様でないものを仕様と勘違いする奴とか、常に正しい仕様が存在してくれていると思ってる奴とか、
プログラマやめた方がいいんじゃねーの

366 ：デフォルトの名無しさん：2011/08/07(日) 23:35:37.51

文盲がいるな。
>はっきりとin the unicode data streamと書いてる
一つ前のレスも読めないのか

367 ：デフォルトの名無しさん：2011/08/07(日) 23:49:21.22

unicode data streamってのが
何かよくわからないけど、
わざわざ書いてるってことは、
特別扱い、つまり通常の文字とは別扱いなんだな。

368 ：デフォルトの名無しさん：2011/08/07(日) 23:52:20.46

プログラム言語で扱う文字型はencoding schemeでなくencoding formの単位なので
BOMになり得ない。
　encoding scheme: バイトデータ表現。BOMが付くことがある
　encoding form:「文字」単位の表現。BOMの概念無し。splitで扱うのはこっち

char型(UTF-16/32文字)のFEFFはZWNBSとみなさなければならない。
それをバイトデータにエンコードして初めてBOMが付く。

369 ：デフォルトの名無しさん：2011/08/07(日) 23:55:16.42

BOMが途中にあったらどうなるの？
切り替わるの？

370 ：デフォルトの名無しさん：2011/08/08(月) 00:01:50.41

文盲がいるな。
バイト配列をwchar_t(C)とかchar(Java)にデコードした時点でBOMは消えなきゃいけないの。
ちなみに途中にあらわれるものはBOMでなくU+FEFF文字として扱わなければならない

371 ：デフォルトの名無しさん：2011/08/08(月) 01:07:46.83

途中で現れるのは後方互換性のために許されてるだけで、
本当は途中に現れちゃ駄目。

372 ：デフォルトの名無しさん：2011/08/08(月) 01:17:08.95

deprecateでも許されてるってことは、書き込むプログラムはともかく
読み込むプログラムは処理しなきゃいけないってこった

373 ：デフォルトの名無しさん：2011/08/13(土) 06:53:27.25

Windows7HP 64bit、MS-IME2010ですが、IMEで変換中の文字コードは何でしょうか？
質問は以下2点で、例えば、EUC-JPのテキストをエディタで編集中とします。

１．MS-IMEで変換中（この時の文字コードは？）
２．変換した文字を確定（変換中の文字コード → EUC-JPの変換は誰がどのタイミングで行っているのでしょうか？）

374 ：デフォルトの名無しさん：2011/08/13(土) 10:46:33.19

>>373
1.ふつうはUTF-16
2.ふつうはテキストエディタの保存時

375 ：デフォルトの名無しさん：2011/08/13(土) 10:57:29.48

>>373
普通はEUC-JPで表現できない文字も入力できて、保存時にエラーが出るよね。
ってことは編集中はEUC-JPじゃないってこった

376 ：デフォルトの名無しさん：2011/08/13(土) 12:10:50.38

>>374-375
なるほど。
㌧

377 ：デフォルトの名無しさん：2011/08/14(日) 01:13:50.65

他スレから来ました。
UNIXのshebangってBOMに対応できないの？

378 ：デフォルトの名無しさん：2011/08/14(日) 01:17:53.45

カーネルがバイナリファイルの先頭で #! の存在をチェックしている
ところで、まずBOMの有無をチェックするように改造すれば可能かも。

379 ：デフォルトの名無しさん：2011/08/14(日) 01:26:25.04

ファイルの先頭にFE FF 00 00を見つけたとき、
・UTF-16BEのU+FEFF, U+0000
・UTF-16のBOM, U+0000
・UTF-32のBOM
のいずれであるかの見分けはつくのでしょうか

380 ：デフォルトの名無しさん：2011/08/14(日) 01:53:40.23

>>379
そのバイトオーダーでは迷う要素がどこにもないのだが…

381 ：デフォルトの名無しさん：2011/08/14(日) 04:44:20.21

先頭がBOMかU+feffかは、
エンコードスキームがutf-16なのかutf-16beなのか
の情報が必要。
つまりエンコードスキーム情報無しに読むことは不可

382 ：デフォルトの名無しさん：2011/08/14(日) 04:45:13.50

>>381
そのバイトオーダーでは迷う要素がどこにもないのだが…

383 ：デフォルトの名無しさん：2011/08/14(日) 04:57:36.54

>>381
ならff fe 00 00ならどうするのよ？

384 ：デフォルトの名無しさん：2011/08/15(月) 00:39:15.78

>>382
FE FF 00 00ってのは例が悪くて>>383の間違いなんだろうけど、
「FE FF」にしたってBOMなのかU+FEFFなのか区別付かないよね？

385 ：デフォルトの名無しさん：2011/08/15(月) 00:50:44.72

Unicodeでは先頭のU+FEFFは常にBOMと解釈すべし、というルールだから、BOMであることに疑問はない。
ただしUTF-16LEによるBOM + U+0000という解釈とUTF-32LEによるBOMという解釈のどちらをとるべきかは
一意に決定する方法がない、という意味で>>383の指摘は正しいものだと思う。

386 ：デフォルトの名無しさん：2011/08/15(月) 01:05:17.86

つ ttp://stackoverflow.com/questions/1929962/unicode-bom-for-utf-16le-vs-utf32-le
バイトオーダマークであってエンコーディングを示すものじゃないから諦めろってさ

387 ：デフォルトの名無しさん：2011/08/15(月) 02:30:12.19

>>385
>先頭のU+FEFFは常にBOMと解釈すべし
んなこたーない。
Unicode 6.0.0「3.10 Unicode Encoding Schemes」D96
『In UTF-16BE, an initial byte sequence <FE FF> is interpreted as U+FEFF zero width no-break space』
D98
『In the UTF-16 encoding scheme, an initial byte sequence corresponding to U+FEFF is interpreted as a byte order mark』

UTF-16BEなら先頭のFE FFはU+FEFF。UTF-16なら先頭のFE FFはBOM。データから区別は出来ない。

388 ：デフォルトの名無しさん：2011/08/18(木) 00:42:00.98

先頭の<FE FF>がBOMなのかfeff文字なのか判断できないなんて、
BOM考えた奴、ばかなの？

389 ：デフォルトの名無しさん：2011/08/18(木) 07:30:27.15

Unicode自体が馬鹿の塊なのは欧米人以外なら即分かると思うが

390 ：デフォルトの名無しさん：2011/08/18(木) 22:29:40.94

>>389
どの辺が馬鹿の塊なのか解説よろしく

391 ：デフォルトの名無しさん：2011/08/19(金) 15:06:30.40

香具師らの認識している「表意文字」とはアイコンのことだからなぁ

392 ：デフォルトの名無しさん：2011/08/19(金) 20:08:38.83

だから今は漢字のことを表語文字と呼んだりするね

393 ：デフォルトの名無しさん：2011/08/28(日) 23:49:09.53

>>390
当初16 bitで収まると考えていたことなんか、素人の俺にもすぐに指摘できる。

394 ：デフォルトの名無しさん：2011/08/29(月) 01:00:05.33

>>393
かつてそう考えたミスは事実だが、今はコードポイントが
U+10FFFFまでに修正され、UTF-32とUTF-8は無理の無い形で
対応出来てるだろ。
「Unicode自体が馬鹿の塊」の理由は説明出来ないのかな？

395 ：デフォルトの名無しさん：2011/08/29(月) 01:32:35.26

>>389でも>>393でもないが
正規化すると互換漢字が統一漢字になるところは時々キレそうになる

自分は異体字セレクタでやればいいんだけど、他人に渡す時に対応エディタがないから揉める
あと他人から受け取ったファイルに互換漢字が大量に含まれてたりするともうね・・・

396 ：デフォルトの名無しさん：2011/08/29(月) 01:43:05.53

>>394
無理はあるだろ
16bitとか考えなきゃ、最初っからCJKなんて無謀なこともしないで済んだし、そうすればコード変換の
コストも大幅に軽減されたし、i18n対応のソフトがフォントでつまずくようなことも起きなかったし
他にもさまざまな問題が事前にことごとく指摘されてたのに強行して、結局無理でした、だからな

397 ：デフォルトの名無しさん：2011/08/29(月) 02:27:50.75

>>394
> かつてそう考えたミスは事実だが、今はコードポイントが
> U+10FFFFまでに修正され、UTF-32とUTF-8は無理の無い形で
> 対応出来てるだろ。

その代償として、Unicodeは複雑化してしまった。
UTF-32、UTF-16、サロゲートペア、UTF-8、なぜ一つに統一しなかったのか。
最初から世の中の文字はすべて32bitで扱うとなっていれば、プログラムも簡単だっただろうに。
OS、言語、すべてが同じUTF-32を使う。さっさと移行しておけばよかったのに。

第一の失敗UTF-16、これがあったせいでWindows、Mac、JavaはUTF-16を
標準のものとしてサポートしてしまった。今更UTF-32にはやすやすと移行できないだろう。
おかげでサロゲートペア対応とか変なモノが後で導入された。

第二の失敗UTF-8、これのせいでUnix系はASCII文字と互換性を保てるようになってしまった。
そのせいで、UTF-8はなかなか消せなくなっただろう。

もう一文字がすべて同じ32bitの世界は絶望的だよ。

398 ：デフォルトの名無しさん：2011/08/29(月) 03:31:52.42

＞もう一文字がすべて同じ32bitの世界は絶望的だよ。
いや、それは結合文字ある時点で絶望的だろ、と突っ込んでみる
UTF-16がクソなのは同意だがUTF-8は需要多かったからどの道生まれただろうし

399 ：デフォルトの名無しさん：2011/08/29(月) 08:01:59.08

>>395
自分の処理目的に適した基準でnormalizeすれば良いよ。decompositionだけ無くすとかね。
外に出す時に、必要なら改めてUnicodeの規格に沿ってnormalizeし直せば良い。
OSXだと互換漢字は除外してnormalizeするAPIとかも用意されてる。

400 ：デフォルトの名無しさん：2011/08/29(月) 08:11:50.68

ぜんぜんCJK非分離の解決になっていない件

401 ：デフォルトの名無しさん：2011/08/29(月) 11:17:14.00

漢字は本当に、普通に見た目が違う字が出るもんなぁ

402 ：デフォルトの名無しさん：2011/08/29(月) 11:41:22.44

>>399
要件にわざわざ『Unicode正規化(C方式)』と入ってなければ
或いは、送ったファイルが何故か相手側で正規化される、そんな可能性が無視できるなら
Apple独自規格だろうがなんだろうが喜んで使おう
ただ、その場合はそもそも正規化する必要がないんだけど

403 ：デフォルトの名無しさん：2011/08/29(月) 11:55:21.11

>>399
＞外に出す時に、必要なら改めてUnicodeの規格に沿ってnormalizeし直せば良い。

必要だからやる→>>395
自分勝手にnormalizeしたところで何の解決にもならん罠

404 ：デフォルトの名無しさん：2011/08/30(火) 22:01:52.91

正規化についても、みんなで仲良く正規化しないと、
いろいろ面倒なんだよなあ。

例えば、外部からきたUSBメモリ上のパス名まで正規化されているかどうかとか。
内部的には正規化してから処理するとしても、
再度書きこむ時に正規化すべきか、それとも元のままにしておくか、
元のままにしておく場合、保存しておかなければならないし。

>>397
> UTF-32、UTF-16、サロゲートペア、UTF-8、なぜ一つに統一しなかったのか。

ちょっとこの列挙の仕方はどうかと。
言わんとしていることは分からないでもないが、
最初から32bitじゃまとまらなかっただろう。

405 ：デフォルトの名無しさん：2011/08/31(水) 10:41:56.92

受け入れられるためには理想の仕様は諦めて妥協しないといけない、
かといって妥協しまくりのダメ仕様でも誰も使わない。

その結果を一見して「迷走」と決めつけることは誰にもできるw

406 ：デフォルトの名無しさん：2011/08/31(水) 11:50:16.72

16bitは必要な妥協だったとは思わんがな

407 ：デフォルトの名無しさん：2011/09/01(木) 14:44:18.72

根拠は？
どうなっていたのと思うの？

408 ：デフォルトの名無しさん：2011/09/01(木) 19:30:44.11

必要な妥協だった、迷走ではない、と開き直るほうが簡単だよね

でも互換漢字の中に統合漢字を適当に混ぜるとか、何も考えてないのは丸わかり
規格作ってるやつらは実装しなくていいんだから楽だよなあ

409 ：デフォルトの名無しさん：2011/09/02(金) 12:27:42.35

必要な妥協なんてものはそもそも無い。
ないものを攻撃している奴は馬鹿。
仕方ない妥協があるだけ。

410 ：デフォルトの名無しさん：2011/09/02(金) 12:47:09.80

仕方も工夫も色々あったけど
馬鹿が都合悪い部分放置でそのままreleaseしたんだろ
なんで「仕方なかった」なんて嘘が通ると思うのか
まだ「必要だった」って言い訳のほうがマシだよ

411 ：デフォルトの名無しさん：2011/09/02(金) 13:14:29.07

>>409
>>408だけど、妥協そのものを攻撃してるんじゃなくて
>>399みたいな開き直りについて言ってるだけだから
必要とか仕方ないとかそのへんの細かいニュアンスは俺の言ってる本筋とは関係ないから

412 ：デフォルトの名無しさん：2011/09/02(金) 13:15:49.10

安価ミスすまん
>>399じゃなくて>>405ね

413 ：デフォルトの名無しさん：2011/09/02(金) 15:51:45.81

経緯をよく知らないけど、中国/日本の当局者に6万語で収まるのかをきちんと聞いたのか？
単に憶測で6万語で収まると判断したのか？

414 ：デフォルトの名無しさん：2011/09/02(金) 18:11:44.98

Unicodeは最初からHan Unificationありき。
Xerox(とApple)でHan Unificationが研究されたから、
Unicodeが誕生のきっかけが出来た。

日本ではEmacsやArenaの多言語化を、
ISO 2022ベースでやっていた頃。

415 ：デフォルトの名無しさん：2011/09/04(日) 05:22:06.88

>>414
最初から、というか、最初だけ。
誕生のきっかけであって、もう今ではとてもじゃないが、機能してるとは言えん

同じ字体が互換漢字・互換漢字両方で表せるのがまずおかしいのに
さらにKS X 1001とかいう規格から、同じ字体で読みだけが違う互換漢字も追加されて
統一漢字＋異体字セレクタで統一漢字でも字体を変更できるようになって
と思ったら異体字セレクタに汎用電子がAdobeと同じ字体を重複登録しはじめて
トドメに、異なった統一漢字同士でも異体字セレクタによっては同じ字体になるんだから……

416 ：デフォルトの名無しさん：2011/09/04(日) 17:42:35.37

>>415
> 機能してるとは言えん

はあ?

417 ：デフォルトの名無しさん：2011/09/04(日) 19:33:51.55

うん、そうだね

418 ：デフォルトの名無しさん：2011/09/05(月) 04:04:33.03

その通りだ

419 ：デフォルトの名無しさん：2011/09/05(月) 22:01:45.96

>>294
アンダースコアの有る無しで意味が違う、っていうことの方が狂気の沙汰だと思う

420 ：デフォルトの名無しさん：2011/09/05(月) 22:32:53.25

狂気はお前だ。

421 ：デフォルトの名無しさん：2011/09/06(火) 01:33:22.31

アンスコあるのと無いのでは全然違うだろ。

422 ：デフォルトの名無しさん：2011/09/06(火) 02:42:07.11

アンダースコートは無い方が良い

423 ：デフォルトの名無しさん：2011/09/10(土) 15:51:03.10

>>413
まずいよこれ無理だよ、ってのは少なくとも日本の機関や企業から結構発信してたはず

424 ：デフォルトの名無しさん：2011/09/10(土) 18:02:22.29

収まらないのはUnicodeが開発される前からわかっていた。
収めるためのHan Unificationが適切かどうかが議論になった。

>>414
> Unicodeは最初からHan Unificationありき。
> Xerox(とApple)でHan Unificationが研究されたから、
> Unicodeが誕生のきっかけが出来た。

425 ：デフォルトの名無しさん：2011/09/10(土) 18:18:33.20

で、不適切だったと

426 ：デフォルトの名無しさん：2011/09/10(土) 23:32:57.71

まだ天安門の頃か

427 ：デフォルトの名無しさん：2011/11/08(火) 00:10:00.22

>>423
それでも説得して変えさせることは出来なかった。
かといって代替を用意して
それを普及させるだけの力もなかった。

ガラパゴス規格を作っては国内オンリーで威張る
だけの親方日の丸体質では最初から無理でした。

せめて今後は上手く捻じ込む交渉術を学んでいただきたいものです。
無理か。無能なJIS関係者や学者に金撒くんじゃなくて
最初から、ロビイストに金を突っ込むのが正しいな。

428 ：デフォルトの名無しさん：2011/11/08(火) 00:46:24.54

今更お金撒いてももう無理なんじゃない？
文字コードには詳しくないんだけど
プログラマのための文字コード入門読む限りでは
今後もシフトJISを使うのが一番安全という気がひしひしとしてくる。
実際、Windowsも内部はUnicodeだけどインタフェースはNLSを通してシフトJISを使うわけだし。

429 ：デフォルトの名無しさん：2011/11/08(火) 00:51:01.90

.Netでもそんな扱いだっけ？

430 ：デフォルトの名無しさん：2011/11/08(火) 01:05:01.98

シフトJISってWindows以外じゃ使わないんだけどなあ…

431 ：デフォルトの名無しさん：2011/11/08(火) 01:09:02.77

シフトJISって恥ずかしいよね

432 ：デフォルトの名無しさん：2011/11/08(火) 01:21:12.38

Windows使いだが、業務用のバッチファイル以外でシフトJISなんか使わねーぞ。
ソースコードもHTMLもデータベースもテキストファイルも全部ウニコードにしてる。
ただメールだけはISO-2022-JPでないと文字化けする糞アプリが存在するので
なかなかUTF-8に移行できない。

433 ：デフォルトの名無しさん：2011/11/08(火) 01:24:56.95

Visual C++がコードページにうにコードをセットできないのがすべての敗因。
コマンドプロンプトも未だにうにコード使えないし、ファイルシステム事態はうにコードを使えても
ファイル名をやり取りするAPIの中にうにコード版が存在しないものが…

WindowsだけシフトJISで。

434 ：デフォルトの名無しさん：2011/11/08(火) 01:32:12.35

>コマンドプロンプトも未だにうにコード使えないし

cp 65001

435 ：デフォルトの名無しさん：2011/11/08(火) 01:39:37.21

>>433
ttp://yukarin.wiki.fc2.com/wiki/Tips

436 ：デフォルトの名無しさん：2011/11/08(火) 02:07:10.34

よし、コマンドプロンプトのうにコード問題は解決したぞ
あとはVC++がlocaleにうにコードをセットできるようになってくれれば解決だ。

437 ：デフォルトの名無しさん：2011/11/08(火) 02:07:27.82

ほー。
chcp 65001すると今まで動いてた以下のコードが正しく動かないんだがどうすればいい？
　_tsetlocale(LC_CTYPE, _T(""));
　_tprintf(_T("マンコ\n"));

438 ：デフォルトの名無しさん：2011/11/08(火) 02:56:46.07

windows のシステムロケールを変更して再起動

439 ：デフォルトの名無しさん：2011/11/08(火) 08:53:05.57

mendoxer!

440 ：デフォルトの名無しさん：2011/11/17(木) 03:47:25.53

囗囘囙囚四囜囝回囟因囡团団囤囥囦囧囨囩囪囫囬园囮囯困囱囲図围囵囶囷囸囹固囻囼国图
囿圀圁圂圃圄圅圆圇圈圉圊國圌圍圎圏圐圑園圓圔圕圖圗團圙圚圛圜圝圞

441 ：デフォルトの名無しさん：2011/11/19(土) 21:17:47.39

シフトJISはWindowsだけってことはないと思うぞ。
むしろ自分の周りだとWindows以外のシステムはいろいろあるけど
情報交換はシフトJISでまず問題がない。ユニコードにお目にかかる
ことのほうが滅多にない。

442 ：デフォルトの名無しさん：2011/11/20(日) 04:14:11.87

>>441
> 情報交換はシフトJISでまず問題がない。

老害しねや

443 ：デフォルトの名無しさん：2011/11/20(日) 11:36:54.27

最近は中国人の顧客とかも増えてるからUnicode対応じゃねーと死ぬわ俺んとこは

444 ：デフォルトの名無しさん：2011/11/20(日) 12:29:01.95

異体字セレクタと互換漢字どっち使うにしてもUnicodeは地獄

445 ：デフォルトの名無しさん：2011/11/20(日) 20:58:49.78

互換漢字・意自体セレクタはUnicodeよりシフトジスの方が優れていると？

446 ：デフォルトの名無しさん：2011/11/20(日) 21:12:01.10

中国の客とか、その時点で死だろ

447 ：デフォルトの名無しさん：2011/11/20(日) 21:17:11.83

異体字があっても意味を区別できるヤツなんて
1000人に1も居ないんだから、異体字なんて駆逐してしまえ。
国も時代に合わせろよ。

448 ：デフォルトの名無しさん：2011/11/20(日) 22:39:49.13

全国の渡邊さんと渡邉さんがアップをはじめたようです

449 ：デフォルトの名無しさん：2011/11/21(月) 02:15:21.62

源規格分離のUnicodeに移行すれば、メリットは多数あってもデメリットは無いだろ。

互換漢字とか話をすり替えてユニコード批判するしかないとは。
いつまで20世紀に生きてるんだよ

450 ：デフォルトの名無しさん：2011/11/21(月) 13:52:38.60

>>444だけど、>>441書いたのは俺じゃないからな
当然だけどShift_JISが使えない規格ってのが大前提だが

>>449みたいなやつも程度としては>>441と同レベルだわ
デメリットないとか本気で言ってんならな
そりゃ、ソフトウェアを源規格分離のUnicodeで作るだけなら楽だけど
使うやつはUnicodeのことなんてなにも分かっちゃいないんだぞ
使われてるうちにデータがどういう惨状になるか分かってんのか……

451 ：デフォルトの名無しさん：2011/11/21(月) 15:03:02.41

>>449 は全ての問題が解決した22世紀から来た人なんだろう、多分

452 ：デフォルトの名無しさん：2011/11/23(水) 20:24:22.16

>>449
合成漢字とか、マイナーな漢字で問題が有るっちゃあるらしい。
だから、PDFに複数のエンコーディングを同時に使いたいという需要が
あったりする。

453 ：デフォルトの名無しさん：2011/11/24(木) 08:26:11.02

原規格分離でも、別規格の文字が同じコードポイントという致命的欠点を「前世紀に批判」と誤魔化してみても、
その致命的欠点が前世紀からそのままであるという事実は変わらないけどなw

454 ：デフォルトの名無しさん：2011/11/24(木) 20:20:13.17

>453
それは別に致命的な欠点ではないだろう
統一漢字をせっかくまとめたのに、互換漢字を作ったのが失敗なんだよ
最初から異体字はセレクタでよかった

455 ：デフォルトの名無しさん：2011/11/24(木) 20:50:09.36

使い物にならないままでよかった、とw

456 ：デフォルトの名無しさん：2011/11/24(木) 20:56:22.92

ﾊｧ?

457 ：デフォルトの名無しさん：2011/11/26(土) 11:51:28.97

痛い字セレクたん

458 ：デフォルトの名無しさん：2012/01/09(月) 10:04:59.13

>>457

459 ：デフォルトの名無しさん：2012/01/09(月) 10:20:35.33

れ

460 ：デフォルトの名無しさん：2012/01/15(日) 21:54:45.42

書き込みが少ないようだが、スレタイの疑問には
コンセンサスが得られたってことでいいんだよな

Unicode: UTF-16リトルエンディアンBOMあり
UTF-8: よく使うアレ

461 ：デフォルトの名無しさん：2012/01/16(月) 09:15:50.56

そんなコンセンサスはない。
MSがそう表記したがってるのは事実。
'Unicode'と'UTF-16LE'を同一視するような言い方をすれば
頭の弱いかわいそうな人と見なされる。
少なくともそいつと技術の話はできない。

462 ：デフォルトの名無しさん：2012/01/16(月) 14:23:26.17

JavaもUTF-16の意で使うよね。MSだけじゃなくて

463 ：デフォルトの名無しさん：2012/01/16(月) 15:19:44.52

>>462
使わねーよ。よほど古い、1990年代にかかれたような文書ならともかく。
単に文字列の内部表現がUTF-16というだけ。

464 ：デフォルトの名無しさん：2012/01/16(月) 15:45:26.60

つまり使ってるという訳ですね

465 ：デフォルトの名無しさん：2012/01/16(月) 17:06:14.95

使ってないじゃんｗ

466 ：デフォルトの名無しさん：2012/01/16(月) 18:40:17.48

実質UTF-16しかなかった時代には、Unicode＝UTF-16として扱っているドキュメントは多かった
MSは、単に旧時代の言い方をいつまでも引きずっているだけ。別にそう表記したがっているわけじゃない

467 ：デフォルトの名無しさん：2012/01/16(月) 18:43:23.43

かつては符号化文字集合と文字符号化方式は一対一で不可分だったからね
でも時代は変わったんだからマイクロソフトは自分の所でしか通じない用語は改善するべきだと思う

468 ：デフォルトの名無しさん：2012/01/16(月) 22:54:53.28

>>463 おＪＡＶＡ様はUnicodeがUTF-16BEの様ですね。
System.out.printf(new String(new byte[]{(byte)0x30, (byte)0x70, (byte)0x30, (byte)0x4B}, "Unicode"));

469 ：デフォルトの名無しさん：2012/01/17(火) 08:39:03.98

お前も頭悪いな。そんなところの互換性無くして誰か喜ぶと思ったのか？

470 ：デフォルトの名無しさん：2012/01/17(火) 13:55:57.57

つまり使ってる
MSと同じ

471 ：デフォルトの名無しさん：2012/01/17(火) 14:10:23.18

>>467
そりゃ、無理な相談だ

472 ：デフォルトの名無しさん：2012/01/28(土) 03:34:36.69

>>467
日本語でおk

473 ：デフォルトの名無しさん：2012/01/28(土) 23:14:28.00

結局Unicodeの定義にコンセンサスがないので、違いを語ることができないということでOK?
Unicodeは規格の名前だが、文字集合の意味で使われたり、UTF-16の意味で使われたり、意味も分からずユニコードと言ってみたりカオス？

474 ：デフォルトの名無しさん：2012/01/29(日) 07:23:52.01

混同してるバカがいる、ってだけの話

475 ：デフォルトの名無しさん：2012/02/07(火) 21:50:52.80

英語は大小あわせて46文字しかないし、数字10文字、記号もろもろ入れても7bitで128種類も有れば足りるよね。1byteは8bitだから頭は常に0にしとくよ。
-> ascii (7bit)

んじゃ「頭に1つけたときは半角カタカナ」ってことにしといたらasciiに日本語混ぜれるんじゃね？
いろは47文字に濁点、半濁点、カギカッコとか句読点も入れとくわ。
日本でバックスラッシュとか使わんからこいつは円記号と一緒なｗｗｗ俺天才ｗｗ
-> JIS X 0201

アルファベットだけじゃヨーロッパは物足りないんで、
日本が半角カナ入れたところにウムラウト付きの文字とか入れときます。
-> latin-1

漢字絶対必要なんで、asciiとかほっといてとりあえず2バイトで表現できる文字集合選定しときます。
限りある空間資源なんで「掴」と「摑」とかは一緒ってことで堪忍してください。(包摂)
あ、英語書く時は全部全角でおながいします。
-> 97JIS符号化方式によるJIS X 0208文字集合の利用

いやいや、英語重要なんで。マジ。無視とかありえないんで。
はい、頭が1のバイト隣同士でasciiサンに迷惑かけないよう二人組作ってー。
JIS X 0201のカナ文字は無視しておｋ。これでJIS X 0208の文字も表現できる。
……あれ、半角と全角でアルファベットダブっちまってるけど……まいいか。
-> EUC-JP

おい、メールは7bit符号しか使ったあかんらしいぞ。えー。
切替用の透明文字（エスケープ文字）作ってその文字以降はそれぞれのコードってことにしよ。
-> ISO-2022-JP

asciiもJIS X 0201の半角カナも無視とか親泣くぞ。過去の遺産大事にしろ。
まぁ漢字使いたいけどエスケープ文字とかダルすぎるし、
JIS X 0201の空いたトコもらって2byteで使わせてもらうわ。
え？そこは制御文字用って？知るかボケ。
-> Shift_JIS

476 ：デフォルトの名無しさん：2012/02/07(火) 21:51:23.32

結局同じ文章に外国語入り混じらせて使いたい？
分かった分かった。お前ら黙れ。4バイトで世界中の文字全部平等に並べ直そう。な。
-> ISO/IEC 10646

ちょっとまって同じ事やろうとしてるんだけど。2byteで。
-> Unicode

足並みそろえよか。4byteやけど上2byte全部0の実質Unicodeでやってこや。
おうアジアの土人ども、母国語の文字数すら数えられんのに大きい顔すんなよ？
迷惑なんだから、似たような文字はガンガン同じにまとめとけ。(CJK統合漢字)
-> 10646とUnicodeサブセット

メンゴメンゴ。65536個じゃ足らんかったわｗ
Unicodeの2byte2つ組み合わせる方針にします。
2つのbyteのうち前後どっちを先にするかは文章の始めに印を付けて表すことにしましょう。(BOM)
素直に全部前から読む時はビッグエンディアン、天邪鬼さんはリトルエンディアンってことで。
でもでも、やっぱよく使う文字とよく使わない文字が同じビット数占拠するのもバカらしいんでー、
よく使う文字(BMPの文字)は2byte単体、それ以外は2つくっつけて表す事にします。(サロゲートペア)
-> UTF-16

結局くっつけるんかいｗｗｗそれやったらasciiとの互換も考えれｗｗｗ
1文字あたりのバイト数は可変長だけどasciiの文字しか使わなかったらasciiと一緒になる。
-> UTF-8

サロゲートペアは甘え。容量も懐も大きいとこ見せろ。
Unicodeをそのまま直書きで4byte固定符号化方式。どや。
Unicodeの文字並び(U+00303Dとか)がそのまんま0000303Dで分かりやすい。
-> UTF-32

477 ：デフォルトの名無しさん：2012/02/07(火) 23:14:02.83

符号化文字集合の一文字1コードっていう大原則を破った時点でもうぐちゃぐちゃだったんだよ。
もうどんな符号化文字集合を持ってきても絶対に誰も幸せになれない。

478 ：デフォルトの名無しさん：2012/02/07(火) 23:57:30.91

>>476
Unicodeの意味をを勘違いしている典型例ですね　
円コーディングフォームと円コーディングスキームの区別もつかなくて、
リトルエンディアンが天の邪鬼とか言い出すバカ

479 ：デフォルトの名無しさん：2012/02/08(水) 00:00:19.79

わけ判らん駄文を読むヤツが居たという事の方に笑ってしまったわ

480 ：デフォルトの名無しさん：2012/02/08(水) 00:07:39.59

円コーディングｗ

481 ：デフォルトの名無しさん：2012/02/08(水) 07:36:46.60

誰も46文字にはつっこまんのか。

482 ：デフォルトの名無しさん：2012/02/08(水) 16:12:14.16

>>475-476がまるっきり変遷の歴史と違う上に、技術屋とは思えないレベルの勘違いがありすぎ

483 ：デフォルトの名無しさん：2012/02/08(水) 17:20:13.44

英語は大小あわせて46文字しかないね。
-> ascii (7bit)

アイちゃん言語訓練には足りないね。
-> UTF-32

484 ：デフォルトの名無しさん：2012/02/08(水) 18:50:51.84

いろは48文字につっこむのが先

485 ：デフォルトの名無しさん：2012/02/08(水) 23:04:17.54

なんでバイトオーダーとキャストの話が出てこない？

486 ：デフォルトの名無しさん：2012/02/09(木) 01:11:51.86

kwsk

487 ：デフォルトの名無しさん：2012/02/09(木) 23:29:02.94

>>475-476 はセンスあるね
エンディアンの説明がおかしい他はいい線いってる。
時系列を変えてるのはわかりやすさのためだろ

488 ：デフォルトの名無しさん：2012/02/10(金) 00:57:08.24

TCP/IPの立場から考えればリトルエンディアンは十分天邪鬼だろ。

Intel CPUはリトルエンディアンだが
整数値を小さな型にキャストしようとする時
先頭アドレスを変えずに読み込みを途中で打ち切るだけで済む。
ビッグエンディアンだとスライドさせないといけない。
その分リソースを食う。

でも数値をどこかで切り捨てたい時とか上から順にダンプかけたいときは
メリット・デメリットが逆になる。

円記号問題の根底はJIS X 0201というよりISO 646各国版の普及にあって、
もっと世界的なもんじゃないのか？　トライグラフとか。

誰か詳しい人解説頼む。

489 ：デフォルトの名無しさん：2012/02/10(金) 08:33:56.11

トライグラフはEBCDICでもC言語を書けるようにしたものだから、あまり関係ない。

490 ：デフォルトの名無しさん：2012/02/10(金) 21:48:22.40

えっ？

491 ：デフォルトの名無しさん：2012/02/11(土) 01:09:06.04

ビッグエンディアンがマトモだと信じているバカはプログロマー止めた方がいい

492 ：デフォルトの名無しさん：2012/02/11(土) 08:38:33.85

なんで？

ワード長の拡張で、対応がずれる、以外のディスアドバンテージがあるならどうぞ。

493 ：デフォルトの名無しさん：2012/02/11(土) 09:53:05.21

どう考えても下位ビットが下位アドレスに格納されるリトル園ディンのが自然じゃね?
ビッグエンディアンは奇数アドレスアクセスとかできないでしょ。
GIF画像の圧縮みたいな可変ビット長データの連続してパッキングは、ビッグエンディアンじゃやってられない。

デメリットは「ビットの上位の方向とバイトの上位の方向が逆」に尽きる。

494 ：デフォルトの名無しさん：2012/02/11(土) 10:07:27.29

こうして小人さんたちの戦いは続くのであった。

495 ：デフォルトの名無しさん：2012/02/11(土) 10:10:47.68

まともなビッグエンディアンのアーキテクチャなら、ビットにアドレスが付く命令でも、
MSBがアドレス0だよ？

ビットアドレスが2の冪と対応してない、とは言えるけど、直感的でない、以外に問題ある？

496 ：デフォルトの名無しさん：2012/02/11(土) 10:21:38.52

1バイト内のビットアドレスじゃなくてメモリ(バイト)アドレスのことだろ。
4バイト整数12345678hの上位バイト12が上位メモリアドレス3に書かれるのがリトル。
4バイト整数12345678hの上位バイト12が下位メモリアドレス0に書かれるのがビッグ。
FFhに1足して上位桁に繰り上がったら、より下位のアドレスが変わるなんて変と思わないの?

497 ：デフォルトの名無しさん：2012/02/11(土) 10:31:03.80

アドレスが大きい方が下位と思えばどうということはない。

498 ：デフォルトの名無しさん：2012/02/11(土) 10:41:26.87

二つ前のレスも読めないなんて、
こういうバカがビッグエンディアンを設計したんだろうな

499 ：デフォルトの名無しさん：2012/02/11(土) 10:49:46.08

UTF-8は上位ビットが下位アドレス側に格納されるから、設計者は馬鹿だし、
リトルエンディアン信者は当然使わないよなw

500 ：デフォルトの名無しさん：2012/02/11(土) 11:02:53.62

どうやら自分以外は全て馬鹿病の患者が、リトルエンディアン凄い、偉い、と吠えてるだけのようですねw

準TADのTRONコードでも使ってろw

501 ：デフォルトの名無しさん：2012/02/11(土) 11:44:58.61

>>388
考えたのはＭ＄だからな。

502 ：デフォルトの名無しさん：2012/02/11(土) 11:48:27.56

MS叩きとか、いまどき流行らんわ

503 ：デフォルトの名無しさん：2012/02/11(土) 11:51:29.54

>>499
cpuがメモリに直接ワードアクセスする時のメモリイメージの話と、
バイトオリエントにシリアライズしたutf-8の話を一緒にするのはいくないぜ

504 ：デフォルトの名無しさん：2012/02/11(土) 12:13:02.50

>>501
いやほんとbomのおかげで助かるわ。
utf-8とその他のコードをほぼ確実に判別できる

505 ：デフォルトの名無しさん：2012/02/11(土) 20:26:42.27

>>504
utf-8なのにBOMって

506 ：デフォルトの名無しさん：2012/02/11(土) 21:38:11.32

>>505
何か問題が？
UTF-8のシグネチャーとして大活躍じゃないか

507 ：デフォルトの名無しさん：2012/02/12(日) 02:20:34.14

名前が良くないな。
援交ディングスキームシグネチャー
これでおk

508 ：デフォルトの名無しさん：2012/02/12(日) 02:52:52.82

異体字セレクたん
みたいだな

509 ：デフォルトの名無しさん：2012/02/12(日) 08:16:34.20

UTF-8のBOMって、オプションなのでしょうか?

例えばUTF-16の場合、先頭の<FE FF>はU+FEFFでなくBOMと見なす必要がありますが、
UTF-8ではUnicode 6の3.10D95をみると『can』とあるので、UTF-8の先頭の<EF BB BF>を
U+FEFFと見なすことは禁止されていないように見えます。

先頭<EF BB BF>の解釈は自由という理解で良いでしょうか?

510 ：デフォルトの名無しさん：2012/02/12(日) 11:27:09.36

よくありません

511 ：デフォルトの名無しさん：2012/02/12(日) 12:25:31.41

why?

512 ：デフォルトの名無しさん：2012/02/12(日) 15:56:41.47

U+FEFFはBOM限定になったような

513 ：デフォルトの名無しさん：2012/02/12(日) 23:11:21.56

既存の文書の存在は認めないのですね

514 ：デフォルトの名無しさん：2012/02/12(日) 23:28:04.18

はい
はい

515 ：デフォルトの名無しさん：2012/02/13(月) 00:47:58.80

>>512
ソースｷﾎﾞﾝﾇ

516 ：デフォルトの名無しさん：2012/02/13(月) 12:43:00.82

http://www.unicode.org/charts/PDF/UFE70.pdf
のU+FEFFで、non-breakingは代わりにU+2060を使ってね、と。
http://www.unicode.org/charts/PDF/U2000.pdf
のU+2060で、BOMの曖昧さを無くす為に、と。
その方向で行こうね、位の意味合い？

517 ：デフォルトの名無しさん：2012/02/13(月) 23:32:42.50

先頭のU+FEFFは、UTF-16ではBOMで、UTF-16LEやUTF-16BEではZWNBSPになるのか。
で、UTF-8ではUTF-16やUTF-32から変換されたときBOMが付くことがあって、
UTF-8としては不要だけどUTF-8かどうかの識別として使えるし違反ではないよ。
途中のU+FEFFは、ZWNBSPとして扱うけどなるべくU+2060を使ってね。
こんな感じの認識でいい？

518 ：デフォルトの名無しさん：2012/02/14(火) 07:21:36.14

>先頭のU+FEFFは、UTF-16ではBOMで、UTF-16LEやUTF-16BEではZWNBSPになるのか。

いいと思うけど、細かい所がちょっと違う。
先頭のFE FFやFF FEの2バイトは、UTF-16ではBOMで、UTF-16LEやUTF-16BEではZWNBSP文字相当になる。
バイナリデータ(Encoding Scheme)をEncoding Formに読み取った時点でBOMは無くなる。
U+FEFFというのはUTF-16orUTF-32のEncoding FormだからBOMになり得ない。

>UTF-16やUTF-32から変換されたときBOMが付くことがあって
これも同じく、Encoding FormをEncoding Schemeに変換したときにBOMが付くことがある

519 ：デフォルトの名無しさん：2012/02/14(火) 07:47:25.15

「U+」はコードポイントの表記。Formじゃない。
　コードポイント: u+feff (ZWNBS文字(非推奨))
　UTF-16エンコードフォーム: <FEFF>(16ビット単位、u+は付かない)
　UTF-16エンコードスキーム: <FE FF FE FF>または<FF FE FF FE> (8バイト単位)。先頭のFE FFはBOM
　UTF-16BEエンコードスキーム: <FE FF>(8バイト単位)、先頭の<FE FF>はZWNBS文字だがZWNBSが非推奨

520 ：デフォルトの名無しさん：2012/02/14(火) 13:05:58.68

なるほど。やっと理解しました。ありがとう。

521 ：デフォルトの名無しさん：2012/02/14(火) 17:43:30.45

http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=4E62
> kHanyuPinyin 10760.010:g�i

文字化けワロス

522 ：デフォルトの名無しさん：2012/02/19(日) 00:37:27.03

今来た俺に違いを3行で教えてくれ

523 ：デフォルトの名無しさん：2012/02/19(日) 01:31:55.27

Unicode・・・文字集合
UTF-8・・・文字表現
です

524 ：デフォルトの名無しさん：2012/02/19(日) 01:37:04.34

>>523
ほう、ではUnicode 6.0のどこに「Unicodeが文字集合の一つ」と
書かれているのかね？

525 ：デフォルトの名無しさん：2012/02/19(日) 01:40:16.48

3行オーバーしたので答えられません。
自分でぐぐってください。

526 ：デフォルトの名無しさん：2012/02/19(日) 01:42:59.62

仕様のどこと訊かれてググれと答える奴は
プログラマーに剥いていない

527 ：デフォルトの名無しさん：2012/02/19(日) 01:47:33.04

ハゲは結構多いよ

528 ：デフォルトの名無しさん：2012/02/19(日) 01:49:36.68

プログラマーの童貞率、アスペ率は異常

529 ：デフォルトの名無しさん：2012/02/19(日) 01:57:06.64

細かいことにこだわらない奴はプログラマー向いてない。

向いてない人「ちょっとくらいいいでしょ？多めに見てよ」
コンピュータ「はあ？」

530 ：デフォルトの名無しさん：2012/02/19(日) 02:11:33.76

そもそも「文字表現」ってなんだよ。ちゃんとした用語使えよ。

531 ：デフォルトの名無しさん：2012/02/19(日) 02:23:21.28

文字表現は文字表現だよ
(T-T)悲しい
(^-^)うれしい
こんなのが最近たくさん追加されてるだろ

532 ：522：2012/02/19(日) 02:54:14.52

おいおい、2スレ目にもなってケツ論出てないのかよ

533 ：デフォルトの名無しさん：2012/02/19(日) 15:37:07.51

>>523
痴呆があらわれたか

534 ：デフォルトの名無しさん：2012/02/19(日) 22:52:12.18

Unicode=UTF-8
一般人に違いなどわからんからこれでよし

535 ：デフォルトの名無しさん：2012/02/19(日) 23:03:51.63

いいわけないだろカスが＾＾

536 ：デフォルトの名無しさん：2012/02/20(月) 11:24:52.62

元々の規格
UTF-8
UTF-16BE
UTF-16LE
UTF-32BE
UTF-32LE

マイクロソフトが追加した規格 (いずれもBOM付き)
UTF-8　(上記と重複する)
UTF-16 (省略BE-BOM)
UTF-16LE-BOM
UTF-32 (省略BE-BOM)
UTF-32BE-BOM
UTF-32LE-BOM

ってことでよろしいですか？

537 ：デフォルトの名無しさん：2012/02/20(月) 18:09:07.05

ぜんぜんダメ

538 ：デフォルトの名無しさん：2012/02/20(月) 18:10:40.38

このスレで何度か書かれてるけど、
そろそろencoding formとencoding schemeの違いを
理解した方がいいよ

539 ：デフォルトの名無しさん：2012/02/20(月) 20:38:04.20

Unicode規格で定義されるEncoding Scheme
　UTF-8 (BOMなし)　←MSの「UTF-8」
　UTF-8 (BOM付き)
　UTF-16 (BOMなしBE、先頭にU+FEFFは書けない)
　UTF-16 (BOMありBE、先頭の<FE FF>はU+FEFFでなくBOM)　←MSの「Unicode big endian」
　UTF-16 (BOMありLE、先頭の<FF FE>はU+FEFFでなくBOM)　←MSの「Unicode」
　UTF-16BE (BOMなしBE、先頭の<FE FF>はBOMでなくU+FEFF)
　UTF-16LE (BOMなしLE、先頭の<FF FE>はBOMでなくU+FEFF)
　UTF-32 (BOMなしBE、先頭にU+FEFFは書けない)
　UTF-32 (BOMありBE、先頭の<00 00 FE FF>はU+FEFFでなくBOM)
　UTF-32 (BOMありLE、先頭の<FF FE 00 00>はU+FEFFでなくBOM)
　UTF-32BE (BOMなしBE、先頭の<00 00 FE FF>はBOMでなくU+FEFF)
　UTF-32LE (BOMなしLE、先頭の<FF FE 00 00>はBOMでなくU+FEFF)

540 ：デフォルトの名無しさん：2012/02/20(月) 20:40:31.47

最初の二つを間違えた。正しくは　↓
　UTF-8 (BOMなし)
　UTF-8 (BOMあり)　←MSの「UTF-8」

541 ：デフォルトの名無しさん：2012/02/20(月) 23:14:05.93

そもそもBOMってMSの拡張じゃないの？
Unicodeにそんな仕様はいってるの？

542 ：デフォルトの名無しさん：2012/02/21(火) 00:42:33.77

入ってますがな。
なければどんなに幸せだったことか…
BOMのない世界にforkしたい。

543 ：デフォルトの名無しさん：2012/02/21(火) 04:01:27.70

無くて困ったことはあるが、
あって困ったことはありませぬ。

544 ：デフォルトの名無しさん：2012/02/21(火) 04:24:21.16

BOMあるとshebangが正常に動作しない

545 ：デフォルトの名無しさん：2012/02/21(火) 05:19:27.61

そのファイルだけBOMとれば？

文字コード不明なファイルを読み取ろうとするシバンはウンコ(・∀・)ノ●。
日本語のパスはどうすんだよ。

546 ：デフォルトの名無しさん：2012/02/21(火) 06:46:27.45

BOM が MS拡張とかどんだけ……
まだ ISO-10646 が正式な規格になる以前からありますがな。

547 ：デフォルトの名無しさん：2012/02/21(火) 17:29:35.79

>>537
えーなんでダメなんだよ？これjavaのエンコードライブラリそのまんまなんだぜ？

548 ：デフォルトの名無しさん：2012/02/21(火) 20:08:10.74

>>547
JavaはBOM周りの処理のバグを認識しつつ
バグを永久に直さないことに決定済みだろ

『マイクロソフトが追加した規格』が『おJavaの認識する名前』で
BOMがMS独自という誤った記述が無ければおけ

549 ：デフォルトの名無しさん：2012/02/21(火) 22:38:40.98

>>544
shebangに関して言えば、
shebangを読み取るプログラムが
Unicodeに対応していないというべきだろうね。

たぶん、UTF32で書かれたshebangも読み取れないはず。

550 ：デフォルトの名無しさん：2012/02/21(火) 22:45:12.38

>>543
無くて困ったことは皆無ですが、
あって困ったことはいやほどあります。

551 ：デフォルトの名無しさん：2012/02/21(火) 22:52:15.54

>>550
無くて困ったというのは文字コードが明確でなかったと想像できるけど、
あって困ったというのは、具体的にどんなこと？

552 ：デフォルトの名無しさん：2012/02/21(火) 23:04:12.52

>>551
上にあるけどshbangが通らないとか(頻発するので慣れた)、
ビルドが通らないとか(頻発するので慣れた)、
SQLの実行に失敗するとか(多数のDDLの実行途中だったのでリカバーに泣いた)。

553 ：デフォルトの名無しさん：2012/02/21(火) 23:09:04.25

ああ、あと複数のファイルをcatで繋いだら境目にゴミが混じったってのもあった。

554 ：デフォルトの名無しさん：2012/02/21(火) 23:12:44.31

あるテキストの改行が
Cr
CrLf
Lf
の
三つが混ざっちゃうことあるの?

555 ：デフォルトの名無しさん：2012/02/21(火) 23:14:57.14

>>551
単なるバイトストリームとして扱えなくなるケース。

556 ：デフォルトの名無しさん：2012/02/21(火) 23:19:30.60

BOMが認識できないバギーなコンパイラはともかく、catは違うような。

テキストファイルをバイナリで結合することが間違ってると思う。
結合するファイルの文字コードが違ってたら破綻するし、
ISO-2022はそもそもバイナリ結合できなくね？

557 ：デフォルトの名無しさん：2012/02/22(水) 09:08:20.78

>>556
>>553, >>555 は、BOM なし UTF-8 ならば cat で連結できる、って話じゃないの？

別なコードの話を持ちだしても意味ないと思う。

558 ：デフォルトの名無しさん：2012/02/22(水) 09:10:14.09

>>556
＞バギーなコンパイラ
言いがかり。
そういうことがないようにUTF-8を使うのに
BOMがあるだけでパー。

＞結合するファイルの文字コードが違ってたら破綻
同じUTF-8だけどな。
BOMがあるだけでパー。

559 ：デフォルトの名無しさん：2012/02/22(水) 09:28:36.68

utf-8対応をうたうならbomを認識できなくてはならないのに
僕のＫＵＳＯコンパイラはダメなんです。と言われてもなあ。
取り敢えずＫＵＳＯコンパイラユーザーにデメリットが有るのはわかったw

560 ：デフォルトの名無しさん：2012/02/22(水) 09:34:37.56

catでbomが困るなんて、
「テキストに日本語を書くと様々な問題を起こすので日本語の使用はデメリット」
とか
「csvにヘッダー行を書くとcatできない問題があるので書かないようにしている」
ってのと同レベル

561 ：デフォルトの名無しさん：2012/02/22(水) 13:10:05.23

>>559
BOMさえなければ、とくにUTF-8に
対応することがそもそも不要。

バギーでもクソでもない。

UTF-8原理主義者は面倒くさいな。

562 ：デフォルトの名無しさん：2012/02/22(水) 14:07:48.03

バイトオーダーという概念がないUTF-8でBOMとはこれいかに？

563 ：デフォルトの名無しさん：2012/02/22(水) 14:21:41.35

仕様に従っているかどうかの話と
仕様自体の妥当性は別の話。
utf-8安置は頭が悪いな

564 ：デフォルトの名無しさん：2012/02/22(水) 14:25:08.95

うにコード安置はいるがutf-8安置はいるのだろうか？

565 ：デフォルトの名無しさん：2012/02/22(水) 15:03:18.48

ファイル名に日本語を使ってはいけないとか、メールのタイトルに日本語を
使ってはいけないというのは、UNIXの伝統的な掟です。
LinuxはUNIXに憧れているので、UNIXの掟を忠実に守ります。
掟を守るのは大事なことです。

UTF-8を許せば日本語を使う馬鹿が出てきますよ。

566 ：デフォルトの名無しさん：2012/02/22(水) 15:03:29.36

UTF-8は、ASCII上位互換コーディングシステムとして設計された。
バイトストリームとして扱えば、プログラムがそのまま使えるように。
Ken Thompson先生が。Unicodeの外の世界で。

だからUnicode.orgがUTF-8にもBOMを付けるのは味噌をつけてしまったようなもの。
ただ既にBOMがあるのだから、当然の帰結ではあるのだが。

もともとのUnicodeの考え(wide character主義)とUTF-8は乖離しているから、
こういう残念な状態になってしまった。

567 ：デフォルトの名無しさん：2012/02/22(水) 15:06:40.21

>>565
パス名といえば、例えば、
"￥Users￥漢字名さん￥ドキュメント"
"漢字名さん"
"ドキュメント"
それぞれにBOMが付くとパス名処理がすごく面倒になる。
Unicode互換の処理系を名乗るにはやらないといけないけど、
そういうOS、ミドルウェアは未だ存在しない。

568 ：デフォルトの名無しさん：2012/02/22(水) 15:18:27.13

大体BOM付きとか滅茶苦茶不合理じゃん。
"a" だけで何バイトだよ？
旧来のBOM無しUnicodeを新しいUnicodeとして制定しなおしましょう。

569 ：デフォルトの名無しさん：2012/02/22(水) 15:18:31.69

>>567
だからこそ許してはいけないのです。
ファイル名やメールの件名に日本語を使ってはいけません。

570 ：デフォルトの名無しさん：2012/02/22(水) 15:19:17.81

さあ、早くEF BB BFを削る作業に戻るんだ。

571 ：デフォルトの名無しさん：2012/02/22(水) 15:20:33.65

>>568
それは思い上がりですね。
ASCIIだけで充分です。

572 ：デフォルトの名無しさん：2012/02/22(水) 15:20:40.10

NotePad　BOM付きしか認識しない。
UNIX系　BOM無しを前提にしている。

やっぱM$の陰謀以外考えられないわけだが。

573 ：デフォルトの名無しさん：2012/02/22(水) 15:21:39.18

>>571
ならば、おまえだけは日本語で書き込むなよ。

574 ：デフォルトの名無しさん：2012/02/22(水) 15:28:41.23

kokoha tanoshii intaaneto desune

575 ：デフォルトの名無しさん：2012/02/22(水) 15:29:14.05

>>573
俺はUNIXもLinuxも使っていないのでメールの件名に日本語を使うし、
ファイル名にも日本語を使います。
HTMLメールが送られてきたからと言って怒ったりしません。

576 ：デフォルトの名無しさん：2012/02/22(水) 15:35:24.27

571 名前：デフォルトの名無しさん：2012/02/22(水) 15:20:33.65
>>568
それは思い上がりですね。
ASCIIだけで充分です。

>>575
だからおまえは日本語でこの掲示板に書き込む権利は一切無いの。

577 ：デフォルトの名無しさん：2012/02/22(水) 15:41:57.47

>>576
いえいえ、俺はUNIXもLinuxも使わないので歴史的に日本語OKなのです。
ご心配には及びません。

578 ：デフォルトの名無しさん：2012/02/22(水) 15:42:52.80

nanda tadano baka dattaka

579 ：デフォルトの名無しさん：2012/02/22(水) 16:46:17.18

>>567
Unicode規格のencoding formとencoding schemeの説明を読み直してこい

フォルダー名にbomが付くとかあり得ないから

580 ：デフォルトの名無しさん：2012/02/22(水) 16:51:22.56

asciiとかどれだけ可搬性のないのものを持ち出すんだよ。
@とか[とかは機種依存文字なのを知らんのか最近の若いモンは。

581 ：デフォルトの名無しさん：2012/02/22(水) 16:57:58.84

>>580
8bit目を立てるのはマナー違反です。

582 ：デフォルトの名無しさん：2012/02/22(水) 17:18:50.84

>>579
何言ってるかさっぱりわからん。
パス名はメモリ上のデータに限られてると限定しているわけ？

583 ：デフォルトの名無しさん：2012/02/22(水) 18:05:31.10

>>572
NotePad は BOM なくても UTF-8 を認識するよ。
でも保存するときに強制的に BOM がつくのが問題。

Unix でなくても、たとえば文書のヘッダやフッタを別のテキストファイルから
include してくるというのは、よくある処理だと思うけど、そういう場合に、
いちいち BOM の処理が必要というのは不合理。

字数とかワードラップとかの処理が必要な場合は仕方ないけれど、そうでない
場合はバイナリとテキストで同じプログラムが使えるようになっているのが望
ましい。

584 ：デフォルトの名無しさん：2012/02/22(水) 18:11:47.88

>>582
Unicode規格ではEncoding FormにBOMの概念は無いんですよ。(ここらへんはRFC 3629と定義が違う)
Windowsのフォルダー名はEncoding SchemeでなくEncoding Form単位で読み書きするので、
フォルダー名にBOMが入ることはないです

585 ：デフォルトの名無しさん：2012/02/22(水) 18:22:59.79

>>583
>たとえば文書のヘッダやフッタを別のテキストファイルから
>include してくるというのは、よくある処理だと思うけど、そういう場合に、

MS Word文書をバイナリで結合したら読み取れませんでした。てのと同レベル。
バイナリデータを挿入するんでなく、「テキスト」を挿入するよう見直した方がいい。
ISO/IEC 2022だって二つのファイルをバイナリで結合したら壊れるだろ

586 ：デフォルトの名無しさん：2012/02/22(水) 18:31:25.66

>>580
ASCIIの7ビット文字は、現代で現実的に
充分ポータブルだろ。

どのあたりを心配してる？

587 ：デフォルトの名無しさん：2012/02/22(水) 18:34:04.47

>>586
　　　　∩＿∩　　　　　
　　／＼／＼　　　
　　|　（^）=（^） |　　　　人人人人人人人人人人
　　|　　●_●　 |　　＜ BOM否定派に対する皮肉だろ＞
　/　//　　　///ヽ　＜言わせんな恥ずかしい＞
　| 〃 ------ ヾ　|　　　ＹＹＹＹＹＹＹＹＹＹＹＹＹＹ
　＼＿＿二＿＿ノ

588 ：デフォルトの名無しさん：2012/02/22(水) 20:32:33.68

>>584
フォルダ名が外からもたらされたら、
>フォルダー名にBOMが入ることはないです
なんて課程は全くできないけど?

589 ：デフォルトの名無しさん：2012/02/22(水) 22:16:57.21

>>588
BOMとU+FEFFは違う物です。Encoding SchemeとEncoding Formの違いを理解してください。

Windows APIでフォルダーを作成する際の名前は「UTF-16(Encoding Form)」でしか指定できないのです。
「UTF-16(Encoding Scheme)」を受け取るAPIは有りません。
外からもたらされた時点で<FE FF>がBOMかU+FEFFかを判断し、
BOMを取り除いた形でWindowsに渡す必要があります。

590 ：デフォルトの名無しさん：2012/02/22(水) 22:20:02.08

> 外からもたらされた時点で<FE FF>がBOMかU+FEFFかを判断し、
> BOMを取り除いた形で

こういう処理をユーザがしないといけないって話なんだけど？

591 ：デフォルトの名無しさん：2012/02/22(水) 22:49:40.36

話がずれてないか？
もとはパス名処理が大変と言う567に対し、
文字列になってる時点でBOMは無いので単純だというのが579。

バイナリを文字列に変換するのにBOM処理は当然必要なんだけど、
それは567の「パス名処理が大変」「実装が存在しない」とは違う話。

592 ：デフォルトの名無しさん：2012/02/22(水) 23:09:53.07

BOMっていうのはファイルにしか存在しないものだよ。

BOM付きの文字列を半分に分けたらどうする？
前半の文字列にはBOMがついて、
後半の文字列にはBOMがついてない？
それともわざわざ付けると思う？

BOMが存在するのは外部リソースのみ
それをUNICODE文書として読み取った時、
BOMは消さないといけない。

だから、APIに渡す文字列がBOM無しなのはアタリマエのこと。

593 ：デフォルトの名無しさん：2012/02/22(水) 23:11:12.92

プログラマが頑張らないといけない実装しかないから、
パス名処理が大変なんでしょ？

> 文字列になってる時点でBOMは無い

「文字列になって」
この定義自体が難しいから、
プログラマが何も気にしないでも問題が起きない実装はないわけだ。
そもそも利用者のレベルでも問題が起きうる。

594 ：デフォルトの名無しさん：2012/02/22(水) 23:12:42.87

>>592
> BOMっていうのはファイルにしか存在しないものだよ。

外部リソースならどんなものにも付く可能性がある。

595 ：デフォルトの名無しさん：2012/02/22(水) 23:22:35.82

>>593

> 「文字列になって」
> この定義自体が難しいから、

簡単。バイナリではなく文字列として解釈できる準備ができた時。
それは文字列型に代入した時や、
UTF8フラグなんかをつけた時。

596 ：デフォルトの名無しさん：2012/02/22(水) 23:23:34.45

そもそも「ファイル」っていう概念をちゃんと>>592が分かって書いてるのかどうかも怪しい

597 ：デフォルトの名無しさん：2012/02/22(水) 23:27:15.21

UNIXでいう「ファイル」だけど？

598 ：デフォルトの名無しさん：2012/02/23(木) 00:11:05.68

そもそもBOM付きデータは「バイナリ」であって「テキスト」ではない、と考えてる。
「テキスト」は純粋に「文字列」を表現する要素のみで構成されたものであるべき。

599 ：デフォルトの名無しさん：2012/02/23(木) 00:44:37.73

バイト列だから順序が必要なんじゃろ？
整数列だから順序が必要ないんじゃろ？
それがエンコードスキームとエンコードフォームを分けた由来じゃろ？

Unicodeのエンコードフォームでは文字列は数値列だから、ひとつの文字はひとつの数値として扱われる。
しかしこれが物理的にコンピュータ上で扱われるとき、
コンピュータはその数値列を一つのバイト値として扱えない。
つまり、一つの文字は複数のバイト列になる。
だからバイト列に順序が必要になる。

一方、UTF-8はいずれの場合もバイト列として扱う。
文字列はバイト列であるので順番が必要ない。

という話じゃなかったっけあはん大陸。

600 ：デフォルトの名無しさん：2012/02/23(木) 00:46:24.77

ん

＞一方、UTF-8はいずれの場合もバイト列として扱う。
＞文字列はバイト列であるので順番が必要ない。

これは「文字列もまたバイト列であるので順番が必要ない」と書くべきか＾＾；

601 ：デフォルトの名無しさん：2012/02/23(木) 00:52:52.91

>>565
UTF-8 許されてるなら日本語使っても良いと思う
むしろファイル名に半角 space 入れる香具師の方が
もう阿呆かと

602 ：デフォルトの名無しさん：2012/02/23(木) 00:53:52.69

>>594
ファイルじゃない外部リソースなんかあるのか

603 ：デフォルトの名無しさん：2012/02/23(木) 00:54:42.23

>>601
何がいけないんだ？

604 ：デフォルトの名無しさん：2012/02/23(木) 00:56:47.75

>>602
メモリ、ストリームなどなど＾＾

605 ：デフォルトの名無しさん：2012/02/23(木) 01:00:55.19

>>604
それって、つまり、ずーっと辿るとファイルに行き着くだろ
ファイル以外でBOMなんて付かないだろ

606 ：デフォルトの名無しさん：2012/02/23(木) 01:05:04.93

>>605
いやいや。
例えばリアルタイムにコード変換してる時は元ファイルにはBOMついてないし＾＾；
メモリに展開される時にBOMがつく（つかないと判別できない＾＾）
そもそもプログラム内部は論理表現なのでBOMなどというものはありえない。
これがメモリに展開される瞬間、つまり物理表現に変わる瞬間にバイト順序が必要になる。
ストリームも同じ。

607 ：デフォルトの名無しさん：2012/02/23(木) 01:16:51.20

>>603
だろ？

608 ：デフォルトの名無しさん：2012/02/23(木) 01:18:14.42

恥ずかしいスレだな

609 ：デフォルトの名無しさん：2012/02/23(木) 01:35:10.93

J( 'ｰ`)し　ごめんね。おかあさんはじめてUnicode使ったから、ごめんね

610 ：デフォルトの名無しさん：2012/02/23(木) 01:40:10.04

>>606
'\0'を文字列の途中に突っ込むのと同じ話だけど。
やろうと思えば出来る。でも普通はメモリ中のデータにBOMは入れない。
くだらない話だから伸ばすな。

611 ：デフォルトの名無しさん：2012/02/23(木) 02:46:18.12

>>605
> それって、つまり、ずーっと辿るとファイルに行き着くだろ

アホなの?

612 ：デフォルトの名無しさん：2012/02/23(木) 05:51:03.86

>>593
明確だよ。
byte[]型は文字列でない。stringは文字列。
CでもWindowsならchar[]からTCHAR[]になった時点で文字列。

CでもASCII NUL終端で扱っている時点でBOMが有るのは間違い。
UTF-16とか扱えなくなるだろ

613 ：デフォルトの名無しさん：2012/02/23(木) 06:10:47.12

>>601
むしろ半角スペースで動かなくなる方が殺害モノだね。
やるべきことをやってないだけ。

"c:\a b??cacls.exe" "c:??d??e f" /R "SYSTEM"
SET "PATH=c:??a b"

常にこう書けば何が渡されても破綻しない

614 ：デフォルトの名無しさん：2012/02/23(木) 07:36:47.91

crlf->lf
cr->lf
lf->crlf
---------------
->の意味わ?

615 ：デフォルトの名無しさん：2012/02/23(木) 07:41:56.77

>612
> CでもWindowsならchar[]からTCHAR[]になった時点で文字列。

アホなの?

616 ：デフォルトの名無しさん：2012/02/23(木) 08:15:36.17

そもそもUTF-16やUTF-32は
文字に\0が含まれるのでchar[]では扱えない。

617 ：デフォルトの名無しさん：2012/02/23(木) 08:24:03.69

>>612
> CでもWindowsならchar[]からTCHAR[]になった時点で文字列。
char[] == TCHAR[]

618 ：デフォルトの名無しさん：2012/02/23(木) 09:58:23.45

犬が混じると低レベル化するな。

619 ：デフォルトの名無しさん：2012/02/23(木) 10:36:35.75

また犬が来たｗ

620 ：デフォルトの名無しさん：2012/02/23(木) 13:52:22.90

テーブル(Unicode)とデータ表現(UTF-8)の違いじゃねーの？

621 ：デフォルトの名無しさん：2012/02/23(木) 13:58:47.78

>612
> CでもWindowsならchar[]からTCHAR[]になった時点で文字列。

Windowsでは#define UNICODEとしないと文字列を扱えないそうです。

622 ：デフォルトの名無しさん：2012/02/23(木) 14:02:47.03

>>616
いや扱える。
<stdio.h><string.h>などが文字列はnull terminate前提、
Cコンパイラも文字列リテラルが同様ってだけ。

ex.
struct UTF16String {
int length;
char data[];
};

623 ：デフォルトの名無しさん：2012/02/23(木) 16:55:20.64

MessageBoxA と MessageBoxW の違いも判ってなさそう出汁

624 ：デフォルトの名無しさん：2012/02/23(木) 20:02:43.63

Shift_JISは常にビッグエンディアンだけど
UTF-16はBEとLEがあるクソ仕様、SJISとCP932の問題よりさらに酷い
おまけにサロゲートペアのせいで何が16なのかと言うレベル

バイトストリームとしてはBEに限定して
APIなどではuint16_t*なりwchar_t*で扱えばいいのに
何故バイトストリームでBE版とLE版を用意したのかと

625 ：デフォルトの名無しさん：2012/02/23(木) 20:31:26.64

ネットワークバイトオーダーもJavaのデータアウトプットもBEに規定されてたよな。
たしかOracleもBEだったか。16LEは確かに誰得。

626 ：デフォルトの名無しさん：2012/02/23(木) 21:06:35.37

同じchar[]でもバイト列と文字列ではセマンティクスは別物になる
ファイル or メモリ、char[] or TCHAR[]
重要なのはデータソースでも型でも無く、データの意味そのもの

同じintでも電圧の変数に電流の値を代入して良いわけがなく
同じstringでも通常の文字列とhtml文字列を混同すればxssに一直線だ

内部表現は[文字符号化方式]でなく[符号化文字集合]と考えるのが適切
バイナリとして読み込んだUTF-16文書のバッファ(文字符号化方式)のポインタを
wchar_t*(符号化文字集合)に単純キャストするような荒業でも動作する環境はあるが
wchar_tが4バイトの処理系ではそうはいかない

627 ：デフォルトの名無しさん：2012/02/23(木) 21:42:14.43

何でキチガイが湧いてるの？

628 ：デフォルトの名無しさん：2012/02/23(木) 21:46:52.94

なんでレッテル厨が湧いてるの？
具体的な反論するのが怖いの？

629 ：デフォルトの名無しさん：2012/02/23(木) 21:59:21.69

>>624
>Shift_JISは常にビッグエンディアンだけど
「Ａ」は82h 60hという2バイトであって、3260h(33376)ではありません。

>>621
長さとペアでバイナリデータを保持するcharと、ヌル終端前提のTCHARを区別しろってことでしょ。
TCHARがcharかwchar_tかは関係無い。
>>626の言う「重要なのはデータソースでも型でも無く、データの意味そのもの」を少しは理解しな

630 ：デフォルトの名無しさん：2012/02/23(木) 23:09:37.18

文字集合JIS X 0208のＡ : コードポイント3区33点(3-33)
→ JIS X 0208の符号化方式Shift JISでは 0x82 0x60 と表現
→ JIS X 0208の別の符号化方式EUC-JPでは 0xA3 0xC1 と表現

つまりUTF-32BEが最強

631 ：デフォルトの名無しさん：2012/02/24(金) 00:24:42.69

>>628
Cの時代にcharで文字列とバイナリの両方を扱って
きた人間には理解を超えているので、
相手に罵声を浴びせることしかできないんだぜ。

エンコードスキーム(バイトデータ)とエンコードフォームの
違いがこのスレで何度説明されたことか。
未だに全く理解できていないし

632 ：デフォルトの名無しさん：2012/02/24(金) 00:31:43.04

Unicodeはwchar_tのために作られたわけじゃねーだろ

633 ：デフォルトの名無しさん：2012/02/24(金) 00:41:41.68

>>631
まだ言ってるのかw

634 ：デフォルトの名無しさん：2012/02/24(金) 00:50:25.32

>>626
この解釈間違ってると思うんだが
誰も突っ込まないのな

635 ：デフォルトの名無しさん：2012/02/24(金) 00:50:38.49

>>631
Windowsのwchar_tは２バイトでutf-16で固定長じゃないんだから、
charでutf-8を扱った方がまし。

636 ：デフォルトの名無しさん：2012/02/24(金) 01:03:21.88

>>635
utf-8はいいけど
BOMのあり得るエンコードスキームUTF-8と
BOMの無いエンコードフォームUTF-8は
異なる概念なので区別しろよw

でないと、UTF-16BEはヌルが含まれるのでcで扱えないとか
とんちんかんなことを言い出しかねん

637 ：デフォルトの名無しさん：2012/02/24(金) 01:20:18.39

BOMありUTF-8使ってるのって日本だけなん？

638 ：デフォルトの名無しさん：2012/02/24(金) 01:21:59.80

>>634
頼んだぞ

639 ：デフォルトの名無しさん：2012/02/24(金) 01:24:48.19

>>637
Windowsのメモ帳が付けるというのに、
どうしてそんな考えに至ったのか知りたい

640 ：デフォルトの名無しさん：2012/02/24(金) 02:40:35.01

>>636
メモリ上にはUnicode encoding formしかないと勘違いしている人？

641 ：デフォルトの名無しさん：2012/02/24(金) 06:13:03.23

それだとファイルを読み込むことが不可能になってしまいます

読み取ったバイナリデータをテキストとして処理する前に
エンコードフォームに直すと言うことでは?

642 ：デフォルトの名無しさん：2012/02/24(金) 21:05:08.82

ヌル終端の文字列って超使われてるけどさ
struct{char* begin, char* end}の値渡しか、その構造体へのポインタを渡すようにした方が良かったよね
今更ってレベルじゃないけど

643 ：デフォルトの名無しさん：2012/02/24(金) 21:23:26.59

struct{char* begin, int len)の方がいい。

644 ：デフォルトの名無しさん：2012/02/24(金) 21:27:00.18

struct{char*end;chars[];};の方がいい

645 ：デフォルトの名無しさん：2012/02/24(金) 21:32:30.58

>>642
最初はstructなんてなかったんだよ。
そこまで斜めだと後出しですらないだろ。

646 ：デフォルトの名無しさん：2012/02/24(金) 21:34:20.57

>>643
Pascalがそれ。
実装によってはnull characterも持てた。
けど勝利したのはCのシンプルさ。
同じデータ構造(char [])でバイナリも持てる。

647 ：デフォルトの名無しさん：2012/02/24(金) 21:35:14.65

そのせいでCはUTF16や32に
特殊な型を持ち出さないと対応できなくなった。

648 ：デフォルトの名無しさん：2012/02/24(金) 21:36:10.43

それどころかstrlenやstrcpyでも
UTF16やUTF32専用の関数が必要になった。

649 ：デフォルトの名無しさん：2012/02/25(土) 00:27:19.29

>>643
intじゃポインタで表現可能な範囲を持てる保証が無いよ
実際殆どの64bit環境(LP64やLLP64)でintでは4Gの壁が出来上がる
せめてptrdiff_tにしないとね

>>645
マジか、struct無かったのか・・・
でも斜めではなくね？STLでもbegin(),end()が基本だしさ

650 ：デフォルトの名無しさん：2012/02/25(土) 00:36:53.09

>>649
昔の話だとして…
Cの前身はT *とintの区別なかったんだよ。
型指定がなくて、型は名前のついてないWORD型しかない。
今で言うところのILP16で。(Integer, Long, Pointerが16bit)
だからその影響でCでもしばらく型指定なしの変数宣言するとintだった。

651 ：デフォルトの名無しさん：2012/02/25(土) 00:53:57.92

>>649
ならsize_tでいいだろ。
strlenの戻り値の型だ。

652 ：デフォルトの名無しさん：2012/02/25(土) 08:59:27.50

>>650
cの前身っていったら1971年？
そんな時代に16ビットが普及してたはずもないのだが

653 ：デフォルトの名無しさん：2012/02/25(土) 11:01:25.83

パソコンの16ビットはそりゃそうだろうけど、
ミニコンの16ビットは70年代に16ビットは普通では？

654 ：デフォルトの名無しさん：2012/02/25(土) 11:05:36.97

BCPLはPDP-7だっけかな。
と思って調べたらまさかの18ビット

655 ：デフォルトの名無しさん：2012/02/25(土) 11:06:15.46

DECという会社があったこと #平成生まれが知らないことを挙げていこうぜ

656 ：デフォルトの名無しさん：2012/02/25(土) 13:22:49.45

ここは加齢臭漂うスレとなりました。

657 ：デフォルトの名無しさん：2012/02/25(土) 23:22:28.04

ファブリーズしても全然ダメなぐらい

658 ：デフォルトの名無しさん：2012/02/26(日) 15:47:27.68

CrCrLfはWindowsだと1回の改行でMacだと2回の改行?

659 ：デフォルトの名無しさん：2012/02/26(日) 16:11:51.66

CR/CRLF/LF が混在してるテキストなんて基本的に想定外という扱いでいいだろJK

660 ：デフォルトの名無しさん：2012/02/26(日) 19:02:49.96

>>658
ソフトラインブレークは発狂の元

661 ：デフォルトの名無しさん：2012/02/26(日) 19:09:25.17

CRとLFの連続を改行として扱えばいい
空行が無くなるが

662 ：デフォルトの名無しさん：2012/02/27(月) 06:35:19.89

>>658
CrCrLfはWindowsだと不正な改行。
なのでそれを受け入れたい場合は、どう処理するかをソフトウェアの仕様で
決めなければならない。

663 ：デフォルトの名無しさん：2012/02/27(月) 12:08:54.55

Crの次がLfならひとまとめ、Lfの次がCrならひとまとめって感じの実装が多い気がする
混ざってても大体うまくいくし
CrCrLfLfLfCrLfLfCr → Cr,CrLf,Lf,LfCr,Lf,LfCr → 改行6個

CrLfCrLfCrLf → CrLf,CrLf,CrLf (Windows)
LfLfLf → Lf,Lf,Lf (Linux)
CrCrCr → Cr,Cr,Cr (Mac9以前)

664 ：デフォルトの名無しさん：2012/02/27(月) 13:18:33.44

WIN/UNIX/MACごちゃまぜのソフトでWINのクライアントから編集するたびに改行が倍になってくやつがあったな

665 ：デフォルトの名無しさん：2012/02/27(月) 15:26:35.50

CRのみは歴史的文書しかないから、特殊なアプリ以外は無視して問題なし。

666 ：デフォルトの名無しさん：2012/02/27(月) 16:24:28.49

>>659
一方Microsoft Excelさんは平然と混ぜてくるのであった

CSV形式で保存すると行の区切りにCRLFを使用するけど
セル内に改行がある場合は""で囲った上でLFのみで出してくる斜め上仕様
そうした理由は分からんでもないけど・・・

667 ：デフォルトの名無しさん：2012/02/27(月) 18:18:57.20

自分が作る場合はこんなふうに処理している。

1. CR または LF が連続していたら、それぞれの数を数える
2. LF が一個でもあったら CR は無視してその個数を改行数とする
3. LF がひとつもなかったら CR の個数を改行数とする
4. 出力の改行を決める必要があるときは、入力の最初の改行によって決める
(入力がないときはOS依存……最近は LF 決め打ちが多いけど)

わざと混在させる必要がある場合以外、これで問題ない。

もっとも、CR のみの文書っていまだかつて見たことないが。

668 ：デフォルトの名無しさん：2012/02/27(月) 18:20:19.66

RFC4180ってAccessのCSVと同じだろ

669 ：デフォルトの名無しさん：2012/02/27(月) 19:07:55.38

RFC4180読んでみた
2005年公開でこの内容ってことは単にMS Officeに合わせただけか
MSの頭悪いCSVの仕様がRFCになってるとは

素直にメタ文字エスケープすればいいのに

670 ：デフォルトの名無しさん：2012/02/27(月) 22:26:43.04

メタ文字こそウンコ。
パーサーのことだけで読みやすさを考えてないだろ。

671 ：デフォルトの名無しさん：2012/02/28(火) 11:05:23.12

俺はエスケープの方が途中で改行が混じっていない分読みやすい
まぁその辺は人によるから不毛だな

あとパーサーだけじゃないぞ
ちょっとした文字の置換とかも、しやすさが全然違う

672 ：デフォルトの名無しさん：2012/02/29(水) 07:10:49.12

\を入力するとなんで/になっちゃうの?

673 ：デフォルトの名無しさん：2012/02/29(水) 16:32:24.20

なるのは君だけ

674 ：デフォルトの名無しさん：2012/03/02(金) 19:25:17.78

＼

675 ：デフォルトの名無しさん：2012/03/02(金) 19:43:07.92

∖
∖
╲
╲
＼
＼

676 ：デフォルトの名無しさん：2012/03/02(金) 19:43:31.69

>>675
みえる化

677 ：デフォルトの名無しさん：2012/03/02(金) 19:48:04.83

クイックス懐かしいな・・・

678 ：デフォルトの名無しさん：2012/03/03(土) 05:57:10.92

1ヶ月のケってなんなの?

679 ：デフォルトの名無しさん：2012/03/03(土) 07:43:55.61

箇ないし个の変形。「け」ではない。

680 ：デフォルトの名無しさん：2012/03/03(土) 16:13:06.06

へーへーへー。10へー。

681 ：デフォルトの名無しさん：2012/03/03(土) 16:41:16.18

1ヵ月のカってなんなの?

682 ：デフォルトの名無しさん：2012/03/03(土) 16:46:52.04

30人日の力だろ？

683 ：デフォルトの名無しさん：2012/03/03(土) 17:05:29.99

ヵゕかｶカ力刀

684 ：デフォルトの名無しさん：2012/03/03(土) 17:11:27.73

>>681 それも >>679

685 ：デフォルトの名無しさん：2012/03/04(日) 23:00:24.18

【
これはキーボードのローマ字入力でどのキーを押せば

686 ：デフォルトの名無しさん：2012/03/04(日) 23:51:46.85

消せますか？

687 ：デフォルトの名無しさん：2012/03/12(月) 07:21:55.87

もう面倒くさいから
1文字1MBで表現しろよ！

688 ：デフォルトの名無しさん：2012/03/12(月) 08:07:52.93

らめぇ、回線が壊れちゃうよぉ

689 ：デフォルトの名無しさん：2012/03/12(月) 15:01:53.43

原稿用紙一枚分のテキストが400MB

690 ：デフォルトの名無しさん：2012/03/12(月) 15:22:57.77

動画でテキストを表現ですか。

691 ：デフォルトの名無しさん：2012/03/12(月) 20:10:02.36

トントンツーツーは2進法なの?

692 ：デフォルトの名無しさん：2012/03/12(月) 20:31:58.10

文字間セパレータがあるから記号としては3つじゃないか?

693 ：デフォルトの名無しさん：2012/03/12(月) 21:20:31.96

　 ∧,,∧
　( `･ω･)　ｳｰﾑ…？
　/　∽ |
　しー-Ｊ

694 ：デフォルトの名無しさん：2012/03/12(月) 22:00:02.92

>>692
ストップビット２
０：1ビット
１：１．５ビット

695 ：デフォルトの名無しさん：2012/03/12(月) 22:01:50.36

>>694
書き直す

ストップビット：4
０：2ビット
１：3ビット

696 ：デフォルトの名無しさん：2012/03/12(月) 22:17:33.78

三進数

697 ：デフォルトの名無しさん：2012/03/13(火) 10:00:05.44

学習塾

698 ：デフォルトの名無しさん：2012/03/13(火) 10:02:10.36

痛い児セレクたん

699 ：デフォルトの名無しさん：2012/03/13(火) 23:25:06.32

やっぱり二進数だわ
トン、ツー

700 ：デフォルトの名無しさん：2012/03/14(水) 12:43:51.04

>>699
その様子だと、お前は次の問題が解けねぇな。

英文が成立する最低限度のキャラクタのうち、出現頻度が一番高いのは、何？

701 ：デフォルトの名無しさん：2012/03/14(水) 12:57:27.42

kumi

702 ：デフォルトの名無しさん：2012/03/14(水) 16:28:08.33

すポース

703 ：デフォルトの名無しさん：2012/03/14(水) 17:02:49.10

Siri

704 ：デフォルトの名無しさん：2012/03/14(水) 23:11:46.61

chinbo

705 ：デフォルトの名無しさん：2012/03/16(金) 00:03:13.48

>>700
話そらすバカ

706 ：デフォルトの名無しさん：2012/03/27(火) 00:05:22.70

>>705
全くそれていないんだが、それが理解できないと言うことは、
1200 8N1 とか言っても理解できんのんだよなｗｗｗ

707 ：デフォルトの名無しさん：2012/03/27(火) 07:50:36.57

レイヤ1と2の区別がつかないハード屋さんですね。
わかります。
しかも1200っていつの時代

708 ：デフォルトの名無しさん：2012/03/27(火) 13:12:53.93

ATZ
ATZ
ATDT110

709 ：デフォルトの名無しさん：2012/03/27(火) 15:45:33.29

年寄りの加齢臭話はいいから文字コードの話しに戻ろうぜ

710 ：デフォルトの名無しさん：2012/03/28(水) 09:08:44.45

>>707
お前・・・・分かるんだｗｗｗ

711 ：デフォルトの名無しさん：2012/03/28(水) 09:41:33.96

50歳以下は帰ってくれないか?

712 ：営利利用に関するLR審議中＠詳細は自治スレへ：2012/04/08(日) 02:17:17.24

ヘボン式ってなに?

713 ：営利利用に関するLR審議中＠詳細は自治スレへ：2012/04/08(日) 02:20:11.84

トイレに…

714 ：デフォルトの名無しさん：2012/04/12(木) 12:01:16.85

フランソワ・漏れション

715 ：デフォルトの名無しさん：2012/04/15(日) 04:48:40.36

ヘボン式ローマ字は、英語と親和性がたかいが、音韻学的、言語学的な日本語表記法ではない。
ドイツ語、ポルトガル語など、英語以外の言語では、発音がことなるおそれがある。

「ヘボン式ローマ字は英語の発音に準拠したので、日本語の表記法としては破綻が多い（中略）
日本式は音韻学理論の結実として、日本国内外の少なくない言語学者の賛同を得た。
しかし、英語の発音への準拠を排除した日本式ローマ字は英語話者や日本人英語教育者から激しい抵抗を受け」
ローマ字 - Wikipedia

716 ：デフォルトの名無しさん：2012/04/15(日) 05:43:55.65

オードリーヘッバン

717 ：デフォルトの名無しさん：2012/04/15(日) 12:15:22.24

ローマ字って習う必要あったのかな？

718 ：デフォルトの名無しさん：2012/04/16(月) 13:41:08.05

ハングルよりいいんじゃない？

719 ：デフォルトの名無しさん：2012/04/21(土) 23:43:35.82

↑会話の出来ないばか

720 ：デフォルトの名無しさん：2012/04/22(日) 05:43:04.90

住所の番号の部分を全角数字で書かせるホームページってなんなの

721 ：デフォルトの名無しさん：2012/04/22(日) 10:56:29.77

新聞記事で良く見るのが
ユニホーム
とか
ビルヂング

722 ：デフォルトの名無しさん：2012/04/22(日) 11:34:27.88

でもセーターとかミルクセーキとかは気にならない

723 ：デフォルトの名無しさん：2012/04/22(日) 11:48:55.63

メールは微妙

724 ：デフォルトの名無しさん：2012/04/22(日) 12:00:05.69

それより、

　ス　マ　ホ

をなんとかしろ。

725 ：デフォルトの名無しさん：2012/04/22(日) 12:09:28.76

マスコミュ

726 ：デフォルトの名無しさん：2012/04/22(日) 13:51:12.05

全角URL

727 ：デフォルトの名無しさん：2012/04/22(日) 20:35:53.60

>>720
何なのとは？
お前が何を問題視しているのかを説明してもらおうか

728 ：デフォルトの名無しさん：2012/04/22(日) 20:45:02.96

このスレだとUnicode処理系とは認められないってことじゃないかね。

729 ：デフォルトの名無しさん：2012/04/23(月) 18:35:00.20

「千代田区一丁目」って入力させたいんだろ？　いいじゃねーか

730 ：デフォルトの名無しさん：2012/04/23(月) 19:54:19.70

○丁目はそこまでが町名だから許せるんだけどねぇ。

731 ：デフォルトの名無しさん：2012/04/23(月) 20:49:49.64

全角文字は人生を不必要に複雑化する

732 ：デフォルトの名無しさん：2012/04/24(火) 02:44:24.00

姓と名の間の空白を全角にするか半角にするか
プログラミングを意識したら、半角がいいとおもう（区切りだから）
実際には、全角がつかわれてもしょうがない

733 ：デフォルトの名無しさん：2012/04/24(火) 02:52:38.61

1桁の数字を全角にするように〝スタイルガイド〟がきまってたりする。
2桁以上を半角にする。

たとえば、新聞、雑誌など、縦書きを意識したら、何桁でも全角数字がいいとか。

734 ：デフォルトの名無しさん：2012/04/24(火) 10:37:30.00

なんで「縦書き」を文字コードが意識しなければいけないのだ＾＾
使っている文字フォントの縦横比が1:40000だったりしたらどうするのだｗ

全角半角という呼び方もそうだが、
文字幅は文字フォントの問題であり、文字コードの責任ではない。

って、件の本に書いてあったじゃろ？＾＾

735 ：デフォルトの名無しさん：2012/04/24(火) 12:24:24.96

全角半角くらいプログラム側で変換しろよと思う

736 ：デフォルトの名無しさん：2012/04/24(火) 21:58:39.23

>>733
縦書きで2桁は半角だろ？

平
成
24
年

737 ：デフォルトの名無しさん：2012/04/25(水) 17:45:04.43

>>734
Unicodeは東アジア圏の文字幅(半角/全角含む)については、その取り扱いは規定されているだろ。

Unicode Standard Annex #11
East Asian Width
http://www.unicode.org/reports/tr11/

東アジアの文字幅
http://ja.wikipedia.org/wiki/%E6%9D%B1%E3%82%A2%E3%82%B8%E3%82%A2%E3%81%AE%E6%96%87%E5%AD%97%E5%B9%85

738 ：デフォルトの名無しさん：2012/04/25(水) 19:36:54.24

といっても、それは参考特性だからなぁ。フォントの横幅を必ず2桁分にしろよという約束とはちと違うし。
実際、たいていのプロポーショナルフォントでは2倍になっとらんし…。
何とかならんもんかね。

739 ：デフォルトの名無しさん：2012/04/25(水) 20:14:29.55

>>736
英語圏から見るとほんとカオスなんだろうなｗ

740 ：デフォルトの名無しさん：2012/04/25(水) 20:28:09.29

>>738
プロポーショナルフォントで1:2の関係になるわけないでしょ。
プロポーショナルフォントの意味分かってるの?

1:2にしたければ固定幅フォントを使え。

741 ：デフォルトの名無しさん：2012/04/25(水) 20:29:33.25

Unicodeにおけるhalfwidth,fullwidthはroundtrip conversionの
ための単なる呼び名でglyphの幅とは関係無い。
今は同じフォントでも文字幅いくつも持って切換えられるから、全角半角の
文字幅比はフォント固定でも変わる。
文字幅半分のglyphを生成したいとかはレンダリングで対処すべき問題

742 ：デフォルトの名無しさん：2012/04/25(水) 20:35:04.43

UnicodeのEast Asian Widthは、既存の文字コードとの互換の為に用意されているのだから、
固定ピッチフォントが使われている時は、レンダラは属性を見て1:2の文字幅でレンダリングするべきだろ。

743 ：デフォルトの名無しさん：2012/04/25(水) 20:56:48.08

>>742
>固定ピッチフォントが使われている時は、レンダラは属性を見て1:2の文字幅でレンダリングするべきだろ。
レンダリングで対処すべき問題ってことね。
固定ピッチフォントなんてのはUnicodeの関知する所じゃないし。

744 ：デフォルトの名無しさん：2012/04/25(水) 21:00:49.88

>>743
文字の特性値を見れば
全角／半角の切り分けはできるって言いたいだけだよ。

745 ：デフォルトの名無しさん：2012/04/25(水) 21:24:40.16

だからそれは文字コードの責任じゃないでしょｗ
最初から話が噛み合ってないねｗ

746 ：デフォルトの名無しさん：2012/04/25(水) 21:28:35.44

>>745
文字コードの責任だよ。

Unicodeの仕様を見てごらん。

Fullwidthと書いてあるよね？
Halfwidthと書いてあるよね。

Halfは半分という意味、Widthは幅という意味だよ。

747 ：デフォルトの名無しさん：2012/04/25(水) 21:31:01.29

お前の中ではな＾＾；
件の本を読めれ＾＾；

748 ：デフォルトの名無しさん：2012/04/25(水) 21:34:31.61

>>745
全角／半角を見分けてレンダリングする、レンダラを作ろうとする場合に、
どの文字を全角として扱って、どの文字を半角として扱うかの根拠になるのは、
http://www.unicode.org/reports/tr11/
http://www.unicode.org/Public/UNIDATA/EastAsianWidth.txt
この2つだろ。

Unicodeが文字コードの規格では無いとでも言うつもりか?

749 ：デフォルトの名無しさん：2012/04/25(水) 21:36:46.68

いや、だから、おまえらの勝手な仕様解釈なんてクソ以下なんだってば
俺は別にUnicodeの仕様策定者でも解釈者でもなく
単におまえらより偉い先生の書いた本の内容通りに言ってるだけなわけで

おまえらが偉いなら本書いて世間に認められてからその珍妙な説を展開してくれ

750 ：デフォルトの名無しさん：2012/04/25(水) 21:38:39.18

クソ本をヨイショする事しかできないなら黙ってろよ。

751 ：デフォルトの名無しさん：2012/04/25(水) 21:40:11.73

少なくとも糞本も書けないおまえらの珍説をありがたがるほどノーテンキじゃねーんだよ
それともここでおまえらの珍説をたかが一人の人間に納得させると何かおまえらは勝った気になるのか？ｗ

752 ：デフォルトの名無しさん：2012/04/25(水) 21:41:42.62

うん

753 ：デフォルトの名無しさん：2012/04/25(水) 21:43:41.68

べつにおまえにありがたがってもらう必要はねーよ。
勝った気になるとか何の話だ？アホか。

754 ：デフォルトの名無しさん：2012/04/25(水) 21:51:18.70

以下珍説またはスレタイと無関係な煽り合いで１０００まで↓

755 ：デフォルトの名無しさん：2012/04/26(木) 00:10:30.79

　　　＿＿_
　　:／　　　u＼;　　　　　＿＿＿＿
　;/　　　ノﾙ(＜)＼;　　／　;u　ノし＼
　;| 　（＞）　＿)　＼;/　　　　　 ⌒　　＼
　;|:::　⌒（__ノｪｿ　　 /　　　　　　、　　　　|
　;.＼　u　´　　ソ　/　　　　　　　＾　　　　 |
　　 ;＼　　　　, 　|　　　　　　　　　　　　　|
　　　,ヾ＼_　ｎ^^- ＼　　　　　　　 j;　__／
　　;/　 ∠＿;i　￣丶／￣　　　　　　　＼
　 ;（　　　　　⌒）　 ´　　ノ　　　　　　　　＼

756 ：デフォルトの名無しさん：2012/04/26(木) 07:22:30.80

>>746
だから、それはUnicodeと旧来のエンコーディングとの対応を取るための単なるラベル。
Glyphの幅は何も規定しない。どういうglyph幅を採用するかはフォントデザイナの裁量。
UAX #11にもわざわざ
In legacy implementations, there is often a corresponding difference in encoding
length (one or two bytes) as well as a difference in displayed width.
However, the actual display width of a glyph is given by the font and may be further
adjusted by layout.
って書いてあるでしょ。

757 ：デフォルトの名無しさん：2012/04/26(木) 17:15:34.07

文字コードでなくフォントの問題であるべきって主張はいいけど、
「半角」「全角」って言葉が現実的に無視できない存在であることは理解した方がいいよ。

少なくとも半角全角を区別する文字コードが存在して
それに対応する文字がUnicodeに登録されているのは事実。

758 ：デフォルトの名無しさん：2012/04/26(木) 17:40:43.57

「した方が良い」と「しなければならない」を区別して話した方が良いと思うんだ

・East Asian Width参考特性が半角なら、フォントは1/2のサイズにしなければならない
・East Asian Width参考特性が半角なら、フォントは1/2のサイズにした方が良い

後者なら反対してる人は居ないんじゃないかな

759 ：デフォルトの名無しさん：2012/04/26(木) 18:58:59.64

仕様も読まなきゃ本も読まないアホに何言っても無駄
自分の解釈が間違ってるって認めたら死んじまうような
ペラペラのアイデンティティの上でぎりぎり生きてるような連中だから

760 ：デフォルトの名無しさん：2012/04/26(木) 22:41:20.21

仕様＝建前
現実＝本音

761 ：デフォルトの名無しさん：2012/04/26(木) 22:53:08.42

固定ピッチフォントがlegacyとかふざけるなターミナルエミュレータは現役だし将来も無くなる予定なんぞないわ、とtr11を見たときオモタ。

762 ：デフォルトの名無しさん：2012/04/26(木) 23:06:35.26

固定幅フォントであっても半角と全角の文字の幅比が1:2であるとは限らない。
こんなの常識。

763 ：デフォルトの名無しさん：2012/04/26(木) 23:26:45.82

建前「固定幅フォントであっても半角と全角の文字の幅比が1:2であるとは限らない。」

本音「1:2にするべきだ」

764 ：デフォルトの名無しさん：2012/04/27(金) 05:09:05.83

一人顔真っ赤な奴がいる？

765 ：デフォルトの名無しさん：2012/04/27(金) 05:50:54.33

ASCIIの1文字が8x8ドットで表現されていた頃、漢字は4倍角だった。
そのうち半角全角も、ただの歴史になるだろ。

766 ：デフォルトの名無しさん：2012/04/27(金) 20:44:56.57

話をぶった切るけど、Unicode関係のお勧めの本ってどんなのがあります？

767 ：デフォルトの名無しさん：2012/04/27(金) 22:03:45.30

amazon

768 ：デフォルトの名無しさん：2012/04/28(土) 11:43:55.63

UTF-8にわくわしいのに香具師の意味がわかんないだけど

769 ：デフォルトの名無しさん：2012/04/28(土) 20:44:13.87

わくわくしいって何か楽しげだな

770 ：デフォルトの名無しさん：2012/04/28(土) 21:09:07.62

わくわく死？

771 ：デフォルトの名無しさん：2012/04/29(日) 05:40:27.80

奴（ヤツ）
ヤシ
香具師（やし）

772 ：デフォルトの名無しさん：2012/05/03(木) 13:16:56.46

何を言っているのかよくわからんが・・・

少なくとも半角と全角を同一視するうにコードは、市ね、
と言いたい。

少なくとも、半角と全角を同一視したうえで勝手に全角半角を切り替えるアプリ書いたぼけ、市ね、
と言いたい。

773 ：デフォルトの名無しさん：2012/05/03(木) 17:10:28.08

>>772
君の方こそ何を言っているのかわからないよ。
>半角と全角を同一視するうにコード

774 ：デフォルトの名無しさん：2012/05/03(木) 20:04:15.75

>>773
Unicode風でありながら、半角と全角の空白を同一のコードポイントを割り当てた文字コード
それが、うにコード

775 ：デフォルトの名無しさん：2012/05/03(木) 21:45:35.05

てか、
￥ U+00a5 を
\　0x5C
に変換するライブラリ、市ね

776 ：デフォルトの名無しさん：2012/05/03(木) 23:14:36.68

>>775
それはUnicodeでなくて「Unicodeとローカルエンコードとの変換ルール」の話だと思うが、
既定でCP932変換ルール(Unicodeコンソーシアム公開のもの)でないのはＫＵＳＯだな。
オプションでCP932以外を指定できるなら可。

777 ：デフォルトの名無しさん：2012/05/04(金) 16:50:18.92

Altキーはなんとよめば

778 ：デフォルトの名無しさん：2012/05/06(日) 09:29:11.27

>>777
あらどっこいしょ

779 ：デフォルトの名無しさん：2012/05/06(日) 11:08:02.26

Alertキーだろ
アラート

780 ：デフォルトの名無しさん：2012/05/07(月) 21:09:03.92

>>777
alternateなんだからアルトに決まってんだろ！

＼アルタネーッテ／

781 ：デフォルトの名無しさん：2012/05/07(月) 21:31:02.38

オ・・

782 ：デフォルトの名無しさん：2012/05/09(水) 01:21:11.83

居る棚恥部

783 ：デフォルトの名無しさん：2012/05/11(金) 06:48:00.44

単にUnicodeって言ったときは
一般的にはUTF16インディアン付なんでしょ?

784 ：デフォルトの名無しさん：2012/05/11(金) 07:26:20.20

ねーよ。
そんなことをやるのはバカだ。
いくらたくさんいようが、バカはバカだ。

785 ：デフォルトの名無しさん：2012/05/11(金) 07:56:49.55

>>783
ちげーよ
単に「文字コードはUnicode」と言ったら
言ってる奴がアホなのでその意味を汲み取ってあげないといけない。
Windows意外ならBOM無しが多い。
ってかエンディアン月とか、もうアホかと

786 ：デフォルトの名無しさん：2012/05/11(金) 19:18:13.50

Windowsメモ帳に
Unicodeで保存する項目があるけどどんなUnicodeまでかまでわ表示されないだけど

787 ：デフォルトの名無しさん：2012/05/11(金) 19:32:02.13

続きは？

788 ：デフォルトの名無しさん：2012/05/12(土) 15:12:52.52

インディアン付とは、新たな概念ですね

789 ：デフォルトの名無しさん：2012/05/12(土) 17:29:03.25

ふんどし級の驚きだねｗ

790 ：デフォルトの名無しさん：2012/05/13(日) 05:27:44.76

インディアン嘘つかない

791 ：デフォルトの名無しさん：2012/05/13(日) 05:33:56.53

UTF-8:エンコードの一つ。
　インディアンは付かない

UTF-16:Unicodeのインディアン付エンコード

792 ：デフォルトの名無しさん：2012/05/13(日) 12:09:07.66

UTF-8:USOなし
　インディアン嘘付かない

UTF16:USOあり
　インディアン嘘つき

793 ：デフォルトの名無しさん：2012/05/13(日) 13:25:10.90

ビッグインディアンに勝てる気がしない

794 ：デフォルトの名無しさん：2012/05/13(日) 14:33:09.62

ちんこビンビン

795 ：デフォルトの名無しさん：2012/05/13(日) 16:37:51.40

>>794

796 ：デフォルトの名無しさん：2012/05/13(日) 22:39:55.24

>>791
マジレスじゃないよね？

797 ：791：2012/05/13(日) 22:45:59.54

>>796
マジレスのつもりでした。
UTF-8はバイトオーダーに依存しないので
インディアン無しと掻きました

798 ：デフォルトの名無しさん：2012/05/13(日) 23:59:25.40

依存もなにもbyte orderなんだからbyte単位データの並び多種になってたまるかよ

799 ：デフォルトの名無しさん：2012/05/14(月) 00:36:19.59

おい、バイト！オーダー取ってこい！

800 ：デフォルトの名無しさん：2012/05/14(月) 00:54:01.43

じわっときたが
がっかりした
残念だ

801 ：デフォルトの名無しさん：2012/05/14(月) 06:11:25.37

インディアン

802 ：デフォルトの名無しさん：2012/05/14(月) 11:09:05.25

リトルインディアン

803 ：デフォルトの名無しさん：2012/05/14(月) 21:49:46.07

ワンリルートゥーリル
↓

804 ：デフォルトの名無しさん：2012/05/14(月) 21:58:08.99

ウディタの新バージョン「ウディタ2.00」が公開されました（2011年10月27日）

「WOLF RPGエディター」とは？　
・高度なRPG開発が可能な、完全無料のゲーム作成ツールです。
・雰囲気はRPGツクール2000に近い。RPGツクール2000で自作システムを作りこむ際に
　不満だったところがいろいろ解消されていて、かなり自由度が高いです。ただし
　その分初心者には難しいかも。すでにツクール2000で自作システムを組むのに
　慣れた人やＲＰＧツクールでは物足りないけどプログラミングはちょっとという方にお勧め。
・作成したゲームは自由に配布したり、コンテストに投稿することも可能。
　また本ソフトを持たない人でもプレイ可能！ファイル暗号化も完備！
■作り方しだいでパズル系やカードゲームやシミュレーションやシューティングや
アクション、RTSや他なんでも作れます。
■また他の人がネット上で公開している「コモンイベント」を組み合わせて利用すれば、
自分では開発が難しいゲームシステムも容易に実現することができます。

805 ：デフォルトの名無しさん：2012/05/15(火) 20:57:07.53

結局インディアン付きってなんなの?
特にUTF16インディアン無しについて、教えてエロ委人

806 ：デフォルトの名無しさん：2012/05/15(火) 23:50:49.12

UTF-8にも爆弾付けるクソアプリnotepad

807 ：デフォルトの名無しさん：2012/05/16(水) 00:22:55.41

そんな、規格に従った一表現について個人の趣向を語られても。
むしろ判別不明なファイルの量産を防ぐために役だった。

808 ：デフォルトの名無しさん：2012/05/16(水) 07:57:48.67

>個人の趣向を語られても

http://www.unicode.org/versions/Unicode5.0.0/ch02.pdf
>Use of a BOM is neither required nor recommended for UTF-8

809 ：デフォルトの名無しさん：2012/05/16(水) 08:16:54.76

使用を推奨しているわけではない　を
推奨しない(使用しない方がよい)と解釈してしまうとは
残念だね

810 ：デフォルトの名無しさん：2012/05/16(水) 10:30:41.16

普通に読めば　必要でも推奨されてもいない　だけど
「しているわけではない」？

「BOMは省略可」でなく、わざわざそう書いた意図を考えてみたほうが良い

まぁ君はBOM付きUTF-8を使えばいい
俺はデメリットの方が大きいから使わない

811 ：デフォルトの名無しさん：2012/05/16(水) 11:14:15.47

Byte Order Markを文字コード判定に使うのってただのハックじゃね？
雀の往来みたいな

あれってUTF16,UTF32の処理効率のために
LEでもBEでも扱えるようにするためのものなんじゃないの？

812 ：デフォルトの名無しさん：2012/05/16(水) 12:19:50.54

>>809
みっともない

813 ：デフォルトの名無しさん：2012/05/16(水) 18:49:05.09

文盲が多いなー。
BOMが邪魔なのはいいけど規格には従えって話しでしょ。
僕なら入力はBOMを許して出力時には出さないようにする。

BOMを扱えないＫＵＳＯな環境の方が問題だよ。

メモ帳の出力した規格に従ったファイルを扱えない
ＫＵＳＯな環境をボクが使っているから
メモ帳は
ＫＵＳＯだなんて。発想が
ＫＵＳＯだよ。

814 ：デフォルトの名無しさん：2012/05/16(水) 20:14:20.60

結局メモ帳でUTF8を選択して保存すると勝手にインディアン付になるってこと?

815 ：デフォルトの名無しさん：2012/05/16(水) 20:26:12.66

>>814
インディアンは付かないけどBOMは付く。
昔のWindowsはBOM無しUTF-8を上書き保存するとBOM無しで保存した気がするけど
最近は必ず付く気がする

816 ：デフォルトの名無しさん：2012/05/16(水) 20:36:16.64

shebangがBOMが付いたUTF8に対応するか
メモ帳でBOMの有無を選択出来るようにならない限り
メモ帳はＫＵＳＯと言われ続けるんじゃね？

817 ：デフォルトの名無しさん：2012/05/16(水) 20:42:58.74

そんな事よりだな
MSの文字コード仕事としてはUTF-16BE/LE、UTF-8を扱えるplain text iFilter提供の方が急務だろ

818 ：デフォルトの名無しさん：2012/05/16(水) 20:55:22.02

そんなことより、コイツ(BOM)を見てくれ。
・・すごく、大きいです・・アーッ！！

>>816
Unicode規格に従ったメモ帳が、Unicode規格に従わないシバンに
クソ扱いされるなんて、くそみそな世の中ですね。

819 ：デフォルトの名無しさん：2012/05/16(水) 20:58:53.68

多分一番ＫＵＳＯなのはバイトオーダーが無用のUTF-8のBOM有り仕様にOK出した人

820 ：デフォルトの名無しさん：2012/05/16(水) 21:00:14.55

>>818
>Unicode規格に従わないシバンに
問題の本質が分からないならレスしない方がいいよｗ

821 ：デフォルトの名無しさん：2012/05/16(水) 21:14:16.53

http://www.bing.com/search?srch=104&FORM=AS4&q=%e3%83%90%e3%82%a4%e3%83%88%e3%82%aa%e3%83%bc%e3%83%80%e3%83%bc

822 ：デフォルトの名無しさん：2012/05/16(水) 21:30:50.69

インディアン付きテキストファイルとか、こんないろんな意味で奇妙な言葉が世間では一般的なの？

823 ：デフォルトの名無しさん：2012/05/16(水) 22:03:42.78

UTF8とかでなくBOMそのものが
テキストファイルの内容として不適切
UTF16だから許されるわけではあるまい

824 ：デフォルトの名無しさん：2012/05/16(水) 22:09:49.01

>>819
ASCIIへの前方互換を考慮して設計されたUTF-8で
それを台無しにするBOMを許可するとか不整合もいいとこだな
先頭がASCII互換を前提とするxmlとかshebangで現実に問題出てるし

825 ：デフォルトの名無しさん：2012/05/16(水) 22:12:59.55

>>814

826 ：デフォルトの名無しさん：2012/05/16(水) 22:30:46.74

>>824
>先頭がASCII互換を前提とするxml
勝手にＫＵＳＯな前提作んな
UTF17のXMLとかあるだろ

827 ：デフォルトの名無しさん：2012/05/16(水) 22:37:05.81

xmlの実装の問題を他人のせいにしてもな

828 ：デフォルトの名無しさん：2012/05/16(水) 22:41:16.45

実際ASCIIだけでもBOMつけやがるしな

829 ：デフォルトの名無しさん：2012/05/16(水) 22:49:47.84

bom付ける方針のプログラムが
ユーザーがutf8をわざわざ指定しているのに
内容によってbom削ったら、それこそクレイジー。
ポリシーは統一していないと。

830 ：デフォルトの名無しさん：2012/05/17(木) 01:23:50.34

>>826
BOMつきUTF8のXHTMLはwell formedじゃないのでパロります

831 ：デフォルトの名無しさん：2012/05/17(木) 07:21:35.45

勝手にxhtmlに限定されても名
xmlがbomを禁止しておらずxhtmlとやらが不可なルールの下
xhtmlをbom付で作るとおかしくなったからbomはだめとか、最早被害妄想

832 ：デフォルトの名無しさん：2012/05/17(木) 07:37:00.69

notepadが糞なのは確定しましたね。

833 ：デフォルトの名無しさん：2012/05/17(木) 14:22:47.20

ユニコードはウンコ。
シフトJISこそ最強。

834 ：デフォルトの名無しさん：2012/05/17(木) 15:26:17.36

　　　　　　　　　　　　　　　　　　　 |
　　　　　　　　　　　　　　　　　　　 |
　　　　　 ∩＿＿＿∩　　　　　　　　　 |
　　　　　 | ノ　 _,　　,_ ヽ　　　　　　（（　 |　ﾌﾟﾗﾌﾟﾗ
　　　　 /　　●　　　● |　　　　　　　　　(=)
　　　　 |　　　　( _●_)　ミ　＿　(⌒)　　J　　））
　　　　彡､　　　|∪|　ノ
⊂⌒ヽ　/　　　ヽノ　ヽ /⌒つ
　＼　ヽ　 /　　　　　ヽ　/
　　　＼_,,ノ　　　　　　|､＿ノ

835 ：デフォルトの名無しさん：2012/05/17(木) 20:16:20.71

なにがﾌﾟﾗﾌﾟﾗだよ。
こんだけｱﾎで不毛なﾚｽが湧いてるユニコードのどこがいいんだ。
この2ちゃんだってシフトJISだろ。ユニコードは10年かかっても普及しなかったクソコード。

836 ：デフォルトの名無しさん：2012/05/17(木) 20:34:38.77

時代はピュニコード

837 ：デフォルトの名無しさん：2012/05/17(木) 20:52:40.82

>>835
http://toro.2ch.net/test/read.cgi/tech/1306595564/619

838 ：デフォルトの名無しさん：2012/05/17(木) 21:09:43.85

>>837
ユニコードがバグだらけの証拠を出してくるとは自爆乙。
ついでにHTMLのcontent-typeぐらい見れるようになった方がいいぜ。

839 ：デフォルトの名無しさん：2012/05/18(金) 02:02:10.42

板ごとにコードｈ違います。

840 ：デフォルトの名無しさん：2012/05/18(金) 03:56:22.55

2chの文字コードは
MSゴシックじゃなくMSPゴシックのような気がする

841 ：デフォルトの名無しさん：2012/05/18(金) 04:38:31.88

────‐v──‐ |￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣|
　　　　∧＿∧　　　|　この板は、Windows＋IE、MS Pゴシック、文字サイズ：中が標準環境です｡ |
と´⌒`つ´Д｀）σ＜　標準環境でない（この吹き出しの右端の縦線がズレている）方は､こちらへ。　|
￣￣￣￣￣￣￣ ?|＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿|
http://toro.2ch.net/aastory/ AA長編＠2ch掲示板

842 ：デフォルトの名無しさん：2012/05/18(金) 04:42:17.53

AAを見るための環境設定-しっぽのとこ-
http://tail.s170.xrea.com/html/text/aa_promo/aa_setting/

843 ：文字博士：2012/05/18(金) 17:44:31.72

文字コードはブラウザーの設定だろ。
板ごとに変わってたまるかw

844 ：デフォルトの名無しさん：2012/05/18(金) 22:52:41.03

>>843
え？

845 ：デフォルトの名無しさん：2012/05/18(金) 23:02:27.73

いくらなんでも
わざとボケてるだろ

846 ：デフォルトの名無しさん：2012/05/18(金) 23:32:10.21

文字コードは見る人によって変化する
藪の中という話にも書かれているとおり

847 ：デフォルトの名無しさん：2012/05/18(金) 23:52:13.29

いつから文字コード＝フォントになったん？
>>840あたりから？

848 ：デフォルトの名無しさん：2012/05/19(土) 08:39:35.50

誰か、結合と合成の違いを教えて下さい

849 ：デフォルトの名無しさん：2012/05/19(土) 12:01:52.57

結合＝インディアン結合大好き
合成＝インディアン子供作った

850 ：デフォルトの名無しさん：2012/05/19(土) 12:44:45.71

結合大好きと子供作ったって同じ？

851 ：デフォルトの名無しさん：2012/05/20(日) 09:54:25.23

アッー！

852 ：デフォルトの名無しさん：2012/05/20(日) 18:54:56.50

結合がヘテロとは限らない

853 ：デフォルトの名無しさん：2012/05/20(日) 21:26:38.35

ブボボ（｀；ω；´）ﾓﾜｯ

854 ：デフォルトの名無しさん：2012/05/20(日) 23:21:08.84

ホモですか

855 ：デフォルトの名無しさん：2012/05/23(水) 22:04:36.87

結合とはチンコを物理的にマンコにおさめること。
合成とは別に用意したチンコとマンコの写真を一枚の絵にすること。

856 ：デフォルトの名無しさん：2012/05/24(木) 03:11:41.47

森という時も林に統一すれば2/3バイトで済むから
まずは漢字を少なくするのから取り組まないとダメだろ

857 ：デフォルトの名無しさん：2012/05/24(木) 07:38:58.64

バカ出現

858 ：デフォルトの名無しさん：2012/05/24(木) 10:20:13.57

　　　　　＿＿＿＿
　　　／∵∴∵∴＼
　　 /∵∴∵∴∵∴＼
　　/∵∴∴,（・）（・）∴|
　　|∵∵／　　 ○　＼|
　　|∵ /　　三　|　三　|　　／￣￣￣￣￣
　　|∵ |　　　＿_|＿_ 　|　＜うるせー馬鹿！
　　＼|　　　＼＿/　／　　＼＿＿＿＿＿
　　　　＼＿＿＿_／

859 ：デフォルトの名無しさん：2012/06/04(月) 01:20:21.22

質問です。
ＪＡＶＡでNormalaizerクラスによる
ＮＦＣの正規化をしたいのですが
ＮＦＣと言ったら言語に依らず同じ結果になるのでしょうか？

シフトＪＩＳのＩＢＭ拡張文字を
ｃｐ932でＵＮＩコードに変換した文字の膣内に、
Normalyzerにかけると別のコードになってしまう
文字があって困っています。。

860 ：デフォルトの名無しさん：2012/06/04(月) 09:40:44.39

膣内だと？

861 ：859：2012/06/04(月) 09:43:23.14

すみません誤変換です。
　誤；膣内
　正：中

862 ：デフォルトの名無しさん：2012/06/04(月) 09:49:36.07

言語というか実装に寄ってまちまち。
かなり古い本だけど風間一洋さんがまとめてる。
昔はぺーじもあったんだが、検索してもないな。
他に三線の情報まとめている人はいないのかな。

863 ：デフォルトの名無しさん：2012/06/04(月) 14:43:06.64

>>861
普段どんな変換しているんだw

864 ：デフォルトの名無しさん：2012/06/08(金) 16:14:27.25

ダブルクォーテーションには
左と右があるらしく、
片方はキーボードの2のところに見えるけど
もう片方はどこ?

865 ：デフォルトの名無しさん：2012/06/08(金) 17:23:06.36

http://ja.wikipedia.org/wiki/%E5%BC%95%E7%94%A8%E7%AC%A6

866 ：デフォルトの名無しさん：2012/06/10(日) 03:21:24.73

Windowsのメモ帳が改行コードや文字コードや
BOMの有無を自由に指定できるようになったら
euに訴えられると思う。
メモ帳はＫＵＳＯでなくてはならない。

867 ：デフォルトの名無しさん：2012/06/10(日) 05:36:39.57

MS-Wordが半角文字を勝手にUNICODEの変な文字にしやがるから困る

868 ：デフォルトの名無しさん：2012/06/10(日) 08:27:27.33

Wordはインスコ後にオートコレクト切る
癖が付いてたから忘れてたわ。
あれはかなり区祖

869 ：デフォルトの名無しさん：2012/06/10(日) 23:58:54.20

このＫＵＳＯスレもまもなく3スレ目が終わろうとしている。
なのにUnicodeとUTF-8の違いがよくわからないんだぜ。
何やらインディアンとBOMが難しいことはよくわかった。

誰か3行でまとめてよ。

870 ：デフォルトの名無しさん：2012/06/11(月) 00:07:59.91

Unicodeはコンソーシアムの名前もしくはそこで決めた各種規格の総称
UTF-8はその中の一つでエンコーディングの方法
UTFとUCSの違いが理解できると規格そのものは難しくはない(プログラミング上は難しい)

871 ：デフォルトの名無しさん：2012/06/11(月) 00:46:06.59

>>869
Unicodeをデータで表すための仕様 : UTF-8, UTF-16、他
UTF-8 : エンディアンが無いからBOMは不要
UTF-16 : エンディアンが有るからBOMが必要

872 ：デフォルトの名無しさん：2012/06/11(月) 01:22:52.14

おいおい。UTF-16はbom必須ではない。

873 ：デフォルトの名無しさん：2012/06/11(月) 01:48:33.54

BE/LEというのがあってだな無印とは要求仕様が違うんだよ

874 ：デフォルトの名無しさん：2012/06/11(月) 07:05:12.29

これか？→　>>539
なんでこんなにカオスな仕様ｗｗ

875 ：デフォルトの名無しさん：2012/06/11(月) 07:39:54.01

>>539
これ分かり易い。
Unicode規格の中の特定のエンコードがunicodeなんだな。
3スレ目にしてようやく理解したぜ。

でもucsとかBomとかインディアンとかさっぱりだぜ。

876 ：デフォルトの名無しさん：2012/06/11(月) 12:14:30.40

何という低レベル

877 ：デフォルトの名無しさん：2012/06/11(月) 12:57:31.21

インターネットインディアンだかエイチティーティーピーインディアンだかわ
どの機種にも共通でデータを扱えるらしい

878 ：デフォルトの名無しさん：2012/06/11(月) 22:20:53.52

リトルインディアン嘘つかない

879 ：デフォルトの名無しさん：2012/06/11(月) 23:48:39.26

俺のPCなんか、マイクロインディアンだぜ？

880 ：デフォルトの名無しさん：2012/06/12(火) 21:11:48.38

俺のおティムポ様は、マイクロインディアンだせ！

881 ：デフォルトの名無しさん：2012/06/12(火) 22:52:12.81

ビッグエンディアン嘘つき

882 ：デフォルトの名無しさん：2012/06/20(水) 22:43:57.90

俺のおちんちんはゴム付きUTF-8。
KFCで性器化済み。

883 ：デフォルトの名無しさん：2012/06/20(水) 23:05:28.34

俺はゴム付けない派

884 ：デフォルトの名無しさん：2012/06/20(水) 23:17:38.73

この話いつまで続きますか

885 ：デフォルトの名無しさん：2012/06/21(木) 11:02:28.08

何という低レベル

886 ：デフォルトの名無しさん：2012/06/28(木) 23:05:32.82

ゴムは裏表があるので
間違えないようインディアンを付けた方がいい。

887 ：デフォルトの名無しさん：2012/07/01(日) 11:14:34.77

真面目にUnicodeとUTF-8との違いを説明している
奴ばかりいるんだが、実際のところの質問者は
メモ帳の保存の違いを聞いただけじゃないの？

質問の意図を考えずに質問文に単語レベルで反応するのｲｸﾅｲ

888 ：デフォルトの名無しさん：2012/07/01(日) 16:17:01.24

良くないという理由がわからん。
バカ真面目、結構じゃないか。

889 ：デフォルトの名無しさん：2012/07/01(日) 21:16:37.23

バカ真面目じゃなくて相手の意図を読み取れないバカって言われてるんだと思うが

890 ：デフォルトの名無しさん：2012/07/01(日) 21:30:06.12

板違いの話題に進むわけない。

891 ：デフォルトの名無しさん：2012/07/01(日) 21:33:26.83

インディアンを付けるっていう言い方にだけは馴染めないな……

892 ：デフォルトの名無しさん：2012/07/01(日) 23:01:43.14

そろそろ次スレの頃合いだな。
スレタイは「Unicode隔離スレその4(UnicodeとUTF-8の違い)」でいいか？

893 ：デフォルトの名無しさん：2012/07/01(日) 23:12:53.63

訪板者に考えさせるために
「UTFインデアンとUnicodeの違いは？」だな

あくまでインデアン。

894 ：デフォルトの名無しさん：2012/07/01(日) 23:14:36.10

UTFインディアンってなんだ。
>>877あたりからおかしーぞ。

895 ：デフォルトの名無しさん：2012/07/02(月) 01:11:37.84

エンディアンだろ。もしくは卵どっちから割る派。

896 ：デフォルトの名無しさん：2012/07/02(月) 05:31:17.88

世の中には様々なフォーマットがある。
・HTTPインディアン
・インターネットインディアン
・UTFインディアン
・マイクロインディアン
この違いを理解しないとこのスレの
内容について行くのは難しいだろう

897 ：デフォルトの名無しさん：2012/07/02(月) 06:08:53.26

アンジーとアスキーわシフトジスのことかな?

898 ：デフォルトの名無しさん：2012/07/04(水) 21:09:49.23

utf16はウンコ。
結合文字はまだ意味的な切れ目があるけど
サロゲートペアは当初の設計ミスによる無意味な分断。

やはりシフトJIS回帰しかない。

899 ：デフォルトの名無しさん：2012/07/05(木) 20:28:12.00

そもそもこれだけ文字コードが増えた時点で、なんでテキストファイルにもちゃんとヘッダを付けようって風潮にならなかったの？

900 ：デフォルトの名無しさん：2012/07/05(木) 22:40:30.56

何も付いてないからテキストファイルでしょ。
エンコーディングはMIMEのcharsetとかファイルのメタデータで明示できる。

901 ：デフォルトの名無しさん：2012/07/05(木) 22:42:44.58

さあ。XML宣言の文字コード指定や
Unicodeの
BOMみたいに、文字コードの判別を読むために
文字コードを知る必要があるおかしな
ことになっちゃったんだよねえ。
かといってHTTPヘッダーははやらなかったし。

ヘッダー化してもメタ情報と中身の整合性を保つのが難しそうだ

902 ：デフォルトの名無しさん：2012/07/06(金) 08:27:24.28

HTTPヘッダに付けるのは、決め打ちならいいけど、
httpdがファイルの中身を理解する必要があるから難しい。

903 ：デフォルトの名無しさん：2012/07/06(金) 08:34:36.86

「1byte目が～だったら」とかアドホックっぽい判定処理を仕様に入れてるもんな
XMLはAscii互換系文字コードに限定して宣言まではAsciiのみにするとかすればよかったのに
UTF-16やBOM付きUTF-8を許可するからあんな有様に
http://www.w3.org/TR/2006/REC-xml-20060816/#sec-guessing-no-ext-info

904 ：デフォルトの名無しさん：2012/07/06(金) 09:57:29.83

馬鹿には無理

905 ：デフォルトの名無しさん：2012/07/07(土) 06:54:18.92

へー、アパツチはファイルの中身みてContent-Type決めるのか。
データ以上の情報が無いなら
受信側の判断に任せて何もしなきゃいいのに

906 ：デフォルトの名無しさん：2012/07/07(土) 09:39:45.01

ApacheのDefaultCharacterSet決め打ち流行りはさっさと止めて欲しい

907 ：デフォルトの名無しさん：2012/07/07(土) 09:57:08.39

それよりテキストエンコードをcharsetの項目名で
指定するのを止めて欲しい

908 ：デフォルトの名無しさん：2012/07/20(金) 17:20:28.06

アメリカンはエンコーディングと文字集合の
違いが理解出来ないから

909 ：デフォルトの名無しさん：2012/07/20(金) 17:33:06.65

wxWidgets の mbcs <-> wcs 実装はひどいとかどこかで書かれてたけど
Qt はどうなんだろ

910 ：デフォルトの名無しさん：2012/07/20(金) 18:12:31.01

自分の使っている環境だとiconv enableでQtはコンパイルされてる。
つまり最も保守されているライブラリの一つってことになる。
ただlibiconvはGPL2なので環境によっては自前のやつ使ってるんじゃないか。
Windows版QtはWindowsのライブラリ使ってるようだ。

911 ：デフォルトの名無しさん：2012/07/20(金) 18:37:37.42

SHIFT-JISに変換出来ない文字のことでもいってるんじゃないの
ひどいとかは？

912 ：デフォルトの名無しさん：2012/07/20(金) 18:45:19.26

「実装」が酷いってんだから、
cp932と書かれているのに間違ってる変換があるとか

913 ：デフォルトの名無しさん：2012/07/20(金) 18:52:10.46

libiconvの追っかけというか、文字コードに強そうな人？
ttp://www2d.biglobe.ne.jp/~msyk/software/libiconv-patch.html

914 ：デフォルトの名無しさん：2012/07/20(金) 18:58:54.45

少なくとも、何をどうするパッチなのか
説明無しに配布するバカでることには違いない

915 ：デフォルトの名無しさん：2012/07/20(金) 19:34:19.88

link先が読めない？

916 ：デフォルトの名無しさん：2012/07/20(金) 19:46:06.79

バージョン違いをずらずら並べた先の
リンク先のみに書くことではないね。
クリックしたらダウンロード始まるように見えるし。
折角いいものを作っているのに、
見てもらう機会を逸しているかも。

917 ：デフォルトの名無しさん：2012/07/20(金) 20:25:58.08

何気に、glibc方面に間接的だけど貢献してたりする人

918 ：デフォルトの名無しさん：2012/07/20(金) 20:38:35.68

なんだ。libiconvってのはバグだらけなのか。

919 ：デフォルトの名無しさん：2012/07/20(金) 20:44:32.96

何を持ってバグというかって問題がある。
Unicodeの定義している変換表だけでは、
ISO-2022-JP←→cp932さえまともに変換できないので。
しかも何を持ってまともって言うかにも意見というか立場の相違がある。

920 ：デフォルトの名無しさん：2012/07/20(金) 20:48:27.82

iconvのCP932はエンコーディングのCP932であって
UnicodeマッピングルールのCP932ではないので
規格違反ではない

>>919
>ISO-2022-JP←→cp932
Unicode経由してないじゃん

921 ：デフォルトの名無しさん：2012/07/20(金) 21:04:55.79

そもそもiconvはsjisのAとasciiのAを
どういった規則で変換してんの?
unicode経由?

922 ：デフォルトの名無しさん：2012/07/20(金) 21:13:51.29

>>920
規格違反なんて誰も言ってないのでは?

923 ：デフォルトの名無しさん：2012/07/21(土) 05:17:51.28

>>919
いくらなんでもcp932とUnicodeとの変換で
～を81 60←→U+301C
したらそれはバグだろう。
立場の相違とかでなくcp932の81 60はU+FF5Eと決まっている。

924 ：デフォルトの名無しさん：2012/07/21(土) 11:26:51.37

なぜ突然～の話を？

925 ：デフォルトの名無しさん：2012/07/21(土) 12:59:04.42

UnicodeコンソーシアムがU+301Cの字形をミスったのが元凶

926 ：デフォルトの名無しさん：2012/07/21(土) 13:53:24.83

927 ：デフォルトの名無しさん：2012/07/21(土) 15:27:03.08

Unicode ver.1の時代からCP932の～(8160)が
U+FF5Eになっていたのは
コンソーシアムが縦書フォントを見て字形を間違え、
MSがU+301Cは使えないと判断したからの筈。
ウニコードはうんこ

928 ：デフォルトの名無しさん：2012/07/21(土) 16:40:15.04

ドイツ語で書くと
Unkode

929 ：デフォルトの名無しさん：2012/07/21(土) 16:41:28.08

例示された字形があてにならないのはこれに限った話ではないし、
ちゃんと"WAVE DASH"と名前が付いてるのに間違ったのはMSだけの件について

930 ：デフォルトの名無しさん：2012/07/21(土) 17:42:29.99

UnicodeコンソーシアムがFF5Eのマッピングを
Unicode 1.0の時から出していたのに
MSだけが間違えたとか
なにいっちゃってんのこの人

931 ：デフォルトの名無しさん：2012/07/21(土) 18:22:23.18

こういう事書いてる人いるね
ttp://blog.rodoku.net/article/28326088.html

932 ：デフォルトの名無しさん：2012/07/21(土) 20:35:30.94

今度こそズバリと書きたい（キリッ
のわりに間違いだらけですな
最初の「Windowsはshift_jis」の時点でもうアホかと

933 ：デフォルトの名無しさん：2012/07/21(土) 21:30:11.21

こういう事書いてて「sjis」なんてよく使うとも思う。

934 ：デフォルトの名無しさん：2012/07/21(土) 21:53:13.95

エクセルlのマクロ使うと
「Windowsはshift_jis」
ってのがよくわかると思うよ

935 ：デフォルトの名無しさん：2012/07/21(土) 22:06:37.68

ExcelのマクロはUTF-16で処理してる
どこにもShift_JIS()なんぞ使われない
しかもExcelの話とWindowsの話をすり替えられても

936 ：デフォルトの名無しさん：2012/07/21(土) 22:19:32.83

内部はUTF-16で処理されてても、
表示系がcp932だと色々小細工しないとうまく行かないことがあるの
wndowsのGUI系は表示する時はワイド文字が使えるapiを使いなさいが暗黙のルールでしょ？

937 ：デフォルトの名無しさん：2012/07/21(土) 22:31:57.83

何を言っているのか、わけがわりません。
ドザの低脳っぷりはよくわかりました。

938 ：デフォルトの名無しさん：2012/07/21(土) 22:36:06.88

ドザ
?

939 ：デフォルトの名無しさん：2012/07/21(土) 22:39:47.97

>>936
> 表示系がcp932だと

その表示系の例をkwsk

940 ：デフォルトの名無しさん：2012/07/21(土) 22:42:16.24

>>939
どす窓？

941 ：デフォルトの名無しさん：2012/07/21(土) 22:44:36.72

ドスマド（）とエクセルに何の関係が…

942 ：デフォルトの名無しさん：2012/07/21(土) 22:47:44.89

エクセルのマクロ開発環境だと
シートで表示されてる文字が、マクロで使える文字列にすると
?
になる文字があるの知らないの？

943 ：デフォルトの名無しさん：2012/07/21(土) 22:51:26.68

表示系の問題でないのでは?

944 ：デフォルトの名無しさん：2012/07/21(土) 22:53:02.81

cp932で表示できない文字があるってのじゃダメかね？

945 ：デフォルトの名無しさん：2012/07/21(土) 23:07:10.31

知らんかった。
Excelのマクロはソースの文字コードと
MsgBoxがmbcsなのね。だがしかし
　・ExcelとWindowsを混同するな
　・cp932とshift_jisを混同するな

946 ：デフォルトの名無しさん：2012/07/22(日) 00:27:52.41

>>931のリンク先の人もアプリとOSの
区別付いてないし、>>934はもしかして本人？

947 ：デフォルトの名無しさん：2012/07/22(日) 00:31:40.40

なにか気に入らんことでも書かれたの？

948 ：デフォルトの名無しさん：2012/07/22(日) 09:59:54.78

同じ間違いを踏んでる、というだけだろw

949 ：デフォルトの名無しさん：2012/07/22(日) 10:17:58.80

>>931
『よくわかる波ダッシュ問題』
『ズバリと書きたい』
『WindowsがEUC-JPで全角チルダ（0x8FA2B7）をもらうと「潤ｵ」と表示する』

クソワロタ。何が波ダッシュ問題だよ。

950 ：デフォルトの名無しさん：2012/07/22(日) 19:15:56.09

何に不満があるのかね
別に個人の指摘に食って掛かるような内容でもないろうに

951 ：デフォルトの名無しさん：2012/07/22(日) 19:38:54.66

ズバリとか大風呂敷を広げなければ
普通にスルーされていたレベル。
「Winがもらう」と言う表現が出てくるあたり、
上のExcelの子もそうだけど同じ勘違いしてるんだよね

952 ：デフォルトの名無しさん：2012/07/22(日) 20:08:20.29

勘違い
だけじゃあ、わからんのだけど

953 ：デフォルトの名無しさん：2012/07/22(日) 20:25:52.16

見ろ、お前らのスルースキルが低いせいで

954 ：デフォルトの名無しさん：2012/07/22(日) 20:29:32.50

反論できるコードでも晒すんだな

955 ：デフォルトの名無しさん：2012/07/22(日) 22:07:40.96

>>952
『Windowsはshift_jis』→違う
『sjis以外』→shift_jisとsjisの区別が付いていないし
『Windowsが～をもらうと～を表示』→データ読み取りも表示もアプリケーションの役割であってWindowsの話ではない。フォントもアプリ次第。
『内部でshift_jisに変換』→Windowsが内部shift_jisとかあり得ない
『WindowsがEUC-JPで～もらうと』→WindowsがEUC-JPを受け取るとか意味不明
　「シフトJISで入出力するアプリXにEUCのデータを与えるとYYと表示されました」だろ？　～と関係無い
『Windowsが～を送る』→Windowsがデータを送るとか意味不明。
『Windows以外が～変換する場合』→何のことを言っているのか意味不明。
　iconvとかならcp932もshift_jisも扱えるし、アプリ作成者またはユーザーが指定した文字コードで処理するだけ。

OSの話と糞アプリの仕様の話を区別しろってこった。
ついでにShift_JISとsjisは違う。

956 ：デフォルトの名無しさん：2012/07/22(日) 22:16:20.71

正しいコード晒せや
文章で言い訳？

957 ：デフォルトの名無しさん：2012/07/22(日) 22:28:04.32

すまない。ここからはコードで語ってくれ。
まず俺から
System.あぼん(new[]{956});

958 ：デフォルトの名無しさん：2012/07/22(日) 22:37:39.89

コード書かずに
文字列をcp932で管理してるとハマる

windowsけなされたと勘違いしたんじゃないの？

959 ：デフォルトの名無しさん：2012/07/22(日) 22:51:36.21

NGワード：shift_jis bom ～

次スレらしきものがある…

960 ：デフォルトの名無しさん：2012/07/22(日) 23:23:35.98

>>956
頭悪そうw

961 ：デフォルトの名無しさん：2012/07/22(日) 23:35:22.95

>上場後初の赤字
焦ってるんかね、勢いなくなってきたから

962 ：デフォルトの名無しさん：2012/07/23(月) 01:04:48.09

おっ、よく見たら俺932ゲト
縁起が悪い

963 ：デフォルトの名無しさん：2012/07/23(月) 01:14:20.05

>>962

964 ：デフォルトの名無しさん：2012/07/23(月) 01:15:15.80

うん。。

965 ：デフォルトの名無しさん：2012/07/23(月) 01:33:36.58

文字コードスレはどうしてこう
馬鹿者ばかり集まるの？
特に>>1とか頭おかしいだろ

966 ：デフォルトの名無しさん：2012/07/23(月) 11:40:58.42

喋ったり字書いたり出来るだけで、
文字コードについても語れるほどの知見があると思う勘違い。
生きてるだけで人生語る資格あるのと勘違いするのと同じ。

967 ：デフォルトの名無しさん：2012/07/23(月) 12:22:48.80

頭悪そう

968 ：デフォルトの名無しさん：2012/07/24(火) 20:47:54.71

逆に考えるんだ。
文字コードスレに馬鹿者ばかり集まるんじゃなくて、
馬鹿者が集まるから文字コードスレができるんだ。

969 ：デフォルトの名無しさん：2012/07/24(火) 22:19:59.49

文字集合改め馬鹿集合

970 ：デフォルトの名無しさん：2012/07/24(火) 22:37:19.99

文字コードスレ住民と馬鹿集合は
見事に符合する

971 ：デフォルトの名無しさん：2012/07/25(水) 08:15:04.15

馬鹿には無理

972 ：デフォルトの名無しさん：2012/07/25(水) 09:25:42.42

じぶんよりバカなやつをみつけたら、そんなにうれしいか

973 ：デフォルトの名無しさん：2012/07/25(水) 09:38:10.32

974 ：デフォルトの名無しさん：2012/07/27(金) 02:39:45.39

自分より馬鹿な奴が居なかったら
精神の安定が保てません

975 ：デフォルトの名無しさん：2012/07/27(金) 13:22:08.42

と最低クラスの馬鹿が申しております

976 ：デフォルトの名無しさん：2012/07/27(金) 18:42:32.78

【争いチュウ】

　発　者　同　　　　　　　　　　　　ﾁｭｳ　　　　　　　　　　　　　　　　　争
　生　同　.じ　　　　　　　　　　　+　　ﾟ　　･　+　　　　　　　　　　　　　い
　.し　士　.レ　　　　　　　　　　　　ﾟ∧,,∧∧　　ﾟ　　　　　　　　　　　　は、
　.な　で　.ベ　　　　ﾁｭｳ　　　　　(* ﾟ(　　　) 　　　　　　ﾁｭｳ
　.い　し　.ル　　．+　　ﾟ　　･　+　　ｌっと　ヽ　．+　　ﾟ　　･　+
　.! !　か　の　　　ﾟ∧_ ∧∧　　ﾟと__(__(^)(^) 　　∧∧ _∧
　　　　　　　　　　　(*´・(　　 ) 　　　　　　　　　　(　　 )・｀*)
　　　　　　　　　　　ｌっと　ヽ　　　　　　　　　　/　　つとｌ
　　　　　　　　　　　と__(__(^)(^) 　　　　　　　　 (^)(^)＿)＿つ

977 ：デフォルトの名無しさん：2012/07/28(土) 07:45:19.00

>>931のリンク先の主です。
ご指摘ありがとうございます。
暇があったら訂正します。

978 ：デフォルトの名無しさん：2012/07/28(土) 10:39:02.36

962は932とか言って936だったら
面白かったのに

979 ：デフォルトの名無しさん：2012/07/29(日) 21:55:03.15

おまえら、文字コードごときに
必死になってんじゃねーよ
おまえらが駄スレで争ってる間に
リア充は毎日セックルに励んでんだぞ。
人生もっと有意義に過ごせ。

980 ：デフォルトの名無しさん：2012/07/29(日) 22:19:56.68

次スレ
http://toro.2ch.net/test/read.cgi/tech/1342963035/

981 ：デフォルトの名無しさん：2012/07/30(月) 00:55:04.77

９８１

982 ：デフォルトの名無しさん：2012/07/30(月) 20:31:03.46

次スレ
http://engawa.2ch.net/test/read.cgi/underwear/1240791873/