文字コード総合スレ part4

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
プログラムにおける各種文字コードの処理について語ろう

■前スレ
文字コード総合スレ part3
http://pc11.2ch.net/test/read.cgi/tech/1180250376/

■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
2デフォルトの名無しさん:2008/12/01(月) 00:20:00
>>1
3デフォルトの名無しさん:2008/12/01(月) 02:16:52
Google が Unicode に携帯の絵文字ブチ込もうとしてるらしいな。
4デフォルトの名無しさん:2008/12/01(月) 05:43:06
TRONコードもかたってくだせぃ
5デフォルトの名無しさん:2008/12/01(月) 22:12:13
スタートレックの仮想言語を取り込むよりはマシだと思います
6デフォルトの名無しさん:2008/12/02(火) 23:22:48
>>3
見たらWILLCOMのが入ってないぽ
7デフォルトの名無しさん:2008/12/03(水) 00:56:29
>>3
相変わらずガラパゴス日本は自分から何もしないのな
8デフォルトの名無しさん:2008/12/03(水) 00:57:45
>>5
こうですか! わかりません(><)
http://www.google.com/intl/xx-klingon/
9デフォルトの名無しさん:2008/12/03(水) 02:44:30
>>7
非関税障壁となるものを自分から崩してどうする。
10デフォルトの名無しさん:2008/12/03(水) 12:00:54
そうしていたら黒船の砲艦外交にあって総崩れなんですね。わかります。
11デフォルトの名無しさん:2008/12/03(水) 23:28:54
>>10
それはむしろ躍進の契機になった希ガス。
↓の方がしっくりくる。

PC-9801 vs IBM-PC互換機 
1210:2008/12/04(木) 10:16:14
ていうか、コンパックショックを黒船になぞらえるパターン
(98を徳川幕府に)のつもりだったw
13デフォルトの名無しさん:2008/12/05(金) 18:08:20
このスレッドは天才チンパンジー「アイちゃん」が
言語訓練のために立てたものです。

アイと研究員とのやり取りに利用するスレッドなので、
関係者以外は書きこまないで下さい。

                なにわ大学霊長類研究所
14デフォルトの名無しさん:2008/12/06(土) 00:31:15
みやこ大学とちゃいますの?
15デフォルトの名無しさん:2008/12/06(土) 09:48:27
Unicode を UTF-8 で表現するとき、一文字あたり最大何バイトになりえますかね?

文字列のクラスがあって、それを UTF-8 や SJIS として取り出す為にバッファを用意する
必要があるんですが、バッファのサイズはどうしたらいいかと思いまして。
ものによっては変換後何バイトになるか計算する API がありますが、それを呼ぶのは
結局2回変換してるような... だったらどんぶり勘定で大きめのバッファを用意
(文字列長 x 一文字あたりの最大バイト数)した方がいいかなと思うんですが。

「文字クラス」として想定しているのは、とりあえず Mac OS X の Cocoa/Coarbon 系、
および ICU の UnicodeString です。
16デフォルトの名無しさん:2008/12/06(土) 10:12:21
17デフォルトの名無しさん
絵文字の話ばかりでまったく話題になってなかったけどAmd.5キター
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=46577
今回の目玉は何と言っても
> CJK Unified Ideographs Extension C
であります。あとARIB統合/互換漢字。