1 :
デフォルトの名無しさん :
01/12/21 14:47 JIS、SJIS、EUCなど日本語漢字コードの扱いに苦労させらています。 やっぱ時代は統一規格! これからの時代はUNICODEってことでよろしいですか?
2 :
デフォルトの名無しさん :01/12/21 14:49
結局、one of 文字コード。 この時代、実行時の変換ってことでよろしいです。
>1 文字コードに関するリンクとか張ってよ
UTF16といわなかったから許してやる
>1 UCS-2 UCS-4 UTF-8 UTF-16 がそれぞれ何を指すか分かってるか? 説明してみ。採点してやるYO.
>>1 身の回りに UNICODE の文書がありますか?
手持ちの JIS,SJIS,EUC の文書を UTF-8 や UTF-16 に変換しましたか?
実は Word 文書が一番多くないですか?
さて、UNICODE は今後標準になると思いますか?
>標準 デジュールじゃなくてデファクトの
UCS-2は、1文字16bitで世界の主要な文字を一意に符号化する(しようとした)
文字コードセット。結局16bitじゃ足らなくて、サロゲートペアが導入されたりして
なんだかなー状態。
UCS-4は、よーしお父さんは32bitで符号化しちゃうぞ、でも先頭の65536個は
UCS-2と同じで互換があるぞ、ISOも支持してるぞ。という文字コードセット。
UTF-8は、UCS-2/4 をオクテットストリームに流すためのエンコード方法。
UTF-16は、オレ嫌い。
>>5 よ、採点よろしく。
9 :
デフォルトの名無しさん :01/12/21 21:28
>>6 身の回りに UNICODE の文書がありますか?
ファイル名
11 :
デフォルトの名無しさん :01/12/21 21:36
>>6 Word文書って、テキストはUnicodeで持ってるように見えるが。
XMLも基本はUTF-8だし。
>>11 む。じゃあ UNICODE はすでに普及しているということで終了。
>>8 > UTF-16は、オレ嫌い。
100点。
14 :
デフォルトの名無しさん :01/12/22 13:45
15 :
デフォルトの名無しさん :01/12/22 16:32
でTRONのやったことはUNICODEなんですか? 先取りしすぎたとか?
でも当分WindowsのスタンダードはUTF-16だろ UTF-8は扱いずらそ。。
>>17 Windowsで使ってるのはUCS-2だろ。
UTF-16はUTF-8と同じくらい扱いづらいぞ。
UCS-2だって、リガチャとかやっかいな仕組みはいろいろあるけど、 要はWindowsが、「売り上げに影響しそうな言語」だけしかサポート してないから、一見すると「2byte固定、扱いやすい」みたいな感じ になっちまう。
韓国が悪いって思わん?
>>20 どの辺が悪? Unicode1.1から2.0へかわったときの
ハングル文字コード入替えの件かな
14の言う通り Linux板でスレたってるよ。 濃いレスやまもりの名スレ。 そっちでやれば?
>>8 さろげーとうんぬんっていうのは、UTF-16 (Unicode) の話じゃないの?
UCS-2 は、BMP だけを表現できると理解してたけど。
BMPだけにしても、normalizeしないといけない。 U+00c5 Å U+0041 U+030a Å が同じとか。
25 :
デフォルトの名無しさん :01/12/25 14:58
26 :
デフォルトの名無しさん :02/02/03 17:25
なんで UTF-16 は人気ないの? 全世界がソースコードを UTF-16 で書くようになれば、 これほど便利なものはないのに ・・・ お前ら、英語圏の連中にダマされてるよ。
27 :
デフォルトの名無しさん :02/02/03 17:27
英語圏の人たちは、asciiだけでいいんだもんね… ウラヤマスィ。
どうせUnicodeに統一したところで全部マッピングしなおさないと 継ぎ接ぎでめちゃくちゃだからね
30 :
デフォルトの名無しさん :02/02/04 04:19
>>26 このまま文字数が増えていくと
結局UTF-16でも足りんということになるかも。
となると結局UTF-32になるかもよ
>全世界がソースコードを UTF-16 で書くようになれば、
全世界がソースコードを Lsip で書くようになれば
っていう台詞を聞いたことがあったな・・・
もう32ビット固定の規格作れ。めんどい。
>>30 UCS-2とUTF-16の違い、わかってる?
詳しいことは知りません。 UCS-2は「Universal Character Set coded in 2 octets」という意味で2^16-1文字扱える UTF-16は、そのエンコード上2^16-1より少ないはず。 昔、Unicode1.0が出たころの論議を呼んでいて 世界中の文字を、まじめにUnicodeに移していったら 16bitコードでも足りんという記事を読んだときがあったからです。
UCS-2 は16ビット固定長だが、そいつにサロゲート導入して100万文字くらいまで拡張したのが UTF-16 だ。 UTF-32 は32ビット固定長だが UTF-16 で扱える範囲のみに限定したものだ。 31ビットまで全部使うのは UCS-4 という。 UCS-2 < UTF-16 = UTF-32 < UTF-8 = UCS-4
Function abc(i as integer) as String Select Case i Case 1 abc = “いし” Case 2 abc = “はさみ” Case 3 abc = “かみ” Case Else abc = “???” End Select End Functionの時、 abc(0),abc(1),abc(2),abc(3),abc(4),abc(5),abc(6),abc(7),abc(8),abc(9) のように値を設定した時の関数の値を教えてください。
>>35 なんだこれは?basicか?
他スレに逝きなさい。
将来地球以外の言語や人工言語が加わったら 100万文字くらいすぐ使い果たすね。
文字の種類が多い中国がわるい。
39 :
デフォルトの名無しさん :02/02/04 12:01
UNICODEもOOも理想を追ってコケルでしょう。
EUCで統一しよう。 JISより名前がカコイイし
41 :
デフォルトの名無しさん :02/02/04 14:26
>>39 文字で生活してる人の横槍でしょう。
Unicodeは、あくまでコンピュータ上で文字を扱うためも物なのに
あの文字がないのは可笑しいとか言う人が多いですから。
そんな言語使う人多いのかと問い詰めたい。小一時間・・・
みんな自分勝手だねー
>>41 それをマジで実現しようとしている(た)のがUNICODE
アメリカ人の勇み足で世界中の非ラテン文字文化圏の人間が
とばっちり。
つーか文学者や歴史学者はコンピュータつかっちゃいかんのか?ん?
44 :
デフォルトの名無しさん :02/02/04 14:32
旧字、人名に制限があるのは業務 (特に役所) としてキッツイんじゃないの?
人名なんか、ガンガンにUnificationしてDBにぶちこむ。 表示・印刷は画像として持つ、でいいんじゃねーの?
47 :
デフォルトの名無しさん :02/02/04 14:46
漢字は3バイトになるのがどーもね……>UTF-8 今時気にする程じゃないかもしれんが、どうも気にくわん。
>>46 いやそれで良いんだけどさ、ライブラリ化しても新規の客先で作るたびに要件や機能の検証が
めんどうじゃん。この文字も対応必須とか使うDBが違うとかお客さん固有の変換規則に従わな
きゃいけないとか。
常時接続の時代なんだから、30bitくらいの空間割り当てて 国ごとに20bit 国の識別に10bit 皆好きな文字をベクトルデータで登録出来るようにするとかすりゃいいのに
>>37 >>41 エジプトヒエログラフは通りましたが、クリンゴン文字は却下されましたな。
>>44 超漢字はデーヴァナーガリーとか正しく処理できないのでダメです。
>50 超漢字にはアーヴ文字が‥‥
>>34 そういえばそうですね。私の認識がまちがっていますね。
ご指摘に感謝。
下のページにUnicodeの辿った経緯がちゃんと書いていまね。
Unicodeの形式 in IBM developerWorks
http://www-6.ibm.com/jp/developerworks/unicode/unicode.html 見た目が似ている文字は同じ文字というのが無理があるのかな?
xml:langみたいし指定しなければならないなんて・・・
どこがUniやねんって感じがします。
けど真面目に全ての文字をマップするのも・・・
UTF-32もBOM(バイト オーダー マーク)の性で32^-1文字扱えるようでは無い
みたいだねー。
UTF-32LE(リトルエンディアン)にした方が良い気がします。
世界のパソコンの大半がIntel(リトルエンディアン)を採用しているんだから。
ビックエンディアンのCPUにもエンディアン変換用の命令があるものが多いし・・・
いっそのこと、DNSみたいな分散文字形状データベース作れ。 で、文字コードはURLみたいなコードで表す。 文字⇔URL(?)の変換規則は各国(or各文字圏)の管理団体で決めて 専用のVMで変換コード作って上のDBで配れ。これ最強。 え?データサイズが大きくなる? そんな事気にするな。今後のHDDの容量を考えれば誤差の範囲だ。
かなり昔のことだけど、SJIS JIS EUC UTF7 UTF8 UTF16 UTF32の変換クラス作ったよ。 でもSJISしか使ってないよ。 あふぉじゃん>俺
56 :
名無しさん@Emacs :02/02/05 04:35
>55 公開きぼんぬ!!
JDK1.1.6 の頃 JIS, Shift_JIS, EUC-JP を判定するクラスを作ったが、程なく JISAutoDetect が現れた。 すまん、Unicode とはぜんぜん関係ないや。
文字コードよか単語コード作った方が良いんで無いの? その方が翻訳・校正が簡単だし、文書サイズも多分減る。 SJIS →≪文法解析≫→単語コード→≪ローカライズ≫→ASCII ってな感じで。 特殊なIM作って単語コード直打ちもできるとヨイかも。
Unicodeを使うのはパソだけじゃないからなー。TRONはBEじゃなかったけ?
60 :
デフォルトの名無しさん :02/02/06 11:56
HTML 4.01では「UTF-16を使う時は、Big Endianにしなさい」って云われてるんだよな……。 んなこと云われても、WinのエディタはみんなUTF-16LEなんじゃあ(スレ違)! # UTF-8にしろって突っ込みはナシね。
きっと新しい言葉が出来るたびに、そういう機関に登録するんだ。
しかし、「オマエモナー」を登録したら、2チャンネラーである事がバレてしまう… そもそも2chの言語文化壊滅(w
>>62 ,64
辞書に「あ」が載ってるように、日本語ならカナ、英語ならアルファベットというように、
発音を表す字を単語登録しときゃ良い。
>>67 発音を表す単語と同じように、
表記法を表す単語を登録するってのはどうでしょうか(藁
>68 あなたに指図される筋合いはありません。何の権限があってそのような事を言うのですか? 以上、素朴な疑問。
>>67 文字コードより単語コード(+発音記号コード)の方が、同音異義語に強いはず。
(
>>58 は見たか?)
でもまぁ、口語表現に弱いってのは認める。
恐らく全部標準語になっちまうだろうし。
>>65 あの人、確かISO-2022-**主義者じゃなかったっけ。
そう言う意味で?
スペースだの-だのに意味別に複数コードを与えているのに 似たような漢字はいっしょのコードねっつーのはナンタルチア! でもJISの第三水準と第四水準の字をつかえるのはいいかも。 (半角かな無しのコード作って暮れ)
74 :
デフォルトの名無しさん :02/03/24 11:52
2chには平気で半角カナ使う奴が多いのがいかんな。
なんで「絶滅させて下ちい」が下がっててこっちが上がってるの??
76 :
デフォルトの名無しさん :02/04/23 14:50
UTF8期待あげ!
77 :
デフォルトの名無しさん :02/04/26 14:04
よろしいか?
78 :
デフォルトの名無しさん :02/04/30 03:06
ユニコードライブラリってどこかにありますか? それとも ユニコードライブラリってどこにもありませんか?
79 :
デフォルトの名無しさん :02/04/30 03:07
あ、あのねユニコードライブラリってね、 ユニコード処理関数ライブラリって意味なの。
80 :
デフォルトの名無しさん :02/04/30 03:16
このスレを読んで文字コードに興味が湧いたけど、 ここで質問すると厨な質問を繰り返しそうなんで、 スタートラインくらいまではいける勉強ページないですか? 日頃はBeckyとWzがUTF8に対応して無くてちょっと困ってる、 位にしか文字コードを意識したことが無かったな。
すでに半角カナは文化です。
>>82 今後、使用禁止です。
…くらい言わないと無くなりゃしないって>JIS
SJISで充分ジャン、何が不満かいってみ?
♥
>>86 heartのためだけにUNICODE導入するのかぃ、コストかかりすぎジャン。
フォント指定するか、iモード絵文字でも使えばいいジャン。
フォント指定すれば、Grepできねーわ、機種依存に成るわで大変。 i-mode絵文字に至っては、Shift_JISですらない。
89 :
デフォルトの名無しさん :02/04/30 20:27
>>89 HTML 勉強しろ。<img src=...> にしたら、そこに表示しちまうだろう
が。で、遅いって言われんのが嫌なんだよ。ヴォケ。
とでも、思ったんでしょうね。
>>90 あなたなりに工夫したんでしょうが、 ち ぐ は ぐ した日本語ですね。
>>85 SJISはにすい、さんすいと有るように、言語体系としてまとまっていないし、
なにせJISという名称からも解るように日本独自のコードセットです。
既にWindowsの内部(カーネル)コードもUNICODEだし、COMもそうだし、
XMLも仕様で必ず対応しておかなければいけないコードセットがUTF8/16なので、
SJISを使うメリットはどんどんと薄れています。
けど、いままであった文字コードである以上、無くなることは絶対にないし、
Cとかで文字列処理をするときはSJISを前提にしているので、SJISももちろん存在価値はあります。
ただ、世界的な流れとして、UTF-8に向かいつつあるのは間違いないです。
と書いてみるテスト(w
Cで文字列処理するならEUCの方がいいんだが。 JISだから標準にならないというのはなんか違う(もちろんSJISは標準にならないのは同意) ANSIだってISになり得るんだから、JISがISになってもいいじゃないか。
96 :
デフォルトの名無しさん :02/04/30 22:29
> Cとかで文字列処理をするときはSJISを前提にしているので、
ここ書き直し。
>>94
>>94 コード体系がまとまってなくたってツギハギだらけでもいいじゃん。
充分すぎるほどSJIS系ライブラリがあるんだし。
UNICODE,COM,XML、どれも外国文化じゃん。どれもパッとしないし。
日本文化SJIS(include カナ)を大切にシル!
さうですね、やはり正しい日本國語といふものも必要でせう。
>>97 情報関係でアメリカ文化を否定するのはあまりに保守的では?
>>99 もちろん、いいものは素直に認めるけど、
UNICODEが優れているとは思えない、SJISと五十歩百歩、
だったらSJISで充分。
>>100 > だったらSJISで充分。
んなこと言ってるからインド人にも負けそうになるんだよ。
Unicodeでいいものを作るか、Unicodeよりいいものを作るか、
Shift_JISもUnicodeも扱えるもの(like Solaris, mule)をつくるか、
くらいしか選択肢はない。
Shift_JISでいいなんてアフォらしくて糞。
>101 インド人は日本語を使わないので問題なし。 つーか、彼らに負けそうな理由としてコード体系を上げる その発想をどうにかしないと、インド人にまけちゃうぞ、と。 SJISでOnlyで行けば問題なし。
>>102 それじゃ、102はSJIS体系で独自システムを1から作ってください。
つーかあんたはSJIS以外理解してないでしょ。
俺は素直にMSとかSun(Java)とかに乗っかってUTF-8を使います。
…少し煽り口調になってしまったけど、まさに102の考え方は
保守的そのものだと思います。優れているどうこうの問題ではなく
(ちなみに俺はSJISが優れているとは思っていないけれどそれは別の話)
少なくとも「SJISでOnlyで行けば問題なし。」はちょっと……
#まぁ文字コードなんて全然本質的ではないと思うんだけどね
charsetは自分できめるけどencodingはUNICODE使ったほうが楽かもしれん。
>>104 俺は海外のXML・JAVA関係ツールを使うときにUTF-8必須ですなぁ。
SJISに対応しているツールなんてまず無いし。
で、それがどうプログラムに関係あると?
SJIS対応のXMLのパーサやベリファイヤー、UML自動生成ライブラリを自分で作るぐらいなら、 自分の文字コードをUTF-8にしますが何か?
ここで質問するのがええのかなぁ? 違ってたら無視しておくれ。 サーブレットでTOMCATつかってページ表示させたのだけれど ブラウザに日本語を表示させる場合JAVAに文字コードを指定 する必要がある、しないと?????それはいいのだけれど Javaの世界ではUnicodeで文字を処理するブラウザにもUnicode はある。だけどこの場合それ以前の問題として????になっている のだけれど誰かその訳ご存知ではありませんか?
UTF-16はどうよ。Winでは中心的みたいだが、中途半端じゃない?
109の脳みそは何か謎のモノとunifyしちゃったらしい
112 :
デフォルトの名無しさん :02/05/06 22:12
>>102 > SJISでOnlyで行けば問題なし。
それは日本だけで、ちびちび商売する場合ですな。
世界中に売りまくって稼ぐくらいじゃないとなあ。
> その発想をどうにかしないと、インド人にまけちゃうぞ、と。
つーか、あなたの発想をどうにかしないと。。。
SJISじゃあ、デバナガリとかヒンディとか扱えないが、
しかしインドは今や、ISCIIより、Unicodeを使うよね。
さらーに、中国ではGB2310/GBKではなく、Unicode文字をサポートした
GB18030をサポートしないソフトウェアは販売許可されないよね。
というように、Unicodeベースでみんな考えるようになってきてるのです。
ちなみに、インド人のほうが世界で活躍してますな。
アメリカの有名なベンチャーのCEOとかインド人多いもん。
>>103 > #まぁ文字コードなんて全然本質的ではないと思うんだけどね
日本にはI18Nとか専門でやってる会社ないから、そう思うんだろうね。
アメリカやヨーロッパじゃあ、I18Nってひとつの職種として確立してるからね。
113 :
デフォルトの名無しさん :02/05/06 22:47
やっぱワールドワイドに仕事をしている人達はスゴイね! 俺は国内オンリーでいいよ。だからSJISでいい。
114 :
デフォルトの名無しさん :02/05/06 22:51
SJIS(EUC JIS etc...)だけでいいと思うよ。 Unicodeの問題だって、欧米諸国の人種は自分らの文字セットだけ使えれば 不自由しないからああいう風になったんだし、国際化対応とかしきりに叫んでいても 結局自分らがよければそれでいい人種なんだから。 日本人がお人好しすぎるんだよ(コード制定に関しても、ソフトのI18N化に関しても) 欧州文字が問題なく扱えて、あとは用途(分野)に応じて必要ならやればいいだけ。 I18Nのためにコードの複雑化が起きるようじゃ本末転倒
UTF8はキライ なんで日本語一文字に6バイトも消費すんねん。 UCS4だってなんか嫌なんだけどなー UTF8 よりはマシだ。
バイト消費量だけで嫌がってると思われるとアレか ユニコードのくせに可変長っつ軟弱なところがダメや strlen で読み込むたびに展開の手間がかかるやないか。。めでてーな。 長くなるのが嫌ならストリームごと zip で圧縮せいや。。
3byteじゃねーの?
118 :
デフォルトの名無しさん :02/05/06 23:55
>>114 Unicodeの問題は、SJISを使えば解決するっていうのは間違いだろ。
SJISよりぜんぜんましだから、Unicodeを使うわけだよ。
>>115 > バイト消費量だけで嫌がってると思われるとアレか
つーかそのまえに、
あの、6バイトじゃないんですが。普通はCJKの文字は3バイトだよ。3バイト。めでてーな。
ちなみに、MSのWordなんかはみーんなUTF-8ですな。
> strlen で読み込むたびに展開の手間がかかるやないか。。めでてーな。
君は、strlenして文字の数を数えてるのか?(文字列のバイト数の話しじゃないよ。)
Shift_JISであれ、なんであれ、文字数を数えたり、Iterationするのは普通ライブラリを使うべき。
やるなら、きちんと、それぞれのコードページに基づいて文字数が数えられること。
あーミスッタ。3か。最大6やったな。 それでもUTF8はキライだね。仕様がキタナイじゃん。
>>118 >君は、strlenして文字の数を数えてるのか?(文字列のバイト数の話しじゃないよ。)
仕様がキタナイから肥大化したバグバグライブラリに頼るしかないのさ。
その状況に満足か?
122 :
デフォルトの名無しさん :02/05/07 00:24
ストレージはutf8で、内部処理は16bitで、が普通じゃないのか?
UNICODEとSJISを比べる?ナンセンスだな。 つーかさ、文系人間のたわごとは無視してればいいじゃん。 文字文化?あー、んなのどーでもいいんだよ。 そういう奴は筆で文字書いてろって。文字コードなんて関係無し。 UNICODEに代わり得る新しい体系を世界に認めさせることなんて できるはずないだろ、現実的に。 社会・文化がコンピュータに合わせていくことが求められてるし、 まあ、実際そんなもんだし。
>>126 対案なんて出来ないんだよ。受け入れろや。あきらめて。
128 :
デフォルトの名無しさん :02/05/07 04:08
いいじゃん、UTF-8でさ。 ShiftJISのUnicode版だと思えばいいんよ。 ShiftJISだって、1〜2バイトの可変長だろ、UTF-8ならShiftJISより ナンボかましな仕様だからいいじゃん。十とか能とか化けないし。 UTF-8に限らずUnicode全部嫌い、ってのはわかる。漏れもこんな乱暴な やり方は嫌いだ。しかし、現実的な選択肢がこれしかないし、他に 頼れるものもなし。現状で普及してる以上、受け入れるのが得策だよ。
130 :
デフォルトの名無しさん :02/05/07 04:28
>>129 漏れはUTF-32つかいましたが、何か?
133 :
デフォルトの名無しさん :02/05/07 10:59
>>121 > 仕様がキタナイから肥大化したバグバグライブラリに頼るしかないのさ。
> その状況に満足か?
彼が言ってるバグバグライブラリって何のことだ?
>>128 正しいですな。
Shift_JISもUTF-8も文字数数えるのに手間かわらんっす。
134 :
デフォルトの名無しさん :02/05/07 11:01
>>124 > ストレージはutf8で、内部処理は16bitで、が普通じゃないのか?
なんで、ストレージと内部処理をわざわざ変えるの?
135 :
デフォルトの名無しさん :02/05/07 11:03
>>114 ,115
の人には、とりあえず、
www-6.ibm.com/jp/developerworks/unicode/
を読んで勉強していただくということで。
136 :
デフォルトの名無しさん :02/05/07 11:09
>>131 ちゅーか、やっぱり、マルチプラットフォームならUTF-8でしょう。
いちいちバイトスワップしないで、同じファイルそのまま読めるし。
char*ベースの既存のコードがcharsetに応じて忠実に動くなら、
非常に適応しやすい。
おまえらレベル低い。どう低いのかは俺のレベルが低いので言えないけど。
Gryphが汚いからやだ
sjis 昔はms漢字コードとよばれてたyo いつのまにjisになったの?
141 :
デフォルトの名無しさん :02/05/09 22:19
>>140 JIS X 0208:1997 で正式にJIS規格となりました。
142 :
デフォルトの名無しさん :02/06/03 02:34
低レベルな質問で恐縮なのですが、 将来windowsが完全unicode化された場合、それまでの charベースで文字列処理を行っていたソフトは動かなくなるのでしょうか? 特にアーカイバのファイル名テーブルのように、文字列を単なるバイト配列 としてクリティカルに扱っているソフトなどの場合、どうなのでしょう。
143 :
デフォルトの名無しさん :02/06/03 02:49
>>142 つうかcharベースのソフトは殆どUNICODE化されないに100カノッサ。
Windowsと同様、クラスライブラリとコンポーネント→
言語レベルのサポートという段階で進行するだろう。
たとえばQtをつかっているKylixのユーザーとか
そういったところから。
せめてかなとカタカナを0x800より前にもってきてくれ
何で?
UTF-8で表現したときに、U+07FF以前は2バイトに収まるのに対し、 U+0800以降は3バイトになるという違いがあるから。 でも残念なことに、今からコードポイントが動くことはありえないので あきらめるしかない。
147 :
デフォルトの名無しさん :02/06/03 15:39
符号化文字集合とエンコーディングをごっちゃに考えている輩が多いのぉ。
148 :
デフォルトの名無しさん :02/06/03 23:13
>>146 まー勝手にコードポイント動かせば良いけどな。
名づけて俺様UTF8。
重なるコードはどうするかって?そんなコードは無視だ。
よその国の文字など知ったことではない。
It's the Unicodism.
>重なるコードはどうするかって?そんなコードは無視だ。 >よその国の文字など知ったことではない。 そうやってunicodeができたんだよね。
符号化文字集合とエンコーディングをごっちゃに考えている輩が多いのぉ。
Unicode consortiumとかな。
153 :
デフォルトの名無しさん :02/06/04 07:34
あいかわらず発言権が弱いよな JAPは
154 :
デフォルトの名無しさん :02/06/04 09:25
U3041 # HIRAGANA LETTER SMALL A : U30F6 # KATAKANA LETTER SMALL KE 調べてみると 174文字で片仮名と平仮名は表現できます。 2048 文字中 174 文字は 8.49%。平仮名だけなら 4.3%。 8.5%くらいよこせ。
自分ひとりが使えればいいのなら 自分ひとりに都合がいい独自エンコーディング方式を考えれば済むんだけど、 やっぱり情報交換に使えないと、文字表現って意味がないと思うの。
はいはいそうですか。
unicode は最も情報交換に適さない文字コードになったね。 なんかもう sjis,euc,iso2022変換の方が楽に思えてきたのですが何か。
158 :
デフォルトの名無しさん :02/06/05 13:51
そうです。UNICODEという閉じた世界の中で 一緒に心中する覚悟がなければ使っちゃダメです
>>157 そうそう。あたりまえにUTF-8のXML文書を扱ってるような海外のPGには、
絶対わかりっこないよねー
根拠もなしに妄想書き並べてるだけですか。
所詮、欧米から見ればアジアは蔑視の対象でしかない。
162 :
デフォルトの名無しさん :02/07/02 00:17
UTF2000ニスレ。
163 :
デフォルトの名無しさん :02/07/02 01:05
あのな、 UTL8だろうがUTF16だろうがどーでもいい問題だ 問題なのはそういったエンコードが今の今まで統一されきれていない事だろう これが一番メンドイ事 ・・てわけでUTF8が今一番メジャーなんだからみんなUTF8つかえばいいんだよ!
まぁ UTF8 がなけりゃユニコードは糞だった ユニコードのくせに日本語ユニコード,中国語ユニコード.. BMP 腐ってますけど
charsetとして使ってる人っているのかね?
age
U+0061 U+0067 U+0065
168 :
デフォルトの名無しさん :02/07/11 22:41
>>165 > charsetとして使ってる人っているのかね?
MS Word
169 :
デフォルトの名無しさん :02/07/11 23:04
結論:MS932サイコー!
IEってcharset=CP932って通るんだね、オモロイ
172 :
デフォルトの名無しさん :02/07/19 05:32
age
173 :
デフォルトの名無しさん :02/07/22 01:04
>>171 日本語にもかかわらず何が何やらサッパリわからん
圧縮したいんだったらgzipすればいいやん
微妙に圧縮されても全然うれしくないよ
>>173 圧縮は圧縮かも知れないけど、UTF-8と同類の単なる符号化方式じゃん
175 :
デフォルトの名無しさん :02/07/22 15:36
あのさ、字形統一ってなんでよくないんだったっけ? 既存の coded character set とのマッピングが面倒になるから?
字形統一って漢字統合(Han Unification)のことか?
>>177 ごめん、そう。勉強しなおします。
ついでに関連リンク呼んできたんで疑問解消。んじゃ。
179 :
デフォルトの名無しさん :02/07/25 23:13
テキストエディタ作ってる者です。 内部コードをUNICODEベースにしようとして、 作業を進めているのですが、少し分からないことがあるので教えてください。 内部コードをUCS-2ベースにしています。 固定ピッチ前提なのですが、全角/半角文字の判定はどうやったら良いのでしょうか。 一文字ごとにフォントから幅情報を取得しなければならないのでしょうか。
180 :
デフォルトの名無しさん :02/07/25 23:35
フォントが決まったら、unicodeの各文字がどのグリフを使うかを決めなきゃ アカンだろ。そのときに半角か全角かが決まるんであって、君の言ってるのは 逆だぞ。 おそらく日本語環境でしか使わないだろうから、 ASCIIは半角、半角カナは半角、その他は全角になっちゃうんでないかな。
182 :
デフォルトの名無しさん :02/08/30 19:10
現時点でUnicode最強なエディタって何? 現時点では、サロゲートペアに対応していたWinXPのメモ帳が 筆頭候補になっているんだけど・・・
183 :
サンプル特集 :02/08/30 21:21
いったんShift_JISに変換してるからまったく使い物にならん
>>185 たしかに変換はあやしげだな。
対応してない文字は、情報が落ちちゃう様な事が書いてあったし>Wz4拡張プラグイン
IEで文字コードにUTF-8を指定すると、 フォントが明朝体になっちゃうのは何とかならないの? スタイルシートを使えばゴシックにする事はできたんだけど、 スタイルシートを使わないで何とかならないもんかな?
>>187 何のためにスタイルシートがあると思ってる???
>>188 スタイルシートを使わなくて済むなら、使わずになんとかしたいんよ。
>>189 スタイルシートを使いたくないのならそれでもいい。
その場合,どんなフォントでレンダリングされるかはUA側の勝手だわな。
×レンダリングされる ○レンダリングする
>その場合,どんなフォントでレンダリングされるかはUA側の勝手だわな。 んな事分かってるって。 こっちは、そこに抜け道が無いのかな〜と思って聞いてるんだけどね。 まぁ、反応あまり無から無さそうだな。
<font ...>
unicodeの日本語処理に関するあんまり難しくない本っていうと何になる? (ランディの日本語情報処理くらいのやつ) ランディ、CJKV Information Processing 川俣 晶、パソコンにおける日本語処理・文字コードハンドブック グラハム Unicode標準入門 英語はできれば避けたい
195 :
デフォルトの名無しさん :02/10/08 20:29
>>194 そんなもんでしょ。
安岡さんのは「Unicodeの日本語処理」って感じでもないし、
bitの別冊で『インターネット時代の文字コード』なんてのもあったが
いま入手できるかどうか不明。
しまったageちまった。逝ってきます。
>>194 とりあえずグラハムの本から始めればいいと思う。
で、次は風間さんのJava日本語処理の本かなー。
ただ、その辺読んだら、とどめはunicode.orgのTRだと思う。
後は、bit別冊『I18N programmingハンドブック』とか、Li18nux関係。
>>195 >>197 ども。今んとこその場しのぎでがちゃがちゃやってるまずい状態なんで。
教えてもらった本も検討します。
「I18N programmingハンドブック」の実践編あたりが特に自分とかぶってそう。
199 :
デフォルトの名無しさん :02/10/15 10:42
Perlでも5.8から内部処理完全にUnicode化されたらしい。 エンコード、デコードモジュールも標準搭載でいいね。
200 :
デフォルトの名無しさん :02/10/15 17:13
>>199 変換テーブル表に風間さんのJava日本語処理の本にあるような問題がなければ
いいのだが…この本はJavaやらないけどUnicode使う人は読んだ方がいい。
201 :
デフォルトの名無しさん :02/10/17 15:55
>>200 どっちのこと言ってる?
『国際化と日本語処理』風間一洋
『Java国際化プログラミング』風間一洋
タイトルに「日本語処理」が入っているのは上だが
「Java」が入っているのは下だ。
NTTのまわしもんがウゼー。 風間マンセーなんてネタにもならないんだよ。 仕事できない奴ほどコード変換だのなんだのと どうにでもなることに時間を費やして仕事を 停滞させるんだよな。 糞スレ削除キボン。
203 :
デフォルトの名無しさん :02/10/21 14:39
Perl 5.8で簡単なCGI(UTF-8の符号値を文字に変換)を作ってみたのですが、 ブラウザの表示用文字コードがLatin-1になってしまいます。 htmlソースは以下のようなかんじです。 どこを直せばいいですか? <html><head> <meta http-equiv="content-type" content="text/html; charset=UTF-8"> <title>hoge</title> </head><body> <form method="post" action="hoge.cgi" enctype="application/x-www-form-urlencoded"> input: <blockquote><input type="text" name="num" /></blockquote> </form> <br /> output: 字 </body></html>
>>203 <input type="text" name="num" />
とか<br />とかの閉じ括弧の前の空白とスラッシュはどいう意味ですか。
205 :
デフォルトの名無しさん :02/10/21 14:50
HTTPヘッダは?
>>204 Perlのスクリプトでは
print br;
などとしか書いていないので
use CGI qw(:standard);
しているライブラリの仕様だと思います。
>>205 <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
とかってやつですか?
初心者で意味が分からないのでこれが原因かと思って
コメントアウトしてました。
あってもなくても現象は同じです。
> <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> > とかってやつですか? 違う > あってもなくても現象は同じです。 なら元に戻せよ初心者
つーかこのDOCTYPE宣言でXHTML吐くわけ? <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> その糞ライブラリを窓から投げ捨てろ
ところで、Unicode/UFT-8 の是非や多言語化についてのスレで なぜ Perl CGI の質問なんだろうか。
> Perl 5.8で簡単なCGI(UTF-8の符号値を文字に変換)を作ってみたのですが、 だからじゃねーの? 言われてみれば確かに激しくスレ違いだ
>>211 でも、Perlは5.8じゃないとUTF-8を扱えないみたいなんで。
>>210-211 すみません。
CGIスレの人でもUTF-8に詳しいとは限らないだろうけど、
UTF-8スレの人ならCGIにも詳しいんじゃないかと思って
ここで質問しました。
あれだ。ケーキに苺を使うからと、苺を作っている農家に質問をするようなもんだ。 どういう環境でどういう風に試しているのかわからんが。 1. 出力(ファイル)のエンコードがちゃんと UTF-8 になっているか 2. OS は UTF-8 をサポートしているのか 3. Unicode フォントはあるのか 4. ブラウザは UTF-8 をサポートしているのか 5. ブラウザの設定が適切か 6. HTTP サーバが吐く、HTTP ヘッダの content-language とかちあってないか 7. HTML にするか、正しい XHTML の文書型宣言をつけとけ
賛成に一票。
215 :
デフォルトの名無しさん :02/10/27 12:55
>>202 こういう奴がたまたまシステムソフトウェアの根幹部分を担うと、
十年二十年と禍根を残すことになる。
例: Shift_JIS, text fileの^Z
UNICODE は糞!
TRONコードとISO-2022とEUCは糞以下!
>>220 "ISO-2022-JP"でなく、"ISO 2022"ならば、"EUC"は冗長じゃないですか?
>>218 まじですかい
んー???…うおぉぉホンマや!!
36ポイントくらいまで字でかくして、
目ん玉皿にして睨みつけてようやく分かったよ。
そこまでせんと分からんのもアレだが。
Thx!
223 :
デフォルトの名無しさん :02/11/16 09:09
例えばなんですけど…。锦 (U+9526) という文字は、 「Unicode完全対応日本語フォント!!」みたいな物が出てきたら, lang="ja"の下でも、表示されるようになるんでしょうか?
>>223 理想を言えば表示できるようになる。
もっとも実装次第ではあるので、腐った実装がされていたらできないかも。
(これはUnicodeだけの問題じゃ無いけどね)
age
226 :
デフォルトの名無しさん :02/11/30 20:45
227 :
デフォルトの名無しさん :02/12/01 01:36
儉やか 儉しい 衛衞