話の筋と関係ないけど、たまに iso-2022 は grep ができないとか逝ってるやつが居るが、
真面目に iso-2022 で grep しようとするやつなんて居るのかな。
普通内部でコード変換すると思うんだが・・・
unicode で言語タグとか出てきたら結局コンテキスト
見ないとダメなのは似たような問題だな。
lgrepではできるよ。
>>937 言語タグは無視できる、という点が違うけどな。
あれだな、ISO-2022-JP でもエスケープシーケンス無視して grep してしまえば
特に問題なさそうな気もする(w
いっそのこと、ch & 0x7f するか(w
UTF-8
UTF-6
UTF-1024
組み込み用の64Kbyteのメモリに変換テーブル入れられんかな…。
unicode→SJIS 日本語だけでいいんやけど…。
948 :
SYN ◆mMJ0UaoA :02/07/04 02:05
>>947 UCS-2→SJIS変換テーブルとプログラム作ったけど、不要な部分削って
表引きさせても、50Kぐらい消費する。ヘボくてよければソース出すよ。
SJIS→UCS-2なら、もっと小さくなるのだけどね。
>>948 その変換テーブルはunicode.orgの物?
それともWindows互換?
サイズに関してはそんなに変わらんと思われ。
952 :
名無し~3.EXE:02/07/04 19:04
次スレ立てますか?
953 :
デフォルトの名無しさん:02/07/04 19:10
954 :
名無し~3.EXE:02/07/04 21:10
正直2つのスレをチェックするのは面倒。
>>954 いいんじゃない。
ここの1と、そちらの1で思想は違うみたいだけど。
自分も前から二つのスレを一つにまとめて欲しかったけど、
向うでUTF-8以外の話すると、怒られそうな気がする。
958 :
デフォルトの名無しさん:02/07/17 00:37
あげ
959 :
デフォルトの名無しさん:02/08/11 14:19
960 :
デフォルトの名無しさん:02/08/12 01:37
質問です。
UTF-7ってUCS4じゃなくてUCS2を使う?
その場合、サロゲートも必要なの?
UTF-7はもう忘れとけばいいんじゃないの。
ここまで問題がこじれてしまったら、もう内部コードは誰かが
適当文字コードをでっちあげて、wchar的なライブラリを作って、
それを使う形にするのが早道だと思う。ISO C localeとだいたい
同じ発想だけど、実装が1つなら変な非互換問題は出ないし、
complex-textに対応する余地も広がる。
外部コードは、どうせコード変換すれば済むから、正直何でもいい。
その時は、
1.M17Nは諦める。本格的なM17Nが必要な場面では、普通は文字より
グリフが必要とされるから、TRONでも使っておく。
2.ファイルシステムで多言語を使いたい、というような要求は、
M17Nというより、「世界共通ロケール」というべきものだから、
全部UNICODEで表して、世界共通のcollation(単なる数字の比較
でも十分だろう)とかも決めてしまうのが正しい。
3.I18Nに限定すれば、バックスラッシュ問題なんかは全部locale
ごとにポリシーを決めれば済むから、互換性問題はクリアできる。
合字や包接の扱いも、localeのポリシーで決める。ここはSJIS等で
昔から行われて来た習慣に素直に従う。
4.外部コードと内部コードを厳密に区別する。たとえ内部コードに
UNICODEもどきを使うとしても、それはSJISなりEUC-JPなりの
内部表現であって、UNICODEとは別物であるとはっきり決める。
当然ここでは、そのlocaleで1対1に変換できることを優先する。
逆に、外部コードとしてのSJISとUNICODEが1対1でなくても、それは
変換したユーザの責任とする。
ここまでやれば、最大限互換性、柔軟性を確保できると思う。
相変わらずWebページの文字コードをどうするか、とかそういう問題が
残るにしても、内部コードじゃないから、1対1の縛りは弱い。だから、
「ページを作る人が勝手に決める」でも何とかなる(現にあまり問題に
なっていない)。逃げと言われればその通りではある。
>>963 文字コード問題は歴史的な経緯があるので、
どんなに新文字コードを考えようと混乱するよ。
日本で事実上SJISとかEUCとかが普及してるのだから互換性の問題は発生せざるを得ない。
TRONはグリフを集めているだけで、実際の使用とかの事を考えてあるとは思えない。
グリフにこだわるというなら行き着く先はPostScriptだと思うよ。
漢字圏以外の国の事情はよく分からないみたいで、Unicodeに頼ってる部分もあるし。
「後から文字を追加できます。」なんてのは言い訳だろ。それならUnicodeだって同じだ。
現存のコード体系(SJIS、EUC)との互換を重視しつつUnicodeに徐々に移行するのがベターだと思うけどね。
CISなんてやめて、Unicodeベースで、依存コードとの互換性は文字コード変換で乗り切る。
965 :
デフォルトの名無しさん:02/08/16 13:47
>>964 Unicode同士の互換性すら無くなっているのはいかがなものか。
963の言う通り、ディスク上のプレーンテキストがいくら化けても、
致命的にならないのは確かだけど、バイナリファイルやアプリケーション
内部でバイト数が変わったらシャレにもならない。
>>965 内部はUTF-32でいいじゃん。
これなら文字数が変わらない限り、オクテット数は狂わないよ。
1文字 = 4オクテットで文字数数えるのもらくちんだし。
>>967 結合文字は廃止して
全部正規化して欲しい。
結合文字って分割してはならないもんなんだっけ?
今のUnicodeの使い方を見てると、DIS 10646で良かったじゃんという気がする。
統合漢字なんて面倒なだけ。
>>973 DIS1なんて、あんなISO-2022もどき否決されて当然。
Unicode 使うなら Unicode 3.2.0!
>>974 ISO-2022もどきだからこそ無難だという説もある。
Unicodeなんて後発のくせに結局ぐちゃぐちゃになっちゃったし。
>>975 別に、Unicodeだけ使うことを考えればぐちゃぐちゃでも無いだろ。
977 :
デフォルトの名無しさん:02/09/03 17:15
979 :
デフォルトの名無しさん:02/09/03 19:44
>>977 外部データを取り込む部分だけ改造すれば済むという意味では良い。
?978
実体参照だ、実体参照を使うんだ、ルーク
981 :
デフォルトの名無しさん:02/09/04 14:14
まもなく1000か。
よく続いたな
1000ゲッターはいつ頃くるんだ?
今出ますた。
1000取ります!!
でも明日はお仕事で忙しいから
夜まで取っておいてね☆
1000!