多言語環境でのWEBプログラミング

このエントリーをはてなブックマークに追加
1nobodyさん:02/04/02 11:47 ID:Qba16ZZm
ふつー UTF-8
2nobodyさん:02/04/02 12:06 ID:???
あえて iso-2022
3nobodyさん:02/04/02 12:23 ID:Qba16ZZm
やっぱ超漢字でしょう
4nobodyさん:02/04/02 12:26 ID:???
超漢字だよなあ
やっぱり
5nobodyさん:02/04/02 17:36 ID:???
閲覧者も超漢字を準備しないと見れないのは結構困る。
6nobodyさん:02/04/02 22:22 ID:???
UTF-8でDB系のWWWサーバ作ってる人いますか?

技術的には問題なさそうなのですがブラウザ側の問題とか
コード変換の問題とかどうなんでしょうね。

今やってるのはCGI系なんですが
1)unicode 対応のJcode.pmがどの程度信頼できるのか
   UTF-8に対応していないブラウザから送られてくるであろう
   SJIS/EUC/JSI系のクエリをちゃんとunicodeに変換してくれるのか知らん?
2) unicodeデータを格納するDBで使えそうなのは?
3) ブラウザ依存性はどの程度意識しなくちゃいけないものなのか?

とかとかいろいろ教えてくれる人いないかしらん。
7:02/04/02 22:23 ID:???
ついでに

文字鏡

はどうでしょう?
使ってる人います?
8nobodyさん:02/04/02 23:47 ID:HrbDtY7E
UTF-8でDB系をいつもやってます.

Jcode.pmではなくて,Unicode::Japaneseを使ってますが‥‥‥.
Unicode変換では,最近出来たEncodeモジュールが一番良いみたいです.
(これはまだあまり試してないですけど)

Jcode.pmは内部がEUCなので,EUCで表現できない文字は
全部おかしくなっちゃうので,UTF-8化の意味があまり.

自動判別はどのモジュールでも完全には出来ないので,
判別用のダミーの文字列をフォームに入れておいて,
その文字列がどんな文字コードで送られてくるかを見て判別.

DBは,PostgreSQL,MySQL(blobを使う)でやったことがあります.
9nobodyさん:02/04/03 08:09 ID:???
>>8
MySQLでUnicode使えるんですか?
10nobodyさん:02/04/03 10:40 ID:9fiSnEmE
>>9
blob使えば.テキストではなくバイナリとして扱えます.
DBI経由では特にLOBであることを意識しなくて良いので
普通に扱えます...
11nobodyさん:02/04/03 16:59 ID:isMM3a/S
Perlはどうでしょう?
文字列操作関数などunicodeに対応してるのでしょうか?
unicodeの入った文字列の配列をsortとかしたら
ばらばらになっちゃうのでしょうかね?

12nobodyさん:02/04/04 00:19 ID:LnQIl2oj
>>11
5.6.1ではまだダメ.次のリリースでは対応するそうです.
sortは文字コード順にしかならないですね.たぶん...
ただのバイト文字列と思って扱えばそんなに不便しませんよ.
13nobodyさん:02/04/04 19:26 ID:alB0TeAm
UTF-8かぁ

理屈はよくわかるんだけど、サーバ・ブラウザ・Perl・DBそれぞれが
どの程度まどもに実装しているかわからないので不安。

なんかよい参考書ありませんかね
「マルチリンガルWEBガイド」とか言う本があったみたいだけど
現在は入手できないみたい
14nobodyさん:02/04/05 00:33 ID:q1RpidFn
ブラウザに出力するときはSJIS.内部はUTF-8でやってます.
ブラウザにUTF-8で渡すのはまだ無理があるようで...
(なので全然多言語環境とはいえないですねぇ...)

内部にUTF-8使うメリットとしては,SJISの\問題とかがなくて
扱いやすいとか,絵文字とかを適当な私的領域にわりあてれば
DBに安全に保存できるとか...そのくらいです.

DBはPostgreSQLとかは普通に使えるみたいですが,MySQLはまだ...
Perlもまだですし,微妙ですね.

本当に多言語を扱うのなら,文字コード以外にもやらなければ
ならないことがいっぱいありますし.(^^;
15nobodyさん:02/04/05 07:58 ID:???
>>14

UTF-8 <-> SJISの変換って安全ですか?
どこかでJIS X0208文字集合以外をフィルタリングしないと
混乱するような気がするのですが。

Windowsの場合ですが、僕の認識では
 UTF-8で送信する場合、比較的まともなunicodeで送信してくれる
 SJISで送信する場合、JIS X0208内の文字は当然きちんと送信するが
  それ以外の文字は独自のコードを使っちゃう場合がありきちんとUTF-8変換が失敗する

なのですが、どうなんでしょう?
というかWindowsのSJISってよくわからない・・

16nobodyさん:02/04/06 00:55 ID:2c/CLvBR
>>15
正確には,Unicode::Japanese でやってるのは,
UTF-8 <-> MS-CP932 みたいなので,大丈夫です.
UTF-8 <-> Shift_JIS の実装だと問題があると思いますが‥‥‥.

MS-CP932 の範囲内にないものは,&#xxxx; 形式に
変換されるようで,HTMLで使ってる分にはこれである程度は
なんとかなります.

SJISで送るとSJISでしか帰ってこないので,SJIS範囲外の
文字が入ることでトラブルになったことというのは
まだないですけど...
17nobodyさん:02/04/06 09:07 ID:???
文字鏡の文字集合が全てunicodeに収納されるって本当ですか?
そうなると文字鏡の存在意義はどうなるんだろう
18:02/04/06 09:19 ID:dZ2vc6+z
ブラウザがわの文字エンティティの動向はどうなってるんでしょう?
文字エンティティでunicodeを表示できるようにする、という話を聞いたことがあるんですが、
それはそれで便利だと思った。

PS:数式表現のためTeX形式をHTMLに取り入れるという話も昔あったような・・・
19nobodyさん:02/04/06 09:23 ID:???
>>18
数式表現はXMLでできるモジラちゃんがいるね。
20nobodyさん:02/04/09 17:41 ID:YMcX+quj
>>19
TEX形式を数式表現するんですか?
詳しく情報きぼんぬ
21nobodyさん:02/04/10 18:14 ID:AuJvw/Iy
MacのIE/NNはどの程度UTFに対応しているのでしょうか?

OS(Mac/Windows/NT),ブラウザ(NN/IEの各バージョン)の組み合わせで
UTFをどの程度読めるか・書き込めるかの情報を探しています。
どこかに表になっているのを見かけたことがあるのですが・・・


どなたかご存知内でしょうか?
22age:02/09/18 11:52 ID:???
保守あげ
23nobodyさん:02/09/18 12:22 ID:???
userあげ
24nobodyさん:02/09/26 21:15 ID:SNdgetNX
結局、utf-8ってことになったのでしょうか。
25nobodyさん:02/09/26 22:28 ID:EJQfZP4n
フォーム投稿のHTTPヘッダに文字コードの情報つけて送ってくれるようになってれば
文字コードの判定で悩まなくてすむのになあ
26nobodyさん:02/10/01 17:02 ID:???
>>25
フォーム投稿のページ自体の問題だよね。「・・・語で書いてください」
って書いとく。それに違反したページかどうかの判定は、確かに面倒
だけど、指定した言語のコードでデコードして、仕方ないから文字化け
のまま表示する。それでどうでしゅか?

27nobodyさん:02/10/03 15:10 ID:VT/wrnJq
今IIS+MDB(or MSDE)+ASPで多言語環境のホームページ作っているのですが、
(中身は翻訳ページみたいなもの)
これをApache+mysql+phpで構築するとどうなる?って見積もりがきました。
私が知ってる限り、mysqlでUnicode扱えないのでバイナリで扱ったとしても
orderとかうまくいかなくなるような気がするんですが、どうでしょうか?

そういうのでいい作戦ってあります?
28山崎渉
(^^)