UNICODE(UTF8)に期待してよろしいか?

このエントリーをはてなブックマークに追加
179デフォルトの名無しさん:02/07/25 23:13
テキストエディタ作ってる者です。
内部コードをUNICODEベースにしようとして、
作業を進めているのですが、少し分からないことがあるので教えてください。

内部コードをUCS-2ベースにしています。
固定ピッチ前提なのですが、全角/半角文字の判定はどうやったら良いのでしょうか。
一文字ごとにフォントから幅情報を取得しなければならないのでしょうか。
180デフォルトの名無しさん:02/07/25 23:35
フォントが決まったら、unicodeの各文字がどのグリフを使うかを決めなきゃ
アカンだろ。そのときに半角か全角かが決まるんであって、君の言ってるのは
逆だぞ。

おそらく日本語環境でしか使わないだろうから、
ASCIIは半角、半角カナは半角、その他は全角になっちゃうんでないかな。
OS版で関連スレを発見しましたのでご案内いたします。

http://pc.2ch.net/test/read.cgi/os/1028526865/l50
182デフォルトの名無しさん:02/08/30 19:10
現時点でUnicode最強なエディタって何?
現時点では、サロゲートペアに対応していたWinXPのメモ帳が
筆頭候補になっているんだけど・・・
183サンプル特集:02/08/30 21:21
有料サイトでの【サンプル】集めました!!
無料で見れて、絶対オトク!ヌケル!!
http://www.traffimagic.com/WIPE7MMLZCA/comein/JPCKS
>>182
http://homepage2.nifty.com/hobbit/html/utf8.html
ここ↑をみて好きなの選ぶ。

漏れはWz使いなので、Wz4.0にUnicodeプラグインを入れて使ってるよ。
Wz4.0本体内蔵のUnicode対応ルーチンは腐っているので、拡張プラグインを使った方がいいよ。
いったんShift_JISに変換してるからまったく使い物にならん
>>185
たしかに変換はあやしげだな。
対応してない文字は、情報が落ちちゃう様な事が書いてあったし>Wz4拡張プラグイン
IEで文字コードにUTF-8を指定すると、
フォントが明朝体になっちゃうのは何とかならないの?

スタイルシートを使えばゴシックにする事はできたんだけど、
スタイルシートを使わないで何とかならないもんかな?
>>187
何のためにスタイルシートがあると思ってる???
>>188
スタイルシートを使わなくて済むなら、使わずになんとかしたいんよ。
>>189
スタイルシートを使いたくないのならそれでもいい。
その場合,どんなフォントでレンダリングされるかはUA側の勝手だわな。
×レンダリングされる
○レンダリングする
>その場合,どんなフォントでレンダリングされるかはUA側の勝手だわな。
んな事分かってるって。
こっちは、そこに抜け道が無いのかな〜と思って聞いてるんだけどね。
まぁ、反応あまり無から無さそうだな。
<font ...>
unicodeの日本語処理に関するあんまり難しくない本っていうと何になる?
(ランディの日本語情報処理くらいのやつ)

ランディ、CJKV Information Processing
川俣 晶、パソコンにおける日本語処理・文字コードハンドブック
グラハム Unicode標準入門

英語はできれば避けたい
195デフォルトの名無しさん:02/10/08 20:29
>>194
そんなもんでしょ。
安岡さんのは「Unicodeの日本語処理」って感じでもないし、
bitの別冊で『インターネット時代の文字コード』なんてのもあったが
いま入手できるかどうか不明。
196195:02/10/08 20:31
しまったageちまった。逝ってきます。
>>194
とりあえずグラハムの本から始めればいいと思う。
で、次は風間さんのJava日本語処理の本かなー。
ただ、その辺読んだら、とどめはunicode.orgのTRだと思う。

後は、bit別冊『I18N programmingハンドブック』とか、Li18nux関係。
>>195 >>197
ども。今んとこその場しのぎでがちゃがちゃやってるまずい状態なんで。
教えてもらった本も検討します。
「I18N programmingハンドブック」の実践編あたりが特に自分とかぶってそう。
199デフォルトの名無しさん:02/10/15 10:42
Perlでも5.8から内部処理完全にUnicode化されたらしい。
エンコード、デコードモジュールも標準搭載でいいね。
200デフォルトの名無しさん:02/10/15 17:13
>>199
変換テーブル表に風間さんのJava日本語処理の本にあるような問題がなければ
いいのだが…この本はJavaやらないけどUnicode使う人は読んだ方がいい。
201デフォルトの名無しさん:02/10/17 15:55
>>200
どっちのこと言ってる?

『国際化と日本語処理』風間一洋
『Java国際化プログラミング』風間一洋

タイトルに「日本語処理」が入っているのは上だが
「Java」が入っているのは下だ。
NTTのまわしもんがウゼー。
風間マンセーなんてネタにもならないんだよ。
仕事できない奴ほどコード変換だのなんだのと
どうにでもなることに時間を費やして仕事を
停滞させるんだよな。
糞スレ削除キボン。
203デフォルトの名無しさん:02/10/21 14:39
Perl 5.8で簡単なCGI(UTF-8の符号値を文字に変換)を作ってみたのですが、
ブラウザの表示用文字コードがLatin-1になってしまいます。
htmlソースは以下のようなかんじです。
どこを直せばいいですか?

<html><head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<title>hoge</title>
</head><body>
<form method="post" action="hoge.cgi" enctype="application/x-www-form-urlencoded">
input: <blockquote><input type="text" name="num" /></blockquote>
</form>
<br />
output: 字
</body></html>
>>203
<input type="text" name="num" />
とか<br />とかの閉じ括弧の前の空白とスラッシュはどいう意味ですか。
205デフォルトの名無しさん:02/10/21 14:50
HTTPヘッダは?
>>204
XHTMLと思われ
207203:02/10/21 15:34
>>204
Perlのスクリプトでは
print br;
などとしか書いていないので
use CGI qw(:standard);
しているライブラリの仕様だと思います。

>>205
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
とかってやつですか?
初心者で意味が分からないのでこれが原因かと思って
コメントアウトしてました。
あってもなくても現象は同じです。
> <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
> とかってやつですか?
違う
> あってもなくても現象は同じです。
なら元に戻せよ初心者
つーかこのDOCTYPE宣言でXHTML吐くわけ?
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
その糞ライブラリを窓から投げ捨てろ
ところで、Unicode/UFT-8 の是非や多言語化についてのスレで
なぜ Perl CGI の質問なんだろうか。
> Perl 5.8で簡単なCGI(UTF-8の符号値を文字に変換)を作ってみたのですが、
だからじゃねーの? 言われてみれば確かに激しくスレ違いだ
212203:02/10/21 16:02
>>211
でも、Perlは5.8じゃないとUTF-8を扱えないみたいなんで。

>>210-211
すみません。
CGIスレの人でもUTF-8に詳しいとは限らないだろうけど、
UTF-8スレの人ならCGIにも詳しいんじゃないかと思って
ここで質問しました。
あれだ。ケーキに苺を使うからと、苺を作っている農家に質問をするようなもんだ。
どういう環境でどういう風に試しているのかわからんが。

1. 出力(ファイル)のエンコードがちゃんと UTF-8 になっているか
2. OS は UTF-8 をサポートしているのか
3. Unicode フォントはあるのか
4. ブラウザは UTF-8 をサポートしているのか
5. ブラウザの設定が適切か
6. HTTP サーバが吐く、HTTP ヘッダの content-language とかちあってないか
7. HTML にするか、正しい XHTML の文書型宣言をつけとけ
214 :02/10/27 00:49
賛成に一票。
215デフォルトの名無しさん:02/10/27 12:55
>>202
こういう奴がたまたまシステムソフトウェアの根幹部分を担うと、
十年二十年と禍根を残すことになる。
例: Shift_JIS, text fileの^Z
http://pc3.2ch.net/test/read.cgi/tech/1035354069/534
から移動
UNICODEどころかJIS X 0208の話で正直すまないのだが、
一応原規格だからという線で勘弁してくだされませい。

今、JIS漢字の包摂基準とかいうのを勉強しているんだが、
84-06[熙]に包摂基準(連番158)を適用してしまうと、
63-70[煕]に包摂されてしまってマズーな気がするぞ。
でも他の字と違って適用除外には何も書いてないしなー。
連番158って何のためにあるんでしょ。
217216:02/10/29 19:40
>>216-217
連番158では「熙」と「煕」は包摂されないよ。よーく見てみ。
UNICODE は糞!
TRONコードとISO-2022とEUCは糞以下!
>>220
"ISO-2022-JP"でなく、"ISO 2022"ならば、"EUC"は冗長じゃないですか?
222216:02/11/05 23:46
>>218
まじですかい

んー???…うおぉぉホンマや!!

36ポイントくらいまで字でかくして、
目ん玉皿にして睨みつけてようやく分かったよ。
そこまでせんと分からんのもアレだが。
Thx!
223デフォルトの名無しさん:02/11/16 09:09
例えばなんですけど…。锦 (U+9526) という文字は、

「Unicode完全対応日本語フォント!!」みたいな物が出てきたら,
lang="ja"の下でも、表示されるようになるんでしょうか?
>>223
理想を言えば表示できるようになる。

もっとも実装次第ではあるので、腐った実装がされていたらできないかも。
(これはUnicodeだけの問題じゃ無いけどね)
age
226デフォルトの名無しさん:02/11/30 20:45
>>223 この字ですか? 何か特別な漢字?
http://www.unicode.org/cgi-bin/refglyph?24-9526
227デフォルトの名無しさん:02/12/01 01:36
>>226
「錦」の簡体字じゃなくて?
儉やか
儉しい
衛衞