辞書ソフト　其の5

952 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 09:50:04

大体話はわかったが、
じゃあVISTAとメイリオの組み合わせなら、
この問題は解決すると理解してよろしいか？

JISの字形の揺れはこれは日本内部の問題だからしょうがないとして

953 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 11:10:48

>>952
この問題ってどの問題さ。
>>944みたいな異体字を表示する方法はフォントに依存するしかないよ
Adobe-Japan-1-6にも「与」の簡体字なんて入ってない
（「器」とか「海」は異体字が収録されてるがメイリオには入ってない)

954 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 11:22:28

参考サイト

字体の統一
http://openblog.meblog.biz/article/1527.html
（JIS X 0213:2004 での字体変更に対する批判に対する反論）

Wikipediaの「字体－文字集合と異体字」
http://ja.wikipedia.org/wiki/%E5%AD%97%E4%BD%93#.E6.96.87.E5.AD.97.E9.9B.86.E5.90.88.E3.81.A8.E7.95.B0.E4.BD.93.E5.AD.97

JIS X 0208の異体字リスト
http://members.at.infoseek.co.jp/sohoweb/itaiji.html
JIS X 0213まで含めるともっと数が増える

計算機で文字をコード化して扱っている最大の利便は「検索性」、「サイズの圧縮」にある。
いまでさえ「渡邉さん」を検索するのに「渡辺／渡部／渡邊／渡邉」と何通りも検索する必要があるのに
細かい字体差を統合せずに別コードばっかじゃんじゃん増やしてったら、もはや日本語の電子テキストは
使い物にならなくなってしまう。

そんなに異体字を表示したければ「画像で埋め込め」といいたいところだ。

955 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 11:31:06

Unicodeは統合と包摂優先というのは他ならぬ>>944が言ってることだしな

956 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 12:33:41

今更な話題はどうでもいい。

957 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 18:34:24

>>954
そういう要望があるのも事実で
ユニコードを初めとしていくつかの文字コードはそうなってきてるし
画像を使えはおかしい

958 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 19:23:43

ユニコード信者はなんで
他の文字コードを認めないんだろう？

959 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 19:34:59

いや、こいつだけ特別だろ。

960 ：名無しさん＠そうだ選挙にいこう：2006/12/07(木) 21:13:21

さてそろそろ次スレの準備かな。

961 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 01:20:17

>>958
普通はユニコードだけじゃ仕事にならんし
信者でも併用して使ってると思うぞ
だから959が言ってるとおり信者全般じゃなくて
こいつだけだとおもう

962 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 01:30:45

>コードポイントを統合しないと検索に支障出る。
>「浅」の字をわずかな字体差で分離しちゃうと、中国語のサイトで
>「浅田真央」が検索できない、なんてことが起きる。
英字の全角と半角問題と同じで検索ソフトが対応するようになるよ

963 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 02:41:14

ユニコード厨は半角厨と同じ匂いがする

964 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 03:25:34

Unicodeに問題があるという主張をするなら
何の文字コードと比べて問題があるかを言わなければならないが決して言わないところがずるい。
SJISと比べてもJIS X0208と比べても問題はない。
それらの文字を全て含んでいるのだから。
批判厨のやりたいことはWindows95用の古い旧式ソフトウェアを擁護すること。
旧式ソフトウェア厨にはNTやXP、Vista Mac OS Xで標準コードとして取り入れた文字コードUnicodeが邪魔で忌むべきものになった。
OSの過渡期にはこうした厨房は必ずあらわれる。

965 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 09:13:47

アホかこいつ

966 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 11:34:09

>>962
ttp://www.atmarkit.co.jp/fpc/opinion/014watanabe/014watanabe.html

> さて、異体字の問題の1つに、「検索や抽出の障害になる」ということがある。これは、確かに解決しにくい問題である。
> 検索や抽出といった処理は、現状は文字コードによってマッチングをチェックすることで実現している。しかし、
> 現状で一般的な文字コード体系では、異体字が確認しやすいようにコード化してあるわけではない。
> 当然「邉」と「邊」についても、文字コードからこの2つの文字が異体字の関係にあることを知ることは不可能だ。
>
> ただし、前に仮想的な例として挙げた「異体字統合辞書」を実際に用意することでこの問題に対処することは
> 可能である。しかし、こうした辞書を作るのは簡単ではないし、こうした統合が必ずしも有効とは限らない。

たかだか24個しかないアルファベットの大文字／小文字、全角／半角と一緒にしちゃいけない。
JIS X 0213（第1～第4水準）に異体字がどれだけあるかということさえ、完全に把握できていないし
異体字同定テーブルも確定されておらず、実装例がほとんど無いのが現状。

実際、プログラミング言語には「大文字⇔小文字」「全角⇔半角」変換関数は標準装備されているが、
「異体字の同一視」についてはプログラマサイドで開発・実装する必要がある。
パフォーマンスを犠牲にするような（しかも需要が低そうな）機能の搭載は、
職業プログラマなら及び腰になるのもやむを得ない。

Googleで「慶應」で「慶応」がいまだにヒットしないのもそのせい。
異体字にコードポイントを割けば割くほど、日本語電子テキストの混乱は深まるばかり・・・。

967 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 13:41:02

一人でまとめサイトでも作ってくれ

968 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 14:20:45

> たかだか24個しかないアルファベット
とりあえずAからZまで数えてみろ。

969 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 14:24:01

どこからみてもアホでした。どうもありがとうございました。

970 ：名無しさん＠そうだ選挙にいこう：2006/12/08(金) 16:41:07

>>964
問題があるって言ってる人なんている？

971 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 00:55:18

辞書ソフトの話はどこ？

972 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 01:22:37

Unicodeの話をすると粘着長文信者が涌いてくるから保全変わりにいいんだよ

973 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 02:01:15

だから信者じゃなくて、ただのキチガイだろ

974 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 11:42:47

検索性を維持するにはJISコードの範囲内で文字を使えってことですね

975 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 11:58:44

>>974
そのJISコードの中にも異体字はいっぱいあるわけだが
http://members.at.infoseek.co.jp/sohoweb/itaiji.html

976 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 16:16:47

>>974
どこをどうよんだら
その結論になるんだ？？？

977 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 18:00:51

>>974
ここにJISコードが複数の形の文字をひとつのコードに割り当てている件が書いてあるが
http://software.nikkeibp.co.jp/software/special/jiscode/nc.html
長いし興味ないだろうから読む奴はおらんだろう。

978 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 18:10:32

あと、Vistaと新JIS(JIS X0213)とUnicodeの問題と関係がよくわからないが
わかっている人はいるだろうか。
祇園の祇のネへんが示へんに変わるらしいが。

979 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 20:17:53

男が細かいこと気にするな。

これが結論。

980 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 20:24:14

女は?

981 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 20:35:59

>>974
そうです。

982 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 20:57:51

>>974
違います。
JISだとJIS外の文字が文字化けして入力、検索とも最初からできません。
検索性を考慮してたくさんの文字に対応しているのがUnicodeなどの文字コードです。
難しい漢字だけでなくアクセント記号のついたローマ字も文字化けしてJISは使い物になりません。

983 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 21:44:48

だから難しい漢字は使うなと、、、

984 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 22:15:24

難しい漢字もアクセントのついたローマ字も使いたい人は使えばいいだろ。
古いソフトに合わせるために利便性を損ねて、難しい漢字使うなとか外国の文字使うなとか
勝手な命令を他人にしていてもしょうがないだろ。
使いたい人は使えばいいし、ソフト側も使えるようにしなくてはならない。
問題は新しい文字コードにあるのではなく、
「新しい文字コードを使いたくても使えない」古いソフトのほうにある。

985 ：名無しさん＠そうだ選挙にいこう：2006/12/09(土) 22:19:05

新しい文字コードを使ったところでお前の頭が良くなるわけでもなし。
べつにいいんじゃないの。

986 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 01:13:03

>>983
目的と手段を（ｒｙ

987 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 02:03:44

>>985
テキストやノートがひらがなだけでやったら
効率落ちるじゃん

988 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 02:39:59

SJISで十分

989 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 05:00:31

JIS規格化においても字体の揺れを吸収するため「包摂規準」を設けて
「複数の形の文字をひとつのコードに割り当てている」。
しかも78JIS,83JIS,90JIS,97JISの紆余曲折を経ているのも事実。
これは事実。

でも所詮日本国内での「揺れ」の話。

UNICODEにおける包摂字体の揺れを吸収するため「包摂規準」を設けて
「複数の形の文字をひとつのコードに割り当てている」。
一方で、「Souce Separation Rule」による「分離基準」も設けており、
ある国の規格で分離しない字体が他国の規格で分離されていれば原則として
「複数の形の文字は別々のコードに割り当てている」。
これも事実。

しかも中台韓越日のあいだでこれを行う。

要するに簡単に言えばこれは
あなたの家の近所に軍隊が駐屯するとして、
それが自衛隊であるのか、中台韓越日連合軍なのかということなのである。
前者がはるかにマシなのはいうまでもないことであろう。

990 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 06:41:44

>>989
なるほど
Unicodeのほうがはるかに良いことはいうまでもないですね

991 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 07:55:45

>>989
すごいっ
自衛隊だけでなくEUみたいに日本、中国、台湾、韓国、ベトナムの連合軍みたいな最強の軍隊に例えられるんですね！
マジすげーよユニコード

992 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 09:57:09

えー
中共軍なんか世界最強のレイプアーミーやんか

993 ：名無しさん＠そうだ選挙にいこう：2006/12/10(日) 14:53:22

次スレ

辞書ソフト　其の6
http://pc8.2ch.net/test/read.cgi/bsoft/1165729873/l50

994 ：名無しさん＠そうだ選挙にいこう：2006/12/11(月) 11:04:27

995 ：名無しさん＠そうだ選挙にいこう：2006/12/11(月) 12:59:59

996 ：名無しさん＠そうだ選挙にいこう：2006/12/11(月) 13:01:04

997 ：名無しさん＠そうだ選挙にいこう：2006/12/11(月) 13:01:19