文字化け辞典作成委員

1 ：　：03/05/13 21:14

文字化けを和訳できるようなソフトを作ろう！
ちなみに文字化けは
半角カタカナ、濁点、半濁点､｡記号の･:｣;@｢などなどが
２つ重なると漢字に化けます。
有能なプログラマー募集！！

2 ：デフォルトの名無しさん：03/05/13 21:15

＠＠

3 ：デフォルトの名無しさん：03/05/13 21:18

･。、･、。「」＠＠＠＠＠・・・・＠￥：￥・」。、、。、

4 ：デフォルトの名無しさん：03/05/13 21:20

ここは化けないね。

5 ：デフォルトの名無しさん：03/05/13 21:22

>>4
EUCで入力すれば化けるよ。

6 ：デフォルトの名無しさん：03/05/13 21:26

手当たり次第に文字のエンコードをかえる。

7 ：　：03/05/13 21:26

てかつくってくれーや

8 ：デフォルトの名無しさん：03/05/13 21:27

①②③

9 ：デフォルトの名無しさん：03/05/13 21:31

>>1
普通の掲示板は文字コードを判定して自分のページと同じコードに
変換してるから、そういう半角かなを入力すると判定を失敗して
文字化けになるんだけど、2chは判定なしで文字コードをシフトJISとして
扱うから、半角かなを入力しても化けないんだよ。

10 ：デフォルトの名無しさん：03/05/13 21:35

　　　　/＼＿＿_／ヽ　　ヽ
　　／　　　　::::::::::::::::＼　つ
　 . | 　,,-‐‐　　‐‐-､ .:::|　わ
　　|　､_(o)_,:　 _(o)_,　:::|ぁぁ
. 　 |　　　　::<　　　　 .::|あぁ
　　＼　 /( [三] )ヽ ::／ああ
　　　／｀ー‐--‐‐―´＼ぁあ

11 ：デフォルトの名無しさん：03/05/13 22:03

>>9
JISにもEUCにもSJISにも、半角カタカナは存在しますが...？

12 ：デフォルトの名無しさん：03/05/13 22:26

>>11
存在するかどうか自体は関係なかったりする。
変換の時が問題。
sjisは１バイトで表すのに対し、
eucは２バイトだからとか、そんな感じの問題。

13 ：1：03/05/14 19:51

うぅむ。

14 ：デフォルトの名無しさん：03/05/14 19:56

>>11
半角カナを入力すると判定に失敗するって言ってるのと、それがなんか関係があるの?

15 ：デフォルトの名無しさん：03/05/14 20:21

うにこーど
君にあげよう

16 ：デフォルトの名無しさん：03/05/15 00:04

文字コード判定+変換ぐらい自力で書いてみようと思ったけど
SJISとEUCの判定って面倒。

0xA1-0xDFとかが続いてたらどのあたりで見切りつけるわけ？

あとさ、判定ルーチンって、何バイトずつチェックするの？
もし3バイトずつにして「0xA1」「0xE0」「0xA1」とかってあったら
「SJIS半角+SJIS全角」もしくは「EUC全角+EUC全角1バイト目」なわけでしょ。
次のチェック時には1バイトずれちゃわない？

17 ：デフォルトの名無しさん：03/05/15 00:23

「正しく表示されましたか？（Y/N）」をコードを適当にかえながら延々と

18 ：デフォルトの名無しさん：03/05/15 01:53

>>16
文字コード変換ツールの ack のソースプログラムを見るといいよ。

19 ：デフォルトの名無しさん：03/05/15 02:51

っていうか、jcode.pl 使えば一瞬で作れる。 (作った)

20 ：デフォルトの名無しさん：03/05/15 10:34

>>19
それ、おまいが作ったのと違うだろ、と言いたい所だが合格。
スデに出来てる外部処理を使うのが最適。
と言うより自分で作るのがアホ。

21 ：デフォルトの名無しさん：03/05/15 20:32

つーかどこが辞典なんだよ

22 ：1：03/05/16 19:33

よくわからんわけですが。
頼みますよ。

23 ：デフォルトの名無しさん：03/05/20 06:22

Ruby 使え。

24 ：デフォルトの名無しさん：03/05/20 20:09

下記リンクの下のほうの
「コード自動認識」ってところよんでみ。
http://www.mars.dti.ne.jp/~torao/program/appendix/japanese.html

EUCとSJIS両方にとれる文字列ばかりが続いていれば
どうやったって判別は無理。

日本語の文法に照らし合わせたりするまでやるなら別だが。

あとSJISの半角カナはEUCコードで使用される領域にすっぽり収まってる
カナだけでｷﾀ--とかｵﾏｴﾓﾅ-とかだけ書かれるとEUCとまったく区別がつかない。

25 ：山崎渉：03/05/28 13:00

　　　　∧＿∧
ﾋﾟｭ.ｰ　(　　＾＾）＜これからも僕を応援して下さいね（＾＾）。
　　＝〔~∪￣￣〕
　　＝ ◎――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉

26 ：デフォルトの名無しさん：03/06/26 22:36

名スレの予感

27 ： ◆manko/yek. ：03/06/28 16:35

ｪﾐｪｱｪｿ?

28 ： ◆manko/yek. ：03/06/28 16:36

ばけた?

と入れた。
韓国語ではそう読むのだな。

29 ：これマジ！？：03/07/02 17:56

是非２ちゃんで使ってくれーい！！
矯臆（カコイイ)虐灼（オヤジ)獣扱(ステーキ）灼⑯灼⑯（ジュージュー）
笠Ф（ヴァカ）怖抑ｴ(ノンベエ）害酬（ウイスキー）
課整発ﾄ(インターネット）顕殉（クイズ）銭･(チャット）丑餅朧折ｰ(アップローダー）
少現（セックス)朗蹟（マッタリ）掬動（オナニー）論椅（マターリ）払払（ハァハァ）
衿下㌢（ガイシュツ）杵貫徹（オマエモナー）！！

30 ：山崎渉：03/07/15 10:16

　__∧＿∧_
　|（　　＾＾）|　＜寝るぽ（＾＾）
　|＼⌒⌒⌒＼
　＼ |⌒⌒⌒~|　　　　　　　　　山崎渉
　　 ~￣￣￣￣

31 ：山崎渉：03/08/02 02:53

（＾＾）

32 ：ハッカ飴：03/08/12 00:22

暗号解読と一緒だろ

33 ：ハッカ飴：03/08/12 00:26

>>9
もう1つ、ブラウザが適切な文字コード系で送信してくれるというものあるよ。
2chはシフトJISを使っているから、それにあわせて送ってくれているんだ。

つまり、この板は文字コード関連の面倒ごとをブラウザに任せているというわけで、
ブラウザが間違えば書き込みも化ける。

34 ：デフォルトの名無しさん：03/08/12 00:29

>>32 全然違うと思うが。

35 ：ハッカ飴：03/08/12 00:32

>>24
シフトJISの半角カナとEUCの漢字とは見分けがつかないけど、方法はある。
考えられる文字コードはせいぜい3つ、というかそれ以上は対応しなくても良いだろうから、3通りに変換してみるんだ。
そのうち「ﾓﾅｰ」とか「山崎渉」とかがあるのが正しい変換結果。
好きなトリップを探すプログラムがあるけど、あんな感じ。

用語を集めるのが面倒なら、行末が「。」になっていたり、「です」「だな」になっているのを探すだけでもいい。
これでも実用的なプログラムが作れるよ。

36 ：ハッカ飴：03/08/12 00:32

>>34
同じだって。35に書いておいた。

37 ：デフォルトの名無しさん：03/08/12 10:47

面倒くさいからUnicodeで統一しようぜ

Unicode以外の古いコード使ったソフト作る奴は
時代遅れということで。

38 ：デフォルトの名無しさん：03/08/12 16:44

うにこーどといっても、さらに派生しそうだな

39 ：UnicodeはMulticodeです：03/08/12 17:08

Unicodeは、文字集合がバージョンごとに違いますが…
ところがBOFにはversionが埋め込まれてない…

「電」へのmappingが間違ってたので、policy曲げてmapping入れ替えてますが…
http://www.unicode.org/versions/corrigendum3.html
http://www.unicode.org/unicode/standard/policies.html

40 ：ハッカ飴：03/08/12 19:38

>>37
2ch?

41 ：デフォルトの名無しさん：03/08/12 21:19

まぁCGIのフォーム周りでは俺は固定文字列を隠しフォームで投げてこさせて
判定してるけど…
スレ違いかね。
スレ違いついでにJISで投げてくる（もちURIエスケープして）ブラウザってある？

42 ：デフォルトの名無しさん：03/08/13 00:26

Unicodeは2.0と3.0で、φの2とおりの字体のコードポイントを入れ替えて
います。U+03C6とU+03D5。
両方の規格書を持っている人は、2.0のp.7-44と3.0のp.372を見て笑いましょう。

43 ：デフォルトの名無しさん：03/08/13 03:11

8 ビット目を落とした場合の文字がどうなるってリスト無いよね。
自分で作るかぁ。

44 ：ハッカ飴：03/08/15 00:58

>>41
JISで書いたページからなら、JISで送るはず。

45 ：山崎渉：03/08/15 15:19

　　　 (⌒V⌒)
　　　│ ＾＾ │＜これからも僕を応援して下さいね（＾＾）。
　　⊂|　　　　|つ
　　　（＿）（＿）　　　　　　　　　　　　　　　　　　　　　　山崎パン

46 ：デフォルトの名無しさん：03/08/15 23:49

shift jis で 2 byte 目が A0 だと文字化けする・・・。

47 ：デフォルトの名無しさん：03/08/16 22:31

hoge