文字化け辞典作成委員

このエントリーをはてなブックマークに追加
1 
文字化けを和訳できるようなソフトを作ろう!
ちなみに文字化けは
半角カタカナ、濁点、半濁点、。記号の・:」;@「などなどが
2つ重なると漢字に化けます。
有能なプログラマー募集!!
2デフォルトの名無しさん:03/05/13 21:15
@@
・。、・、。「」@@@@@・・・・@¥:¥・」。、、。、
4デフォルトの名無しさん:03/05/13 21:20
ここは化けないね。
>>4
EUCで入力すれば化けるよ。
手当たり次第に文字のエンコードをかえる。
7 :03/05/13 21:26
てかつくってくれーや
@AB
>>1
普通の掲示板は文字コードを判定して自分のページと同じコードに
変換してるから、そういう半角かなを入力すると判定を失敗して
文字化けになるんだけど、2chは判定なしで文字コードをシフトJISとして
扱うから、半角かなを入力しても化けないんだよ。
10デフォルトの名無しさん:03/05/13 21:35
    /\___/ヽ   ヽ
   /    ::::::::::::::::\ つ
  . |  ,,-‐‐   ‐‐-、 .:::| わ
  |  、_(o)_,:  _(o)_, :::|ぁぁ
.   |    ::<      .::|あぁ
   \  /( [三] )ヽ ::/ああ
   /`ー‐--‐‐―´\ぁあ
>>9
JISにもEUCにもSJISにも、半角カタカナは存在しますが...?
>>11
存在するかどうか自体は関係なかったりする。
変換の時が問題。
sjisは1バイトで表すのに対し、
eucは2バイトだからとか、そんな感じの問題。
131:03/05/14 19:51
うぅむ。
>>11
半角カナを入力すると判定に失敗するって言ってるのと、それがなんか関係があるの?
15デフォルトの名無しさん:03/05/14 20:21
うにこーど
君にあげよう
16デフォルトの名無しさん:03/05/15 00:04
文字コード判定+変換ぐらい自力で書いてみようと思ったけど
SJISとEUCの判定って面倒。

0xA1-0xDFとかが続いてたらどのあたりで見切りつけるわけ?

あとさ、判定ルーチンって、何バイトずつチェックするの?
もし3バイトずつにして「0xA1」「0xE0」「0xA1」とかってあったら
「SJIS半角+SJIS全角」もしくは「EUC全角+EUC全角1バイト目」なわけでしょ。
次のチェック時には1バイトずれちゃわない?
「正しく表示されましたか?(Y/N)」をコードを適当にかえながら延々と
>>16
文字コード変換ツールの ack のソースプログラムを見るといいよ。
っていうか、jcode.pl 使えば一瞬で作れる。 (作った)
>>19
それ、おまいが作ったのと違うだろ、と言いたい所だが合格。
スデに出来てる外部処理を使うのが最適。
と言うより自分で作るのがアホ。
21デフォルトの名無しさん:03/05/15 20:32
つーかどこが辞典なんだよ
221:03/05/16 19:33
よくわからんわけですが。
頼みますよ。
Ruby 使え。
下記リンクの下のほうの
「コード自動認識」ってところよんでみ。
http://www.mars.dti.ne.jp/~torao/program/appendix/japanese.html

EUCとSJIS両方にとれる文字列ばかりが続いていれば
どうやったって判別は無理。

日本語の文法に照らし合わせたりするまでやるなら別だが。

あとSJISの半角カナはEUCコードで使用される領域にすっぽり収まってる
カナだけでキタ--とかオマエモナ-とかだけ書かれるとEUCとまったく区別がつかない。
25山崎渉:03/05/28 13:00
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉
名スレの予感
27 ◆manko/yek. :03/06/28 16:35
ェミェアェソ?
28 ◆manko/yek. :03/06/28 16:36
ばけた?

と入れた。
韓国語ではそう読むのだな。
29これマジ!?:03/07/02 17:56
是非2ちゃんで使ってくれーい!!
矯臆(カコイイ)虐灼(オヤジ)獣扱(ステーキ)灼O灼O(ジュージュー)
笠Ф(ヴァカ)怖抑エ(ノンベエ)害酬(ウイスキー)
課整発ト(インターネット)顕殉(クイズ)銭・(チャット)丑餅朧折ー(アップローダー)
少現(セックス)朗蹟(マッタリ)掬動(オナニー)論椅(マターリ)払払(ハァハァ)
衿下a(ガイシュツ)杵貫徹(オマエモナー)!!
30山崎 渉:03/07/15 10:16

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄
31山崎 渉:03/08/02 02:53
(^^)
32ハッカ飴:03/08/12 00:22
暗号解読と一緒だろ
33ハッカ飴:03/08/12 00:26
>>9
もう1つ、ブラウザが適切な文字コード系で送信してくれるというものあるよ。
2chはシフトJISを使っているから、それにあわせて送ってくれているんだ。

つまり、この板は文字コード関連の面倒ごとをブラウザに任せているというわけで、
ブラウザが間違えば書き込みも化ける。
>>32 全然違うと思うが。
35ハッカ飴:03/08/12 00:32
>>24
シフトJISの半角カナとEUCの漢字とは見分けがつかないけど、方法はある。
考えられる文字コードはせいぜい3つ、というかそれ以上は対応しなくても良いだろうから、3通りに変換してみるんだ。
そのうち「モナー」とか「山崎渉」とかがあるのが正しい変換結果。
好きなトリップを探すプログラムがあるけど、あんな感じ。

用語を集めるのが面倒なら、行末が「。」になっていたり、「です」「だな」になっているのを探すだけでもいい。
これでも実用的なプログラムが作れるよ。
36ハッカ飴:03/08/12 00:32
>>34
同じだって。35に書いておいた。
面倒くさいからUnicodeで統一しようぜ

Unicode以外の古いコード使ったソフト作る奴は
時代遅れということで。
うにこーどといっても、さらに派生しそうだな
39UnicodeはMulticodeです:03/08/12 17:08
Unicodeは、文字集合がバージョンごとに違いますが…
ところがBOFにはversionが埋め込まれてない…

「電」へのmappingが間違ってたので、policy曲げてmapping入れ替えてますが…
http://www.unicode.org/versions/corrigendum3.html
http://www.unicode.org/unicode/standard/policies.html
40ハッカ飴:03/08/12 19:38
>>37
2ch?
まぁCGIのフォーム周りでは俺は固定文字列を隠しフォームで投げてこさせて
判定してるけど…
スレ違いかね。
スレ違いついでにJISで投げてくる(もちURIエスケープして)ブラウザってある?
Unicodeは2.0と3.0で、φの2とおりの字体のコードポイントを入れ替えて
います。U+03C6とU+03D5。
両方の規格書を持っている人は、2.0のp.7-44と3.0のp.372を見て笑いましょう。
8 ビット目を落とした場合の文字がどうなるってリスト無いよね。
自分で作るかぁ。
44ハッカ飴:03/08/15 00:58
>>41
JISで書いたページからなら、JISで送るはず。
45山崎 渉:03/08/15 15:19
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン
shift jis で 2 byte 目が A0 だと文字化けする・・・。
hoge