文字化けを和訳できるようなソフトを作ろう!
ちなみに文字化けは
半角カタカナ、濁点、半濁点、。記号の・:」;@「などなどが
2つ重なると漢字に化けます。
有能なプログラマー募集!!
2 :
デフォルトの名無しさん:03/05/13 21:15
@@
・。、・、。「」@@@@@・・・・@¥:¥・」。、、。、
4 :
デフォルトの名無しさん:03/05/13 21:20
ここは化けないね。
手当たり次第に文字のエンコードをかえる。
てかつくってくれーや
@AB
>>1 普通の掲示板は文字コードを判定して自分のページと同じコードに
変換してるから、そういう半角かなを入力すると判定を失敗して
文字化けになるんだけど、2chは判定なしで文字コードをシフトJISとして
扱うから、半角かなを入力しても化けないんだよ。
10 :
デフォルトの名無しさん:03/05/13 21:35
/\___/ヽ ヽ
/ ::::::::::::::::\ つ
. | ,,-‐‐ ‐‐-、 .:::| わ
| 、_(o)_,: _(o)_, :::|ぁぁ
. | ::< .::|あぁ
\ /( [三] )ヽ ::/ああ
/`ー‐--‐‐―´\ぁあ
>>9 JISにもEUCにもSJISにも、半角カタカナは存在しますが...?
>>11 存在するかどうか自体は関係なかったりする。
変換の時が問題。
sjisは1バイトで表すのに対し、
eucは2バイトだからとか、そんな感じの問題。
うぅむ。
>>11 半角カナを入力すると判定に失敗するって言ってるのと、それがなんか関係があるの?
15 :
デフォルトの名無しさん:03/05/14 20:21
うにこーど
君にあげよう
16 :
デフォルトの名無しさん:03/05/15 00:04
文字コード判定+変換ぐらい自力で書いてみようと思ったけど
SJISとEUCの判定って面倒。
0xA1-0xDFとかが続いてたらどのあたりで見切りつけるわけ?
あとさ、判定ルーチンって、何バイトずつチェックするの?
もし3バイトずつにして「0xA1」「0xE0」「0xA1」とかってあったら
「SJIS半角+SJIS全角」もしくは「EUC全角+EUC全角1バイト目」なわけでしょ。
次のチェック時には1バイトずれちゃわない?
「正しく表示されましたか?(Y/N)」をコードを適当にかえながら延々と
>>16 文字コード変換ツールの ack のソースプログラムを見るといいよ。
っていうか、jcode.pl 使えば一瞬で作れる。 (作った)
>>19 それ、おまいが作ったのと違うだろ、と言いたい所だが合格。
スデに出来てる外部処理を使うのが最適。
と言うより自分で作るのがアホ。
21 :
デフォルトの名無しさん:03/05/15 20:32
つーかどこが辞典なんだよ
よくわからんわけですが。
頼みますよ。
Ruby 使え。
∧_∧
ピュ.ー ( ^^ ) <これからも僕を応援して下さいね(^^)。
=〔~∪ ̄ ̄〕
= ◎――◎ 山崎渉
名スレの予感
ェミェアェソ?
ばけた?
と入れた。
韓国語ではそう読むのだな。
29 :
これマジ!?:03/07/02 17:56
是非2ちゃんで使ってくれーい!!
矯臆(カコイイ)虐灼(オヤジ)獣扱(ステーキ)灼O灼O(ジュージュー)
笠Ф(ヴァカ)怖抑エ(ノンベエ)害酬(ウイスキー)
課整発ト(インターネット)顕殉(クイズ)銭・(チャット)丑餅朧折ー(アップローダー)
少現(セックス)朗蹟(マッタリ)掬動(オナニー)論椅(マターリ)払払(ハァハァ)
衿下a(ガイシュツ)杵貫徹(オマエモナー)!!
__∧_∧_
|( ^^ )| <寝るぽ(^^)
|\⌒⌒⌒\
\ |⌒⌒⌒~| 山崎渉
~ ̄ ̄ ̄ ̄
(^^)
暗号解読と一緒だろ
>>9 もう1つ、ブラウザが適切な文字コード系で送信してくれるというものあるよ。
2chはシフトJISを使っているから、それにあわせて送ってくれているんだ。
つまり、この板は文字コード関連の面倒ごとをブラウザに任せているというわけで、
ブラウザが間違えば書き込みも化ける。
>>24 シフトJISの半角カナとEUCの漢字とは見分けがつかないけど、方法はある。
考えられる文字コードはせいぜい3つ、というかそれ以上は対応しなくても良いだろうから、3通りに変換してみるんだ。
そのうち「モナー」とか「山崎渉」とかがあるのが正しい変換結果。
好きなトリップを探すプログラムがあるけど、あんな感じ。
用語を集めるのが面倒なら、行末が「。」になっていたり、「です」「だな」になっているのを探すだけでもいい。
これでも実用的なプログラムが作れるよ。
面倒くさいからUnicodeで統一しようぜ
Unicode以外の古いコード使ったソフト作る奴は
時代遅れということで。
うにこーどといっても、さらに派生しそうだな
39 :
UnicodeはMulticodeです:03/08/12 17:08
まぁCGIのフォーム周りでは俺は固定文字列を隠しフォームで投げてこさせて
判定してるけど…
スレ違いかね。
スレ違いついでにJISで投げてくる(もちURIエスケープして)ブラウザってある?
Unicodeは2.0と3.0で、φの2とおりの字体のコードポイントを入れ替えて
います。U+03C6とU+03D5。
両方の規格書を持っている人は、2.0のp.7-44と3.0のp.372を見て笑いましょう。
8 ビット目を落とした場合の文字がどうなるってリスト無いよね。
自分で作るかぁ。
>>41 JISで書いたページからなら、JISで送るはず。
(⌒V⌒)
│ ^ ^ │<これからも僕を応援して下さいね(^^)。
⊂| |つ
(_)(_) 山崎パン
shift jis で 2 byte 目が A0 だと文字化けする・・・。
hoge