>>876 その必要が有る人のみ守ってるだけでは?
普通は日本語使わないけどね。
>>877 殆どはASCIIで書かれてるからな。ASCIIはSJISで無いぞ。
稀に見かける日本語を使った書庫ではeucを使ってる。
でもSJISを使ってるのは見たこと無いとも書いたが。
>>878 作者は仕様を守るべきなんじゃない?
それが出来ないなら作らなければ良いだけ。
仕様を制定するのが自分なら殆ど負担は無いだろう。
>UNIX上でも SJIS 使ったのしか見たこと無いね。
俺は無いな、少なくとも配布されてるものに関しては。
>仕様を制定したのと、UNIX版作ってる人は別人。
>同一人物でも仕様をコロコロ変えるのはどーかと思われ。
これは誤解を生んじゃったな。
lhaの事じゃなくソフトウェア作者の苦労の事を書いただけだから
その辺の事は分かってるし同意。
>仕様が無い場合という仮定の話なので文字コードは SJIS とは限らない。
格納をしっかりすれば仮定の話は何の意味も無い。
>それらの書庫はファイル名に関する仕様を守ってる。
日本語ファイル名を格納してる書庫の話でしょうが。
ASCIIファイル名は日本語扱うときはSJISでって仕様を満たしている訳じゃない。
>必要がある人は自力で実装すれば良い、
>という事のどこに問題があるのかサッパリわからん。
それじゃぁ自力で実装する力の無い人、そもそもそんな事考えて無い人が作った
書庫は不正書庫になってしまうじゃないか。
大抵の人はlhaにそんな仕様が有る事すら知らないだろう。
何べんも書くけど守られない仕様は仕様の機能を果たさない。
仕様がしっかり守られるならば解凍時の文字コードも気にしなくて良い。
>ファイル名に関する仕様が無い場合、
>UTF-8 でも SJIS でも EUC でも仕様的に問題なく「しっかり格納」できる。
lhaはSJISで格納すると言う仕様が有るんでしょ。勝手になくさないで。
>ファイル名に関する仕様は満たしてる。
日本語のファイル名の話をしてるんだから・・・。
関係ない話を持ち出さない。
>何べんも書くけど仕様は概ね守られてる。
>例えば、信号無視する人間が延べで 5%居た場合、信号は機能を果たしてないのか?
たとえ話は嫌いだが、、、この場合その5%は必ず事故るわけだから信号の機能を果たしてるとは言いがたい。
向こうで暴れてる困ったちゃんをどうにかしろよ
lhaの書庫はパス名にShift JISを使うって仕様だったのか。知らなかった。
どこに書いてあるんだろう。
>>365 ここで暴れてる困ったちゃんもどうにかしてください。
>>369 lha for UNIXの方だったかもしれん。
だったらそんなに昔じゃないなスマソ
詳しくは知らんが、YosshiがSysopやってたflaboでは
過去ログ(LZHで固めた奴)にSJISファイル名使ってたような…
いや、当初はMS-DOSしかっていうか何も考えなくて生SJISにしたはずなんだけど、
どっかでそれを仕様として確定したと思うんだよ。
それがlha for UNIX以前か以後かがよー分からん。
よーわからんけどlha for UNIX以前か以後かって区分は重要なの?
>>372 > いや、当初はMS-DOSしかっていうか何も考えなくて生SJISにしたはずなんだけど、
だろうね。
> どっかでそれを仕様として確定したと思うんだよ。
これが、「誰が」「どこで」確定したのか情報希望。
よーわからんけど「誰が」はともかく「どこで」は重要なの?
☆ チン マチクタビレタ〜
マチクタビレタ〜
☆ チン 〃 ∧_∧ / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
ヽ ___\(\・∀・) < 「誰が」「どこで」確定したのか情報まだ〜?
\_/⊂ ⊂_ ) \________
/ ̄ ̄ ̄ ̄ ̄ ̄ /|
| ̄ ̄ ̄ ̄ ̄ ̄ ̄| |
| .愛媛みかん. |/
>>375 > よーわからんけど「誰が」はともかく「どこで」は重要なの?
必ずしも吉崎氏が策定する必要は無いんだよ。
仮に「LHA Open Group」でもいいわけだし。
そういう意味の「どこで」ってこと。
>>377 > 仮に「LHA Open Group」でもいいわけだし。
それは「誰が」だと思うんだが…
まぁどっちでも良いけど。
ところで「LHA Open Group」って実在する組織なん?
>>378 > ところで「LHA Open Group」って実在する組織なん?
いやー俺の脳内団体だよ。「誰が」だけだと「吉崎氏に決まってるだろ」と
なりかねないので書いたのだけれど、よけい混乱させちゃったみたいで
申し訳ない。
過去の経緯としてはShift JISが仕様だったのかもしれないが、
# 補助漢字や第三/四水準はどうなっているのだ?
それだとASCIIな人と日本語な人以外は困るから、
アーカイブ内のパス名はUTF-16で保存することにして、
システムごと、あるいはロケールごとに、iconvして展開するのがいいんじゃないの?
アーカイブ形式に形式のバージョンを持てないの?
大体、今やWindowsやMac OS Xだって、
UTF-8のパス名持てるんだから、Shift JISのままじゃ困るんじゃないの?
>>380 そこでなぜUTF-16。こういう場合はUTF-8だろう。
lhaは圧縮形式としてlh5, lh6, lh7などが選べたはず。
これが規定するレイヤーによっては、「lh8はUTF-8」という風にも
出来るだろうね。多分やらないだろうけど。
>>381 追記。なぜ「やらない」かというと、lhaは歴史的な経緯では小型の
システム(DOS)で使われてきたし、現在もそういう風に使われている
(マザーボードのBIOSとかね)。ここでUnicodeをサポートために巨大な
変換テーブルを持たせるのは、lhaの方向性にあわないだろう。
そういうのが必要なら、もっと富豪なアルゴリズムを持つ書庫の仕様に
含めればいいのだ。
>>380 > それだとASCIIな人と日本語な人以外は困るから、
日本人以外は使ってないので困らない。
> アーカイブ形式に形式のバージョンを持てないの?
持てません。
>>381 > これが規定するレイヤーによっては、「lh8はUTF-8」という風にも
面白いアイデアだと思うけど、
全く問題無しってわけにもいかないと思うよ。
例えば この新仕様に対応してないバージョンで、
書庫->書庫で圧縮されたファイルコピーする際に
SJIS(元書庫)->EUC(中間処理用)->SJIS(先書庫) みたいな変換
食らった場合、元書庫で UTF-8 使ってると化ける可能性がある。
おっと、382を書いたのは381だ。名前欄は間違い。
>>384 「規定するレイヤー」っていうのは、「lh5, lh6, lh7などが書庫の形式のレイヤーを
規定しているなら」って意味で書いた。でもどうやらファイル一つ一つの圧縮方法
にしかすぎないようだね。というわけで俺の案は没。理由は384の言うとおり。
387 :
( ゚Д゚)<ボクメーツ ◆uhiboKUMEQ :04/03/05 10:17
( ゚Д゚)<呼ばれた気がした
388 :
名無しさん@お腹いっぱい。:04/03/05 20:23
>今現役でSJISつかってるのMSくらいだし。
NTはunicodeだろ。
むしろsjisもjisもeucも無くなれ
uncode以外のコードは要らん
Markus キター。
アイツは頭がオカシイとしか思えん。
388 が欲しいのは
「うんこーど」。
Markus とベクトルは違えど頭がオカシイのです。
>>388 普通のプリンタの内部コードはJISだろ。そうじゃないのもあるのかな?
>>389 Markus KuhnとMarkus Scherer(@IBM)は別人なんだね。混同してた。
Markus Kuhnのいかれたエピソード希望。語ってください。
>>394 >
[email protected]で「UTF-8以外のlocaleを廃止してしまえ。」とか言ってた。
> この人の辞書にはsoft landingという言葉はないと思われ。
なんだその程度か。いいんでない? 俺もそう思ってるし。
「漢字なんて絵文字。使ってる奴らはバカ」くらい言ってるのかと思ってた。
返す返すも中国がうらやましい
>>396 昔の i18n-ML 読めないんだな。
特に 4.0.2 リリースの頃の発言とか、迷言ばかりだったと思うんだが。
> 今は随分状況が改善されてるけど、3年くらい前にこんなこと言われたら
> 正直たまらんですよ。
改善?
本質を理解せずに、国際化・多言語化はとりあえず Unicode にしとけ、
なんて間違った認識が広まりすぎただけだと思うが。
>>396 おー、ありがとう。読んでみた。
まぁ気持ちは分かる。
そもそもターミナルエミュレータは右から左に書くことを想定して作られて
いないんだから、もっとリッチな環境でのみサポートしろってことだよな。
「不合理な宗教的な理由で使われている」っていうのは滅茶苦茶だが。
関係ないけど、縦書きターミナルエミュレータってあるのかなぁ。
mlterm は縦表示できますよ。
>>398 日本語のロケールとしてUTF-8を採用するかという話では
ないのですか
>>401 XUtf8*系のAPIを突っ込もうとしていたときの話。(*1)
つか、UTF-8以外のlocaleを捨てるなら、そもそもそんなものを突っ込む
必要あるのかよと小一時間(ry
*1) 結局4.0.2というマイナーリリースに駆け込みで突っ込まれた。
正直「XFree86のリリースマネージメント終わってるな」と思ったが。
禿げどう
うにこん最強
>>401みたいな的外れなレスが付くあたり、原理主義者の布教は上手く行ったんだろうな。
> 今は随分状況が改善されてるけど、
についてだったんだが
誰か XF86 fork して Xutf8* 消して CSI xterm 入れてくれYO。
>>408 それってまんまOpenI18Nじゃね?
>>409 openi18n.orgって規格団体みたいのじゃないの?
他に同名のがあるの?
>>410 openi18n.orgでXLib-I18Nとitermが開発されている。
XLib-I18NはXFree86のクライアントライブラリのfork。
itermはCSIなターミナルでフレームバッファ版とX11版がある。
debian では xiterm って名前なのか。
今まで探してもなかったわけだ…
それと fbiterm とにわかれてるからなあ。
SJIS2000ってのが有るんだな。
これってどうよ?
>>415 それってJIS X 0213をねじ込んだShift JISのこと?
何年前の話題だ……。
2000つーぐらいだから少なくとも4年以上前?
\
つーかOS Xのクリップボードのテキストはまさに
JISX0213をねじ込んだShift_JISなわけだが
OS X って UTF-8 じゃなかったっけ ?
それともクリップボードだけ Shift JIS なん ?
>>419 JIS X 0213は今年2月に改正されたんで、今後はJIS2004とでも呼ぶのかな?
でもってシフトJIS方式の符号化は Shift_JIS-2004 てな名前になったわけ
ですが。(附属書1)
JISX0213イラネ
まあしかし国内で規格化しておいた方が、
その中の文字がUnicode.orgで採用されやすいし。
>>422 IANAへの登録マダー? (AAry
まず厨房mohtaをどうにかしないと。
登録申請ってRFC2978の手続きに従ってietf-charsetsにメールを投げれば
誰でもできるんじゃないの?
その手続きを踏むこともロクにできなかったmohta氏って・・・
mohtaなんか無視して必要だと思う奴が登録申請すればいいじゃん。
漏れはUnicodeでいいと思うからやらないけど
ねぇねぇ、なんでいつまでも文字コードだけ貧乏くさい発想の元でやってるの?
>>430 貧乏くさい発想ってのは何をさしてるの?
一文字に 32bit なり 64bit なりをババーンと割り当ててしまえってことだろ。
とりあえずおれが今まで書いた文章全部ババーンと変換してよ。
重複符号化や異体字検索のデータベースもババーンと作ってよ
空間だけならISO 10646はすでに31ビットあるし
S−JIS・EUCなんて糞
今後はGB2312だ
大陸でも捨てられたものを使えとは…
ISO 2022もTRONも中国語に関してはGB2312に毛が生えたレベル
1文字64bit固定
1言語につき100,000,000文字分のスペース
後はお好きに
これでどこからも異論の声は上がらない
> これでどこからも異論の声は上がらない
誰も実装しないまま消えていくおかげでな(w
誰も実装できないのか
駄目だな
「たった」47000字くらいのExtension Bすらろくに実装されてないもんな
42711字だった
少しは過去ログ嫁よ。
これだから漢字文化圏の連中は(ry
.
446 :
名無しさん@お腹いっぱい。:04/07/08 23:41
EUC使いたがるプログラマは目的と手段が入れ替わった発想しかできなくなってる
.
451 :
名無しさん@お腹いっぱい。:05/01/17 16:39:56
>>125 ># 中国語だと今度は発音の違いもcollationの対象かぁ(w
ウリナラのKSコードは同じ字体でも発音ごとに違うコードを割り当ててる<丶`∀´>ニダ
そのへんがチョッパリの文字コードやメリケンのユニコードとは違う。
全角チルダ化け何とかしてくれ
>>451 フィッシング詐欺にはもってこいですね
# 実際には統合漢字と正規等価だから使えないけど
あーあと北チョソが、今のUnicodeのハングルの並びは科学的じゃないから
より合理的なウリナラの配列に変更するニダとか超愉快な要求も出してたなあ。
もちろん却下されたけど
455 :
名無しさん@お腹いっぱい。:2005/07/14(木) 11:55:46
保守
nihonjin kanji tukauna!
hirakana katakana only.
The great country is China!
KPS9566にすりゃいいじゃん
( ゚∀゚)アハハ八八ノヽノヽノヽノ \ / \ / \ / \ / \ / \
459 :
名無しさん@お腹いっぱい。:2006/05/24(水) 19:48:34
460 :
ISO2022原理主義者:2006/05/29(月) 18:21:43
UTFやめてiso-2022-jp-*復活希望。
UNICODEの文字セットも呼出せるESCシーケンスも定義すれば良い。
>>460 すでにあるんだけど...ちゃんと仕様書読みな。
コーラン読まないイスラム原理主義者はただのDQNテロリストだよん。
共産党員は全員共産党宣言だのなんだのを読んでるんだよもん?
どこがどう頭悪そうか書かない奴も同程度。
465 :
名無しさん@お腹いっぱい。:2006/06/02(金) 16:52:15
>>438 人類の生活圏が全宇宙に広がった頃には足りなくなります
2ちゃんねるって SJIS だよな。
てか、Windows-31j かな。
467 :
名無しさん@お腹いっぱい。:2006/06/09(金) 02:35:13
SJISって嫌われてるの?
自作printf作った時は2byte文字コードが追っかけやすくて便利だった記憶があるんだけど?
0x5cが2byte文字中に入る時点で嫌だ。
つうか、Unicode でいいじゃん
だから、SJISを撲滅するんだろ?
UTF-8/UTF-16/UTF-32
があるのだから
UTF-64が出てもおかしくないな。
SJIS撲殺天使
UTF-65536
UTF-37564
476 :
名無しさん@お腹いっぱい。:2008/04/01(火) 23:40:15
まあまあ、そうあわてなさんな。
今にSJISを拡張して、4バイトコードにするから。
エスケープシーケンスの候補は 0xFD, 0xFE, 0xFF。
エスケープシーケンスって何
キーボードで入力できないの?
もう、日本語禁止な!><;
479 :
名無しさん@お腹いっぱい。:2008/04/12(土) 20:22:59
おいおい、エスケープシーケンスも知らずにマルチバイト文字の話かよ。
まったくゆとり教育ってやつぁ...
480 :
名無しさん@お腹いっぱい。:2008/04/26(土) 12:20:47
SJIS 2.0 スペック
0xFD [0xA1-0xFC] [0xA1-0xFC]
0xFE [0xA1-0xFC] [0xA1-0xFC] [0xA1-0xFC]
0xFF [0xA1-0xFC] [0xA1-0xFC] [0xA1-0xFC] [0xA1-0xFC]
を基本路線とし、2バイト目に 0x5C が入らないようにする
まずはSJISを撲滅する。話はそれからだ
eyeD3 --help | grep "\--set-encoding"
--set-encoding=latin1|utf8|utf16-BE|utf16-LE
ざまあ
>>482 eyeD3だからだろ...常識的に考えて。
どうせSJIS突っ込む奴は latin1 に突っ込むし。
484 :
名無しさん@お腹いっぱい。:2008/07/13(日) 22:27:05
>>481 ほぉう、それをSJISで書くのか君は。
ス、ヲ、ハ、ホ、ォ?サタキ、ヒMozilla1.7b、ホハクサ・ウ。シ・ノタ゚ト熙TF-8、ヒ、ケ、□ネクタ、ヲヒスオヒスミ、ニ、゚、□」
、ヌ、□、チ、网タ、ネ。ヨSJIS、ヌチテ、ニ、ッ、タ、オ、、。ラ、テ、ニ・ィ・鬘シ、ヒ、ハ、□ク、网ハ、、?
(、ヒ、キ、ニ、篦セ、ャイス、ア、ケ、ョ、ニクォカ□キ、ケ、ョ、□ト)
486 :
名無しさん@お腹いっぱい。:2008/07/22(火) 21:56:14
タイ語だのBiDiだので苦労している人達から見れば、
0x5cがどうの、包摂がどうのなんてあまりに贅沢な悩みだろ。
Markus Kuhnが
>>396みたいなことを言い出すのも非常にうなずける。
ヨーロッパ人もMとiが同じ幅になるとかハイフネーション出来ないとかを
我慢しながら使っているわけだし。
488 :
名無しさん@お腹いっぱい。:2008/08/04(月) 21:29:09
SJISっていつの時代も現実解でいいよね
489 :
名無しさん@お腹いっぱい。:2008/08/08(金) 03:43:43
>>487 すまそ。Mとiが同じ幅になることとSJIS(ないしSJIS撲滅運動)
との関係が分からんが、SJIS万歳でOK?
490 :
名無しさん@お腹いっぱい。:2008/08/08(金) 07:10:06
いまさら文字コードなんか気にする必要ないじゃーん
>>487 > ヨーロッパ人もMとiが同じ幅になるとかハイフネーション出来ないとかを
> 我慢しながら使っているわけだし。
1950年代にタイムスリップかよ
もしかしてヨーロッパ人は今でもダム端使って、2chとかみてんの?
493 :
名無しさん@お腹いっぱい。:2010/01/31(日) 14:50:00
文字コードの問題は今後30年たっても解決していない。
文字コードはさらに増えるね
495 :
名無しさん@お腹いっぱい。:2010/02/07(日) 16:28:12
世界の文字コードを統一することに失敗したので、今度は
世界中の単語に統一したコードを振ってみるのはどうだろう?
もちろん同じ意味の単語に同じ値を割り振るわけだ。
多義語の場合はどういう意味で使っているのかを選択する
必要がある。多義語は多値になることもある。
今度は最初から32ビットでいくけどいいよね?
PSOのワードセレクトみたいなものだね
日常で使う単語なら32ビットもあれば十分だろうね
16x16のイメージととみなした256ビットをそのままコードにして必要な時は
on the flyでOCR処理しよう。これで全て解決。
非字形文字はどうすんの?
非図形だった。
制御文字とか各種スペース類とか。
16x16 で全ての文字が表せると思っている時点で
16ビットもあれば充分と思ってたのと同程度
501 :
名無しさん@お腹いっぱい。:2010/02/17(水) 00:57:45
>>497 で、そのやり方の場合、OCR 結果は何コードにするの?
# まるでうちの社長レベルだな
503 :
名無しさん@お腹いっぱい。:2010/03/20(土) 22:15:41
撲滅マダー
505 :
名無しさん@お腹いっぱい。:2010/05/23(日) 03:24:10
>>495 lojban の1200の基礎語彙のことか.
lojban:
・文化的に中立の人工言語
・語彙は1200の語根の合成語としていくらでも拡張できる
・同音異義語が存在しえないよう構成されている
いいアイディアをもらった.
506 :
名無しさん@お腹いっぱい。:2010/09/26(日) 21:31:38
撲滅マダー
大手プロバイダのトップページは大多数がshift_jisだね。
まだまだ安泰だ。
ちなみにyahooはトップはutf-8に変えたけど、
その他ほとんどのページやwebメールはeuc_jpのまま。
撲滅されそうにないな
510 :
名無しさん@お腹いっぱい。:2013/04/13(土) 02:48:10.27
UnicodeでもUTF-16は廃止してもいいと思うな。
UTF-16はUCS-4に置き換えたほうがいい。
合成文字あれば、UTF-32(UCS-4)でも64bit以上必要になるぜ?
正規化すると64bitでも足りないということか
半角カナさえ無ければSJISも出てこなかった
515 :
名無しさん@お腹いっぱい。:2015/02/16(月) 07:37:16.99
今日すごいのかなー。1000円へ
よく歴史を知らないんだが、SJISが初期の頃にすぐさま圧倒的シェア取ったのに、
なんでUNIXではEUCに固執した馬鹿たちが大勢いたの?
ほぼ無改造で大半のソフトが動いたから。SJISはそうはいかなかった。
昔の人は日本語テキストを英語しか想定してないソフトで処理しようとしたのか。
今も昔も日本のUinxerは自分でコードが書けないんだな。
しかしsendmailみたいな8ビット目を落とすソフトウェアまで出てきたりして、
ISO-2022-JPを制定してメールはそちらを使うようになった。
結果として多くの日本語を扱うソフトは3種類のエンコーディングをサポート
する羽目になった。
今はそれに加えてUTF-8もあるし大変だ。
Sendmailが悪いわけじゃないし
「8ビット目を落とすソフトウェアが出てきた」わけじゃない。
7ビットがデフォルトだったところに
8ビットも使えるソフトウェアが出てきた。
それに比べてとMSの対応は素晴らしい。
早期にOS内部はunicodeで統一し、APIを二つ用意して、マクロでラップ。
あらゆる言語をターゲットにしてたOSだけはあるな。