【社会】ウェブサイトの60%以上がすでにUnicodeに
米Googleは3日(現地時間)、公式ブログでウェブ上で使われている文字コードについての
調査結果を発表した。世界共通のコードであるUnicodeが急速に普及していることがわかった。
コンピューターでは文字にコードを割り当てて管理、表現している。このコードはそれぞれの
言語圏で独自に作成されたため整合性、互換性がなかった。インターネットが普及すると
統一されていない文字コードはトラブルを引き起こし、いわゆる文字化けの大きな原因となった。
Unicodeは全世界の文字を単一の規格にまとめたもので、1980年代に誕生した。
つまりインターネットの普及以前だが、当初はほとんど使用されなかった。
今回のGoogleの発表によれば、2001年にはほとんど0%だったUnicodeが少しずつ
使われるようになり、2005年ごろからは急速にU普及している。入れ替わるように
それまでもっとも多かったASCIIが減少している。
日本で長らく主流だったシフトJISは緩やかに減少傾向にあり、日本語のウェブサイトでも
Unicodeが使われることが増えている。
*+*+ RBB Today +*+*
http://www.rbbtoday.com/article/2012/02/04/85950.html
2 :
名無しさん@12周年:2012/02/05(日) 06:39:41.68 ID:ZE3ekzo20
U普及しちゃいなよ
生理
4 :
名無しさん@12周年:2012/02/05(日) 06:43:38.95 ID:FJ44q1zj0
文字コードには泣かされたわ。
何も知らずに使ってた
> 日本で長らく主流だったシフトJIS
ていうかシフトJISはやめとけって (´・ω・`)
Shift-JISとかEUC-JPとか、何の冗談かとw
8 :
名無しさん@12周年:2012/02/05(日) 06:55:50.88 ID:B2RyP4lj0
ウニコードって朝鮮人がハングルを全部割り当てろってゴネて頓挫しかけたんだよな
ハングルってひらがな程度の文字数かと思いきや漢字並みに多い
人口が少ないのに文字が多くてじゃま、とても迷惑な話
9 :
名無しさん@12周年:2012/02/05(日) 06:57:12.77 ID:WdNPAIC80
シフト使ってるわ
ユニに変えるわ
日本以外の国の話だろw
11 :
名無しさん@12周年:2012/02/05(日) 07:01:42.37 ID:4109gNzQ0
日本ではホームページビルダーのせいで8割がシフトJISだな。
12 :
熊襲:2012/02/05(日) 07:03:10.64 ID:6Jal6MSY0
データ移行の時、漢字処理には泣かされた。
13 :
名無しさん@12周年:2012/02/05(日) 07:04:11.14 ID:B2RyP4lj0
朝鮮が消滅すれば、ハングルの広大なエリアを特殊文字に使える
顔文字だったり〠⇔♬みたいなマークだったり
それでインターネットの世界はどんだけ豊かになれるか
つまりどんだけ朝鮮人が邪魔かって話
14 :
名無しさん@12周年:2012/02/05(日) 07:04:25.93 ID:wMIyun4t0
UTF-8ってなに??
15 :
名無しさん@12周年:2012/02/05(日) 07:05:41.19 ID:OAj/yZaj0
>>11 俺が使ってるDreamweaver8もデフォはshift_jisだよ
まともなスプリクトはunicodeで書かれてる時代だしな。
XML関連の国際化がSJISに付き合ってくれないので
19 :
名無しさん@12周年:2012/02/05(日) 07:09:10.08 ID:B2RyP4lj0
MSが推進してたUnicodeは2バイトで256x256文字が割り当て可能だが
それで世界の文字が収まったのか?
20 :
名無しさん@12周年:2012/02/05(日) 07:10:10.68 ID:/6W23kf70
とにかくEUC-JPはやめてほしいわ
なんでペパボはEUC-JPなんだよアホか
23 :
名無しさん@12周年:2012/02/05(日) 07:16:30.58 ID:/6W23kf70
もうwebは全部UTF-8にしてしまえや
>>21 そうなのかありがd
移行しちゃえばいいのにとか思っちゃうわけだけど
そーゆーとこはいろいろ面倒な理由あるんだろうなあ
(´・∀・`)ヘー遭難
日本語限定だと60パーなんて到底いってないだろうな。
4バイト固定のほうが扱いやすいよ
なんでエンコード規格て乱立したの?
29 :
名無しさん@12周年:2012/02/05(日) 07:28:57.31 ID:B2RyP4lj0
ここはシフトJISだった
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<base href="
http://uni.2ch.net/newsplus/">
<title>【社会】ウェブサイトの60%以上がすでにUnicodeに</title>
blogやhtml作成ソフトのデフォルトがUnicodeなのが多いから増えただけで、意識して使ってるわけじゃないだろw
ユニコード戦記、読んでみようかな
32 :
名無しさん@12周年:2012/02/05(日) 07:31:11.03 ID:XHoJKCxL0
33 :
名無しさん@12周年:2012/02/05(日) 07:31:53.38 ID:CofLR6W10
情弱&ネット素人メーカーのMS(笑)がIEの日本語デフォをおかしなShift-JISエンコードに
してばらまいたおかげで大迷惑だったよな。はやくつぶれろよ
高槓い
>>30 俺もWordPressがきっかけでUTF-8に移行したしな
まあそれ以前からShiftJISはいろいろ面倒だったけど
そういう点では別に移行先はEUCでもよかった
どっちにしてもShiftJISの面倒臭さを意識しなくていいのは楽
懐かしの文字コード論争
ユニコーンに見えた
もうだめかもわからんね
>>14 数多い文字の中で、人気投票で常にトップ8に入る8文字の事じゃ?
最初からutf8で作ればそれで面倒無くて一番いい。
問題はすでに糞codeで作ってあるものの修正なんだよね。
一方2chは、、、
ハングルで約5千字を要求てw
バ韓国はほっといて漢字っていくつあるの?簡体字も含めて。
>>33 マイクロソフトはマウスやキーボード、各種ゲームデバイスといった
ハードウェア作るのを得意とする会社だからな
頼むからTrackball Explorer再販してください (´・ω・`)
44 :
名無しさん@12周年:2012/02/05(日) 08:24:37.45 ID:NArDI/EA0
まだ6割なのか
思ったより少ないな
UTF-8でなくてUnicodeが主流になってるの?
いい迷惑だわ、、、
46 :
名無しさん@12周年:2012/02/05(日) 08:36:28.15 ID:h8gOWOHGO
unko
何も知らんから解説しとくれ
>>47 VHSだと思って買ったらβだった、みたいな話。
シフトJISでサイト作ってるけど特に困ってない
DBごとUTFに移行とかめんどくさくてたまらん。
50 :
名無しさん@12周年:2012/02/05(日) 08:45:12.51 ID:nzpkXPrM0
ユニコードのハイフンがなんともいやらしい感じ。
UnicodeとUTF-8って同じものなの?
53 :
名無しさん@12周年:2012/02/05(日) 08:55:18.55 ID:XS5HyN7i0
Unicodeは文字集合とコードの規格。
UTF-8はそれをテキストなどにするためにバイト列にするための規格。
なるほど。このスレ読んでもさっぱりわからん。
> 日本で長らく主流だったシフトJIS
ネットではJISを使えっていう話になってたような記憶があるけど。
Shift-JISとかのページで文字化けすると、舌打ちしてた。
jisじゃなくてeucじゃろ
今だメールは、UNICODEダメだよね。間違えて送ると、怒られたりする。
>>53 うーん、わかるようなわからんような……。
UTF-8でもUTF-9でも、表現できる文字の種類は変わらないけど、
その文字に割り振られてるコードはUTF-8とUTF-9で異なる、ってことなのかな?
文字のコードはあくまでも一種類。
でもそのコードの最大値が16bit(つまり2byte)を超えていて、
そのままコンピュータで扱うと今まで1byteで扱えていたアルファベットが
例えば4byteになり、メモリ的にすごい非効率になってしまう。
だからエンコーディングという考え方で、そのコード値をbitで分割し
そのコード値を最小のbyte数で扱えるようにしたのがUTF-8。
で、値を読む時はbyte単位にバラされている値を取り出して結合する。
ただ、アルファベットが1byteで扱えるようになるけど、漢字とかは逆に
Shift-JISの2byteから3byteに増えてしまうという欠点がUTF-8にはある。
それに対して、2byteを最小単位として扱うようにしているのがUTF-16。
これなら漢字もほとんど2byteで扱えるんだけど、アルファベットとかも
2byteサイズになってしまうという欠点がある。
ちなみにWindowsの内部コードはUTF-16。
>>58 だいたいそんな感じ。
どんな形で1文字を分割するかの違いみたいな?
けどutf-9はさすがにマイナーすぎw
ふつうの2バイトコードはutf16です。
UTF-8とは一体なんだったのか
要するに、UTF-8だとかUTF-16だとかをひっくるめてUnicode
と読んでいると思えば良い。
63 :
名無しさん@12周年:2012/02/05(日) 10:24:56.35 ID:+jHvHsQC0
ただ単に鯖が64bitに移行しまくった結果だろ。
あとMS鯖がそれほど実数で普及してないって証明だな。
ホームページビルダ??
んなもん日本限定の局地的な商品だ。
UTF-8だの16だのと、あの辺りも何とかして欲しい。
>>58 極論だが。
UTF-8はファイル上のバイトの並べ方のルール、Unicodeはプログラム内部の文字列の表現方法。
実際には全然違うけどねw
>>63 いや、サーバーの種類とかbit数は全然関係ないよ。
MSのサーバーも昔からUnicodeだし。
Webの世界での単なる取り決めみたいなもの。
昔は国内だけで使えれば良かったのが、グローバル化で全世界の
文字を同時に扱える必要が出てきたからということ。
67 :
名無しさん@12周年:2012/02/05(日) 10:46:29.25 ID:lx/E5CMw0
これから作業環境一新
これ絡みでゴタつくんだろうな…
69 :
名無しさん@12周年:2012/02/05(日) 10:53:14.79 ID:CofLR6W10
>>66 >MSのサーバーも昔からUnicodeだし。
ワロタw
70 :
名無しさん@12周年:2012/02/05(日) 11:07:07.98 ID:/YlBfT2O0
UTF-48
企業にとっては古い規格は邪魔なんだよな
アップルとか売れてる製品にバグでも仕込んで古いコード体系だと
文字化けするように仕組んで駆逐するのが一番
俺の頭のバーコード比率と同じくらいだな
普及拡大の時期も大体同じ。なんか親近感湧くな
73 :
名無しさん@12周年:2012/02/05(日) 11:34:24.59 ID:PU7/JHfe0
Unicodeの入力支援はもう少しなされていい。
せっかくあるハートとかスペードとか、肝心の入力方法が分からん(´・ω・`)
いまどきShift_JISやEUC-JPを見るとしょぼいweb制作業者がいるんだなあと思ってしまう
75 :
名無しさん@12周年:2012/02/05(日) 11:43:00.04 ID:dswJucIl0
まだShift_JISがなくならないのは
一部Windowsソフトと古いガラケーのせいだろう
これらが更新されていけば、ようやく日本語環境が統一されるはず
古いホームページをiPhoneから見ると文字化けするのが困る
ウニコデか
アレうまいよな
最近の味障にはわからないツウの味
ハリコの虎に謝れ!
79 :
名無しさん@12周年:2012/02/05(日) 11:49:09.00 ID:+jHvHsQC0
文字化けするのは製作者側の問題
EUC-JPだろうがShift_jisだろうが関係ない。
80 :
名無しさん@12周年:2012/02/05(日) 11:51:10.63 ID:dswJucIl0
>>76 <meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
昔は、この記述を怠っているページが多かったからね
Safari系のブラウザは、これがないと文字化けしやすい
81 :
名無しさん@12周年:2012/02/05(日) 11:53:22.12 ID:APXa1vao0
webが中国語-英語混在、日本語-英語混在、韓国語-英語混在しかできなくて、全て
英語を通さなければできないようになっていたものだから、この間にかなりアメリカに
リードを取られたな
ユニコード化でやっとアジア各国語混在ができるようになったが、長い間ユニコードに
対応しなかったIBMホームページビルダーの罪は大きい
歴史の中で、Javaが標準で Unicodeだったのが一番大きいと思うけど。
そのせいで最初はMS932系の問題で苦労することがたくさんあったけど、
今は文字コードの変換処理が稀になり、ずいぶん助かっている。
UTF-8 で表示して、DBにもUTF-8 で保存して、ユーザにメール投げるときも
UTF-8 。 考慮しないといけないのは古いガラケーと InternetExplorerだけ。
IE っていまだにシステム言語に依存している部分があるのよね・・。
EUC-JPでサイト作っているところって何なの?って感じ。
fj時代の U*IX信者が幅を利かせているのか?
あんただよ、 mixi!!
84 :
名無しさん@12周年:2012/02/05(日) 12:00:48.56 ID:8LjSWgGj0
RFCの成果かな。
やっとUnicodeで統一できたのはいいけど、
今度はUTF-8とUTF-16で混乱する予感。
86 :
名無しさん@12周年:2012/02/05(日) 12:41:16.15 ID:APXa1vao0
>>85 今後、宇宙人が参入して来ることを考えればUTF-16にしておいたほうが無難だな
windowsではUTF16がUNICODEです。
つまりUTF8は、MS非公認。
自宅鯖はUTF-8だ。
89 :
名無しさん@12周年:2012/02/05(日) 12:53:51.03 ID:fU+2FhCB0
>>87 鯖系はMSなんて鼻クソだから公認だろうが非公認だろうが無視していい。
影響あるのはapacheのデフォ設定がどうなってるか
90 :
名無しさん@12周年:2012/02/05(日) 13:19:20.45 ID:PCdOEmn50
上のほうでも出てるが
ハングルの割り当て範囲はハングル字母(U+1100-11FF)とハングル音節文字(U+AC00-D7A3)
約11,000件、しかも通常使わない文字が多数
やっぱチョン氏ね
俺はUnicode、Shift-JIS、EUCは絶対に使わない。
UTF-8を使う。
92 :
名無しさん@12周年:2012/02/05(日) 13:23:32.57 ID:jy+vdu8D0
exact audio creatorでUNICODE文字使って曲名入力すると、
できたcueシートがエラーを起こす・・・。
どうすればいいんでしょうか?
93 :
名無しさん@12周年:2012/02/05(日) 13:23:49.41 ID:PU7/JHfe0
超漢字とUnicodeってどうコンセプトが異なるの?
sjis、euc廃れろ
WEBサイト以外も全部統一しろよ
95 :
名無しさん@12周年:2012/02/05(日) 13:25:47.33 ID:d5JSVP8I0
>>92 Unicodeは使わないで、UTF-8を使えば良いよ。
何を隠そう、Unicodeはダメダメだよ。
96 :
名無しさん@12周年:2012/02/05(日) 13:28:53.73 ID:PCdOEmn50
UTF-8だとU+0800から先が3Bytes区間なんだよな
ここにかな文字でも入れてもらえてれば・・・
97 :
名無しさん@12周年:2012/02/05(日) 13:29:08.80 ID:rE6PBAXh0
ÆON
98 :
名無しさん@12周年:2012/02/05(日) 13:29:53.86 ID:UM9MutsKO
>>90 長音記号付きのAIUEOがJISコードに無いせいで、日本語のローマ字表記がガタガタになったことを考えると、あちらの主張も分からんではない。
99 :
名無しさん@12周年:2012/02/05(日) 13:31:30.91 ID:APXa1vao0
>>95 なんで同じ文字、例えば産→產、内→內、呉→吳、みたいに同じ文字なのに
違うユニコードが割り当てられてるのよ?
香港人の意見、しっかり取り入れてる?
100 :
名無しさん@12周年:2012/02/05(日) 13:32:10.89 ID:bW0afEsB0
もうUnicodeに統一させろよ
そのほうがみんな幸せ
101 :
名無しさん@12周年:2012/02/05(日) 13:33:10.71 ID:OIiBSZH70
1F4A9
102 :
名無しさん@12周年:2012/02/05(日) 13:33:18.51 ID:d5JSVP8I0
>>100 やめろよ。
UTF-8に統一した方が良い。
何故なら、俺が面倒だから。
103 :
名無しさん@12周年:2012/02/05(日) 13:33:38.67 ID:PCdOEmn50
罫線とか記号類も重複してるのがあった気がするな
後から変更されても鬱陶しいだけだが
104 :
名無しさん@12周年:2012/02/05(日) 13:33:43.03 ID:RZwKrRTd0
SJISは2バイト、UTF-8は3バイトな。
日本語と英数字だけならSJISの方がいい。
105 :
名無しさん@12周年:2012/02/05(日) 13:34:16.69 ID:lrmaNmxF0
規格はいろいろ有った方が何かと便利。
Unicode(UTF-8)
日本語(EUC)
日本語(SHIFT-JIS)
ナオトインティライミ(singer)
コーカサスオオカブト(beetle)
未婚女性(Mademoiselle)
南国の海(shiny blue)
106 :
名無しさん@12周年:2012/02/05(日) 13:36:14.87 ID:PCdOEmn50
さっきからUnicodeはダメ!UTF-8が最高!みたいなのがいるが
>>53 >>59 あたりを理解しているのか
暗黙でUnicode=UTF-16と言ってるのか分からんなw
>>105 UTF-8って、Unicodeなの?
別物かと思ってたよ。
俺はWebクリエイターだけど、UTF-8しか使っていないからな。
下手に ascii にこだわって &piv. とか書くより
文字一覧から ϖ を持ってきて utf-8 にするほうが楽だし
保守しやすいよね。
unicodeだと、2byte系のテキストが入った文字列を
自作関数で操作したり検索するの大変だろうな
流石にそんな物好きは居ないだろうし、大概は
なにがしかのライブラリを使うんだろうけど
新旧プログラムが混在するシステムだと簡単にUNICODEに移行できんし
111 :
名無しさん@12周年:2012/02/05(日) 13:39:42.07 ID:R/n5Us9I0
わかりやすいUnicodeとUTF-8のちがい
Unicode≒無職を細かく定義
家事見習い(28)
自称ネットトーレーダー(32)
穀潰し(38)
アルバイト探してるフリ(19)
UTF-8≒どうせ無職だから「ニート」で置き換えろよ。効率的だし。
ニート(28)
ニート(32)
ニート(38)
ニート(19)
112 :
名無しさん@12周年:2012/02/05(日) 13:40:16.00 ID:H34ZliCq0
ガラケーサイトが4割もあるってことか。
詳しいこたぁ知らんけど、いい加減、全角数字とか半角カタカナ使うのやめてほしい。
住所入力とかで、いちいち「全角で入力してください」って、何なん。
百歩譲って、それくらい自動変換できんの?
みんな難しい話してんな〜。
さっぱりだわ。
115 :
名無しさん@12周年:2012/02/05(日) 13:40:42.39 ID:8Qomymbk0
これからは8ではなくUTF-16の時代だ。これなら間違いない。
ただ、2chの顔文字がShift_Jisでないと作れないし、UTF-8で表示出来ないのが問題だ。
>>109 正規化の問題やら異体字セレクタやらいろいろあるからね。
自作は本腰入れてやらないと不可能な気がする
117 :
名無しさん@12周年:2012/02/05(日) 13:42:45.83 ID:uFa0g1qZ0
ウニコード使ってないサイトがあるけど苦情こないのかな
>>111 UTF-8の方が単純でいいな。
そんな細かく分類する必要なんてない。
気にする奴は、うんこだよ。
119 :
名無しさん@12周年:2012/02/05(日) 13:43:09.01 ID:APXa1vao0
>>110 古いシステムのほうをバーチャルな環境で包んで、その表からデータのやりとりすれば
解決できると思うけど
120 :
名無しさん@12周年:2012/02/05(日) 13:45:41.62 ID:/dza8IB90
バックスラッシュの位置に\があるのは混乱の元だと思う( ´・ω・`)
ディレクトリ構造もバックスラッシュなら直感的にわかるのに\だとよくわからん
121 :
名無しさん@12周年:2012/02/05(日) 13:46:00.27 ID:PCdOEmn50
Windowsなら.NETのSystem.Encodingだか使えば好きに変換できるな
UTF-8はUnicodeだろ。
Unicodeというくくりの中に符号化のやり方としてUTFなんちゃらがある。
win7対応とは基本的にunicode対応を指すな
ここで投資ケチるとXPから永遠に逃れられなくなる
といいつつ、今の所、慌ててるのは
早々とvista対応やっちまった所だったりする
124 :
105:2012/02/05(日) 13:48:08.37 ID:lrmaNmxF0
>>107 世界を一軒家に例えると
Unicode=家主
UTF-8=Unicodeさんちの居候的な
125 :
名無しさん@12周年:2012/02/05(日) 13:48:15.35 ID:cN6F6l3d0
¥\
うむ。
126 :
名無しさん@12周年:2012/02/05(日) 13:49:04.14 ID:APXa1vao0
127 :
名無しさん@12周年:2012/02/05(日) 13:49:44.31 ID:ie+gQAKT0
UTF-16は大丈夫だけどUTF-8は読めないのまだまだありそう
たぶんテキストエディタはよほど糞でない限り大丈夫だろうけどね
10年前くらいのテキストエディタはShift-JISしか駄目なのがよくあった
なんで最初からunicode使わなかったんだろ
sjisやeucのせいでどんだけ無駄な金と時間が
使われたと思ってんだよ・・・
>>126 いや糞とかじゃなく
もうすぐサポ終了(2012年4月)なだけ
って気が付いたら後、2か月もないじゃん!
w
130 :
名無しさん@12周年:2012/02/05(日) 13:54:26.69 ID:APXa1vao0
>>120 俺のPCはバックスラッシュを押すと\が出る
キーボードにはㄅㄆㄇㄈが書いてあるし
131 :
名無しさん@12周年:2012/02/05(日) 13:54:33.81 ID:PCdOEmn50
フリーウェアのWindowsテキストエディタだと、Unicodeに対応してても
日本語文字しかまともに扱えないとか制限あるのばっかりでダメダメだ
なにかオススメありませんかね?
132 :
105:2012/02/05(日) 13:54:48.06 ID:lrmaNmxF0
>>128 小僧ニャ解らんかもしれんが
昔は、カセットテープに情報を記録してた時代があってなァ
133 :
名無しさん@12周年:2012/02/05(日) 13:55:06.78 ID:/dza8IB90
Shift-JISって富士通が出してたキーボードの事だっけ?( ´・ω・`)
134 :
名無しさん@12周年:2012/02/05(日) 13:56:33.80 ID:ie+gQAKT0
>>128 下位互換を確保しろと言って下位互換ばかり気にした結果
8bit時代の負の遺産を引きずってしまった
未だにWindowsが32bitの遺産に引きずられているのと同じ
そういう意味ではPS2互換を捨てたPS3の選択は将来的には正しかったかもしれんが
戦略を少々ミスった感があるな
DSもこれから下位互換のせいで苦しめられると思うよ
135 :
名無しさん@12周年:2012/02/05(日) 13:57:31.37 ID:cN6F6l3d0
動画もいろんなcodecが出ているよねえ。
utf8の方がメジャーだよな。
なんでM$は一部のutf16だけがunicodeだと主張するんだ
windowsの内部で使われていうるのはわかるけどさ
undefinedかと思った
でもメールは未だにSJISが主体なんだよな。
ほとんどのメーラーはUTF-8に対応しているが、ガラケーだのはSJISじゃないと文字化けする。
139 :
忍法帖【Lv=40,xxxPT】 PedoBear ◆58UuJcnaMg :2012/02/05(日) 13:59:50.22 ID:JcwZg7F4O
140 :
名無しさん@12周年:2012/02/05(日) 14:00:03.53 ID:/dza8IB90
>>135 圧縮形式もまとめて欲しいよね。
海外のサイトでダウンロードしようとしたら、圧縮がrarで、しかも分割ファイルだったりしたらぶっ殺したくなるよね( ´・ω・`)
日本人にだけ分かればいい時はS-JISのままでいいってことか?
>>138 下手すると文字化けで
自動メールが送れなくなるとか
業務に深刻な影響もたらすからなあ
気づいてる人達は
きちんと対応してるだろうけどさ
昔はメールでもコードの指定ミスで文字バケしてたりしたら
「ハングルwww」と言って笑ってたんだが
ハングルを内包したUnicodeが既に主体になってたのか
144 :
名無しさん@12周年:2012/02/05(日) 14:03:35.56 ID:1FflCzHq0
>>87 サーバーではMSは完全に敗北してるから問題なし。
Windows ServerでHPを立てるのは脆弱過ぎて後々怖い。
145 :
名無しさん@12周年:2012/02/05(日) 14:04:37.77 ID:/dza8IB90
よくわからんがUnicodeとやらで書いてあるサイトなら、外人さんにもAAが正しく理解してもらえるって事でいいのかな?
146 :
名無しさん@12周年:2012/02/05(日) 14:04:41.61 ID:hv905x2+0
アメリカ人ってÆONとかΩとかってどうやって入力してるの?IMEモードONとか無いんでしょ?
原則、ウニコードですw
UTF−8 BOMなしが基本です
148 :
名無しさん@12周年:2012/02/05(日) 14:08:24.39 ID:QklplcIQ0
EBCDICコードにすればいいんだよ。
パンチカードの穿孔で直接読めるし。
149 :
名無しさん@12周年:2012/02/05(日) 14:10:51.82 ID:APXa1vao0
>>132 そんで300ボーだとか、1200ボー最強だとか言い争ってるうちに、2700ボーが
搭乗して他討ち死に〜、って時代のこと?
PCからの命令で動くデータレコーダが面白かったな
150 :
名無しさん@12周年:2012/02/05(日) 14:13:20.06 ID:vyioqugB0
151 :
名無しさん@12周年:2012/02/05(日) 14:17:50.24 ID:APXa1vao0
>>148 パンチカードかよ
ずいぶんと新しいもの使ってたな
俺は紙テープで読ませてた
紙テープでパンチカードリーダー立ち上げて、パンチカードでテープローダー立ち上げて、
それでローダー読み込むとやっとハードディスクが立ち上がる
>55
間に7bitの串が挟まると文字化けするから
154 :
名無しさん@12周年:2012/02/05(日) 14:30:51.99 ID:PCdOEmn50
侮ヲw
雲丹code
よし、ここはあえてUCS-2を使うぞ^^
次からはUnicodeで作るかなあ。今はEUCだけど。
>>149 ダブルラジカセがほしくてたまらなかったな
プログラム側からだと、何文字あるのか調べるのが面倒なんだよな。
test
>>136 > utf8の方がメジャーだよな。
> なんでM$は一部のutf16だけがunicodeだと主張するんだ
> windowsの内部で使われていうるのはわかるけどさ
何を根拠にそんな事言ってるの?
Win7のメモ帳だってUTF-8に対応しているというのに。
「MSは悪の組織」ってステマやってるところがあるらしいよ
ナードなんて簡単に騙されるからちょろいね
164 :
名無しさん@12周年:2012/02/05(日) 16:36:11.68 ID:ZcIvg3JK0
4バイト固定の文字コードでいいよ。
世界で43億文字あれば足りるだろ。
で、Shift-Jisとかの既存の文字コードとの間で簡単に変換できるように
してほしい。
UTF-8はもともとPlan9開発でできた副産物だからね。
初期のUnicodeには含まれていなかった。
初期のUnicodeは16bit固定(今で言うUCS-2 )、文字の数が足りなかったという
大きな問題があるが、凄くシンプルな仕組みだったんだよ。
その時、いち早くUnicodeに対応したのが、Windows NTやJava
当時はそれしか世の中に存在しなかったのだから仕方ない。
Plan9はなぜUTF-8なんてものを作ったのかというと、
Unicode(16bit)はC言語及びC言語で作られたライブラリと相性が悪かったから。
C言語では特定の1バイトコード(0x00や\)を特殊文字として扱うが、16bitのUnicodeでは
2バイトコードの1バイトに0x00や\が含まれる。つまり、既存のライブラリ全部作り直しということになる。
最初からUnicode対応として作られたWindowsやJavaとは違い、
コストが大きく掛かることになる。これはPlan9だけではなくUnixやLinuxも同じで
現にLinuxはいろんな文字コードに対応しているが、UTF-8以外のUnicodeには対応できない。
一方WindowsやJavaの世界ではUCS-2では文字が足りなくなったため、それを拡張したUTF-16に移行した。
166 :
名無しさん@12周年:2012/02/05(日) 16:40:54.88 ID:oON2/OnT0
/人◕‿‿◕人\<「2ちゃんねるはUnicodeが有効な板と無効な板があるみたいだね
有効な板じゃないと、僕の顔文字が文字化けして使えなくなってしまう
どうして全部の板で有効にしないのか、わけがわからないよ」
>>164 > 4バイト固定の文字コードでいいよ。
4バイト固定の文字コード(UTF-32)はシンプルなんだが
1文字の間に0x00や\が入るという問題がある。
UnixやLinux関係ではライブラリ全て見なおさなきゃならない。
対応は非現実的だろう。
> で、Shift-Jisとかの既存の文字コードとの間で簡単に変換できるように
> してほしい。
対応表がある。それにて変換すれば良い。
何の計算もいらないすごく単純な変換の仕組みだ。
ガラケーはまだsjisメインなの?
昔はpcサイトとガラケーサイトを
同じサーバでphpで動かしてて、
UAで文字コード変換のフィルタをやってたけど、
最近の動向がよくわからない
超漢字でいこうぜ
170 :
名無しさん@12周年:2012/02/05(日) 16:49:01.20 ID:8Z/IyM4T0
UNICODEでもUTF-8でもなんでもいいからとにかく統一しろ
文字化けでうなされんのはもう嫌だ
文字化けさせてる奴のページは、見る価値もない。
はっきり言って、カス。
これ、豆な。
LANG=Ja_JP
>>165 なんだ、C系列言語(C、C++、Objective Cなどなど)を捨てればいいだけなのか^^
C#は大丈夫なんじゃろ? もしかしたらC++/CLIも大丈夫かもしれん^^
単純で実に早い話じゃないか^^
変換かますと〜とか\は確実に文字化け対象だし
場合によってはAとかも文字化け対象。
データは変換せず、アプリが正しい文字符号化方式を採用したほうが安全^^
つうか、メールの文字コードもさっさと統一してほしいわ
囲い文字が機種依存だって理解していない馬鹿が多すぎる
175 :
名無しさん@12周年:2012/02/05(日) 17:09:30.86 ID:jg8cUj1A0
iPhoneは、UTF-8以外のページが文字化けするとか(Safariでは対策して
あるらしい)、ISO-2022-JPのメールが送れないとか、文字化けに
積極的に加担している印象。
>Unicodeは全世界の文字を単一の規格にまとめたもので
またまた、ご冗談を
177 :
名無しさん@12周年:2012/02/05(日) 17:22:43.35 ID:jg8cUj1A0
>>174 > 囲い文字が機種依存だって理解していない馬鹿が多すぎる
お前も間違ってる。
メールの文字コードがUnicodeであれば
囲い文字は機種依存ではない。ついでに半角カナもな。
>>175 > あるらしい)、ISO-2022-JPのメールが送れないとか、文字化けに
> 積極的に加担している印象。
ISO-2022-JPは日本語にしか対応できない文字コードだ。
こんなのはさっさと無くすべき。
TBSのサイトはISO-2022-JP
なんかおいしそうだな。 ( ´・ω・)
>コンピューターでは文字にコードを割り当てて管理、表現している。このコードはそれぞれの
>言語圏で独自に作成されたため整合性、互換性がなかった。
えっ?ISO2022は?
182 :
名無しさん@12周年:2012/02/05(日) 17:40:25.46 ID:dswJucIl0
>>168 最近のガラケーはUTF-8も普通に対応しているが
古い機種を使ってるユーザを切れないんだよね
ドコモのmovaがサービス終了になれば、少し状況も変わるが
それでもユーザエージェント見てShift_JISに変換するとか
しばらくは、なにかの対応が必要だろう
うちはいまだにEBCDICコード使ってるよ
それよりChromeのフォントを何とかしろよw 中国文字ばっかりw
185 :
名無しさん@12周年:2012/02/05(日) 17:51:01.61 ID:V7Xmj4d50
>>136 UTF-8はUnicode的には実は改悪w
本来の策定目的に拠れば、多言語の文字を等長に取り扱えるUTF-16の方が原理的。
しかしUTF-8のバイト延長方法が巧妙だったので、shortだのlongだの大好きなC/C++コミュニティにとってはそちらの方が文字以外の型とも透過的で魅力的だったんだろうね。
>>178 >メールの文字コードがUnicodeであれば
だから、それを理解していないやつが多いんだよ
自分のメーラーではちゃんと表示できてるからって、
相手も見えていると勘違いしてる
187 :
名無しさん@12周年:2012/02/05(日) 18:01:53.07 ID:V7Xmj4d50
>>185 ところでUTF-8の為した本当の害は実は別にあって、それはANSIの後継として実効的な信号記号文字のテーブルに為る筈であったBMPを事実上廃止してしまい、基本面にASCIIを据え戻してしまった流れを作った事なんだ。
>>185 なんか後半意味不明だが、
UTF-8はASCII互換なんだよ。
よくわかってない人には説明しにくいが、
英語圏の人 = 1文字が1バイトと考えている = それを前提にプログラムを作っている。
そういうプログラムでもUTF-8であれば、殆どの場合正しく動作する。
そのように考えられて作られてるから、既存のコードの修正が少なくてすむ。
もしUTF-8がなければ、C標準関数でさえ、
引数の型(charポインタ)を変更しなければいけなかったからね。
ASCII互換のもう一つのわかりやすい利点を忘れていた。
ASCIIの範囲(7bit)においては、UTF-8とASCIIは完全に一致している。
だからASCIIしか頭にない人はASCIIとして作れば自然とUTF-8対応に
もなっているかな?というコードになるという寸法さ。
なんか
>>187がめちゃくちゃなことを言ってるけど、無視していいよw
> 信号記号文字のテーブルに為る筈であったBMPを
BMPというのは、Basic Multilingual Planeの略で
日本語で言えば、基本多言語面。
BMPという名前は、「多くの言語の文字が含まれる基本的な領域」という意味で
名前からして、信号記号の文字じゃないことを示してる。
191 :
名無しさん@12周年:2012/02/05(日) 18:09:51.48 ID:V7Xmj4d50
>>187 本当はかつてのANSI文字セット面がBMPとは別にミラー様に文字表示専用に用いられることによって機能と表示の完全分離が果たされ、制御文字までものフル可読表示が可能になる筈だったのが、そのせいでポシャってしまったんだよ。
>>186 俺は「囲い文字が機種依存文字」というのが
間違いと言ってるだけ。
自分のメーラーで見えるのと相手のメーラーで見えるのの
違いの話はしていない。
194 :
名無しさん@12周年:2012/02/05(日) 18:16:20.60 ID:V7Xmj4d50
>>190 用語的には全く仰る通りで、解かり難い話をしてしまい申し訳無いんですが、
当初BMPの次の面に、全く同じ内容であるにも拘わらず、わざわざLatin−1が定められて居た意味について書いてみました。
196 :
名無しさん@12周年:2012/02/05(日) 18:19:39.62 ID:2g/pq4Zf0
nurupo
>シフトJIS
侮ヲ
よくわからんのだけど、草なぎとか火へんに華とか但し書きしてたものがちゃんと漢字で出るようになるってこと?
ゲームハードでもそうだけど過去のものとの互換性は普及度を左右させるな。
200 :
名無しさん@12周年:2012/02/05(日) 18:26:54.37 ID:V7Xmj4d50
>>195 可能ならUnicodeの古い版を遡って当たってみて下さい。
どうせ1バイト文字も型を示す桁などで多バイト化されて扱われて居るのだから、等長2バイト文字の上位バイトを型表示桁状態にする設計も可能にしようかとの試みのあった時代の痕跡を見て取ることができます。
unicodeにするとS-jifより容量1.5倍になるんだっけ?
2chのような大規模文字サイトでは結構転送量くうかもしれず変更しにくいのかもね
202 :
名無しさん@12周年:2012/02/05(日) 18:31:30.32 ID:Agg/dU890
うちのサイトを今見たら、思いっきりShift_JISって書いてあったw
でも、そこをUnicodeに書き換えるだけじゃ、デザイン狂うよね。
まんどくせーから、このままでいいや。
ユニコードといえば、「ハングル大移動」。
>>200 なにかいいたいことがあるなら、
言いたい人が持ってきてねw
ことWebに関してはAjaxの隆盛が一番でかいと思う。
過去にあったUTF-8の問題であれば、
現在はないのであれば、今持ち出す必要はないわけで。
207 :
名無しさん@12周年:2012/02/05(日) 18:40:23.61 ID:TuNI+Cb50
もう普通に半角カナを使ってもいいんですか?
昔はアホバカと言われました
208 :
名無しさん@12周年:2012/02/05(日) 18:48:20.37 ID:4ckF89tv0
なんかEUCのイメージあったけど
209 :
名無しさん@12周年:2012/02/05(日) 19:03:58.97 ID:XS5HyN7i0
>>202 そのhtmlファイルがシフトJISで保存してあるならそれで正しい。
そこをUTF-8に直したらエディタで保存する時にUTF-8で保存しないと文字化けするかもしれませんし、
それよりwebデザイナ失職です。
UTF-8は日本語が3バイトになる変態コード
シフトJISなら2バイトです
みんなでシフトJISを使いましょう!
211 :
名無しさん@12周年:2012/02/05(日) 19:12:08.51 ID:hv905x2+0
イギリス人のキーボードってさ「|\」キーのところが£なの?
ディレクトリもさ
C:£WINDOWS£Tempとかって表記なの?
VC++でBOM無しUTF-8でWarningやエラーが出るのどうにかしてくれ
日本の\は海外じゃバックスラッシュじゃね
214 :
名無しさん@12周年:2012/02/05(日) 19:15:35.78 ID:PCdOEmn50
そのせいで\マーク自体のことをバックスラッシュだと思い込んだ厨房時代
215 :
名無しさん@12周年:2012/02/05(日) 19:15:57.28 ID:XkAh+P3R0
Unicodeってあれだろ?
ほら、角が生えて羽が付いてる馬だっけ?
217 :
名無しさん@12周年:2012/02/05(日) 19:17:57.44 ID:4PniBX+Z0
ヌ,ナキニイーハウー
@ShiftJIS
⒉Unicode
❸文字コード
⑷数字は文字化けしてるかな?
>212
プログラムってのは人間が読む物じゃ無くてコンピューターが読み込んで処理しやすいようにするべきなんだから
ソースコードにUNICODEとか使う馬鹿な物を採用するような間抜けな開発環境はゴミ箱に放り込め
プログラムは、人間が書いて人間が読むものだよw
コンピュータが読み込んで処理しやすい方式なら、
それは機械語になる。
よくしらんけどウニコードって漢字の数少すぎとか聞いた記憶がある。
昔はね
EUCは?
>220
いや、プログラムはコンピューターの字句解析、構文解析エンジンが読む物だよ。
人間が読むのはあくまでコンピューターがきちんと読めるか確認してるだけ
>>224 んなわけねえだろw
プログラム(ソースコード)は限りなく人間が都合よく読み書きできなければならない。
コンパイラのパーサがどんなに苦労しようがどうでもいいことだ。
>225
ASCIIコードの範囲で事足りる符号範囲をわざわざマルチバイトでファイル保管するの?
ソースファイルの頭にわざわざBOMとか付けるの?
UNIXの設定ファイルをUNICODEのテキストファイルとかにするか?
そんなことがいかに間抜けだか分かるだろ?
文字列リテラルにLattin1とか埋め込むコードを書かなきゃいけない俺はどうすれば。。
男は黙ってShift-JIS。( ゚ω゚ )
230 :
名無しさん@12周年:2012/02/05(日) 23:10:31.75 ID:OIiBSZH70
公孫?
まぁまて。どこの言語の話か知らんが、C++に関して言えば
人間が読み書きするプログラムは物理文字セットで書かれるが、
コンピュータ(コンパイラ、パーサ、etc)が読むプログラムはソース文字セットで書かれる。
コンパイル時に物理文字セット→ソース文字セットへの変換が行われる。
どんな物理文字セットを使うかは環境依存なので
そこには(基本文字セットさえ含まれていれば)どんな符号化文字集合/文字符号化方式を使おうとも勝手だ^^
VS2005でUNICODE以外worning連発されてこまったのがなつかしいな
今ではcharを使うことすらなくなったがw
>>226 いまからでも遅くないからさっさと移行しないと痛い目見るよ
233 :
名無しさん@12周年:2012/02/05(日) 23:58:33.51 ID:fU+2FhCB0
>>226 2TのHDDが1万以下で手に入る時代に何ねぼけたこと言ってんの?w
235 :
test:2012/02/06(月) 05:48:47.98 ID:tmDHxwvr0
読める?
C❽㊽
236 :
名無しさん@12周年:2012/02/06(月) 05:51:14.63 ID:QcdP1HS70
>>8 人口が少ないって言ってもなんだかんだで南北合わせて7500万人はいる
これは言語としては世界上位15位以内に入るぐらい多く、イタリア語より多い
もっともそれで12000字ほど使っているから確かにコストパフォーマンスは悪いが
パーツだけ登録して組み合わせるようにすれば良かった
EBCDIC各社フォーマットとSHIFT-JISの変換プログラム書いたなぁ
もう遠い昔の話になるんだな
238 :
名無しさん@12周年:2012/02/06(月) 06:07:43.35 ID:W0TCcpCD0
んなこと日本人には言われたくないだろうな。
日本語の方が遙かに迷惑。
書:きω逃sげ
(´・ω・`)やあ
240 :
名無しさん@12周年:2012/02/06(月) 06:10:57.11 ID:kLw6EwZs0
日本の漢字って大昔に手書きでミスった字もそのまま「そういう字もあるんだ」みたいに一つの字にしちゃったって聞いたが
そういう特殊な文字まで対応しなきゃいけないのか
241 :
名無しさん@12周年:2012/02/06(月) 06:17:10.85 ID:EM7YNg3A0
出版業界では普通に作字して対応する
古たち伊知郎のたちとか大杉れんのれんとか
去年作ったシステムが全てSJISですが
243 :
名無しさん@12周年:2012/02/06(月) 06:27:40.80 ID:W0TCcpCD0
山崎の崎が立の方だとこだわるヤツもいるが、さらにそこから漢字は分かれていたりする。
「どちらの立山崎ですか?」ときくと「知らん」だってw
みんな自分の知っている範囲だとこだわるが、あいにく全ての異体字を把握している人間などいない
244 :
名無しさん@12周年:2012/02/06(月) 06:33:26.54 ID:lMhXhfzu0
一見Unicodeに見えてローカルな外字を組み込んでいるクソ設計もあるぞ
245 :
名無しさん@12周年:2012/02/06(月) 06:43:38.99 ID:iCraAN9O0
UnicodeからEBCDIC系の変換ライブラリって
246 :
名無しさん@12周年:2012/02/06(月) 07:12:42.45 ID:ejmkr3mZ0
盾ヘ遠くになりにけり…
247 :
名無しさん@12周年:2012/02/06(月) 07:56:57.91 ID:O0qc24fs0
>>24 >
>>21 > そうなのかありがd
> 移行しちゃえばいいのにとか思っちゃうわけだけど
> そーゆーとこはいろいろ面倒な理由あるんだろうなあ
過去からの一貫性という問題があるから
文字コードの切り替えは
大改装するときとか新サービスへ移行とかの機会じゃないと手を付けにくい難しい課題です。
元を辿ると、日本語コードの統一、少なくとも外部コードの統一標準化に対する政府の認識の甘さが
確実に処理コストの増大を招き将来の大きな禍根となることは指摘されていたんだけどねえ。
>>82 Javaはutf-16beで結構異端だし関係なくね。
一番大きいのはBSDやLinuxが標準文字コードに
utf-8を徹底したこと。windowsと違って
ファイル保存のデフォが全てutf-8になったんで、
eucとか使う方が寧ろ手間になった。
サーバー製品は大抵GNUベースだからこの流れに逆らえないし。
249 :
名無しさん@12周年:2012/02/06(月) 08:48:08.28 ID:HEYZROto0
ISO-2022-JP-2 オワタ
ガンダムスレじゃ無かったか・・・。qqqqq
別に、utf-8だろうが、S-JISだろうが、EUCだろうが、何だっていいけどよ、
きちんと charset= で文字コードを宣言しろよな>糞サイト
しかしutf8でもBOM ありとなしで微妙に対応できないエディタがある
253 :
名無しさん@12周年:2012/02/06(月) 11:06:22.01 ID:OYMu4lFQ0
namazuのunicode化ってめんどくさくない?旧EUCからの引っ越しとか時間かかりそうだから
あとまわしにしてる
>>243 異体字に固執する阿呆が多いのも事実だがな。
小篆レベルで同一字だったり、三体許容だったりとか、
1000年以上も前から手書きで使われてる字体を認めないとか。
商売やってっと、客に手紙出すときに名前を間違えたら大変な事になるからなあ。
Unicode 6.x からサポートされた巻き巻きウンチは日本起源。
257 :
名無しさん@12周年:2012/02/06(月) 14:42:45.74 ID:iEBaT8Vp0
つまり、特亜除けのおまじないにShift-JISが使える。使いなさいと言う、啓発記事なのか。
ISO-2022-JP ってのがあって・・・
ソースにコード以外のリッチな情報を付加するって当然の流れじゃないのん?
エディタやコンパイラの苦労なんて知った事じゃねーんだし。
俺の使い方だと別にEUCでもあんまり問題ねぇな
261 :
名無しさん@12周年:2012/02/06(月) 17:00:04.06 ID:XAkcf6+r0
官公庁に提出するデータは旧字体でもおkって通達あったけど
まぁ、触らないほうがいいな
>>35 > 俺もWordPressがきっかけでUTF-8に移行したしな
ノシ
263 :
名無しさん@12周年:2012/02/06(月) 21:46:33.07 ID:BU+gsBzc0
ジオシティーズにShiftJISで書かれてるけどエンコード指定の付いてないページアップロードするとYahooの挿入するEUCコードなジオタグから先の表示が化けまくりでな
ここにJIS90だのJISX208だのJIS2004だのの話が混じってくると更にわけわかめ
jisじゃないのん
266 :
名無しさん@12周年:2012/02/07(火) 19:57:45.60 ID:gM5A2AmE0
65001
267 :
名無しさん@12周年:2012/02/07(火) 20:10:58.17 ID:NnYNBfTZO
Amazonはログイン画面でログイン失敗して戻るボタンで戻ると高確率で中国語に文字化けする
これらの違いは何?
ほとんどの文章ではUnicodeの全文字を使うことはない。
なのに巨大なフォントを組み込んだり、一文字のコードを4バイトにしたり、
ライブラリに全言語対応のフィルタを乗っけたり…
そんなにリソースが余ってる環境ばかりじゃない。
っていうか、CPUキャッシュとかいうレベルの話になると
どんな環境でもかつかつ。
そういう現実もあって、結局ローカルな符号化文字集合や文字符号化方式が消える可能性はなし^^
UNICODEのテーブル全てを網羅するフォントなんて別に読み込んでないだろ
外国のパソコンって★とか♪とか使えるの?
272 :
名無しさん@12周年:2012/02/08(水) 07:13:14.84 ID:KLn5ZyNV0
>>269 ジジイはそうやって一生潰しのきかない組込ドカタでもやってろよw
euc-jpだけでいい。
何で、特アと同じコード領域に共存しないといかんの?
> euc-jp
一番ゴミみたいのをわざわざ
ただでさえ漢字は文字数が多いのに、
日本中国台湾と別々の規格があるから酷いな。
おまけに収録ミスも多々あると来ている。
276 :
名無しさん@12周年:2012/02/09(木) 21:34:27.79 ID:iROk+nHa0
未だに自治体のサイトでもShiftJIS使っててしかも文字コードの指定タグがないとこがいっぱいある
どうも富士通の開発した自治体向けCMSらしい
277 :
名無しさん@12周年:2012/02/09(木) 21:37:00.65 ID:Yys2xvLj0
EUC-JPはさっさと滅んでくれ
2バイトで全世界の文字を格納できるって思ったアメ公ってやっぱり頭が少し足りないと思う。
>>275 CJKは最悪ですな。
非漢字圏じゃなきゃおもいうかばないだろうな、あんなバカな事。
所詮、アルファベットでしか考えられない奴。
何で世界三大珍味にならなんだ?
281 :
名無しさん@12周年:2012/02/09(木) 22:01:33.03 ID:fWBN9u8u0
ハングルって、理論上ありえるパターンで11172通りあるそうだけど、
それ全部入れろってか。
結局どうなったの?
jQueryでCSS読み込んだら
@charsetがutf-8なの
283 :
名無しさん@12周年:2012/02/09(木) 22:26:20.11 ID:GjlTfnZz0
お前らってこれ全部理解できるのか
Unicode←なんて読むのかすらわからない
ついでに早くIE6とXP環境は消え去って欲しい。
もう保守したくない。
perlはスクリプト自体のエンコードが影響するようになってて結構めんどくさい。
迷ったら、EUCにしておくのが一番無難だけど。