１バイト文字と２バイト文字について

1 ：ひよこ名無しさん：04/09/03 13:36 ID:ct6kKNSH

１バイトというのはコンピュータのデータ量の基礎単位であり、
１バイト＝８ビット＝2進数8桁のことであります。
１バイト＝８ビット＝2^8＝256種の状態を表すことができ、
英文であれば、アルファベット・数字・記号など必要な文字はほぼサポートできます。
しかし、漢字を用いる日本語など文字数が256種におさまらない言語においては
１文字に対して２バイトの割り当てを行います。
これにより１文字65536種、これならどんな文字でも表すことができるでしょう。

ふと疑問に思ったのですが、
１バイト文字・２バイト文字の混合した文書において、
これらはどのように区別されているのでしょう？

例えば、仮に１バイト文字の最後の文字を「z」、２バイト文字の最後の文字を「終」とします。

　　　　　　順番　　　　　　　16進数表記　　　2進数表記
z　　　　　256文字目　　　　　　FF　　　　　　11111111
終　　　65536文字目　　　　　FFFF　　　　　1111111111111111

そして、
zz　　　　　　　　　　　　　　　　FF・FF　　　　　11111111・11111111

この「終」と「zz」のように、１バイト文字２つと、２バイト文字１つのそれぞれで
同じ状態になるところがあるんですが、１バイト文字・２バイト文字の混じった文書においては
どのようにして区別しているんでしょうか？

2 ：ひよこ名無しさん：04/09/03 13:40 ID:???

>>1
２ちゃんではそういう単発質問は禁止されてます。

質問する前に必ず読んでください。
▽簡単な質問は【くだらねぇ質問はここに書き込め！！】スレッドへ。

3 ：ひよこ名無しさん：04/09/03 13:44 ID:ct6kKNSH

自分なりに考えてみたいくつかの答え

１．区別してない
日本語OSでは半角文字もすべて２バイト。
半角っぽく見せてるだけ。
↓
互換性等の問題から明らかに違います。
それに１バイト文字一つのテキストを作ってプロパティを見るとちゃんと１バイトです。

２．タグのようなものを用いる
HTMLのタグのように「ここから２バイト」のような区切りがある。
<2byte></2byte>の間にはさまれた部分だけ2バイト文字。
↓
同じく、テキストで「aあ」とだけ書いてプロパティを確認したところ、
きっちり３バイトで、タグ分の容量などは入ってませんでした。

３．１ビットは拡張子。実は１バイト文字＝128種、２バイト文字＝32768種
例えば2進数表記で、初めに「0」なら、後ろ7ビットで文字を決定、
初めに「1」なら、後ろ15ビットで文字を決定、のようにしている。

最終文字は
　　　　　　2進数表記
z　　　　　01111111
終　　1111111111111111
zz　　01111111・01111111
　　　01111111・11111111　→さらに後ろの８ビットを参照し、「F＋（全角文字）」

↓
128文字で足りるかなぁ・・・？

4 ：ひよこ名無しさん：04/09/03 13:47 ID:ct6kKNSH

>>2
すいません、行ってきます。

長文なんですが、ここへのリンク貼るのと、
再掲するのはどっちがいいでしょう？

5 ：ひよこ名無しさん：04/09/03 13:53 ID:???

>>4
面倒くさいからいいや。
シフトJISの仕組み
http://www.infonet.co.jp/ueyama/ip/binary/shiftjis.html

6 ：ひよこ名無しさん：04/09/03 13:55 ID:ct6kKNSH

>>5
どうもありがとうございます。
単発スレ立て失礼しました。以後気をつけます。

答え３ですか。128種でもバリバリ余ってるんですね……

7 ：停止しました。。。：停止

真・スレッドストッパー。。。(￣ー￣)ﾆﾔﾘｯ