Pythonのお勉強 Part21

このエントリーをはてなブックマークに追加
805デフォルトの名無しさん
言語の内部処理形式のUnicodeっていうとUCS-2が多い・・・はず。
UTF-8みたいな、可変長文字コードは内部形式としては扱いにくいんじゃないか・・・
でもPerlはUTF-8なんだよな。
もともとはUnicode イコール UCS-2のことだったはずだが、
今は必ずしもそうとはいえない・・・まあ、UCS-2が多いと思うんだけど。

>>794 は書いてあるとおりソースコードの文字コードを処理系に認識させる仕組みの話。
最近の言語処理系はソースコードをUTF-8で書くことが推奨されているものが多いけど、
内部形式はまた別の話。文字コードを認識したら処理系は内部形式に変換してしまう。

あと、python の defaultencoding は、標準入出力なんかのデフォルトコードを指定して
いるだけ。terminal出力時の文字化けなんかへの対応に使われる。ロケールってやつ?
処理系内部の文字コードが制御できるわけではない。