2chで外国語の特殊文字を使うには[unicode][専ブラ] 2

このエントリーをはてなブックマークに追加
1何語で名無しますか?
◆本題
2ch上で書き込めない・表示されないといったトラブルが少しでも解消されることを望む。
主に【特殊文字の記述方法】、【2chの仕様】、【専ブラごとの仕様の違い】、
の3ポイントに絞って説明する。

前スレ
2chでラテン文字以外の文字を出すには!?
http://academy6.2ch.net/test/read.cgi/gogaku/1009883943/
2ちゃんねる専用ブラウザ推奨スレッド
http://academy6.2ch.net/test/read.cgi/gogaku/1095041746/
2何語で名無しますか?:2011/02/24(木) 19:21:48.78
◆前置き1
日本語に無い特殊文字(中国語簡体字、ハングルなど)を読み書きするには以下の2点が必要。
1、OSやブラウザ、アプリケーション等がそれぞれその特殊文字の読み書きに対応していること
2、その特殊文字用のフォントがPCに入っており、正しく設定されていること

※OS(Mac OS X、Windows7、WindowsXPなど)によって必要な設定は異なる。
  Windows2000以前だと、別途フォントのインストールなど煩雑な設定が必要になるが
  WindowsXP以降であれば、主な言語は基本的には問題なく使えるはずである。
  Help:特殊文字 : http://ja.wikipedia.org/wiki/Help:%E7%89%B9%E6%AE%8A%E6%96%87%E5%AD%97
  などを参照のこと。
※このスレの本題である2ch掲示板の閲覧では気にすることはないが、
  その他大勢の一般サイトの場合はエンコーディングの違いが原因の文字化けも考えられるので要留意。
※ブラウザは最新版を使うこと。古いWebブラウザの使用は不具合の元。

◆前置き2
2chを閲覧するには、通常のWebブラウザ(Internet Explorer、Firefoxなど)から見る他に、
2ch閲覧に便利な機能を備えた「2ちゃんねる専用ブラウザ」(通称「専ブラ」)を利用する方法がある。

「専ブラ」の代表的な機能
 ・アンカー(>>1等)や画像のポップアップ表示
 ・掲示板の閲覧制限(人大杉)の回避
 ・特定の単語やIDでのレス抽出・削除

Windows用の2ちゃんねるブラウザ : http://monazilla.org/index.php?e=11
マルチプラットフォームな2ちゃんねるブラウザ : http://monazilla.org/index.php?e=7

→外国語板推奨2ちゃんねるブラウザ
  JaneXeno(Unicode標準対応) : http://www3.ocn.ne.jp/~korwatch/janexeno.htm

※専ブラも最新版を使おう。不具合や仕様変更への対応など、改善されていることも。
3何語で名無しますか?:2011/02/24(木) 19:23:25.16
【特殊文字の記述方法】
HTML上で特殊文字を記述する方法は、以下の4種類ある。
 ① 直接記述する                       ≪例:Ü、♥、汉≫
 ② 「文字実体参照」を使う … 「&(文字の名前);」の形  ≪例:Ü、♥≫
 ③ 「数値文字参照」10進数表記を使う … 「&#(数字);」の形    ≪例:Ü、♥、汉≫
 ④ 「数値文字参照」16進数表記を使う … 「&#x(英数字);」の形   ≪例:Ü、♥、汉≫

※直接記述するには、入力言語を切り替えてキーボードで入力するか、手書き入力。
  あるいはWordやExcelの「記号と特殊文字」のような一覧から選択する、コピー&ペーストする。など。
※②③④の記述の仕方を「文字参照」と言い、直接記述できない文字や記号を表記する際に用いられる。
  この「文字参照」を使えばどんな環境からでも(携帯電話からでも)特殊文字の書き込みが可能。
※Unicodeの文字コード位置を使う③④の「数値文字参照」は、古今東西ほぼ全ての文字記号を扱えるが、
  実体名を使う②の「文字実体参照」は一部の文字記号しか定義されていない。
※Unicodeの文字を表現する場合、"U+"にその文字の符号位置を表す16進数の値を続ける。
  「U+6C49」とあるものは「数値文字参照」で「汉」と記述する。
※「数値文字参照」の先頭の0は省略可能。ÜとÜは同じ意味。
※「文字実体参照」では大文字と小文字の区別あり。「数値文字参照」(16進数)では区別なし。

  文字実体参照
  http://www.asahi-net.or.jp/~ax2s-kmtn/ref/cref_ent.html
  HTML文字実体参照コンバーター
  http://code.cside.com/3rdpage/jp/entity/converter.html
  10進、16進文字コードin HTMLユニコード
  http://code.cside.com/3rdpage/jp/unicode/converter.html
  Unicodeの一覧
  http://ja.wikipedia.org/wiki/Unicode#.E4.B8.80.E8.A6.A7
4何語で名無しますか?:2011/02/24(木) 19:24:20.20
【2chの仕様】
2chでは各種設定が板ごとに決められており、板自体が特殊文字を書き込めない設定になっている場合もある。
特殊文字が書き込める設定かどうかは各板のSETTING.TXTを見ればわかる。
(板URLの後ろにSETTING.TXT。この板の設定は→ http://kamome.2ch.net/gogaku/SETTING.TXT
JaneXenoなど一部の専ブラでは「Unicode: ○」「Unicode: ×」などとわかりやすく表示される。

 ・BBS_UNICODE=pass(Unicode: ○) … 特殊文字(Unicode)を書き込むことが出来る
 ・BBS_UNICODE=change(Unicode: ×) … 特殊文字(Unicode)は書き込めず、文字化けする
 ・BBS_UNICODEの項目が無い(Unicode: 不明) … BBS_UNICODE=changeと同じ処理(文字化けする)

※この設定は申請により変更可能。項目が無い場合も申請すればOK。
※「文字実体参照」は、BBS_UNICODE=change(Unicode: ×)の板でも書き込みが可能。
  その場合も、見た目は同じ文字でも「数値文字参照」では書けないので注意。
※スレタイには特殊文字は使用できない。名前欄やメール欄では「文字実体参照」なら使用可能。
※SETTING.TXT上に項目が無くても、2chはデフォルトで「BBS_UNICODE=change」である。
※2ch以外の掲示板ではその掲示板の仕様によって異なるため、Unicodeの項目の有無では判別できない。
  項目が無くても書き込める掲示板、数値10進は無理でも数値16進なら書き込める掲示板など様々。
5何語で名無しますか?:2011/02/24(木) 19:25:30.39
主な2ちゃんねる専用ブラウザ
・JaneXeno
http://www3.ocn.ne.jp/~korwatch/janexeno.htm
基本的な機能が揃っていて初心者でも使いやすい。
韓国語や簡体中国語の読み書きに対応。前身はJaneNida。
Unicodeベースのため英語版Windowsなどでも利用可能。

・Jane Style
http://janesoft.net/janestyle/
基本的な機能が揃っていて初心者でも使いやすい。日本語以外の入力環境で
文字列をコピペすると文字化けする。2010年、スパイウェア騒動が起こる。

・JaneView
http://www.geocities.jp/jview2000/
Janeシリーズで一番軽くて早い。ただ、作者の自主規制や
自由に機能を追加可能なスクリプトなど、玄人向け。

・ギコナビ
http://gikonavi.sourceforge.jp/top.html
シンプル性を念頭に置いて作られている。初心者でも容易に扱えるその手軽さから、
根強い固定ユーザーが存在する。現在はオープンソースで開発がなされている。

・V2C
http://v2c.s50.xrea.com/
重さはあるが、機能がJaneシリーズと比較にならないほど豊富。
Janeシリーズを離れ、新天地を目指したい方はどうぞ。
MacやLinuxでも利用可能。

・Live2ch
http://www8.plala.or.jp/uro/live2ch/
その名が示すとおり、実況に特化した専ブラ。
実況板閲覧用に作られ、現在は普通の専ブラとして開発されている。
6何語で名無しますか?:2011/02/24(木) 19:27:58.40
【専ブラごとの仕様の違い】
             表示              書込                        書込               検索
                    Unicode: ○(BBS_UNICODE=pass)     Unicode: ×(BBS_UNICODE=change)
                      直接 | 実体. |..数値10..|..数値16..  直接 | 実体. |..数値10..|..数値16
           Ü|汉 |.RTL.. Ü|汉 | Ü|汉 | 汉  Ü|汉 | Ü|汉 | 汉 . Ü | 汉
====================================================================================================
JaneXeno     ○ | ○|○   ○ | ○|  ○.  |   ○   . |   ○.   ○ | ×|  ○.  |   ×   . |   ×    ○ | ○
JaneStyle.   ○ | ▲|×   × | ×|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    × | ×
JaneView.     ○ | ○|▼   × | ×|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    × | △
ギコナビ.    ○ | ○|○   × | ×|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    ○ | ○
V2C         ○ | △|○   △ | △|  ○.  |   ○   . |   ○.   △ | ×|  ○.  |   ×   . |   ×    ○ | ○
Live2ch.     ○ | ○|○   × | ×|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    × | ×

IE           ○ | ○|○   ○ | ○|  ○.  |   ○   . |   ○.   ▽ | ×|  ○.  |   ×   . |   ×    ○ | ○
GoogleChrome..○ | ○|○   ○ | ○|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    ○ | ○
Firefox.     ○ | ○|○   ○ | ○|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    ○ | ○
Safari        ○ | ○|○   ○ | ○|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    ○ | ○
Opera.      ○ | ○|○   ○ | ○|  ○.  |   ○   . |   ○.   × | ×|  ○.  |   ×   . |   ×    ○ | ○
====================================================================================================
                                              各ブラウザ、専ブラ比較 (2011/02/24時点)
※表示/書込
Ü …文字実体参照が定義されている文字(IE▽:Üなど、ラテン文字の一部(Latin-1)のみ文字化けせず書ける)
汉…それ以外の特殊文字(ただし、サロゲートペア・結合文字は考慮しない)
( ○:標準で対応 V2C△:設定から適応可能
 Style▲:XP以前ではハングルや簡体字などが表示されない。フォント変更で表示可能だがAA崩れなどに影響 )
RTL(Right-To-Left)…アラビア語など、右から左に書かれる言語への対応 (View▼:2語以上の連続に未対応)

※検索
Ü …本文中の特殊文字「Ü」を「Ü」で検索可能か
汉…本文中の特殊文字「汉」を「汉」で検索可能か (View△:「汉」を「汉」で検索可能)
7何語で名無しますか?:2011/02/24(木) 19:29:56.32
JaneStyle、V2Cでの特殊文字対応の仕方

▲JaneStyle(表示) 主にXP(以前)のハングルや簡体字が表示されない人向け
JaneStyleフォルダ内のsample+.zipを解凍

解凍したフォルダの中にあるskin_Doeフォルダを開く

skin_Doeフォルダ内のHeader.htmlをメモ帳などで開く

font faceの"MS Pゴシック"のところを"MS UI Gothic"などに書き換えて保存

書き換えたHeader.htmlをJane2ch.exeと同じフォルダに置く

 ※スキンを設定している場合は、
 そのスキンフォルダ内のHeader.htmlのfont faceを同様に"MS UI Gothic"などに書き換え。
 Header.htmlが無い場合は、上記と同様に書き換えたHeader.htmlをスキンフォルダ内に置く。

△V2C(表示/書込)
設定 → フォント → 「指定フォントに無い文字は他のフォントを使用」にチェック
設定 → 書き込み → 「文字化けの可能性がある文字を参照に自動変換」にチェック
8何語で名無しますか?:2011/02/24(木) 19:31:21.57
◆その他
Q.2ch上に「Ü」「汉」と書きたいのにそのまま書き込んだら「Ü」「汉」になってしまう
A.「&」を文字参照「&」に置き換える。
  「Ü」「汉」と書き込むと、「Ü」「汉」と表示される。
  同様に、「Ü」と表示したいなら「Ü」と書き込めばよい。

Q.「BBS_UNICODE=pass(Unicode: ○)」の板なのになぜ直接書き込んでも名前欄やメール欄で使えない文字があるのか
A.2chは文字コードShift_JISベースで構成されているので、JaneXenoやV2Cを使って直接書き込んでも
  実際には特殊文字(Shift_JIS範囲外の文字)は全て「文字参照」に変換されている。
  2chでは名前欄・メール欄の「#」以降の文字列は〔名前欄→トリップキー〕〔メール欄→運営ボランティア★の
  キャップパス〕と特殊な処理をされるので、「数値文字参照」に変換された文字はその仕様に引っかかってしまう。
  スレタイで使えないのは、「&」が自動的に「&」に置き換えられるからである。

Q.なぜ「BBS_UNICODE=change(Unicode: ×)」の板でも「文字実体参照」の特殊文字は書けるのか
A.「BBS_UNICODE=change(Unicode: ×)」の板では本文中の「&#」(とそれに続く数字;)が「?」にchangeする仕様
  になっている。これをchangeさせずそのままpassするのが「BBS_UNICODE=pass(Unicode: ○)」の設定。
  なので「&#」の組み合わせを持たない「文字実体参照」はそのまま書ける。

Q.BBS_UNICODEの設定変更の申請はどうすればいいか
A.まずは設定変更したい板(の自治スレなど)で話をする。
  話がまとまったら運用情報板の「板設定変更依頼スレッド」に書式を整えて申請。
  > 板設定の変更について
  > http://info.2ch.net/wiki/?%B1%BF%CD%D1%BE%F0%CA%F3%C8%C4%A4%CE%BF%B4%C6%C0#content_1_3
  項目が無い場合も同じ手順で申請すればよい。

Q.なぜBBS_UNICODEの項目が無い板があるのか
A.作られてから何の設定も変更していない板はSETTING.TXTが短く、BBS_UNICODEなどいくつかの項目が
  存在しない。板作成者FOX ★の都合(仕様+気分)だと思われる。
  名無しの変更など、どの項目でもよいので一度でも変更人の設定変更スクリプトでSETTING.TXTが更新されれば
  項目が現れるようだ。なお、現れた際の設定は「BBS_UNICODE=change(Unicode: ×)」である。
9何語で名無しますか?:2011/02/24(木) 19:33:54.89
Q.日本語なのに文字化けする
A.日本語のIMEで変換出来るものでもShift_JIS(JIS第一水準+第二水準+α)範囲外の漢字は
  文字化けするので、JaneXenoなどを使うか「数値文字参照」に直す必要がある。「繋」(つな・ぐ)の異体字「繫」など。

Q.JaneStyleだけど特殊文字が少しだけ読めたり読めなかったり
A.初期設定されているフォント"MS Pゴシック"はShift_JIS範囲外の文字にも対応しており、
  そこに含まれるものは表示される(表示のみで書き込みは出来ない)。
  フォントのバージョンにもよるが、JIS補助漢字、JIS拡張漢字は入っている。中国語に使われている「你」など。
  さらに、OSによって変わってくるが、WindowsのFontLinkという機能により、他の言語の文字記号も
  (Windows7ではハングルや簡体字も)表示されるようになっている。
  "MS UI Gothic"や"Tahoma"でハングルや簡体字が表示されるのもこのFontLink機能によるもの。

JIS基本漢字
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/jisx0208.html
Shift-JIS 文字コード表
http://www.seiai.ed.jp/sys/text/java/shiftjis_table.html
文字実体参照
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/cref_ent.html
JIS補助漢字(JIS X 0212)
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/jisx0212/index.html
JIS拡張漢字(JIS X 0213)
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/jisx0213/index.html
CJK統合漢字−全漢字一覧
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/cjku_klist.html
MS ゴシック
http://ja.wikipedia.org/wiki/MS_%E3%82%B4%E3%82%B7%E3%83%83%E3%82%AF#.E3.83.90.E3.83.BC.E3.82.B8.E3.83.A7.E3.83.B3
10何語で名無しますか?:2011/02/24(木) 19:34:47.73
Q.○○語の入力・表示の仕方がわからない、文字化けする。
A.
           YES → 【ヒットした?】 ─ YES → じゃあ聞くな死ね。
         /                \
【検索した?】                     NO → なら、ねぇよ。
         \
            NO → 死ね。

◆検索例
ドイツ語の入力
http://www.google.com/search?q=%E3%83%89%E3%82%A4%E3%83%84%E8%AA%9E+%E5%85%A5%E5%8A%9B
ハングルの手書き入力
http://www.google.com/search?q=%E3%83%8F%E3%83%B3%E3%82%B0%E3%83%AB+%E6%89%8B%E6%9B%B8%E3%81%8D
簡体字の表示
http://www.google.com/search?q=%E7%B0%A1%E4%BD%93%E5%AD%97+%E8%A1%A8%E7%A4%BA
WindowsXPでアラビア語
http://www.google.com/search?q=XP+%E3%82%A2%E3%83%A9%E3%83%93%E3%82%A2%E8%AA%9E
IEで文字化け
http://www.google.com/search?q=IE+%E6%96%87%E5%AD%97%E5%8C%96%E3%81%91
11何語で名無しますか?:2011/02/24(木) 19:36:43.14
◆まとめ1
・2chにはUnicodeが使える板と使えない板が混在しており、その設定はSETTING.TXTで確認可能。
 Unicodeが使える板でもブラウザによっては直接は書けないが、「文字参照」を利用すれば書ける。

・板ごとの書ける文字、書けない文字はこんな感じ…。
             BBS_UNICODE=pass  BBS_UNICODE=change/項目無し
              (Unicode: ○)         (Unicode: ×/不明)
.            レス |.名・メ欄 | スレタイ   レス |.名・メ欄 | スレタイ
===========================================================
Shift_JIS         ○ |  ○  | ○        ○ |  ○  | ○
文字実体参照   ○ |  ○  | ×        ○ |  ○  | ×
数値文字参照   ○ |  ×  | ×        × |  ×  | ×
===========================================================

・数値文字参照と文字実体参照とShift_JIS範囲の包含関係はこんな感じ…。
┌──────────数値文字参照──────────┐
│┌文字実体参照┐                                    │
││          ┌┼ Shift_jis. ─┐                        │
│└─────┼┘          │                        │
│            └──────┘                        │
└──────────────────────────┘
12何語で名無しますか?:2011/02/24(木) 19:38:40.71
◆まとめ2
・2chの特殊文字が読めない
→1、専ブラが表示に対応してないかも(>>6-7
  2、レス表示に設定してるフォントが日本語にしか対応してないかも(→初期設定に戻すorフォントを変更 >>7参照)
  3、一般的でない文字記号はPCが対応してない/フォントが入ってないかも(>>2
  4、そのレスを投稿した人のミスで、最初から文字化けしてるかも

・2chに特殊文字が書けない
→1、特殊文字が直接書き込める専ブラじゃないかも(>>3,6-7 →JaneXenoやV2Cを使用or「文字参照」を使用)
  2、表示が対応してないせいかも(実際は書き込めているが自分の環境では表示されないためにわからない)
  3a、その板の設定が「BBS_UNICODE=pass(Unicode: ○)」じゃないかも(>>4
  3b、「BBS_UNICODE=change(Unicode: ×)」や「項目無し(Unicode: 不明)」の板で
    「数値文字参照」を使おうとしているせいかも(>>4,6,8,11 →「文字実体参照」を使う)
  4、レス本文以外の、名前欄やメール欄に書こうとしてるせいかも(>>8,11)
  5、その掲示板、2chじゃないかも(>>4