599 :
デフォルトの名無しさん :
2010/12/17(金) 01:24:26 0x8FB8B5 は eucJP-ms で「塤」ですが、 0x8FB8B5 が書かれたページをIEで開き、エンコードを日本語(EUC)にすると、「曙ウ」になります。 しかし、「曙」はCP51932でもeucJP-msでも0xBDECとなっています。 一体どのような文字コード(または変換)が使われているのでしょうか?
CP51932やCP50220はGL/GRの範囲内のコードポイントを まず計算でShift_JISに変換してからCP932でデコードする。 だから 8F B8 B5 |8FはGL/GRに含まれないのでそのまま、 ↓B8 B5をEUC-JPの1文字としてShift_JISに変換 8F 8C B3 ↓8F 8CはShift_JISで「曙」、B3はShift_JISで「ウ」 曙ウ
有り難うございます!
>曙ウ 発音してみたらなんかかわいかった
>>602 が発音してるところを想像したらなんかかわいかった
>>602 が発音してるところを
>>603 が想像してなんかかわいいと思ってるところを想像したらなんかかわいかった
この流れを応用しUTF-8エンコーディングが生まれた
感動した
607 :
デフォルトの名無しさん :2010/12/26(日) 19:07:19
0xFCEE 0x8FB8B5 を日本語EUCで表示した時、
MSIEだと「K曙ウ」になり、
MSIE以外(Firefox, Opera, Chrome)だと「K塤」になります。
※0xFCEE は CP51932 で「K」(eucJP-msでは「」)
※0x8FB8B5 は eucJP-ms で「塤」(CP51392 には存在しない)
これらをPHPで再現しようとしているのですが、中々思い通りにいきません。
(試作品:
http://www1.axfc.net/uploader/Sc/so/187780.zip )
正しく再現する良い方法は無いでしょうか。
iconvやnkfなどで処理できればいいのですが…
よろしくお願いします。
>>607 ©K塤
8F A2 ED FC EE 8F B8 B5
↓8Fはそのまま、EUCのA2EDはSJISで81EB、EUCのFCEEはSJISでEEEC、
↓8Fはそのまま、EUCのB8B5はSJISで8CB3
8F 81 EB EE EC 8F 8C B3
↓8F81はSJISで「潤」、EBEEとEC8FはCP932で未定義なので「・」、8CB3はSJISで「元」
潤・・元
何が難しいのかわからん。
強いて追加でアドバイスするなら1パス目と2パス目では文字が違う場所で
区切られる可能性があることに注意しろというくらい(だから2パス変換が必須)
あと1パス目のEUC→SJIS変換は未定義のコードポイントでも8145にしてしまわず 計算で変換してくれるようなものが必須。 (PHPのmb_convert_encodingがそうなってるのかは知らん)
有り難うございます。 0xFCEEをCP51932としてCP932に変換すると、0xFC4Bになり、 EUC-JPとしてCP932に変換すると、0xEEECになるようです。 MSIEで使用されているのはCP932だと聞いていたのですが… 混乱してきました。そもそもPHPでのEUC-JPが一体何なのかよくわからない…
× CP932だと聞いていたのですが ○ CP51932だと聞いていたのですが
ああそうか
CP932ではNEC選定IBM拡張文字よりIBM拡張文字が優先されるんだった
それでEEEC→FC4Bに変換されるけど、
>>608 の1パス目の変換ではこの規則を
適用しちゃダメ。あくまでも計算でコードポイントを置き換えるだけ。
しつこいよーだがmb_convert_encodingでそれができるかどうかは知らんので
最悪、自分で計算する必要がある。
うぅ 計算式がわかりません %systemroot%\system32\*.nls がMSIEの変換表っぽいですが、どう使えばいいのやら… c_932.nls, c_20932.nls はあっても、c_51932.nls は無いし
少しは自分で調べろよ…。 <?php function euc2sjis($e) { $e = unpack('C*', $e); $h = $e[1]; $l = $e[2]; $c = ($e[1] - 0xa1) * 94 + ($e[2] - 0xa1); $h = (int)($c / 188); $h += ($h < 31) ? 0x81 : (0xe0 - 31); $l = $c % 188; $l += ($l < 63) ? 0x40 : (0x80 - 63); return pack('C*', $h, $l); } echo preg_replace("/([\xa1-\xfe]{2})/e", 'euc2sjis("\1")', "\x8F\xA2\xED\xFC\xEE\x8F\xB8\xB5"); echo preg_replace("/([\xa1-\xfe]{2})/e", 'euc2sjis("\1")', "\xFC\xEE\x8F\xB8\xB5"); ?> PHPインストールしてぐぐりながら40分で作れたぞ。 > c_932.nls, c_20932.nls はあっても、c_51932.nls は無いし mlangはCP51932を内部計算でSJISに変換して(「1パス目」)、c_932.nlsを使ってるから。
(´‥∀‥`)ほう
何?
2ch に書かれることこそがニュースの真実とか思ってる情弱だろw
マルチポストにレスしちゃう男の人って……
男とは限らないぞ
えっ
なんかかわいいな
…///
>>614 有り難うございます。
半角カタカナの処理が抜けているようなので、
/([\xa1-\xfe]{2})/e を /(\x8e[\xa1-\xdf]|[\xa1-\xfe]{2})/e に置換して、
euc2sjisの頭に
if (preg_match('/^\x8e[\xa1-\xdf]$/', $e))
return preg_replace('/^\x8e[\xa1-\xdf]$/', mb_convert_encoding($e, 'SJIS-win', 'CP51932'), $e);
を追記してみました。
まだまだ知らないことだらけですが、精進します。
ああすまん半角カナのことをすっかり忘れてた > return preg_replace('/^\x8e[\xa1-\xdf]$/', mb_convert_encoding($e, 'SJIS-win', 'CP51932'), $e); return preg_replace('/^\x8e([\xa1-\xdf])$/', '$1', $e); でいいんじゃね? 試してないけど。
つーかpreg_replaceもいらんな if (preg_match('/^\x8e([\xa1-\xdf])$/', $e, $matches))) return $matches[1]; どうしたらあんな冗長なコードを思いつけるのか非常に興味がある
n3698は文字鏡の丸パクリかよ…。これだから外人が無造作に出してくるものは(ry
誰かが出さなきゃトリガーにすらならんからなぁ もっとも出典は書いといた方がよかったけど
今年になってから元気がないなここわ
それは本当にそう思う
さっきからコメントに出ている「NB」て何?日経ビジネス?
↓面白いボケを
Non-Breaking space 別名 nbsp;
一同脱帽
かぶってねーよ
漏れの棒は被ってる
639 :
デフォルトの名無しさん :2011/01/20(木) 12:11:52
localeであるべきだよ
しちゃうまえに、とりあえず作れよと言いたい。
>>642 > 法務省が幅広い電子化を目指して04年にまとめた「戸籍統一文字」(5万
> 6040字)をもとに5万8713字のデータベースを作る。世界共通の文字
> コード体系「ユニコード」に反映させ、あらゆるコンピューターで人名や地名
> を網羅する狙いだ。
VSでやるのかね?
>法務省が幅広い電子化を目指して04年にまとめた 年金記録の消失と名寄せで騒いでた時期と一致するな
>>642 > 外字の存在はネット上の同じサービスを大勢の個人や企業が共有する「クラウド」化を妨げ、
>日本が世界的な流れに取り残される原因にもなりかねないとされ、解決が急がれている。
>政府側でプロジェクトを統括する経産省の平本健二さんは「1980年代から続く問題を解決したい」と語った。
まずは Windows の日本語 locale の mbcs を UTF-8 にすることから始めようか
汎用電子とは違うの?
新手のプロジェクトじゃないかと。
>>642 > プロジェクトを進めるのは経済産業省と大手IT企業。民間側の協議会は昨年
> 12月6日に発足し、コンピューターで日本語を扱うのに不可欠なソフトを作っ
> ているマイクロソフト、ジャストシステムなど9社・団体が加わった。マイク
> ロソフトの加治佐俊一CTO(最高技術責任者)は「外字問題という、世界で
> も例のない日本固有の問題が解決に向かう」と語る。
新たな不幸の始まりの気がする
民間のってのはそれだろうね
ってかJSC2の連中はやりたくないのかよ
>>642
Adobe入ってるなら今よりひどくはならないだろうな。
Googleは入ってないのか
Win7はIVSの枠組み出来てるから、
データの蓄積をしたいわけだよね。
それも役所が使ってくれるやつ。
MSジャパンは官庁、教育機関への食い込みに力入れていて、
現地法人では唯一CTO置いているくらいだし。それが
>>647 の人。
>>653 >「多くの漢字が画面上に並ぶ中から、延々探せというのか。
例えば異字体選択パレットの字形の並び順を、現代の日本で最もよく使われているものの
順に表示するようにすればいい。
他には、あまり使われていない字形は [その他] をクリックするまで表示しない、でもいい。
んで、それは文字のコード化レイヤーの話じゃなくて、アプリケーションのUIレイヤーの
話なのだから、それをもって異字体のコード化をすべきでないという議論はおかしい。
> 国立国語研究所の高田智和准教授は「戸籍や地名にはすでに使われていない異体字や誤字も多い。 >いたずらに使える字を増やすのでなく、使われているかどうかで仕分けるのが先ではないか」という。 国語研究所のひとなのにこんな暴言吐けるとは・・・ 古典に載ってる地名なんかどうするつもりなんだろう
字形の上では AJ1 ∪ Hanyo-Denshi ⊆ 経産省新外字、を満たすが、マッピングが単射 でないとか、親字のコードが違うとか新たなカオス発生の悪い予感が…
>>658 まあ、戸籍統一文字は大漢和なんかで「誤字」とされていないものを
片っ端から収録しているだけで実際に使われているかどうかは調べていないので、
戸籍の電子化だけが目的ならオーバースペックなのは確か。
>>654 > 使える字を増やしたくないのに、文字を追加するプロジェクトにいる
なるほど、増やしたくないから足を引っ張るためにそこにいるのか。
>>630-とつながった
>>658 だよな。たとえ誤字であろうが今使われていない字であろうが、
過去に使われたことがあれば、必要になってくる場面というのはありうるわけだし。
ふむ…
>>662 現在も過去も使われた形跡なんかない文字、おそらくそこにしかない誤字でもなんでも
登録されてたりするから問題なの。
あと常識として、国研ってのはもともと漢字制限の研究のために設立されてるから。
移管じゃなく完全に解体すべきだった
JISに親字すら登録されてない文字があるから、 IVSの枠組みで全部やろうとすると、 JISに文字を登録する必要があるんだな。
各市町村で勝手に臨時フォント作ってたら品質にばらつきが出るだろ
議事録面白い。発言者名が削除されているのはつまらないけど。
Win7のレンダリングはIVSに対応してるらしいがNLSが未対応なので CompareStringExなんかがIVSを無視してくれない。 BMPのVSはちゃんと無視するのに
ややこしいよう
>>670 レンダリングが対応しているって言うけど、どのAPIなら大丈夫で、
.NET(WPF)やSilverlightならどうなっているかって情報が、MSのサイト見てても全然わからん。
もしまだ無いなら自分で全部まとめようかと思っているんだが、誰かがすでに
まとめている所ってある?
外字は DNS で管理すれば良くね?
漢字だけで58000字以上ものグリフ集合なんてフォントメーカーは対応できるのかねえ
でもお高いんでしょ?
10万円コースかな・・
安!!
>>674 共通フォントデータベース作るなんて話になってるが。
まあ役所の戸籍の話だと思うが。
フォントは今入札やってるんだっけか できたフォントを役所の中だけで使うのか一般配布もするのか注目だなぁ
ttp://bizpal.jp/epub/00012 >同じグリフをどのように扱うのかどちらかに寄せるのか?その場合のマッピングは?
>IVS技術促進協議会よりマッピングテーブル、実装ガイドの提供を予定
AJ1と汎用電子とでグリフがダブってる件に対する問題意識はあるみたい
>>676 インデックスフォントの価格を考えたら
印刷物クォリティのフォントはそうなるよな
>>672 自分の知ってる範囲だと
DirectWriteはOK
UniscribeもWindows 7かOffice 2010付属のものならOKだが
ScriptItemizeの第4引数にSCRIPT_CONTROL構造体を渡してfMergeNeutralItemsを
1にセットする必要がある。さもないと互換性のため従来どおりIVSの手前でrunが
分割されるので正しく描画できない。
通常はNULLを渡すので修正が必要(DLLだけ入れ替えても対応できない)
>>684 字形の出所にまで遡らないといけないのか…きっついなー
>>685 むしろ実際の字形を一切見なくてもマッチングが取れるんでかえって曖昧さがなくて
簡単かもしれない。
もちろんCID+8686とJTBE75の起源を実際に確かめようとか思ったらえらいことになるけど。
そういうのを協議会で決めるんだろ。叩き台は安岡さんが既に作ったし。 ベンダーだって、コストがバカにならんから新たに作るグリフはなるべく減らしたい。
安岡氏に限らず、こういう細かいの大量にチェックできる人ってどんな頭してるんだろう(褒め言葉)
( ^ω^)
>>588 > 安岡氏に限らず、こういう細かいの大量にチェックできる人ってどんな頭してるんだろう(褒め言葉)
こんな頭してる。
1文字のチェックに15分かけたとして一日に32個
58000個もあれば、1,812日かかるから
7年は食いぶちに困らねぇなw
>>690 今年度中にフォント完成させろとかいう超強行スケジュールなんだが?
無能な権力者ほど文字をいじりたがるな
>>23 > (例:淡淡と淡々、どちらもあっさりした味わい)
> (○○会会長、△△家結婚式式場、これ等は踊り字を使うのは間違い)
というのが基本だというのは理解できるけど、例外なんていくらでも…
> 同じ漢字を直接繰り返すことは、再婚や不幸の繰り返しを連想させ縁起が悪いため、
> 「結婚式々場」、「告別式々場」と表記することが多い。
ふつう結婚式場じゃね?
△△家結婚式場だと△△家が所有する式場みたいじゃね
おまえんちの本家も式場ぐらい持ってるだろ?
Firefox 4: WOFFでIVS対応、SVGフォントは対応を拒否 Opera: Win7ではWOFFでIVS対応、SVGフォントはHTMLから使えない WebKit: SVGフォントでIVS対応、SVGフォント以外はIVSどころか結合文字すら まともにサポートしていない。SafariにいたってはSIPの漢字すら豆腐になる 結局こいつら協調する気ないんだな。 WebKit/SafariはWindows上の話なのでMacやモバイル端末ではもう少しマシかも
現状ではOpenTypeフォントをそのまま使うのが一番安全 でもFirefoxはなんでSVGフォント拒否なんだろ
どこが安全???
Firefox, Opera, WebKit全部対応済みだしIEも9で対応
実際んとこ、IVS含め全部網羅した東アジアフォントってドンぐらいのサイズになるんだろう
glyphwikiの6卍フォントで16MBくらいだったかな アウトラインをpostscript化して整えればもう少し小さくできそうだけど
ううむとうなるサイズだな
>>702 IVSを使えるかどうかは別問題
つーかFirefox 4以外OpenTypeフォントのformat 14 cmap subtableに対応していない。
WOFFと変わらない
当面は {基底漢字+VS} をリガチャとしてGSUBにも突っ込んどけば
format 14 cmap subtableが提唱される前にそれ試したことがあるけど 少なくともUniscribeはBMP外の結合文字に対応していなかったようでうまくいかなかった。 Win7でもformat 14 cmap subtableを使うことが前提なのかうまくいかないみたい。 VistaではGSUBリガチャを使ってた数学記号やパスパ文字用の異体字も Win7ではformat 14 cmap subtableを使う方式に置き換えられた
709 :
デフォルトの名無しさん :2011/02/03(木) 00:29:41
国旗はどうするのかな? SMPにある符号2つの組合せで表されるみたいだけど。
チャートの説明では、「Regional Indicatorを組合わせたものには、 国旗を表すグリフが宛がわれることもあるかもねー」って感じになってる。 国旗は政治的な問題が絡んできかねないから、多分国旗を直接符号化した という形にはしたくなかったんじゃないかと。
要はTW問題対策か。 ケータイ会社がテキトーに作った絵文字のおかげで 世界をこんな難題に巻き込んでしまったことを考えると 日本人の一人としてとても申し訳ない気持ちになるが、 ……その当の日本の国旗はというと 建国記念絵文字の旗竿付き日の丸としてちゃっかり同時に、 国旗符号とは別枠で入ってるんだから乾いた笑いが止まらないw
軍艦旗も入れとけばよかったな
>>711 日本地図や、渋谷駅前のモニュメントを記号化したものまで入ってるしな。
ガラパゴス絵文字をほぼそのまま取り込んだんだからある意味当たり前ではあるが
Regional Indicatorは14面の文字じゃないのか…。 14面の文字だとそれ自体は表示されないんだっけ?
アパッチはNot Foundと言っている。
話のすり替え乙
何が?
誰かの手書きの誤字が「典拠」として収録されてしまうって現状そのものじゃん。
722 :
デフォルトの名無しさん :2011/02/08(火) 17:47:23
ュ KATAKANA LETTER GAMEST E ラ KATAKANA LETTER GAMEST HU ウ KATAKANA LETTER GAMEST RA 上 KATAKANA LETTER GAMEST TO
ラとかウに似たカナを提案するのは危険
また国語審議会の人が怒るのか
「ネ」と「申」を組み合わせて1文字として扱うのは、濁点の仕組み使えばできるかと思うのだが、 「神」という文字を2文字として扱うにはどうすればいいんだ?
NEMOUSU TV
2channeler decomposition mapping が必要だな・・・
ノ\゛力
>>727 decompositionじゃなくてcollationで
contraction(2文字を1文字として扱う)も
expansion(1文字を2文字として扱う)も可能
悟リ の分解再構築が可能になるのか
フォントの合字でやれよ
まさに'dlig' featureの出番
何だこの流れw みんな蝦を持て余してるんだなw
ぐだぐだだなw
復旧したようだ
IE9 RCがIVSに対応してた。イヤッッホォォォオオォオウ!(AAry Firefox同様SVGフォントには未対応なのでWebKitとそれ以外の陣営に分かれたようだ。
どんどん混沌としてくるなあ
>>302 やARIB外字の非漢字はIE9 RCでも相変わらず箱だった…。
Win7のレンダラに丸投げしているだけでは。
>>740 SP1 RCを入れてるからメモ帳では花園明朝を選べば表示できるんだよ。
IVSもIE9 betaでは駄目だったのでDirectWrite使うだけでうまくいくわけではないみたい
あ、CSSでフォントを指定したらIE9でも表示できた。 フォールバックがショボいのか。
ふむ
指定されたフォントが、あるIVSに対するグリフを持っていなかった場合のことは、 今のところ実装依存なのかな。 基底文字用のグリフでOKとするのか、別のフォントへフォールバックするのか。
難しいな
今のところWebブラウザでフォールバックするものは存在しない
俺の頭はフォールバック中だ!
繋がらなくなることは最近よくあったけど404は初めて見た。
長いね コンビーナが気づいてないのかな
小書きの「こ」もゖの次じゃなくてSupplementの方なのね
その辺の使い分け基準がどうもよくわからない
ワンブロックにひらカタ両仮名が規則性もなく混在ってのも何だかなあ
中黒と長音符がひらがな、濁点がカタカナにある時点で最初からおかしい気がしてならない
そのへんは何であそこに入っちゃったんだろうな。 3000〜303fのが良さそうなのに。文字名にHiraganaとかKatakanaって付いてたせいか。
757 :
デフォルトの名無しさん :2011/02/17(木) 08:40:56
U+3040,3097,3098はもう永久に埋まらんのかな?
ドイツ人はβの位置で悩んだり愚痴ったりしないのかな
ベータの位置で悩んだり愚痴ったりはしないだろうな エスツェットの位置で悩んだり愚痴ったりはするかもしれないが
日本は10646 2ndに反対票入れたのか・・
さすが文字を増やしたくない連中のすくつだな
Unicode listでUTF-cにマジレスしてる奴は 日本人のくせにUTF-9 (エイプリルフール版じゃない方)も知らんのか…。つーか > In your proposal, the maximum length of the coded character > is 4, it is less than UTF-8's max length. UTF-8の最大長は(Unicodeでは)4バイトだろ。何言ってるのこいつ
まあJSC2の人だから、と思ったけど今は10646でも4バイトなのか。
5バイト、6バイト長になるとこは使わないことになったんだっけ?
言い分は解るがFDISで反対票ってのはなぁ 3rd ed.がすぐうしろに控えてるんだから もっと穏当なやり方あったろうに
FDISってことはもうWG2の手を離れてふつーならシャンシャン投票になる段階か。 JIS X 0213:2000のときも親委員会でもめたな
Unicode 6.0のmulticolumn chartもちょっと見れば分かるような間違い満載だし (U+20534あたりとか)まあ気持ちはわかる。 しかしこれを鵜呑みに実装されたらと思うとワロエナイ
票読みはした上でのことだろうけど万が一否決されていたら 2版そのものがパーになったわけで 棄権してコメントはwg2にポストする方が他国の心証はよかったんじゃ
JTC1/SC2ではMember bodyに拒否権がなくてよかったな
殺伐としているなあ
Unicode 6が全chapter完成したそうだ。
BookmarksはまだだけどもうPDFは読めるね
守岡氏(@MnjaMnja)が何をあんなに悩んでるのかよくわからん。 字体・字形の禅問答を避けて「base characterで表現するのが適切なグリフの集合の 部分集合」と定義しているUTS#37のほうがよっぽど形式的(formal)だと思うんだが。 # 前半の「集合」がwell-definedかどうかはまた別問題
なんかグリフをネット公開するだけでにユニークコードくれる団体とか、そのコードの規格とかってないものかな?
しいて言えばトロンコード? 郵送しなきゃいけないようだけど番号は機械的にくれるみたい
ISO/IEC 10036 (原則有料) IVDもMember bodyに対して無条件に登録料棒引きとかするなよ。 有料なら無駄に税金使うなと圧力掛けられたのに。 (同じかどうかわからないから無駄じゃないと言い張るだろうが登録料に 引き合うだけの効用があることを証明する必要が出てくる) まあIVD登録の方に誘導したかった気持ちはわかるんだが
Win7 SP1が出た ようやくARIB外字フォントや絵文字フォントが使い物になるのか
絵文字フォントついてるの?
付いてないけど今までWin7では作っても(Firefox以外で)表示できなかったのが改善された
とりあえずジョークRFCでいいから、架空文字とかをユニークコードとして扱える規格が出ないものかなあ?
128bitくらい空間を用意しておいて(IPv6のULAみたいに) ランダムに使うことにすればほとんどかぶることはないって誰か言ってたな
16バイト文字コードに既存のコード全部ぶち込んで、適当な圧縮で改行単位とかでパックすれば縮んて、意外と実用的になったりして?
Logoで亀に書かせる方式にすれば、どんな文字でもかけるんじゃね?
はいはい、表現したい文字を書く最も短いLogoプログラムが 文字コードになるわけですね?チャイティンさん。
>>764 10646 2ndでは定義域が完全に0000..10FFFFに定義され直して、群(Group)の概念は
黒歴史になった。U-00000000形式の8桁表記も廃止された。
もちろんUTF-8も4バイトまでしか定義されていない。
じゃあ一体存在意義は何なんだ
10646 2ndのdecomposable characterの定義がすごいことになってる > A decomposable character is a character for which there exists an equivalent > composite sequence. まず「equivalent」の定義が見当たらないが、話が進まないので 「canonical or compatibility equivalent」のことだと思い込むことにする。 > 4.17 > Composite sequence > A sequence of graphic characters consisting of a base character followed by > one or more combining characters, ZERO WIDTH JOINER, or ZERO WIDTH > NON-JOINER (see also 4.14) Singleton (互換漢字など)はcomposite sequenceじゃないらしい (one or more combining charactersが存在しない)。したがってdecomposable characterでもない。 素直に「UCDに分解マッピングが定義されている文字」とかUnicodeと同様の 定義にしておけばよかったのに、どうしてこうなった
> Singleton (互換漢字など)はcomposite sequenceじゃないらしい Singleton (互換漢字など)の分解結果はcomposite sequenceじゃないらしい。 したがって互換漢字は(10646 2nd的には)decomposable characterではない。 だった
今の10646ってこれ単体で運用できるのかな
UCDとかUAXとか参照しまくり
ううむ
http://slashdot.jp/%7Eyasuoka/journal/525713 >それでも、「U+1F1FF U+1F1F7 U+1F1FA U+1F1F8」(ZRUS)に関しては、
>「旧ザイールの国旗」と「アメリカ合衆国の国旗」を表示する実装、
>という大技があり得るので結構なやましい。
>うーん、こんなことなら、High/Low Surrogatesをみならって、
>1文字目と2文字目を別コードにするよう提案すべきだったか…。
ZRはobsoleteですよ、センセイ
ふむ
796 :
デフォルトの名無しさん :2011/03/03(木) 21:40:59.85
あ、Mac OS X LionにEmojiフォントが付くってことは、 Unicode 6ベースなんだな。
ヒラギノのIVS対応マダー?
>>796 フォント付くの?
なんか絵文字の表示に対応っていう微妙な言い回しの記事なら見たが
799 :
デフォルトの名無しさん :2011/03/04(金) 02:05:01.22
フォント付くのかー カラーは現在のTrueType仕様では対応してないはず 独自拡張かな
502グリフってことは収録文字はiOSと同じくSoftBankのものだけっぽいな
ううむ
803 :
デフォルトの名無しさん :2011/03/04(金) 22:26:46.82
ありゃ、docomoとauも入れると何文字?
1000文字以上 iOSにあった同名のフォントをそのまま持ってきただけじゃね
IVSとかOpenType Layoutには対応してるの?
DirectDrawもいいけど秀丸はちゃんと結合文字サポートしてくれ。 いまだに半濁点付きカ行がちゃんと表示できない。
結合文字サポートしてないならIVSをサポートしてるわけないと思うんだが。 バックエンド(DirectWrite)がサポートしててもアプリがアホなことしてたら まともに表示できない。 それにエディタなら結合文字の前半だけ削除したり選択したりできないとか カーソル移動の対応とかも重要だな。1バイト文字しか扱えない欧米のエディタで マルチバイト文字の文書を扱ってるんじゃあるまいし。 欲を言えば検索にも対応してほしい
安岡さんが変体仮名の話題ねえ 文字情報基盤〜の方でゴーが出たのかな
そっち方面はいろいろタブーがあったりするのか
あひるだかほつまだかって出せるの?
jindaiはだいぶ昔に蹴られてるはず
>>811 底辺IT土方「結合文字サポートしてないならIVSをサポートしてるわけない」キリッ
大学講師「結合文字サポートは後回しでIVSをまず先にサポート」キリッ
ttp://www.fonts.jp/hanazono/ 結合文字とIVSとじゃ潜在的需要の規模がまるで違うだろ
だいたい結合文字をいまさらサポートしてもエディタの売り上げにつながらねーよ
そんなもんより今後注目を浴びそうな先端技術をいち早くサポートすれば宣伝効果があがるだろ
つーかエディタでDirectWrite対応してもIVS以外で売り上げにつながる謳い文句があるとは思えんが
VSは結合文字の一種なんだが?
OpenTypeフォントにおいてはVSはその他の結合文字と違うテーブルで実装されるけど DirectWriteを呼び出すアプリにとっては別に違いはない。 だから結合文字をまともにサポートしないアプリはIVSもサポートできない
ゴシック体は文字の骨格をどう捉えてるかがはっきり出るだけに難しい罠。 とりあえず春(す)は、二画目の終わりを左に跳ね上げて三画目に繋げた方が 自然だと思う。
ChromeはIVSの表示には未対応だけど検索に対応してた。 たとえば「葛飾区」で検索するとちゃんと「葛(U+E0101)飾区」にもヒットする。
逆に「葛(U+E0101)飾区」で検索して「葛飾区」はかかるの?
かかる。
素晴らしい
素晴らしいな
telで検索するとрノヒットしたりキロミリで検索すると`_にヒットしたりするな こっ、これは別に互換分解なんかじゃなくてデフォルトの照合規則なんだからっ 変な勘違いしないでよね!
829 :
デフォルトの名無しさん :2011/03/14(月) 20:34:31.93
だね
モヤイで検索するとアホ面の絵文字が引っかかったりするのだろうか
モ「ヤ」イの時点であいまい検索だな。
渋谷のはモヤイが正解
G\"odel, Godel, Goedel K\H{o}nig, K\"onig, Konig
Unicode 6.1はQ1 2012の予定っすか。
何が変わるんですぞ?
10646の3版に一致させるみたい。
チックタックだなあ
余震が怖い
いつのまにかppmからEncode::EUCJPMSがなくなってるんだけど ActivePerlでCP51932を扱うにはどうしたらいいの?
自己レス。 Strawberry Perlに乗り換えて解決した
>>839 IVSの粒度はIVCごとに異なっていて
常用漢字表に印刷されている「次」 ∉ 6B21 E0100
常用漢字表に印刷されている「次」∈6B21 E0102
常用漢字表に印刷されている「次」∈6B21 E0103
6B21 E0100⊂6B21 E0103
6B21 E0102⊂6B21 E0103
と理解してたんだけど。
つかIPAmj明朝一般公開見送りかよ…。
IPAフォントはヒンティングが今一つなんで、公開しても民業圧迫ってことはないと思うんだけどなあ。
>>843 民業圧迫が理由じゃなくて、たとえば常用漢字表の「次」の字形(6B21 E0102に近い)
を6B21 E0103(チャートでは6B21 E0100に近い)に割り当てていいのか? という
問題が未解決だからだそうな。
>>842 に書いたとおりの解釈ならいいと思うんだけど、安岡先生が強く反対しているので
とりあえず公開見送りになったらしい。
考えられるオプションは
・とりあえず「次」などはIVSを外す。
・上記のような問題が起きる数文字をIVDに登録する。
・いっそ常用漢字の2136字すべてを「常用漢字コレクション」として登録する。
これ以上日本発のコレクションを増やすのはあれなんで 汎用電子に追加する方向がいいな
Unicodeのミス見つけた 𪕾(2A57E:鼠+芻) 𪕿(2A57F:鼻+自/冖/儿) 𪖀(2A580:鼠+雀) 別の部首の漢字が紛れ込んでる
そういうのって指摘があったら直されるものなの?
フォントのミスなら直るはず
それふぉんと?
12 名前:1 [sage]: 2010/07/12(月) 17:54:35
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
>>849 許可ください。
9ヶ月前のロングパスを回収っすか。
10646/2ndのフリー版マダー?
フリーがいいっすよね
4011-4013は四月馬鹿三連発なんだろうけど Source欄を見るとちょっぴり本気かもしれないと思えてくるから不思議
おお エイプリルフール提案文書来てたのか
ヨーロッパでももう4/1って終わってるよな。 unicode-mlでの議論見るに、もしかして本気なのか?
ファイストスの円盤文字も4月1日提案だったのか(N3066)。 こりゃやっぱりPlane 13を異体字セレクタ用に予約してもらうべきだな
IRG36ネタ ・AJ1用に32のIVSを追加するよ! 2011/06から登録手続きをする予定だよ!(IRGN1765) ・汎用電子も2011年末までに第二陣を登録するよ!(IRGN1760) ・UTC自身が簡体字をIVDに登録するよ!(IRGN1757)
乙
今年後半はIVDの更新レビューが2回行われることになるのか。
> The following represent new developments in the realm of IVS support, which demonstrate that acceptance of and > support for IVSes are becoming increasingly broad: もしかしてKen LundeがIVSサポートしてるフォントをTwitter上でゆるぼしてたのは このためか?
簡体字はUnification Ruleによるとほとんどは統合されないことになっているから IVSでは表せないんじゃなかったっけ? せっかくIWDS作ったのに端からブチ壊しに してくれるわけ? (逆に反対する奴は10646 3rdのAnnex SとIWDSを根拠にすればいい)
CSSで「text-rendering: optimizeLegibility;」を指定するとChromeやSafariのWindows版でも 結合文字やBMP外漢字を表示できるようになることが判明。
な、なんだってー!!(AA略
朗報っちゃ朗報だが、Legibilityと何が関係あるんだろう…?
デフォルトのoptimizeSpeedは速度優先 optimizeLegibilityは正確さ優先だから 速度を稼ぐために結合文字の処理を真面目にやってないってことかな。 しかしTwitterを「text-rendering: optimizeLegibility」で検索すると 落ちるだの表示がグチャグチャになるだの旧字体になるだのさんざんな評判だな。 デフォルト設定じゃないからまともにテストされてないんだろうか。
漢字を知らない馬鹿と漢字しか知らない馬鹿
1757は連名なのになんでJenkinsだけ名指しなんだろう。
>>867 ふつう反対するよ
安岡センセイに触発されて調べてみたら少なくとも6文字が
Extension Cに収録済み(しかもUnihan DatabaseでkSimplifiedVariantも定義済み)
なんだがいったい何をどうしたらこんな大雑把な提案が作れるんだ…。
特定のグリフがどこそこに収録済って言い方はおかしい 例示グリフに例示以上の意味はないから
じゃあExtension Cに6文字もUROと重複があるとでも言えばいいの? そんな言葉遊びがしたいわけじゃないんだが
重複じゃないんだったらIVSでは表せない(Annex S的にUnifyできない) ものを無理に表そうとしているわけで、どっちにしても提案は破綻してる
Unicodeが符号化しているのは抽象化された文字で、 IVSが指しているのは具体的な文字図形。 言葉遊び以前にレイヤーが違う。
漢字しか知らない馬鹿の方が信頼できる
876 :
デフォルトの名無しさん :2011/04/22(金) 11:45:49.42
>>871 IRGN1757よく読め。これが収録しようとしているのはグリフじゃない。
うむ
むう
ややこいなあ
しかし、縦に書かない日本語はな・・・
IRGってOracle Boneまで手がけるのか・・
改元したら、何日ぐらいでPCで使えるようになるのかな?
もうその手の互換文字は追加されないと思うよ
根拠は?
「~」を「偏が平、旁が成の国字」だと主張するんだ
実際に「偏旁」の一文字が存在する元号になるとややこしいな。
火暴 とかか 火暴元年 んー
寧ろ「日暴」で。「
縦書きフォントだと、 冠 旁 になるわけ?
广の中にマが入って麻の略字、ってやつを追加してほしい
>>889 大正はそっちのほうが収まりがいいな
■ ■
■
■■■■■■
■■■■■ ■
■ ■ ■
■■■ ■ ■
■ ■ ■■■ ■ ■
■■■ ■ ■ ■
■■■ ■ ■ ■■
■ ■ ■ ■
■ ■■ ■ ■■
■
■
■■■■■■■■■■■
■ ■
■■ ■■
■■ ■■
■■■■■
■
■ ■■■■
■ ■
■■■■■■■■■■■
>>890 それは魔の略字だろ。
それを言い始めたら、广にKOを入れた字も入れろと言い出す奴も出てくるから嫌。
ラテンとCJK夢のコラボ
「日へんに玉」ってCJKに入ったの?
旧TRON文字収録センターの画像が消されてトップページも移転通知になった 検索CGIはまだ残ってるみたいだけど
10646 2nd ed.の無償版来た!
2003以前は削除されたか
(´д`)エー
まあ規格ってのは最新版のみが有効なもので、どっかの国の漢字コード規格みたいに 全バージョン参照する必要があるほうが本来おかしいから。
歴史的経緯を知らないと文字コードは理解できない って安岡センセイが言ってたよ
今日まで異字体と戦ってきたみんなを、 希望を信じたプログラマを、 私は泣かせたくない。 最後まで笑顔でいてほしい。 それを邪魔する規格なんて、 壊してみせる、変えてみせる、 これが私の願い。
安岡センセイはJISの歴史に詳しい。 安岡センセイとって都合の悪いUnicodeについてはかなりレベルが低い。 認識の誤りを指摘されてもたださずに同じことを言い続ける老害レベル
安岡センセはその昔 sci.lang. とかで漢字のAA貼って奮闘していたからなあ
包摂絶対正義主義の基地外が湧いてます?
Unicodeに関してはちょくちょく「?」なことを言うなとは思っていた。 とりあえず他国の代表をブログで馬鹿呼ばわりするのはやめと毛。
>>901 「理解」がどういうものかにもよるでしょ。
仕様を議論したいなら歴史的経緯は必要だろうけど、
規格に合わせた実装を作りたいだけなら必要ない。
仕様書だけ見て実装できないなんて規格として欠陥品 欠陥品であることを逆ギレして自慢するとかもうね
>>907 文字コードは異なる文字コードとの変換が重要だから、歴史じゃなくて
いろんな文字コードの体系だった知識とか製品固有の知識が必要になると思う。
Windows-31Jの仕様とJIS X 0208の仕様だけみてもJIS変換プログラムは作れないし、
Oracle DB(JA16SJIS)を使用しているJavaプログラムで「〜」が化けるので何とか
してくれと言われても仕様書だけじゃ足りないし、文字コードにShift_JISを指定すると
JavaでHTMLが文字化けするのに対応できない人は多い。
先日はHP-UXでiconvにsjis指定すると文字化けするので何とかしてくれと言われたので
cp932を指定させたらすぐ直った
それ歴史じゃないじゃんw
うむ
完璧にそれまでのUnicodeの分離方針と矛盾してるし あれは馬鹿と言われても仕方ないレベル
しかもPRCに話がとおってないらしい
IVDはコンソーシアムの管轄下にあるから USが本気なら誰が反対しても登録されるだろう。 問題は背後にどんなシナリオがあるかで。
安岡センセイがJenkins名指ししてるのも そのあたりなんだろうな
てか狙いがわからない
920 :
デフォルトの名無しさん :2011/05/17(火) 22:06:30.69
安岡センセイRegional Indicator Symbol Letterを奇数個とかワケわからん 認識の誤りを指摘されてもたださずに同じことを言い続ける老害レベル
花園明朝UCS漢字完全対応キタコレ
あれは曲線がなあ。直線で擬似的に作っているから引き延ばすと悲惨。
まあ漢字のLast Resort Fontだから品質は仕方ない IPAmj明朝が公開されていればなあ…
KAGE形式のデータから直線の代わりにベジェ曲線か何かで アウトラインを生成するアルゴリズムが次の研究課題だな
>>923 IPAmj明朝はCJK拡張C・Dはサポートしてないし
拡張Bも27000字くらいなのでUCS漢字完全対応には遠い
文書いっぱいヘルシンキのagendaもいっぱい
WG2 N3987どうなるの?
Tフォントも2月に公開されたし 今年は多漢字フォントの当たり年だな
> 文字情報一覧 文字情報一覧表 ver.000.01 (検証版) zipでくれ
これってきっとInDesignみたいにグリフを直接呼び出せるアプリじゃないと フルには使えないよね。
未符号化文字はPUAに入っているわけではなくて本当に何の符号も与えられていないから グリフID指定で直接呼び出せるアプリでないと使えないのね。
安岡センセイ涙目w
Macの文字ビューアでも使えるらしい
DLしてみたものの使いどころがない…
それでもDLしちゃうのよね
>>934 ヒラギノのCIDしか付いていないグリフを利用するための仕組みの流用だな
DLしてニヤニヤながめてればおk
WindowsではSIL ViewGlyphで見ることだけはできるが 他のアプリに貼り付けられないのでほとんど意味がない
Macだと貼り付けも出来るの? SILってこんなのも作ってたのか。 IPAフォントのイメージしかなかった。
>>940 Glyph Access Protocolに対応しているアプリ(標準のTextEditとか)には
貼り付けできるはず
情報処理推進機構と国際音声記号の頭文字がかぶっているのを何とかしてほしい
同感 前者が改めるべきだな
連坊に頼めば?
IPA明朝とあるのを見て、ああ音声記号も収録した日本語フォントなのね、そんなのは別にいいや とか長いこと思ってた人間が実際にいる。自分とか というか組織名だと知らなきゃそうとしか解釈できなかった
モリサワ明朝とかAdobeゴシックとか命名するようなもんか
まあMS明朝とかMSゴシックと命名されたフォントもあるし
反省して、メイリオでは何もつけませんでした。
マイクロソフトの社名入りフォント名は MS なんとか ってのと Microsoft なんとか ってのがあって これはこれでなんか不統一感
MS Sans Serifはラスタフォント(ビットマップフォント)で、 Microsoft Sans Serifはそれとは異なるTrueTypeフォントだとかもうワケワカメ
>>951 MSとMSってのもある。
MSゴシック系はたった3つでこの有様。
MS ゴシック
MS Gothic
MS Pゴシック
MS PGothic
MS UI Gothic
MS UI Gothic
「MS ゴシック」と「MS Pゴシック」の場合、
「MS」「P」は全角で、その間に挟まるスペースは半角。
ラテン表記の書体名では「MS」と「P」の間にスペースが挟まり、
「P」と「Gothic」は続けて書く。
一方、「MS UI Gothic」にはカナ表記の書体名が存在しないので
上2つのような「MS UIゴシック」は通らない。
ラテン表記では「UI」と「Gothic」はなぜか離れててPGothicと不統一。
花園明朝のvmtxテーブルひどいことになってるなぁ
縦に書くと文字が全部重なるって奴か
うーむ、まだ実用には程遠いか
縦書き時の文字の高さが15になってる そりゃ重なるわ
USはなんでNo action is requiredな文書をこのタイミングでポストしたんだろう。
御意見無用?
ご意見無用 でも読め! 真意やいかに
言ってみただけ〜♪
IVSだけじゃなくligatureにも言える問題だよなぁ 英語力ある人はCSS3 Fontsのエディターと掛け合ってみてほし
そもそもfont-familyってフォールバックさせるためのものじゃないんじゃないの?
じゃ何のため?
967 :
956 :2011/05/27(金) 08:07:58.16
スンマセン勘違いしてました…
あ、956じゃなくて965だった…
グリフ探索を2周以上するってのは難しいと思うなあ。 1文字ずつやるわけだし速度的に相当なコストになりそう。
UTS37の新editorsの面子がおもしろひ
現実的にやるのが難しくても、 「正しくはこっちだからね?」と決めておくのは大事じゃないかな。
最近のCSS3 FontsはほとんどFirefox仕様の引き写しになっているから、 Mozillaの中の人を説得するしか。
>>970 現状〜近未来において、IVSを使った文字が大量に連続するのって
それこそ漢字一覧表ぐらいのものじゃないか?
5年も10年も後ならまたリソースの状況が違ってくるだろうし
人名の漢字一つだけ違うフォントで表示されたら たとえ正しい異体字が出てても違和感があるんじゃないかな
違和感あるなしの問題じゃないだろうjk
977 :
デフォルトの名無しさん :2011/05/28(土) 08:49:19.58
まもなくここは 乂1000取り合戦場乂 となります。 \∧_ヘ / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ,,、,、,,, / \〇ノゝ∩ < 1000取り合戦、いくぞゴルァ!! ,,、,、,,, /三√ ゚Д゚) / \____________ ,,、,、,,, /三/| ゚U゚|\ ,,、,、,,, ,,、,、,,, ,,、,、,,, U (:::::::::::) ,,、,、,,, \オーーーーーーーッ!!/ //三/|三|\ ∧_∧∧_∧ ∧_∧∧_∧∧_∧∧_∧ ∪ ∪ ( ) ( ) ( ) ) ,,、,、,,, ,,、,、,,, ∧_∧∧_∧∧_∧ ∧_∧∧_∧∧_∧∧_∧ ,,、,、,,, ( ) ( ) ( ) ( )
IVSが65535個を超えたら、どうしてOption 1は破綻するの?
1ファイルに収録できなくなるからじゃない?
互いに重複したbase characterを収録していない複数のファイルに分ければ
いいだけだと思うけど。
個人的にはOption 2を支持したいけど
あんな文字鏡関係者並みの下手くそな言い訳は説得力なくなるからやめてほしいもんだ
http://www.pcc.or.jp/hyojun/1-3hitsuyousei.htm > しかし、フォント仕様(OpenType等)の制限により240のバリエーションは使用できず、
> 実質的には1〜2桁少なくなる。(フォントが一つの面につき65k字までしか表現できない
> ので、仮にBMPの27,000字の漢字がIVSCを使うとすると65,000÷27,000≒2.4字となる)。
"一つの面につき"は不要
まとめを誰か