1 :
デフォルトの名無しさん :
2011/05/29(日) 00:12:44.96
リンク集も古くなっちまったな・・
■これまでに行われた議論 ・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え 内部的には Unicode -> CP932 -> CP5022x って変換な気もする ・人名をソートかけたらバストサイズ順の並びになる? ・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか ・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる) ・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた? ・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題 ・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。 Macではフォントによっては表示されないし、フォントによっては表示される ・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に 機種依存文字はサポートされるか? ・Safari文字コード変換のバグは ・Microsoft文字コード変換のバグは ・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件 ・なぜ携帯業界はunicode化しないのか? ・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか ・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る ・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない ・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか) ・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES ・UnicodeとUTF-8の違いは? ・日本のCJK Ext.D Submissionに{魚針}が含まれてる件 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針) ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。 中国ではってレベルじゃねーぞ。 ・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで) サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い) ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。 ・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。 ・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。 ・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ ・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか ・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。 ・Unicodeサニタイズが面倒になるのか
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉 ・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。 ・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定 → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。 ・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。 ・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。 ・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→ コントロールパネル-地域と言語のオプション-[言語]タブで 「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック ・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。 ・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!! ・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。 ・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。 ・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。 ・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。 ・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る? ・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。 ・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」 ・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
あるいは
http://masaka.dw.land.to/mr/jmr.phpとか 。
前スレdat落ち
甲乙丙丁戊己庚辛壬癸 癸だけが第二水準
___
/ ||
>>1 .|| ∧_∧
| ||乙_|| (・ω・`)
| ̄ ̄\三⊂/ ̄ ̄ ̄/
| | ( ./ /
あちゃー前スレ落ちちゃったかー
ほー、日本は小書きコに反対か。 汎用電子IVDに続いてアドビとしちゃ面白くないだろうな。
反対するのが生きがいのような連中がWG2に居座ってるからな。 つーかIRGN1757にも反対しろよ。普通なら真っ先に反対してるだろ。 返す刀で汎用電子の追加登録に何か言われたくないのか?
n4091 >some discussion in Japan on the possibility to have a standard set of hentaigana. おっ!?
Japanって常々どうも理解しがたい主張ばかりしてる気がする
小書きコの運命やいかに
もういっそ五十音全部小書き版作っちゃえよ
23 :
デフォルトの名無しさん :2011/06/02(木) 10:48:42.38
ねもうす しめしもうす
UTCは小書きこを受理済みなのね てことは日米での殴り合い確定か
カゲながら米を応援したいと思ってる
日本が何らかの決断するまで変体仮名は前に進められなくなっちゃったかも
ヘルシンキかあ。ちょうど白夜の時期なんだろうなあ。
377 :SIM無しさん:2011/06/09(木) 06:40:25.91 ID:7+dIaRVO Segoe UI Symbol を担当した Agfa Monotype の人間出てこい… 気になる点を調べたが… おでんの具の刺さり方がとんでもなかったり、ひな祭りの人形が百合祭り (性指向) の人形になってたり、 出来れば製品版で直っていてほしい。
どこで見たんだろ。SDKには入っていなかった気がするけど。
AppleはAppleで絵文字専用フォントフォーマット作っちゃったようだし 結局プラットフォームごとにバラバラな見え方することになるんだろうな
32 :
デフォルトの名無しさん :2011/06/09(木) 22:22:48.52
うむ
安岡先生どこで編集合戦したの?
直接ウィキペディアをいじっちゃ駄目だろ ウィキペディアの出典になりうる文書を書くほう(本業)を頑張ることだな
自著を典拠にして自分でwikipediaの記事書いてた/るってこと?
なにか問題あるの?
アンチ安岡の病人がネットには何人かいるようだから、そのうちの一人だろ。 相手にすんな。
小書きこ入らなかったか…
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n4108.pdf > Moreover, Japan national body is not comfortable with the idea to encode such
> ad-hoc inventions in UCS. Generally speaking, authors can do anything he/she
> considered appropriate, and most of those novel usages are just forgotten
> without any followers. We should not encode new characters unless they are
> considered to have some established usages.
JIS X 0213は吉本隆明のためだけにU+2A437「??」を収録したけどな。
Janeから書いたら「𪐷」が文字化けした
こんなにいっぱい矢印が入ることは見過ごせても ちっちゃいコが二つ入ることは容認できないのね
Jane(笑) 俺のV2C△□×
>>45 一度入れたらなし崩しになるとでも思ってるのかね。
その観点ではもう手遅れもいいところだろ
これが漢字なら、写研の文字セットにもある(キリッ って逆に典拠として使いそう
漢字はいろんな意味で特別扱いされてるよな 雪だるまとか包摂されまくりなのに
写研といえばBA-90のUnicode収録マダー? (AAry ログインとかうる星やつらで使用実績もあるぞ
U+1F31Dに包摂されるんじゃないの
(笑)が使われる以前はインタビュー記事とかでも結構使われてたな。
今見ると{ハハッ ワロス}って吹出しがつきそうな顔だ。
____ / \ / ─ ─\ / ⌒ ⌒ \ ハハッワロス | ,ノ(、_, )ヽ | \ トェェェイ / / _ ヽニソ, く よく雰囲気出てるな
ウィキペディアの管理者は一般利用者に対しては火のないところにも煙を立てるけど CheckUserの靴下疑惑は「同棲してました」で済ませる人格者ぞろいだからな
火のないところに火を付けて煙を立てる2ちゃんねらーが言うなw
先週のWG2で日本に関係ありそうなのは ・コンソーシアムがUTS37などを改訂する時はWG2の意見を尊重すること くらいかな あとは ・Wingdings/Webdingsの記号がいっぱい受理された ・線文字A受理 ・Amd8から先送りされ続けているA78Fがまた先送り ・USがこれ文字じゃないだろと言い続けて同じく先送りされてきた1BFA-1BFBがとうとう削除 ・三つ巴の提案で暗礁に乗り上げていたOld Hungarianがようやく決着 ・ミーティングの間隔が空きすぎているのでためしにオンライン会議を導入
オンライン会議って動画をやりとりするの? チャットじゃなくて
discussion list and teleconferencing facilities って書いてあるねぇ。
62 :
デフォルトの名無しさん :2011/06/13(月) 21:40:33.05
著書にすらできない脳内ソースを延々書き連ねるよりよっぽどマシだな
それも含めて10646からnormativeとして参照している文書すべて らしい
確かにUnicode側の都合だけで参照文書コロコロ変えられたらたまらんよな
一度手にした白紙委任状をコンソーシアムがそう簡単に手放すかな〜
>>65 俺の英語力がないのか、内容がわからん
何のためにこんな改訂するの?
glyphic subsetが集合であることを明確化するため
後から追加可能だったら閉集合にならないじゃん
glyphic subsetに何が含まれないかはもともとはっきりしていない 何が含まれるかがより明確になるだけマシ
「私の知っているKen Lundeなら必ずやる」にワロタ
互いに素?
無理だろうな
>>74 2つのglyphic subsetが共通部分を持たない、って意味じゃね?
向こうしばらくの主戦場はIVSか。
PRI 183キター
>互換漢字「氈v(U+FA20)はIVSの基底文字になれない IVSの基底文字になれなかったら 艸カンムリ3画・4画の差をどうやって分けるの?
>>79 U+FA20はバグだと主張して新たに統合漢字として追加提案する
>>79 U+8612に艸カンムリ3画・4画のIVSを両方追加する
うむ
U+2B789とU+2B78Eみたいなことになりそうなのが微妙
文字コードとRFC(2822)の関連性について、どなたか教えてください
なんでRFC 5322に廃止された2822?
UTS #37でdeprecationも規定してほしい
>>85 すいません、今は更新されてRFC5322なんですね。
文字コードとRFC(5322)の関連についてのレポートを書かなければいけないのですが
いまいち良く分からないので、こんなの書いたら良いよっていうのがあれば教えてほしいです。
文字コードのことわかってない土方大杉。
>>87 質問が漠然としすぎててなあ。
・RFC 5322ではContent-Typeヘッダフィールドで本文の文字コードを指定する
・日本ではRFC 1468に従いふつーISO-2022-JP
・最近はUTF-8も増えてる
(とくにRFCに根拠はないが強いてあげればIMC勧告から参照されているRFC 2277)
・添付ファイルの内容の文字コードはMIMEのRFC(2045〜2047)に従う
・添付ファイル名の文字コードはRFC 2231に従う
あとは適当にふくらませてくれ
>>89 > ・添付ファイル名の文字コードはRFC 2231に従う
ちょっと表現が微妙ですね。
2011年、Ruby,Perl,PHP,Pythonって並べたときにさ ここで、Ruby以外を選ぶ奴ってマジでなんなんだろうな ゴミグラマは社会底辺
>>91 Rubyみたいに糞遅いもの使えるか。
どーせメンテしないなら、呪文みたいなperlのコード書く。
荒らしはともかくそれにコメントしようとする前にせめてスレタイをみてくれないか
>>93 何お前まだ表示してるの?
人生無駄にしてるな
汎用電子第二陣もう来たのか。早かったなあ。
>>95 安岡センセイが指摘したU+2B751
さっぱりわけわからん
全員が職業プログラマーってわけじゃないから別にいいだろ。 でもこのセンスの無い糞コードは何とかしたほうがいい。
コンバータが大きくて不恰好なのは、過去あんまりにもめいめいに勝手な変換が行なわれたせいだ だから、iconvが大きいと文句を言うのなら、変換にはiconvを使わなければならない 自分で文字コード変換なんて絶対にやってはいけない ましてや公開とかありえない
>変換にはiconvを使わなければならない >ましてや公開とかありえない はいはい。オマエは黙ってろ
既存の何を使うかはともかく、自力で絶対にやってはいけないのは確かだな 自力でやって「どうしてこんなことをライブラリに頼らなければならないのだろう」と感じたならなおさら
UTF間の変換ごときで外部ライブラリをリンクしたくないってのは同意できる。 せめて標準ライブラリが使い物になればいいんだけどな。 char16/32_tも、mbrtoc16等の関数群はあるけどこれってもしかしなくてもロケール依存だよな……?
Unicode 6を読んでもISO/IEC 10646:2011を読んでもUTF-8は最大4バイト としか読めないんだが、6バイトとか言う奴はなんなの?
まあ、ライブラリの粒度がもうすこし細かければ全員ハッピーなんだと思う そんな世界なら、わざわざ自分でやろうと考える人もおるまい
>>103 31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
今んとこ21ビットしか使ってないからとりあえず4バイトでおkだけど
文字が割り当てられてないコードをUTF-8に変換しても維持しようとするなら6バイト対応が必要。
>>105 >31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
それはUTF-8じゃないよ。ill-formedと書かれてるんだから。
3.9『Any UTF-8 byte sequence that does not match the patterns listed in Table 3-7 is
ill-formed.』
サロゲートを思い出すんだ。今illだからといってry
>>103 > 6バイトとか言う奴はなんなの?
ただのジジイ。放置でおk。
でも最大4前提で確保したバッファを最大6前提の変換ルーチンに渡したりすると……
どんなルーチンも、バッファサイズ等の要件は仕様に明記し、両者それに従うべきで、UTF-8がどうとかは別問題
base (3〜4バイト) + vs (4バイト)で最大8バイトってだけの話がどうかしたか? ちなみにUnicodeは結合文字列の長さや組み合わせに何の制限も設けていないので よろしく
この記事見た時いやーな予感したんだよな。 これ読んで「じゃあ8バイト分のバッファを確保すればいいのか」みたいな解釈する プログラマが出ないかって。
VSに関しては例外的に「複数付けられない」「合成済み文字には付けられない」 「結合文字には付けられない」という制限があってむしろ簡単な部類なんだよな
安岡はもう引退した方がいい。既に頭が老人ぼけずぎ
116 :
デフォルトの名無しさん :2011/07/10(日) 03:43:18.92
「漢字1文字につき」って書いてあるが、漢字で2つ以上結合し、それがフォントのテーブルでサポートされてるグリフってある?
117 :
デフォルトの名無しさん :2011/07/10(日) 03:44:38.90
2つ以上って、ベースを除いた数ね
VSは2つ以上くっつけられないけどその他の結合文字はいくらでも付けられる。 たとえば濁点・半濁点付きの異体字なんかも可能だし それをさらにCOMBINING CIRCLEで丸囲みすることも可能。 実装がサポートしているかどうかは知らない
>>115 「互換漢字にVSを付けられるようにすればいい」とか何も考えてないにもほどがあるよな
120 :
デフォルトの名無しさん :2011/07/10(日) 08:17:19.12
>>118 フォントにない文字を合成しても表示できないんだし、UTF-8だと(世間一般でいう)漢字は
最大4+4=8バイトの説明でいいんじゃないかなあと。実装されたグリフがあれば別だけど。
121 :
デフォルトの名無しさん :2011/07/10(日) 08:21:26.94
当然、世間一般的な説明の範囲で。
JIS系のコードからの変換で、なんやかんや付きまくってコードポイントが3つ以上になったりするものはある?
>>120 > フォントにない文字を合成しても表示できないんだし
なことはない。美しくないだけ。
124 :
デフォルトの名無しさん :2011/07/10(日) 12:55:47.64
>>123 一応、OpenType だと ccmp の話なんだけど。他のフォーマットだとそう?
ラテン文字のダイアクリティカルマークなんかはすべての組み合わせ済みグリフが あらかじめ収録されているわけじゃないぞ 濁点だってそういう実装は可能だし漢字に付けるなら現実的に言ってそういう 実装しかできないだろ
Firefoxは正しく表示できなくても基底文字+結合文字をちゃんと選択や編集の 最小単位として扱う
127 :
デフォルトの名無しさん :2011/07/10(日) 14:10:37.77
>>125 すべて収録されてないのは当然そんなことわかってる。
今は漢字の話だが、表示されないってところは認めてるわけだな。
129 :
デフォルトの名無しさん :2011/07/10(日) 14:47:13.64
>>128 お前こそ話がわかってない。
いままでの話、もう一度読んでくれ。
>>122 JIS X 0212の11-80とか?
MIME導入前のメールの文字コードの区別ってどうやってしていたんですか
エスケープシーケンス入っていればISO-2022-JP 8bitならISO-8859-*のどれか どれでもなければASCII さらにFrom:の人間に対する知識を合わせて。 いろいろ調べてShift_JISで送ってきたことが判明したら「おまえ殺すぞ」と返事。
133 :
デフォルトの名無しさん :2011/07/10(日) 21:39:04.61
EBCDIC SJIS変換どうやったらいい?
漢字入りのEBCDICか?
>>134 U+FA20は互換漢字から外すべき
とは俺も思った
せめてどのメーカーのEBCDICかくらい指定してもらわないと答えようがない
google先生にebcdicで問い合わせると...
邪魔だからわからない人は書き込まないでくれないか?
iconvとか使えばいいだけだろうに
じゃまだから質問の仕方がわからない奴は書きこまないでほしい
>>137 U+FA20を互換漢字でなくすのと互換漢字にVSを許すのはまったく違う
うむ
KEISのSJIS変換は?
むう
サンキュ。とりあえず読みかけた。
௵
௵これより大きな文字や記号はあるのだろうか?
154 :
デフォルトの名無しさん :2011/07/14(木) 00:21:35.65
‱
155 :
デフォルトの名無しさん :2011/07/14(木) 00:23:10.13
ミス
中国は通用規範漢字で表外字への簡化の適用を廃止してたのか。 ますますIRGN1757はアホだな。 類推適用されるなら少しは気持ちがわからんでもなかったが
>>156 でもUTC-00071とかUTC-00677とかは、通用規範漢字なんだろ?
>>157 y-variantは独立に符号化すべき
現在符号化されていない通用規範漢字は130文字くらいあるみたいなのに
その一部しか取り上げていないんだから通用規範漢字に対応するのが
目的でもなさそうだし
しかもUTC-00071はExt.Eに提案中だしUTC-00677に至ってはU+2B5AFに符号化済み
MingLiUのU+8BDEはバグってるな(U+4725と同じ字形が入ってる)
どうすんだよもう
もうすんだよどう?
MSゴシックの昴の字形みたいにいつの間にかこっそり訂正されてたりして。 その結果IBM拡張文字の昴の字形が入れ替わったわけだが 誰も話題にしていないところを見るとやっぱりほとんどの人にとっては自分の 名前に使われていない限りどうでもいいらしいな
166 :
デフォルトの名無しさん :2011/07/19(火) 01:22:49.71
H・Kとかいうアホに戦争中の東大生の文字中毒の話を予備校の日本史講師にされたと言われた 俺もそんな感じはある と言ったらあのアホでバカで境界性人格障害のクズはため息つきやがった 文字への強迫性は悪い部分もあるんだろうが いい部分もたくさんあるんだよ だからH・Kに対して言わせてもらう、死ね、死んじまえ!
>>164-165 昴じゃなくて昂だった。
JIS83で昂の字形がCID7680相当からCID1993相当に変わったんだけど
IBM拡張漢字の0xFAD0にはもともとCID1993相当の字形が収録されていた。
MSゴシックでは苦肉の策としてU+6602とU+663Bの両方にCID1993と
同じような字形を収録してIBM拡張漢字の0xFAD0はU+663Bに対応
させていたけど、JIS2004対応のついでにU+663Bの字形がCID7680
相当に変更された。結果としてIBM拡張漢字の0xFAD0の字形も変わった。
フォントといえばWin7のTVゴシックシリーズって、SP1でもまだ隠し扱いなの?
字形の細かい違いを拾いたい人と、捨象するのを是とする人とじゃ 話は噛み合わんだろうな。
170 :
デフォルトの名無しさん :2011/07/20(水) 19:24:04.68
長さnのUTF16の文字列wchar_t[n]を、UTF8のchar[m]に変換した場合、 mはどのくらいの大きさであれば十分なのでしょうか? 自分程度の知識だと、UTF8は最大6バイトで1文字を表すので、 m=6nとすれば十分な大きさになるだろうと考えているのですが、 実際はもっと小さい容量でも足りるのではないか?と思っています。 また逆に、UTF8からUTF16にする場合、nはどのくらいの大きさが あれば十分なのでしょうか? UTF16はサロゲートペアで最大2要素で1文字を表すので、n=2m程度の 領域を確保してあげれば十分だと考えているのですが、実際は どの程度あれば十分なのでしょうか? よろしくお願いします。
UTF-8とUTF-16で各コードポイント値が必要とするオクテット数は次の通り。 (左がUTF-8、右がUTF-16) 000000..00007f 1 2 000080..00007f 2 2 000800..00ffff 3 2 010000..10ffff 4 4 wchar_tが16bit以上ある環境なら右の値は半分になるので、 UTF-16→UTF-8の場合はm=3n、逆方向はn=1/2mとなります。
wchar_tが32bitでUCSだったら普通はUTF-32を採用するんじゃね?
>>171 どんな場合でも、m=3n, n=1/2mだけの領域を確保してあげれば、十分
という認識でよいでしょうか?
> UTF16の文字列wchar_t[n]を、UTF8のchar[m] という前提のはなしだったら UTF16 ⇒ UTF8: m = 3n UTF8 ⇒ UTF16: n = m + 1 じゃないの? (ヒント UTF-16LE ではなくて UTF-16)
変換後のサイズ知りたいなら実際にスキャンして調べたら? 自分で数えても良いし、処理系にAPIあればそれでも良いし。 まさか固定サイズのバッファ使ってるから、大風呂敷広げておこう戦法?
LionのヒラギノはIVS対応か? SafariはIVSちゃんと表示するようになったのか?
>>176 1文字単位で変換するときのバッファサイズぐらい固定で取りたいとかじゃね?
どっちにしろwchar_tではなくてchar16_tをだな
ヒラギノはAdobe-Japan1-6にフル対応しないのかな
181 :
170 :2011/07/21(木) 20:44:05.03
皆さんありがとうございます。 m = 3n, n = m(LE or BE なので)、で作ります! 自分でも調べてみて色々勉強になりました
ICUを使ってファイルの文字コードを調べたいのですが、 ファイルの先頭何バイトを使って調査するのが普通でしょうか?
文字コードの自動判別に王道無し。
HTML5では1024バイトと定めているな
マジか じゃあ1025バイト以降にUNICODEとかあったら、誤認識すんのか
HTML5のケースは1024バイト目までにmeta charsetタグが現れることを期待してるんじゃないかな
あぁ、なるほど じゃあ一般の文字認識とは様子が違いそうだ
美乳
>>185 するよ
Firefoxは最後まで読んでたけど
HTML5 parser導入後は今まで化けていなかったページで文字化けすることがある
PRI #184のレビュー期間が終了したようだな 識別子に間違って'+'と'-'を使っちゃった件のつじつま合わせが6月30日に 追加されていたようだ
あの改訂はレビュー中のAJ1と汎用電子2陣にも適用されるのかなあ
Webアプリケーション経由で、データベースから取得する文字コードと、 ブラウザに出力する文字コードが違う場合、マルチバイト文字が文字化けします。 文字コードの変換をしてから出力すれば問題ないのですが、 変換処理を全てに行うと重くなるため、マルチバイト文字にのみ行いたいのですが、 1バイト文字だけで構成されているものについても、変換処理は行わないと、 何かセキュリティとかに問題がありますか? 16進ダンプの結果が同じものなら、変換処理は必要ないですよね?
1バイト文字というのは正確ではないな。Latin-9だって全部1バイトだし。 それはともかくバックスラッシュとかクオーテーションとかで地雷踏まないとわかってるなら別にいいんじゃね
>>192 >変換処理を全てに行うと重くなるため、
それは10文字程度を100万回ループして、何ミリ秒ほど重くなるの?
>SQLインジェクション対策は入力可能なものを固定値か数値に
えー。Perl CGIでサニタイズ処理をコリゴリ書く人ですか?
マルチバイト文字を構成するバイトを探すのは、 テキストを全部舐めないといけないはずだけど、 そんな事やっている間に変換できちゃわないかな。
マルチバイトが入ってないって最初から分かってるのでは? データベースのintカラムなんでしょ
一私案を考慮しなきゃならない理由なんて、どこにもないだろ。 規格に修正を加えたいならしかるべき手続きをとらなければならない。それだけ。
いつまでもシフトJISにしがみつくような案は無視されて当然。 JIS X 0213のShift_JISX0213が世間でdisられてるの知ってんだろ
アンチ南堂の意見を見るほど、安岡をはじめとするスラッシュドットの住人って 変人だとしか思えない。 スラド信者は南堂の字形変更がJIS規格に採用されて正常な判断能力を失った
安岡は本当に2004JISの委員だったのに対して南堂はただの空想家ですが何か? 頭おかしいの? 本人降臨ですか?
スラドの日記に書かれているだけでスラド信者とか どう考えても正常な判断能力を失ってるな
どこの世界にも基地外っているんだなあ
>>202 そう、南堂の案は結局採用された。
本質的貢献をはたした。
なのに、委員会は南道の案を誤読し、
いざ、南堂案が正しいとわかったら、
徹底的に無視し続ける。
207 :
デフォルトの名無しさん :2011/08/02(火) 18:25:02.58
2004年の規格が南堂案という話をしてるのに、 2001年の情報を出されても・・・
どこの誰だか知らない人の話を延々とされても・・・
あらま。JIS信者は南堂を無かったことにしたいのね
あらまじゃねぇよ南堂信者 2004の委員会に提出した記録があるなら出せってんだよ
>>207 それは違う。
南堂私案は池田委員の個人アドレスに個人メールとして送られてきた。
委員会としては公開レビュー窓口に送るよう促したが、彼は委員会を「敵」だとみなしていたらしく、
公開レビューには参加を拒否したし、もちろんヒアリングにも出席しなかった。
結局Shift_JISX0213には、レビューに参加した中島私案が採用された。
で、結局南堂案のコンセプトが正しかったことが証明された。 にもかかわらず、南堂を無視し続けた。 それどころか南堂の案の重要な点である、字体の変更をトンデモ扱いした。 そんなことをすれば南堂が委員会を敵だとみなすのも無理は無い。 万死に値すると思うが。
で、委員会に提出した記録は?
>>214 南堂案のキモは字体変更じゃなくて包摂分離
南堂案を擁護するなら中身ちゃんと読めよ
Lionのカラーフォントって、どういうフォーマットなの?
png入ってるね
だとすると、国旗とかKEYCAPとかは、合成後にpng処理?
そういうこと morxでリガチャのglyphID拾ってからpngで表示
>>216 いずれにしても、
本質的貢献をしたのに無視するのは異常。
安岡センセイがsbixテーブルを解読 フォントのバイナリを読める人たちってどういう頭してんだろ
TrueTypeのテーブルの基本構造は共通だし、多分解読用のフレームワークか 何か持ってるんだと思う。
>>221 単なるあれおれ詐欺を本質的貢献と思える頭の作りが異常
PNGかぁ。実装の簡単さを取ったんだろうけど、 ラスタ画像ってのは将来性という点でどうだろうなあ。
CFF/Type2のカラー化ってのも難しそうだし 今ならSVGがいいのかなあ?
230 :
デフォルトの名無しさん :2011/08/04(木) 10:15:32.74
҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉ テスト
҉҉҉҉҉҉҉҉ ̨ͨͤ̊͒̅̒ͪ̽͂͆̓ͤ̈̊̋ͫ̿̒͏̵̡̼͔̲̺͘ !
҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉ イボ痔
アナル系が人気のようですね。
>>214 南堂案骨子は字体変更。当時は字体変更はトンデモだと思われていたが、
あとで字体変更が必要だとわかって、
南堂案が正しい事が証明された。
だから、委員は南堂案の肝が字体変更だとは意地でも言わないつもりなんだよね。
南道の手柄ってことがバレるから。
>>238 安岡センセイの日記が今の時点では最も詳細な情報
>>239 そんな誰でも独立して思いつくことで手柄とか言ってるのが自意識過剰の馬鹿丸出し
おや、JIS信者が南堂の存在だけは認めたようです
>>244 来月最終投票入りする予定の10646の3版に間に合わせる必要があって、
そのためには今週開催中のUTCで審議する必要があって、それで
こういう極短期の公開レビューになったんだと。
そういう形だけのレビューなら、やらない方がマシ
大注目している時期に見逃す方がどうかしてる。
PRI 201が公開されたのは7月27日の昼前だった。 漢字を943字も収録してるのに、それで8月3日〆切ってのは、 チェックするための時間があまりに短か過ぎる。
943字くらい半日もあればチェックできるだろ 字形が変わってるのもUTC-00919とUTC-00929の2つくらいだし
>>249 締め切り前に短すぎると意見すればよかった。
>>228 データの種類はシグネチャで見てる感じだからpdfでも構わんのでしょ。
それだとOSX/iOS以外で表示が難しいのと、ちゃんとしたグリフ作るのも
大変だから、取り敢えずpng入れてみましたって所じゃないかな。
>>225 > URLが化けた orz
なぜにDelete w
>>251 後ろがつかえてるんだから
どうせ聞く耳もたないだろ
愚痴ですね
だってオレ英語かけないもん
英語が書けたらあんな提案こんな提案…
アン アン アン
>Unicode 6.1.0 (Planned for February, 2012) フム
ムフ
フムゥ
なかは、膣はらめぇ〜
結局南堂さんの実績は認めるの?認めないの?
JIS信者は認めないみたいだね。 字形変更はもっての他とか言っていたのに規格が通って発狂した
UTCは小書きコに関しては取り下げるでもなく様子見か。
>>265 南堂信者は発狂して相手のせいにして自分を慰めてる
「お盆」をあらわす絵文字ってないの?
どうやってあらわすんだよ 風習は地方によって様々なのに (という文句が付けられそうなものは他にもあるだろうけども)
○+盆。
盆⃝
山に大の字だな。
解説希望
閲覧環境によっては囲い文字になってるんだろ
◎にそれ重ねたら三重丸と看做していいんかな
二重丸を三重丸とみなしてもいい。あなたの勝手。
結局南堂の業績は認めるの?認めないの? はっきりさせろ・
>>280 結局って何だよ。JIS信者は南堂の業績は認めない。
これはこのスレで一貫しているだろ。
業績認めて欲しいなら南堂が貢献したというソースを出してみろ。
今さらJISなんてどうでもいいよ
UTS #37 v3リリース。
グリフウィキに繋がらん
次からといわず移せばいいのに
復帰したようだ
OT版フォント復活したのかー
ソースは2ちゃんの書き込み
SEXTILEって、Unicode 6.0で追加されたみたいだけど、ソースは何?
5.1だぬ ソースは不明
汎用電子のレビューコメント全然来ないのか…
いっそ俺がレビューしてやろうか
はにょでんし
はにゃ〜
LionでせっかくヒラギノがIVSに対応したのにSafariやChromeが対応してないのは勿体無いな 辻󠄀 辻󠄁
フォントまわりはFirefoxの一人勝ちだぁね
今使ってるCGIプログラムの文字コードがShift_JISだったから別の文字コードに変換したいんだけど このスレ的には内部文字コードも出力もUTF-8なの?
301 :
デフォルトの名無しさん :2011/09/06(火) 21:12:16.42
もしかして、内部コードって、ソースコードを表現するコードという意味で使ってる?
このスレ的には、って? このスレは基本、あらゆる論者が屯ってると思うが。
内部文字コードを自由に替えられる処理系って、 BSD系のC+libc以外だと何があるんだろ?
>>301-302 ごめんソースコードを表現するコードという意味で合ってる
ダメ文字から逃れたくて質問したけど
色んな説があるみたいだからEUC-JPにするよ
ありがとう
いまどきEUCはないわ SJISは論外
好きにしろよ。スレ違いだ。
黙ってUTF-16普及に努めるんだ
分かりやすいデータ型の分類と役割を教えて下さい intとかの 言語はjavaです
スレ違い
>>308 intは文字
charも文字
w_charも文字
とにかく文字に使う
String s; s = "Javaは、Unicodeです。漢字も1文字。わかりやすくて安心だ。"; t = s.substring(i, i + 1);
そしてサロゲートペアに嵌る。
"?田(よしだ)です。Java使いはアホが多いですね".substrin(0,1);
サロゲートペアを解決した後は、合成文字にはまって、 合成文字を解決した後もVSが待ってるんだよな。 最初に16ビットに収めようと言い出したやつは刺されてもおかしくない。
32bitなら合成文字も解決すると思うのか? 何文字分までの合成を想定してるの?
合成文字ったって理論上はいくらでも繋げられるけど実際そこまでのものは無いだろ。 16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。 大文字小文字、ひらがなカタカナ濁点小書き、異体字、全角半角の違いなんかも全部詰め込めば そこをマスクするだけで曖昧検索もできてウマーと勝手に思ってるんだが甘いかな。 ASCIIとも互換性なくなるけど。
brainf*ckみたいなもんだな
はっきり言ってお前らの議論は南堂先生のレベルには遠く及ばない。
合成を使わないと某半島のアレがウン十万字分のコードポイント占めるんだよ
タイ文字なめとんのか?
>>319 合成済みのが追加済みじゃなかったっけ?
あまりにも数が多いので規則的にして計算式で求められるようになってて表からは除外されてる
感じも部首に分けて登録するか
それいいな。ついでに部首ごとにキーを振ったら新しい漢直になるぞ
>>316 > 16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。
どこが今のUnicodeに比べて優れているのかと…
合成文字を常態化するなら慣用や拗音も文字コード充ててしまえと
だって全文字共通で装飾にビットを振っていくと何ビットあっても足りなry まあそれはいいよ。 とりあえず今のUnicodeは、何をするにしてもUCDのテーブルを抱え込まないといけないので もうちょい全体的に範囲をまとめて欲しい。 なんで新しめの仕様なはずのVSですら散らばってんだよ。連続領域に取れなかったもんだろうか。
どうやって並べても不満の出る射影はあるのだから、 テーブル実装技術の方で頑張ってください。
Win8プレビュー版の日本語フォント、1F2xxがちょっとアレだな。 ただのスタブならいいんだけど
MS3フォントに325のIVSが入っているのを確認。
333 :
デフォルトの名無しさん :2011/09/17(土) 16:06:00.17
シングルバイト文字しかない文字列をエディタで保存したとき、 内部文字コードをUTF-8にしてもUTF-8にはならず、SJISとなってしまいます。 単にエディタが識別できないだけだと思いますが、気にしなくてもいいですか? 例えばhtmlでContent-Typeをtext/html;charset=UTF-8と指定してるにも関わらず、 マルチバイト文字がないため、内部文字コードがSJISになってる感じです。
334 :
333 :2011/09/17(土) 16:07:16.97
と、書いてから気づいたんですが、 こういうときのためにBOMがあるんですかね?
BOMはバイトオーダーを識別するためにあるんですよ。
>>333 > 内部文字コードがSJISになってる
というのはどういう状態? なぜそう判断したの?
338 :
333 :2011/09/17(土) 18:19:16.94
レスありがとうございます。
>>335 一般的にはそうみたいですね。
UTF-8には無意味とも書いていました。
ただ判別するためにUTF-8でも使うみたいなことは書いてました。
>>336 よくわかりませんが確かに\は発生しそうですね。
>>337 エディタで文字コードを指定して保存する時UTF-8で保存しますが、
再度開いたときにSJISで開かれてエディタもSJISと判断してるということです。
バイナリエディタなんかで開いたとき、
シングルバイト文字は、SJISでもUTF-8でも、16進数ダンプで同じ値になるので、
エディタにはそのへんが判断できないんじゃないのかなぁと思ってます。
そのエディタのスレで聞いたほうがいいのでは。 エディタ名伏せられたままじゃ何とも言えん。
>>338 適合する文字コードの中でSJISを優先して選ぶエディタか、
環境(ロケール等)ってだけでは?
341 :
333 :2011/09/17(土) 20:11:13.62
>>339 とりあえず手持ちで確認したところ、
Windowsメモ張、サクラエディタ、TeraPadなんかはそんな感じです。
Windowsメモ張でUTF-8で保存した場合、UTF-8として開かれますが、
あれはBOMついてるので、BOMなしでUTF-8で保存した場合、
どれもSJISで開かれます。
>>340 そうですね。
UTF-8と判断する材料がない場合、優先してSJIS選んでるんでしょうね。
>>333 の例であげたhtmlにしても、文字化けするというわけではないので、
気にしないのが一番なんですかね。
ASCII範囲の文字しかなければASCII=UTF-8(BOMなし)=SHIFT_JIS=ISO 8859-1にしかならんだろ。 このなかのどれを選ぶかはエディタを作ったやつ次第。メモ帳はANSI=現在のコードページだろうし。
PRI 183(AJ1の追加分)は明日までか
去年ちょろっとAdobe-Japan1-7の話が出たけど、 結局とくに意味はなかったのか。
意味のないことは多いからな
グリフの内訳はバラバラなのに、Glyphwiki発だからって理由で 何でもかんでも花園フォントとしてリリースするのは紛らわしい。
もう少しkwsk
本家版にOT版にKDP実験版に。 全部花園明朝名乗ってるけどグリフの内訳はバラバラ。
349 :
デフォルトの名無しさん :2011/09/26(月) 00:23:08.24
そろそろ問題だらけのUnicodeはもう捨てて新しい文字コード体型考えようぜ
どうぞどうぞ
まさかの一人目上島
うにコードより先にJISコードを時代に合わせて綺麗にしようや 円記号とバックスラッシュの分離 2・1バイト幅英数アルファベットの別を無くす 囲い文字コードを無くし付加記号の仕組みを入れる 異系文字の定数引き 現行コードから変換指針の提示
誰得
オマエ以外
どんな得があるわけ?
とりあえず携帯電話を早くUnicodeに対応させてくれ
ガラケーは死んだ
なぜだ?
IPAmj明朝の正式版キタコレ
文字コードスレとはあまり関係ないよね。
これ以外に汎用電子対応のフォント出てくるのかねー
1週間止まってたスレが動き出したか
IRG N 1812って何だろ またスケジュールを遅らすことになるのか
>>361 そういえばIPAex明朝すらIVSはAJ1だったな
>>360 オレオレ文字コードを発明しないでISO/IEC 10646の枠組み上で
できる限り符号化しようと努力しているのを評価対象にするとか
今日電話で話した人が「テンプレが出てるんだよ」「テンプレになっちゃうんだ」と連呼するものだから、 一体何のことなのかと首をかしげていたら「豆腐」のことを「天ぷら」と間違えて覚えているらしいことに気付いた
ブログのログインみたいな感じの部分を想像してほしいのですが、 データベースやファイルに入っているログイン情報がUTF-8以外、 ログインするためにフォームから入力する値がUTF-8で、 これらを比較するとします。 基本ログイン情報は半角英数字だと思うので問題は起きにくいとは思いますが、 もしこの状態のまま、ログイン情報にマルチバイト文字を入れた場合、 ログインが出来なくなる以外に何か問題は発生しますか? 例えば情報があってないのにログイン出来たとか、 そんな感じのはありえますか?
>基本ログイン情報は半角英数字だと思う これ次第じゃね。
そうなの?
UTF-8の入力がそれ以外の文字コードの何かにマッチする可能性があるのは、 Ascii文字セットの領域以外の文字に限定されるでしょ。つまり、ログイン情報に Ascii文字セットの文字しか使っていなければ間違ってマッチすることは避けられるかと。
[ce b1] UTF-8: α, Shift_JIS: 留 [ce b2] UTF-8: β, Shift_JIS: 硫 [ce b3] UTF-8: γ, Shift_JIS: 粒
る?
373 :
デフォルトの名無しさん :2011/11/01(火) 20:37:25.12
りゅう、だろ。
りゅう
__, -──┐ 「 ̄ ̄::/  ̄ `丶::::::::::| !:::::::/, - 、 \::/ i:::::/ /:::::::::::::i ● } うりゅーっす! ∨ {:::::●::::l -┼-、 { ゝ::::::_ノ └〜┘ `X X´ <_ヽ / > .....:...::..:::: \__ __ _/ . \ / .:.::..:.::::::::::: ::  ̄ `ヽ , --―'´;.:.、 ... .: .:i :i:: : .:::..:,.‐''". . .:、 :.:::} / . :.:.ノ:. ..\. ヽ: , -‐''´ ..::: .. : .::l . :.:.::| / . .:.:.:./:. `ヽ、::/ .:::、:.. .. . :. .::i ...:.:∧ | .:.:.:;イ:: .:i::. . .::`''‐-=、ヽ、.:.. . .:: .:ノ: :! /{::. '´.:.i::. . :|: . .:: :.::::::::::::/゙"ヽ、:..:.::´::..: :| ,' `: :...:.:.:.::.::;!::.. . .:.:|: :: :.:.:::::::::{::. .::;'` .::.: ;!:| { :. `''''゙´|:::.: .:::l::. .:.::..:.:::::::::::|::. . ::i ..:::iく ::| {:.:.. .:.. . .:.:::ト、:.:.. . . . .:.:;!、::.. . . . ... .:.::..:::::::_;;.ゝ、..:| ..:ノ :. ヾ、 /`''' 、,,,___:ノ \::. :.....:.:ノ::..`'ー::.....;;;_;;:.-‐''....:...:::,>'=、 .::i :.::} . {:.:. . ___\ ` ‐-=、:::.:.. ..::r ー-=、.....:...::..::::/ . .:::! :; ::| !ー: . / ___;>┐ \:.. :! ,.-―:‐、:: ,,.:‐''´ . . :__;ノ.イ ';.:../ /´、  ̄)ヽ. _,r―‐亠- 、! |「: . . - '''´. : :.:/ ヽ! { :..  ̄ ̄厂:く__,.-‐'' ..| |!:. . . .. ... - =_ヲ'
最初が「う」ならもっと前のほうだろう
この流れは367に責任があるんだろうか
>>367 >例えば情報があってないのにログイン出来たとか、
>そんな感じのはありえますか?
yes
379 :
367 :2011/11/03(木) 20:31:49.50
みなさんありがとうございます。 とても参考になりました。 修正しにくい箇所に記述してしまったので、 バグとわかってても修正はできませんが、 ASCIIの領域内に限定して何とかやり過ごすことにします。
パイプラインに新規追加されたtext style, emoji style用vsって何だろ。
ハートとかを、普通の文字として表示するか絵文字として 表示するかコントロールするものじゃないかと、元見ずに予想してみる
ドコモ式au式みたいなのじゃ?みたいな
そのうちwg2のページで内容見られるだろー と思ってたんだけどなかなか公開されんね。
どうなってるんだ
で、どうなのか
>文字コードの1文字目のコードに128を加えてアスキーコードの33〜126 >と重複しないようにした「Shift_jis」や「EUC」文字コードが作られました。 わかってないなこのひと
>なぜsiftと言うのかというと2進で1桁繰り上がる(128が加わる)ためです。
>そこで世界の主要な文字全部にダブらない文字コードとして作られたのが「utf-8コード」です。
390 :
デフォルトの名無しさん :2011/12/15(木) 00:32:10.94
十数年前はこんな感じのページがいっぱいあったけどねえ。 いまどき珍しい。
これはひどい
>以上を理解したうえで各文字コード >を見比べるのもいいのでは
もうやめたげてー
そういえばまだだったんだっけ
高度経済成長の時期に大会社で働いて、還暦を過ぎても今の技術に詳しいつもりの 俺が世界に向けて解説する、ドヤ顔ページか。 年金をちゃんともらいながら死んでいくんだろうね。 老害ってこういうのを言うのかね。
ここで問題になってるのは「“今”の技術」でさえないぞ
老害ってのは権力者がいつまでも実権を握って離さんこと。 無名の個人サイトによくそこまで熱くなれるな。
まさに老害
>>400 いや、ぐぐってそのページ見て納得されても困るだろ
嘘やいい加減を世界に解説はいかん
あれってすごく不思議なんだけど、「金」「日」は親子共用で1つでことたりるよね? ただでさえ王家専用符号位置なのに、なんで「金」「日」「成」「金」「正」「日」って6つも使うの? 組み文字として「金日成」「金正日」を符号化したなら分解できないから仕方ないし、 「“金日成”はポップ体、“金正日”は相撲体を使う」とかの儀礼があるなら意義がわかるんだけど。 「金」「日」「成」「正」だと付け足しみたいで金正日に不敬、みたいな価値観があったりする? そうなると、うっかり「金正日」の「日」に「金日成」の「日」を使ってしまったらお仕置きがあったりするの?
WindowsのIMEって単語変換いまいちなのに金正日は一発なんだよな
ある国には過去、 天皇陛下 という 1x4 の活字が過去存在してたんだ。 別にどうだっていいだろうそんなもん。
㍿
>>405 「金同志」をハングルで書いた時に文字コードで誰だかわかる
のが基本なので、「金」は共有できないよ
「日」を共有しないのは、「金」を分離して「日」を共有すると面倒だから
入力時にどうやって見分けるんだろう…
理屈が全然わかんねえ。 普通の「金」で検索したら出てこねえのか? 検索も許されてないのか?
左右上下一直線の書字方向という考え方をを改めて 欧文約物や濁点は時々上下や右上隅へ移るとした文字列処理系が出来ればいいんだよ あー例のグチャグチャなハングルとかもサポートするかベタ直線的に字母を並べるかどうかは処理系依存で
>>409 北朝鮮の人が書く/言う場合には例えば金正日同志とフルネームのことが
多い気がする。
414 :
デフォルトの名無しさん :2011/12/20(火) 21:26:55.78
>405 ソートしたとき、金日成→金正日の順番で並ぶようにするため。
まさかUnicodeに入れるとかしないよな?
417 :
デフォルトの名無しさん :2011/12/21(水) 18:11:49.16
VSを使って区別するようになったりして。 例えばU+AE40(ハングルGim)は VS1(U+FE00)を付けると金日成の、VS2(U+FE01)で金正日の、VS3(U+FE02)で金正恩の、 VSを付けないと一般用のハングルGimになる とかで。
420 :
デフォルトの名無しさん :2011/12/21(水) 23:45:09.33
すみません、CGI質問スレが無いので、どなたか教えてください
sitemixで、メールフォームのchamamailを設置したのですが、
http://www.chama.ne.jp/download/mail/chamamail/index.htm 送信の確認画面に�と出たりメールを受け取った時のメールフォームの中が
----------------------------------------------------
縺雁錐蜑�=縺�
email=
[email protected] ---------------------------------------------------
の様に文字化けしてしまいます。サクラエディタ使用でファイル転送ソフトはFFTPです
ローカルの文字コードはEUCにしているのですが、ホスト側の漢字コードもどう設定したら良いのでしょうか?
ホスト側をJISやSJISにするとエラーが表示されます
>>407 Unicodeにも歴代陛下のお名前があるよ! (U+337B〜U+337Eあたり)
収録を拒否された独裁国家とは格が違うね
おまいらなんでそんな朝鮮事情に詳しいんだ 在日か?
>>412 それってUnicodeの結合文字と何が違うの?
もちろんハングル字母もあるというかむしろ韓国のゴリ押しで
BMPを1万字以上も食いつぶしたのは完成形のほう
426 :
デフォルトの名無しさん :2011/12/22(木) 07:50:51.22
427 :
デフォルトの名無しさん :2011/12/22(木) 12:44:57.22
>>423 CGIが時代遅れなせいかそこではCGIスレ無いんですよ
有っても2ヶ月以上レス無かったりするスレばっかで
この板にはひとつもない どっちが妥当な板かは明白
429 :
デフォルトの名無しさん :2011/12/22(木) 13:35:42.06
日本語の文字コードの保存形式を聞きたいだけなので こっちのほうが専門かと思ったんですが・・・
違います
>>429 ソースをダウンロードしてみたら、chamamail.cgi(perl code)はシフトJISで書かれていた。
更に改行コードがCR+LFなので、Windows環境で開発された物と思われる。
>■設定設置方法
の部分を見るに文字コードについては一切の指定が無い。
どうやら作った人間は、そういう事まで頭が回らない人間と思われる。
ソース中に、
print "<META http-equiv=\"Content-Type\" content=\"text/html; charset=Shift_JIS\">\n";
というハードコーディングがなされているので、シフトJISのままサーバーに設置する物なのだろう。
ソースに書かれた日付を見ると、どうやら最後にメンテナンスされたのは2001年頃らしい。
2001年頃に、サーバー側にインストールされていたperlのバージョンを考えると、
最新でも5.6.0、ちょっと古ければ5.5.0、5.0.xxx、下手すればperl4の可能性だってある。
シフトJISのまま動かない理由としては、perlはバージョンが変わると、
使用可能なリテラルが変わったり、エスケープしなければならない文字が変わるので、
シフトJISで書かれたコードは上記の制限に該当しやすいのでエラーが発生し、
それはCGIでは結果的にInternal Server Errorを引き起こす。
これは元々シフトJISに対応していないperlで、
無理矢理シフトJISを使う事による弊害なので、perlが悪い訳でも無い。
修正したいならエラー出力に、問題となった箇所が出力されている筈なので、
httpdのerrorログを見てソースを修正すれば良い。
あとは↓のスレに行ってやれ。
http://toro.2ch.net/test/read.cgi/tech/1319953460/
この手の物のエラーの最大の原因は改行コードだろ。
433 :
デフォルトの名無しさん :2011/12/22(木) 14:33:36.45
>>431 めっちゃいい人や・・・
ありがとうござます><
>>407 ムハンマドの名前を言った後に唱える「彼にアラーの祝福と平安があらんことを」
を1文字(U+FDFA)に収録させたイスラム教徒に比べたらささやかなものです。
(U+FDFAは普通のアラビア文字18文字の並びと互換等価)
それすげえなあ へのへのもへじ を突っ込んだとしても7文字相当にしかならないからなあ
へのへのもへじはIDSで表したい
じゅげむじゅげむごこうのすりきれ……
つるにはまるまるむし
⿰⿶し⿳⿰⿱への⿱へのもへ゛
あめんぼあかいなあいうえお
>>436 おお、確かにNFKDしてみると18文字になったw NFDではそのまま。
その手の特殊文字と同じ扱いということなんですかね。
意味は違うけどBill Gates(TM)みたいな感じ?
444 :
デフォルトの名無しさん :2012/01/01(日) 02:32:00.26
ちょっと助けて欲しい。C++で書いたプログラムで、 cin から getline で日本語入力を受け取ると、そのまま出力しても文字化けする。 ICUで文字コード判定しようとしたんだが、長い日本語を入力しても言語を判定してくれなかった。 で、入力に対してバイト列を吐かせたところ、以下のような結果になった。 あいうえおかきくけこさしすせそ E7 B8 BA E3 82 85 EF BC 9E E7 B8 BA EF BF BD E2 88 B4 E7 B8 BA E7 BF AB C2 B0 E7 B8 BA E9 98 AA EF BF A5 E7 B8 BA E4 BB A3 EF BC 85 E7 B8 BA E8 BC 94 EF BC A0 E7 B8 BA E5 90 B6 E2 97 8B E7 B8 BA EF BF BD あいうえお E7 B8 BA E3 82 85 EF BC 9E E7 B8 BA EF BF BD E2 88 B4 E7 B8 BA EF BF BD あ E7 B8 BA EF BF BD 共通点として先頭に E7 B8 BA が、末尾に E7 B8 BA EF BF BD が見当たって、バイト列内部にも E7 B8 BA EF BF BD が何箇所か見当たることは分かったが、原因がさっぱり。 Windows 7 64bit, MinGW + MSYS な環境だけども、原因か或いは解決策は何かないだろうか。
あ(UTF-8) E3 81 82 縺(Shift-JIS) E3 81 縺(UTF-8) E7 B8 BA
UTF-8専用の文字列リテラルがC++11で導入されたんじゃなかった?
447 :
444 :2012/01/01(日) 03:11:57.72
>>445 あー、解決しました。
新年早々ありがとうございました。
新年早々ここは人が多いな
繁体字と簡体字で別々のコードポイントを割り当てるの止めようぜ、ってことか? 日本の漢字とか出てくる理由が良く分からんかったけど。
unicode正規化の仕様にいれようぜ、と言っているだけに見えるけど。
>>449 は驚いているから、オレの間違いかも。
将来的にはCJKV(CTJK?)の漢字でコードポイントだけでなくグリフデザインも統一したら いいんじゃね、 みたいな? それを真の(genuine) Han Unification と呼ぼう、と。 GB 18030がいいモデルみたいなこと言ってるし繁体と簡体は区別するのかな。 でそういう流れは自然に起こるかもしれないと。例えば中国製のデバイスでフォントが 一種類しか入ってなくてもCTJKの人達で普通に使えるようになるとか... ということは、UnicodeでHan Unificationしたことは、いいきっかけになったじゃないか、 みたいなw
UNICODEに言語プロパティの皮みたいな話ですか?
地域で字形が違うとかめんどくせぇから、ジャップは日本語の字形を捨てて中華フォント使っとけってこと
Unicodeならこの改革を進められる、やるしかない ギャーギャーうるさい連中がいるから今すぐはむりでも、25年ぐらいかけて洗脳すればいけるいける スマホユーザ見てみ、どうせあいつら中華フォントでも気づかず使ってるで ってこと
日本のメーカー、またはキャリアが関わったandroid端末ではちゃんと日本語フォント入ってるけどなー。 海外製品無理やり使ってる連中はまず日本語フォント入れようとするし。
ぼくも(´・ω・`)
なんか気にくわんなあ。
Han Unif.がレンダラ実装の重荷だってことは分かるけど、 レンダラは主なものに収斂してきているから、 こういう動きが足早に進められることはなさそう。
>>460 よく意味がわからないのだが。
純粋なレンダリングの処理にはコードポイントは関係ないし、
フォントの切り替えとかの話なら別にHan Unif.が無くても生じるわけだが。
日中台では大過無いがその他の地域では 日本語を簡体繁体で表示してたり 支那語を常用漢字で表示してたりする事態が頻発するようになる
>>461 コードポイントでなく、
言語情報でフォント切り替えるのは、
ハンユニフィケーション以外にあるの?
>>463 というか普通はコードポイントでフォントを切り替える手間がメインなので
Han Unif.が特に重荷だということはないような、と。
言語情報とやらの切り替えがやたらと発生するならあれだけど。
449は非CJKV圏向けのプレゼンで、そのうち字体の統一が起こるかもねー ぐらいのニュアンスじゃないかな。 まぁかなり書き手の希望的観測が強く混じってる感じするけど。
大陸側が繁体字に回帰したらそういう流れも出てくるかも
KVは帰ってくることなく、しかし配慮はしなきゃいけない 中途半端な状態がずっと続くんだろうか。
CJKVからCHJTへ
CHJMT
マカオ?
CHJMT+カナダ
>>464 16bitで済ませたいんじゃないの?
32bitじゃあルックアップテーブルも工夫する必要あるし。
WinXPのSimSunがU+4CA0の字形をU+4CADに収録してたって件、 やっぱり0とDを見間違えたしょうもないミスなんだろうか
来月か再来月にAJ1-6に情報を追加するよーってことは まだしばらく1-7は来ないってことか 予定ありゃこんなタイミングで更新せんだろうし
ISO-2022-JPのファイルで「ESC ( B ESC $ B」とか「ESC ( B ESC ( B」という並びは形式的に許されますか?
476 :
デフォルトの名無しさん :2012/01/15(日) 00:44:17.36
single-byte-segment = single-byte-seq 1*single-byte-char double-byte-segment = double-byte-seq 1*( one-of-94 one-of-94 ) single-byte-seq = ESC "(" ( "B" / "J" ) double-byte-seq = ESC "$" ( "@" / "B" ) なので、single-byte-seqの後に1文字以上ないとダメですね。
477 :
475 :2012/01/15(日) 01:09:40.09
ありがとうございます。 ということは j1.txtがESC ( Bで終わっていて、j2.txtがESC $ Bで始まっているときに Windowsのcopy /b j1.txt + j2.txt j3.txtでできたj3.txtは、形式的にはISO-2022-JPに 従っていないことになるんですね。
WG2更新 ミーティングがもう来月なんですな
479 :
デフォルトの名無しさん :2012/01/17(火) 21:48:40.07
ああ、もうすぐ6.1.0か
来月は他にもUTCとかWin8 βリリースとか色々あるね。
プードルの眉毛からあそこまで話が広がるのかー
どこの話?
ISO-2022-JPは、規格的には、テキストの一番最後にCRLFがあってもなくてもいいが、 ESC ( BかESC ( Jの後にsingle-byte-charが来る(0文字でもいい)行末しか許してない。
RFC 1468 のバグじゃなかったっけ? 確か修正とかされてないけど。
ワザというそういう仕様にしている。 JIS X 0208に文字集合にしたまま行を終わらないように。 規格にもはっきりそう書いてある。 ただJIS X 0201かASCIIかどっちでもいいけども。
487 :
デフォルトの名無しさん :2012/01/24(火) 23:30:26.78
行の最後はJIS X 0201とASCIIのどっちでもいい。 テキストの最後はASCIIじゃないとダメ。 みたいな、ややこしいことになってますね。 RFC 1468は、よーく読むと、ツッコミどころが沢山あるみたいですね。
今時ISO-2022-JPなんてどうでもいい。 半角仮名も使えないようなウンコ。 みんなGmailでUTF-8だろ?
半角って何ですか? それはさて、Gmailはないわ。
ヘ_ヘ ミ ・ ・ ミ ( ° )〜
491 :
デフォルトの名無しさん :2012/01/25(水) 00:30:45.42
Unicode 6.1.0リリースって、2月の何日でしょうか。 ソフトウェアリリースのタイミングが掴めない。
リトアニアの首相からWG2へ直々に符号化要請来たのか。
>>493 涼に包摂されるかどうかが二転三転したアレか
UTR#50締切日
さて、今月はどうなりますか。
UTR50なんて半年前からやってて一度〆切を延長してるのに みんな何を今になってバタバタしてるんだ
Unicode 6.1正式リリースキター
現地だとぎりぎり1月中にリリースできたことになるんだな。
それって大事なことなのか
それって大事なことなのか
事前予告しちゃったからね
イワタに就職した某氏も「線の質がどうだとかケチをつける気にもならないトンデモ」 とか絶賛のCode2000がGPLv3で公開されたようだ
それふぉんと?
代替フォント専用でトーフ撲滅目的なら何でもいいじゃん どーせ読めないんだしさ
>>508 フォントサイズが変わってるね。
unicode 6.0対応とかだったらありがたい。
年賀状ソフトとかに付いてくるクラフト書体だっけ? ああいうのを小学生が作ったらこうなりそうだな
ずっと持ち越し扱いになってたN3698は今回のagendaに載ってないな。 N4091で一段落って形になったか。
んっ!?どういうこと?
ポーランドかどっかの知らない人がJames Kassのメールアカウントをクラックして James Kassのふりをして勝手にGPLで公開したってこと MLでの言動がおかしくてバレた(技術的な質問に全然答えられないとか)
ほえええ
N4229は手法論に文句ばっかり言う日本にTCAお怒りの巻かしら
code2000より、symbola作ってた人のフォントを誰か引き継いでほしいな。
で、今後はどうなるんだ
USはつおいなー
小書きコ飲まされましたか。
Old Hungarianは泥沼っすなー
もう小書きは五十音全部作っちゃいなよ
実際カタカナは半分くらいすでにあるんじゃないか
小書きンはまだないンだっけ。
あいうえお か〓クけこ ←NEW! 〓シス〓〓 〓〓つ〓ト 〓〓ヌ〓〓 ハヒフヘホ 〓〓ム〓〓 や_ゆ〓よ ラリルレロ わ〓_〓〓 〓 ひらがな表記…平片両方ある カタカナ表記…片仮名のみある
小書きといえばARIB外字の70%サイズの氏副元故前新
このスレのお前らは普段どのモジコード使ってるの?
UTF-16
UTF3
530 :
デフォルトの名無しさん :2012/02/25(土) 01:38:41.55
Unicode7だろ
531 :
デフォルトの名無しさん :2012/02/25(土) 01:41:20.56
Unicodeを 学んで分かる Windowsの 痛々しさよ
WindowsはUTF-16なんだっけ
533 :
デフォルトの名無しさん :2012/02/25(土) 01:45:37.57
Windowsは日本語版だけ特殊なんだよな
そうなの?
もう小書き仮名セレクタ作った方が早いな
小書き仮名は「大書きの仮名に一対一で対応するバリエーション」というより、 「音素文字がほしかったので間に合わせで用意しました」的なものも多いから、 大書き仮名を親字としてセレクタで表現されると困ると思う。
それならFull-Widthもセレクタにしたほうがいいな。 ていうか16ビットに収まらなくなった時点で、上位ビットをバリエーション表現用に予約しとけば ビット操作だけで曖昧検索にも対応できてすっきりしたと思うんだ。 こんだけgdgdになると、Unicodeを最整理した新コードができても、全文字互換を取るのはもう不可能だよね。
それは既存の互換漢字をBMPのVSで表す提案じゃないか
うん、だから互換漢字だけと言わずいっそのこと統合漢字もやっちゃおうぜと
タイミング見てそれもやってきそう。
言語タグは犠牲になったのだ…
今頃になってIVSの存在を知って、おおスゲェと感じ、もしかしたら戸籍管理に役立つのではないかと色々画策してみたんだけど、 これってFirefoxやその他対応ブラウザじゃないと使えないのね。 でもUTF-32を使えばIVSいらないんだぜって会社の先輩が話してたんだけどこれって単純に彼の勘違いであってる? 英語のドキュメント含めて色々調べたんだけど、UTF-32(UCS-4)の情報が見つからなくて… なんか凄いあほな質問だけどよかったら答えて下さい。
勘違いだろうね。よくある最初から32ビット固定にしとけば…って話なんだろうけど。
業務としてやるんなら、ここに参加するのもありかも。
ttp://ivstpc.jp/
(´‥∀‥`)ほう
むしろ、複数コードポイントが1文字になるのでUTF-32の存在意義すら危うくする存在>IVS 合成やセレクタをうまいこと区別できるUTF-??出てこないかなあ。
>>547 IVSの有無に関わらずUTF-32は複数コードポイントで1文字だから。
合成可能なコードポイントかも属性見れば良い話。
来たかコンシューマプレビュー Unicodeまわりははたして
>>547 結合文字なんてUnicodeに最初の最初から存在してたんだから今さら過ぎ。
制定当時の技術水準では非現実的な仕様だったけど
UTF64の出番か
128にしようぜ
554 :
デフォルトの名無しさん :2012/03/01(木) 16:47:14.21
UTF-128は合理的なんだよ。 なんと128bitのMD5がたった1文字に収まってしまう。 合理的だろ?
収録数保持した512にしようぜ
556 :
デフォルトの名無しさん :2012/03/01(木) 17:02:17.78
ワタシが現在開発しているUTF-160は、 SHA-1を一文字に納めることができる。 誰か投資しないか?
結合文字は何文字でも無制限に付けていいことになってるから 2^nビット固定長脳の人は絶望するといいと思うよ
濁点をたくさん付けたい
560 :
デフォルトの名無しさん :2012/03/01(木) 22:32:50.09
三濁点、四濁点あたりまえ
つゆだくだくで
蓮画像を思い出したよ
十濁点以上の字はグロ字にカテゴライズされて、 ブラウザーの「グロ字を表示しない」オプションを有効にすると代わりに井桁で表示される。 そうするとなんとか無理矢理表示させようとする悪徳業者が現れて 字の代わりに画像にする高等技術が生み出されて社会問題になるの。 それをNHKなんかが特集組んだりするわけ。
十濁点字をうっかり自動読み上げさせようものなら、 変な周波数の音が出て家具がびりびり共振する
CIDをUnicodeに変換する事って出来るの? 記号(♂)のまっすぐバージョンがCIDにはあるんだけど、これをhtmlで表示させたい(もちろん、フォントには収録してます)。 もし、Unicodeに出来るのであれば、そのコードを指定してやれば表示させられるとは思うのですが、果たしてCIDをUnicodeに変換する事は可能なのでしょうか?
个 〇
>>566 出来ないのもある。もともとUnicodeとは無関係に作られた集合だから。
フォントの中でそのまっすぐバージョンが♂の異体字扱いになってるなら、
CSS3のfont-feature-settingsでaaltを指定すれば呼び出せるかも。
>>566 > 記号(♂)のまっすぐバージョンがCIDにはあるんだけど、
どういう意味?
曲線バージョンでもあるの?
ビンビンで上向いてるんでしょ。
ヒラギノには「♂」U+2640のグリフ4種類入ってるな。 Macだとrtfやpdf中ではちゃんと区別して使える。
もしやもしや、FirefoxのIVSってTruetypeしか対応してない? 花園明朝のTrueならIVS表示できたがOpenだとIVS表示できてない…
あ〜、jp78とかいう属性付けるとIVSではないけど異体字表示できますね。 俺としてはIVSでやりたいんだが、誰か方法を御教授願います。
>>572 理由はわからないけど、IRGのレポートだかに
異体字と見なせないものはあとで互換漢字として提案するようなこと書いてあったから、
そっちに回したんじゃないかな。
577 :
573 :2012/03/03(土) 17:04:13.65
>>576 わかってるよw
firefoxでためしに表示させてみてくれ。
Truetypeでは正常に表示されるがOpentypeでは表示されない
578 :
573 :2012/03/03(土) 19:29:53.70
ここにいる奴はしったか8割だからあまり期待しないほうがいい
>>578 FirefoxはCIDベースのOTF対応がまだ怪しいので、Bugzillaに投げた方がいい。
戸籍統一文字じゃなくて住民基本台帳
そういや結局0213って改正するの? 常用漢字の関係で
規格をいじる愚をこれ以上繰り返すのもなぁ
常用漢字改訂の影響受ける字なんてあったっけ
叱か
588 :
デフォルトの名無しさん :2012/03/11(日) 16:02:37.18
JISCのサイト言ったらいつのまにか改正されててワロタ 誰も気づかなかったのか…
>>584 > そういや結局0213って改正するの? 常用漢字の関係で
なぜそう思ったのか根拠を述べよ
0213は今さらどうでもいいけど、0221はそろそろ改訂する必要ありそう。
どこで聞いていいかわからないからとりあえずここで。 N88BASIC(Disk版)の、KI/KOコードで挟まれた中の「JISコード」がどんな風に格納されているのか 具体的な変換式なり表どっかにないですか。
そのままだろ。その為にKI/KOで挟んでるんだし。
エスケープシーケンスが違うだけで、中身は ISO-2022-JP と同じ、だと思う。基本的には
ふむ
Unicodeは次は6.2.0か /Public/6.2.0/が出来てる
次は何が変わるんです?
IVDチャート来たか。 画像化されて相変わらず重いなー。
>>598 なんでレビューのときに指摘しないの? 指摘してるけど無視されてるの?
(無視したらそれまででそのまま登録するしかない)
>>591 NECなので78JIS(正確にはJIPS)である点に注意
>>589 JIS X 0213:2012の解説によると、
JIS X 0213の附属書6は第一水準と第二水準についてJIS X 0208の附属書6を
参照していて、JIS X 0208の附属書6には常用漢字を示す[常]マークと常用漢字表に
もとづいた音訓が書かれていたので、JIS X 0213・JIS X 0208ともに改正する必要が
あった。
0208だけじゃだめなの>
>>602 これも解説に書いてるけど
・常用漢字との対応がJIS X 0208とJIS X 0213で異なる
・JIS X 0213では一部の常用漢字が第三水準に対応する
というわけでダメだった。
>>599 Unicodeのレビューシステムが壊れてて
結局レビューが届かなかったらしい
>>294
ワロタ
それはワロタ
さて、四月馬鹿がやってきましたが
しっかし異体字の泥沼に終わりはあるのかしら
えっそれってどうするの
レビューなどしないという事だ
中の人は知ってるのかな
なんと1ヶ月も書き込み梨か
質問なのですが 文字実体参照や数値文字参照を正しくアンエスケープ出来ていない状態は、文字化けと呼んでも差し支え無いのでしょうか? それとも明確に区別されるべきなのでしょうか?
文字化けという言葉に厳密な定義などないのでどうでもよい。 ひとつ言えるとすれば、明確に区別したいなら文字化けというような あいまいな言葉を使うべきではない。
ありがたいのか
Javaがらみなのですが、native2asciiでUTF-16でサロゲートペアになる辺の文字の 逆変換がうまくいかないっぽいのですが、こういうもんでしょうか。 例えばU+21300に対して(以下某専ブラの文字参照のテストも兼ね) % echo 𡌀 | native2ascii -encoding UTF-8 ¥ud844¥udf00 % echo 𡌀 | native2ascii -encoding UTF-8 | native2ascii -reverse -encoding UTF-8 ¥ud844¥udf00 そのまんまやんけ、と。
おお何それちゅのむ?
共同通信社「字形と入力」が見当たらない。 CJKV Information Processing 著者: Ken Lunde の参考文献に記述があるが、探しても見つけられない。
Ken Lunde か共同通信社に問い合わせするっきゃないんじゃないか? 多分一般に販売してない印刷物なんだろうと思う。
623 :
621 :2012/05/19(土) 21:05:09.97
すまん! ただいま問い合わせ中。
けんちゃんのほうだろうか これはwktkせざるをえない
社内のガイドじゃないか?
業界向けに配布されたものかrequesterがAdobeに送ったものか どっちかだろうな
10月のUnicode Conference行く?
うちから遠いから行かないわ(´・ω・`)
場所って決まってんの?
UTCはN4246を受理したか また血みどろの戦いが
ああ例の互換漢字にStandardized Variantsを割り当てるって奴か
恥ずかしながら今だに意味が良く理解できない
いや、これはいいんじゃない? 文字コードオタクじゃなくても読める文書になってるし。
文字コードオタクじゃなくても読めるけど、 文字コードオタクとの会話・意思疎通には慣れてないと読めない気がするなあ。 同じサイトのほかの連載を見てみると、果たしてここの読者層が 「U+0000」みたいなのが最初の段落だけで8回、全文で90回も出てくる文章に面食らわずにいられるのか気になる。
悪くはないと思うけど 国語教室と言われるとかなり違和感がある
馬鹿には無理
とりあえず次回を待とうか。 今回の主役のLatin系はメインテーマの「日本の文字」とかかわりが薄いし、 いくつか書いてあるsjis系由来の問題なんかは何もUnicodeに限ったもんじゃない。 まずは本題に入ってくれてからでないと、 「日本の文字とUnicode」というお題で何を展開するつもりなのか想像がつかない。
640 :
デフォルトの名無しさん :2012/05/26(土) 10:27:36.81
言論系雑誌でもそうだけど、顔写真でてるのはいいね
JISに由来する問題もSJIS由来になってなかったか。
ttp://babelstone.blogspot.jp/ 今年の9月か10月:トルコリラ記号のためだけにUnicode 6.2をリリース
2013年春:annexのupdateや例の互換漢字のVSのために6.2.1を出すかも? 文字の追加は無し
2014年はじめ:6.2の次の定期リリース(Unicode 7.0?)
らしい。
₺?
インドルピーが「き」でトルコリラが「も」か。
そしてカザフスタンはどう見ても〒ですありがとうございました
「も」に似すぎなのでグリフの差し替えを要求されます
ポイントはたぶん2本線なんだろうな 簡易な形の文字に2本線を引くと仮名っぽくなっちゃう
咎 ↑これハングルっぽいよね
Ю人 ↑これもハングルっぽいよね
龴 ↑これはカタカナです
651 :
デフォルトの名無しさん :2012/06/02(土) 20:10:26.17
韓国の人名用漢字って、全部Unicodeに入ってるの?
入ってない可能性もあるの?
654 :
デフォルトの名無しさん :2012/06/05(火) 22:34:14.51
ふむ
読んだ。結構おもしろい。 しかし、このページ見てると、Unicodeって仕様をバッサリ切れない ダメなマネージャが要求丸呑みして作ったシロモノって感じがするな。
むしろ世界規模の規格がこの程度のカオスで まとまったことが奇跡に近い。
わかんないの?
わかんねぇよ・・・もう・・・
>>659 Unicode 1.0に収録されてたから1994年より前のはず
見せ方がうまいんだと思う
安岡はキティの癖に、 コレじゃまるでマトモな人じゃないか。
漢字やキー配列の話題から離れればこんなものなのかも。
トモは本当にいったいどうして漢字になっちゃったんだろうね。
いや、タイプライターの話題こそ地雷
全何回なんだろ 日本の文字に限るともうそんなにネタなさそうな気がするけど
次回が最終回
最近タイプライターネタになってんのか。 あれはちっとつらい。
上下逆順で読みにくい
それはブログ型CMS全般にいえる問題
バイタリティは見習いたい 遠巻きに見習いたい
日本の文字をUnicodeで扱う際のややこしい点を説明する筈が どうしてcjkの統一性欠如の説明になるんだ
ややこしいじゃん
UnicodeってJIS X 2013の文字も全部1:1で収録されてる?
JIS X先生の最新作?
0213…
1:1ってのがコードポイントの話ならno、 ラウンドトリップ可能かって意味ならyes…だったと思う。
ということはJISの文字はそのままUnicodeに変換可能。 CJKの問題はあまり影響無いような。
>>685 ほう
例えば漢字はどのコードポイントに変換するの?
統一漢字? 互換漢字? 統一漢字の場合IVSをつけてもいいの?
IVS付けてもいいときは、どの字体を使うの?
IVS付けたらダメときは、字体の違いをどう解消するの?
へー、影響無いのかー。
>では、U+6674に統合されている「リ」と「晴」とを、
>どうしても使い分けたい人は、どうすればいいのでしょう。
>>685 は使い分けたくないんだろうな。だったら影響ないし。
688 :
デフォルトの名無しさん :2012/07/11(水) 20:54:23.45
文盲が多いな 「我々が扱いたい日本の文字はx0213以外の文字もあるため CJKの問題を考慮する必要があります」って言えばいいだけだろ 誰もCJK統合に問題がないなんて言ってないし
officeって文字コードはsjisで保存してるんでしょうか? sjisのテキストもユニコードのテキストもどちらも 貼り付けできるので不思議です。
どのバージョンからかは忘れたけど、保存はUTF-8じゃなかったかな。 でもそれと、貼り付けできることとは何の因果関係もないが。
1990年ごろから内部はUnicodeだよ。 その作業をしたのは日本人。
Office 1 の頃から? ちょっと信じられんが。
694 :
デフォルトの名無しさん :2012/07/12(木) 21:18:18.29
受け取る側は UTF-16 でも MBCS でもどちらでも受け取れる。 たとえソフトが片方のエンコードでしか貼り付けなくても。
>>689 「神」と「~」はどうするのさ
JIS X 0213の問題でもあり、CJKの問題でもあるだろ
文盲がいるな コンピューターで文字を扱う際の包摂等の問題だから 「Unicodeで日本語版を扱う時の問題」としては不適切ってだけだろ だれも包摂に問題が無いなんて言ってないし
すまない文盲以外は帰ってくれないか
(≧ω≦)ノシ
>>693 Unicode対応はWord97からのはず
梵字の正式な提案書来たか
変体仮名はいつのっかるんだろうねえ。
変体仮名は異体字の切り分けと名付けにわかりやすい基準を用意できるんだろうか
ようやく梵字がテキストエディタで編集できるようになるのか。
ようやく日本の文字っぽくはなってきた
変体仮名は汎用電子の絡みでいずれWG2にも来そうな気がするけど すんなりとは符号化されないんだろうな
TCAは形式的には中国の代表ということになってるのか
有効なUnicodeのコードポイントかどうかを判定する必要に迫られているのですが、 どう調べたらいいですかね。コードポイントのデータベースとか、APIとか。 自分が受け取ったHTMLに文字参照(数値参照)がたくさん含まれているんだけど どうもデタラメなコードポイントを含んでいるようで、それをチェックしたいのですが。 あ、HTMLから文字参照を抜き出すとかその辺はできてるんですが、数値の判定を どうするかということです。 まあ実際にはいろんな次元のデタラメがある(たとえばUnicode的には正当でも 文書内容的におかしいとか)わけですが、今はUnicodeのレベルでのチェックを 必要としております。
自分が使いたい文字の一覧を作っておけばいいだろう。 君が何を有効としたいかは誰にもわからないわけだし。
\p{Cn}
>>715 シフトJISだけでいいなら
Unicodeコンソーシアムのcp932を基に一覧作るとか
htmlのソースにどの文字コード表が使われてるか ってことじゃあ utf-8で書いてあるところの方が少ないような、html
perl撲滅するついでにHTML完全UTF-8化も完了した
>>716 HTMLの話でcp932なんて出されると。「shift_jisって何だっけ」問題を
思い出すじゃないか...
そこらへんにこだわっていた時期が、俺にもありましたw
結局Encoding StandardでWebブラウザにとってshift_jisは単なるcp932の別名 ってことになった
721 :
デフォルトの名無しさん :2012/08/05(日) 09:55:59.83
x-sjis
x-sjisも正式なshift_jisのエイリアスになってたな あとどうせそういうことになるのは目に見えてるせいか とうとうRFC 6648で"X-"の使用自体が廃止されてしまった
互換漢字用IVSはMark Davis巻き込んだか。
小書きコは投票から外されちゃったかー 日本が押し返したかな
あっても別にいいと思うんだがなあ
AJ1-6をUnicodeへ紐付する作業もこれで一段落か
729 :
デフォルトの名無しさん :2012/08/22(水) 01:43:02.08
>>728 そのページの脚注や参考文献にある本にかなり載っている。
10646のDISからISにかけての漢字統合の話なら、中国の1980年代後半の「語文
建設」とか「文字改革」あたりの雑誌を漁ればありそう。
というか、DP→DIS→IS というのはISO時代の呼び方で、JTC1の時は
FCD→FDIS→ISだったけど、最近の体制の変更で、呼び方が
DIS→FDIS→ISに変わったのでこのWikipediaのページはページ名自体が
微妙な気が…
一応『文字符号の歴史−欧米と日本編−』には目を通してるんだけど、例えば DIS 10646第1版の場合にこれまでのASCIIの範囲の文字を表わすのは 20202020 〜 2020207F ってことでいいの? 改行コードは 2020200A になるの?それとも 0000000A になるの? 教えてえろいひと
ISO 646 IRV (というかASCII)は、そのまま20202020〜2020207Eに収録で、 コントロールコードは、全部、別の規格で吸収するつもりだったはず。
例えばこれまでの通信機器がそのまま使えるように改行コードは0A(1バイト) のままってこと? あと『文字符号の歴史−欧米と日本編−』によれば日本のコードは 20 4x yy yy のところに割り当てようとしてた見たいだけど、4x の ところと yy yy の部分はどう使われるの? 例えば 20 40 21-7E 21-7E は JIS C 6226:1978 20 41 21-7E 21-7E は JIS C 6226:1983 20 41 21-7E 21-7E は JIS X 0208:1990 ・・・って具合? あと半角カタカナ JIS X 0201 はサポートされるの?されないの?
10646じゃなくJIS X 0221を参照している規格ってあるのかな
>>733 やっと日本文字部分レパートリが本体に入るのか
(´‥∀‥`)ほほう
すみません、 日本&中国(簡体)の漢字を部首毎にUnicodeのコードポイントでさらう必要が あるんですが、Unicodeの中の割当ってどの程度部首毎に並んでるんでしたっけ? extension B 以降 (U+20000〜) なども。 できれば部首毎のコードポイントのリストがあると助かりますが...
>>739 おお素晴らしい! ありがとうございます。
しかし... 今さらながら字を見ていくと、繁体の文字で偏を簡体にした文字が
大量にあるんですねえ。そりゃあコードポイントが大量にいるわなと。
異体字じゃ駄目... なんでしょうねw
最後のとこは最低でも8バイトって書き方にしといてほしかったな
文字コードと関係ないが、 安岡はバイトオーダーについて 少しは勉強した方がいい。
そんなの本筋と関係ないから端折ってるだけだろ
TRON信者か?
>>713 化石レスなんですがperlが対応しているUnicodeのバージョンって調べられますかね?
自分の環境でやったらどうもCJK Extension C/D の文字が微妙な感じなので。
>>748 データベースのバージョンなら
perl -MUnicode::UCD -E 'say Unicode::UCD::UnicodeVersion();'
かな
>>749 自分の環境でやったら5.1.0と出ました。なるほど納得、という感じです。
的確なお答えに感謝です。
さて
ICUのAPIで偏とか画数の情報は取り出せるでしょうか。
ossipediaをいつも「おっしペディア」と読んでしまって和む
おしりペディア
757 :
デフォルトの名無しさん :2012/09/06(木) 22:07:11.22
強行貫通
>そう、IVSを使うのです。 といいつつこのページではIVSを使わずフォントを指定することで対応している
二枚舌だあ
フォント指定を上書きしてたので気づかなかった
別にIVSとフォント指定は排他じゃないんだから (むしろ現状フォントを指定しないと使いものにならない) 両方やればいいのに
いつからここはその連載のヲチスレに
フォントのことを書くと怒られます
ふぉんとに怒られます
さて 気を取り直して。
話題ないっすなあ 日本に関係ある字が提案されてこないせいもあるんだろうけど
ないっすなあ
あるTrueTypeフォントを渡されて「これにはAJ1-6相当のグリフが入ってる。確認して。」 と言われたんだけど、どうしたらいいですか?
その種のフォントは、グリフ名がAJ1のCIDを示唆するものになっていることが 多いのでまずそこを確認。
(´・ω・`)知らんがな 少しずつ追加されて数が増えてても不思議はないし
差分を見たいわ
127文字違いとか意味深だ。
もうひと文字増えていたらオーバーフローの危機だったわけだ。
nushuの提案(改)が来たか 1b1xxに入る予定だから、日本はkana supplementブロックが 残り254でいいのか早めに答えを出さないとな
どうせ足りなくなったらkana supplement extendedとか kana supplement-Bとか何とか追加されるまでだろ
10/5の文字情報検討WGで変体仮名を取り上げるらしいから 結論が出れば必要なコードポイントの概数もつかめるかも
それは朗報。早くのっけておくれ。
そういやUTF-8って同じコードポイントを冗長表現できるけど 誰も、適当に加減算して重複が出ないような定義にしようって言い出さなかったのかな
782 :
デフォルトの名無しさん :2012/10/02(火) 23:41:48.41
>>779 変体仮名が採用されたとすると、NKFC/NFKDで普通の仮名に変換されるのかな。
住基かなだっけ あのデザインのまま上がってきたらちょっとあれだけど
>>785 知らないんだけどなんか残念な字形なの?
>>786 最初からそうじゃなかったでしょ。
つーか最初からそうするなら(UTF-16のように)そもそも重複が生じないように
設計すればよかったって話じゃないの
>>788 演算コストを減らしたかったんでしょ。
UTF-1は重複が出ないようになっていたけど、乗算除算を多用していて演算コストがかかるために破棄され、
新たにUTF-8を作ったんだし。
>>789 その人にはそう見えたんでしょ。
こちとら83JISの時代から一部のメーカーの傲慢に振り回されてきたっての。
>789 GoogleはAndroidを売るために絵文字を統一したんだよ 日本のガラケーを滅亡させるために仕組んだTPPなの 尻拭いとか日本人の便利のためとか親切心は全く無い
俺は絵文字がウニコードに入ったのは今でも微妙と思ってるクチだから、絵文字に関してはあれだが 他の部分でもその人は典型的な「他人と違う視点でもの見れる俺カコイイ」だな 自分的にいい思いつきが浮かんだら嘘を混ぜてでも正当化するタイプ 人のふり見て我がふり直せだな
>789 トーハン日販まで読んだ
ぼやき漫才みたいな芸風の「総裁」らしい。 これは取り上げた時点で負けなんじゃないのか?
ヨーロッパは船頭多くして…をよくやってるような気がするんだがな。
日本が加わっても携帯電話の無線部、ATM、HD DVD/Blu-rayとか、 まとまらない時はまとまらないって。
>>790 加算一回増えるのと、冗長表現を弾くチェック入れるのとだと後者が重いし…
絵文字といえば某連載はその後いかに
dankogai
>>798 いやいや。
君のコードを見せてみなよ。
802 :
デフォルトの名無しさん :2012/10/04(木) 23:20:17.33
Hangulのcompose/decomposeなんて除算してるぞ。あんなんでいいのか? まあ俺は使わないからいいけど。
>>801 いやいやもなにも加算と分岐なら分岐が重いに決まってるだろ
いつのCPUだよw 80386か?
分岐予測は外れるかもしれないし、投機実行はそれだけ資源を必要とする。 加算に比べて分岐が重い処理であることに変わりはない。
顔真っ赤だよ
807 :
デフォルトの名無しさん :2012/10/05(金) 20:11:43.31
別に間違ってないじゃん
加算が一番単純だよね。TTLでもできちゃう。
今は加算も分岐も1クロック。
811 :
デフォルトの名無しさん :2012/10/06(土) 03:53:49.05
>>796 あいつら同一民族ですら一つの国で暮らせないんだぜ
チョンの話かとおもたw
日本民族は島国に閉じこもっていることしかできないって自慢になるの?
当初は分岐など必要ない(重複してたっていいじゃない)と考えてたんだから 1よりゼロのほうが小さいだろ。
>810 ビットシフトは?
>>810 分岐ってのは減算+条件ジャンプ相当の処理がいるんだぞ
817 :
デフォルトの名無しさん :2012/10/06(土) 18:18:15.47
>>816 てきとーこいてるやつにマジレスなんかするだけ無駄だよ
>>798 この辺から不正とされてる事をわざわざチェックすると処理が重いとか、
おかしな事を言い出してるから無視すれば良いよ。
話混ぜっ返して荒らしたいだけだろ。
>>819 おかしなことを言ってるのはどっちだよ
有名なセキュリティホールじゃないか…
普通にcode pointで比較すれば冗長表現だろうが関係無いだろ。 バイナリ比較とか本来ダメな事をやろうとするから、逆に無駄なチェックが必要になる。
>>821 それで統一できる環境なら幸せなんだろうけど名
ってかそれで統一できる環境ならUTF-8自体要らないか
このままユニコードを拡張に拡張を重ねてみんなが幸せになれるかどうかを知りたい。
// / / バカッ //⌒)∩__∩ /.| .| ノ ヽ / | | ● ● | / | 彡 ( _●_) ミ 馬鹿には無理 / | ヽ |∪| /_ // │ ヽノ \/ " ̄ ̄ ̄ ̄ ̄ ̄ ̄(..ノ
WindowsはUnicodeをサポートしてますが、 符号点が定義されている文字って全部表示出来るんでしょうか? Windowsにおける外字ってどの範囲を指すのかなと気になって質問しました。 XPの場合、 Windows-31jの範囲以外が外字? Unicode3.0の範囲以外が外字? ここでの外字はその環境で表示出来ない文字、という定義で書いています。
826 :
デフォルトの名無しさん :2012/10/08(月) 10:26:02.90
フォントのダウンロードが(ほぼ)自動だから もう Windows 7 以降なら全部表示可能な気がする
htmlやメールヘッダのcharsetって文字集合のことではないんですよね charsetは符号化方式なのですか
はい
ISO 646やISO 8859やISO 2022に、符号化スキームを固定した頭で考えると、
文字集合の切り替えだけで済むのでそういう用語になってしまったと思われる。
今はそれを追従する形で公式な用法として認めている。ただし注釈を加えて。
つ
http://www.cam.hi-ho.ne.jp/mendoxi/rfc/rfc2277j.html IETF Policy on Character Sets and Languages
(文字集合と言語に関する IETF の方針)
> 3. 用語の定義
>
> この文書では、「charset」という用語を、符号化文字集合と文字符号化方式の組み合わせのような、
> オクテット連続を文字連続へ写像するための規則の集合という意味で用いる。
> これはまた、MIME の "charset=" パラメーターにおける識別子として使用されるものであり、
> IANA charset レジストリー [REG] に登録されている。
> (ISO などの他の標準化団体によって使用される用語ではないということに注意。)
>
> 「符号化文字集合」(coded character set) という用語の定義についてはワークショップ報告を参照されたい。
まあ、そう定義するしかないわな。
831 :
デフォルトの名無しさん :2012/10/09(火) 05:09:40.72
全部が全部で統一しようと思ったら 間違いなくどこかのグループにキチガイが居るからまとまらないもんな
832 :
デフォルトの名無しさん :2012/10/14(日) 17:08:47.79
海外のIMEみたいなのがどうなってるのか知りたい。
入れてみればいいのに
unicodeでハングルの領域が邪魔すぎるんだけど
領域は個人で勝手に割り当てられるわけでも無し邪魔になるような要素無い でもfontセルフコンパイルで容量喰って邪魔臭いハングル抜きは世界常識
Jamoだけで機能するのに
JIS X 0221の改訂作業始まったのか この機会にあのガチガチな権利保護やめりゃいいのに
JIS全部の問題だからねぇ
CNSの6-353Eと戸籍017290か これ大漢和1480の作りそこないだろ
真言宗総本山からWG2へ梵字符号化に関しての投稿ってなんか凄いな。
豆腐代が苦
843 :
片山博文MZボット ◆0lBZNi.Q7evd :2012/10/23(火) 16:55:43.87
MZCで文字コードの問題が解決する!!(Windows限定だけど)
隔離スレ"UnicodeとUTF-8の違いは?"がすぐ落ちるのは何故?
テンプレがないから
でたらめかくな!
それ、テンプレじゃなくて過去ログ載せてるだけじゃん テンプレがないと今はすぐ落ちる仕様だから
アイちゃんをちゃんと招喚しなかったからだよ
国旗ひどす
こんな仕様じゃ使えないわw
西暦文字を新設して国旗文字の後に付け足すとかでもないと使えないな
リンク先のPDFにも書いてあるけど、あれは国旗用じゃなくて国名コード用 それを実装によっては国旗として表示するかもね、というのが10646のスタンス 国旗用ってことにすると、そこに書いてあるような問題が発生するから
だけど例えば、 南北朝鮮が統一したり、 統一後にまた分裂したりしたら、 ミャンマー国旗と同じ問題が発生しそう。
いや、国旗絵文字はISO 3166に依存してるから、 問題が大きくなるも丸く収まるも3166でどう扱われるか次第。
>>857 違うだろ
文字というのは意味と形の両方がともなってはじめて文字なのに、意味しか定義してないというのが問題の本質だろ。
ISOも所詮は意味の部分でしかない。
意味しか定義されていない文字もどきなんてUnicode内にいくらでもあるじゃん。 何を今さら
というか表示を定義しようとすると文字コード関係者で手に負える範囲じゃなくなるでしょ。
>>855 のいう「実装によっては国旗として表示するかもね」、というのは
ややこしい問題から逃げてるのは間違いないけれど、
これよりいい実装方法が現実的な範囲に存在するとは思えない。
恨むなら、そもそもテキトーな実装をした携帯キャリアを恨め。
国名二文字コードや三文字コードを_の用に表す方法がある。
あまりにも遍在しすぎて問題として注目するに当たらない、ってことでしょう。
>>863 なら問題はunicode側にあって、ISO3166は関係ないという主張の反論にはならんないんでは。
>>864 ・Unicodeでは類似例がありふれているので、たとえ悪い状況 (=複数の国旗デザインを区別できない) になっても大きな問題ではない。
・しかし、
>>856 の問題については悪い状況になるもならないも3166次第。
例えば今は韓国=KR、北朝鮮=KPだけど、
・統一朝鮮がKRを引き継いだ場合→Unicodeで韓国国旗と統一国旗の区別がつけられない (悪い状況)
・統一朝鮮がKPを引き継いだ場合→Unicodeで朝鮮国旗と統一国旗の区別がつけられない (悪い状況)
・統一朝鮮に新しいコード (例えばKO) を割り当て、KR/KPは3166-3に移動→コード重複がないので国旗問題が起きない。
つまり「そもそも問題が起きるか起きないかは3166次第だけど、起きたとしてもUnicodeでは別に珍しくないからいいよね。」ってこと。
>別に珍しくはないからいいよね いや、よくはないだろw あと3166次第なのは確かだけど、3166に丸投げするような仕様がそもそも変っていう話もあるしね
西暦年付加だと、同じ年にころころ変わった例に対応できないしなあ。ほんといい方法が思いつかない。
ISOでも抱えきれないものを、Unicodeコンソーシアムに持ってきたら即死だろw
領土問題にかかわると、ろくな事にならない
IVSでなんとかしろ
国旗のデザイン1枚ごとに1文字ずつ割り当てればこの問題は「一応」解決する。 あとは実装の問題なので、文字コードがどうこうできる話じゃない。
日の丸は中心にある現行版と 微妙に旗竿寄りの明治版の2種類を収録してもらうお 多分日常的に使うptでは区別付かないだろうけど
国旗化して表示するのは完全に実装依存だからUnicodeの知ったこっちゃないだろ。 ドメイン名から国旗表示するネットクライアントとかよくあるけど、この表示が おかしいからってUnicodeに文句言われても困る。
ISO3166は別の国への再割り当てが既に起きてるわけだしどうしようもないな
いやしかし盛り上がるもんですな
モルドヴァとかパラグアイの国旗には表面と裏面があるんだが こういうのはどうするのだ
何だそれwいろいろあるんだな。
>>873 の言っているように
かつては日本の国旗にも表裏があったのだよ
それ竿に取り付ける分ずらしてただけだろ
たんに表裏で鏡像になってるだけのものは
>>877 とは意味が違うでしょ。
アラブの一部の国を除いて旗竿は左側が標準だということで。
俺の竿も左側に傾いてる
>>874 そもそも携帯絵文字の国旗をUNICODEに取り込むときにコードポイントけちるために
国名コードで表現する変な方法思いついただけちゃうんか?
それで実装依存だから関係ないとかありえんだろ。
>>887 それ読んでも本質が見抜けない奴は黙ってろ。
888ゲットおめ! おめでたい記念にその本質をきっちり説明していってくれ。本人以外が理解できるようにな。
ポエムとかかんべん
>>888 本質はGoogleが日本のガラケー市場潰しのために絵文字を統一したと
どんな薄手の参入障壁だよ
ぶっつぶしてくれてむしろ大歓迎だわ
横須賀通研のガラケー開発はプログラマの203高地だった。 毎日のように死人が出る文字通りのデスマーチ。 日本のソフトウェア業界の未来が縊死していった元凶だ。
何でケータイってあんなにTRON系ばっかり使われてたんだろうな Linuxはともかく、NetBSDそのまま使おうとか、そういう意見は出なかったんだろうか
keyword 東大 御用学者 原発もTRON仕様にしとけば安全だったのに
すんません、 ドル記号って確か本来縦棒が二本じゃないですか。なのに昨今のコンピュータ上の では大抵一本しか線がない。でもこれに文句を付けている人はあまりみかけない。 ということはこれに関しては「こまけーことは気にするな」でいいということでしょうか。 実は仕事で中国系のフォントを扱っていたら円記号のデザインが横棒一本 なのがあって、この記号はおかしいというバグを処理する羽目になったのだけど、 これも「こまけーことは気にするな」でいいんでしょうか。
U+1F4B2
というか本来2本、ってのは事実なのか?
ドル記号は縦棒一本と二本のグリフが存在する。 円記号は、日本円は常に横線二本、人民元は一本か二本。 ってWikipediaに載ってた。
901 :
デフォルトの名無しさん :2012/10/31(水) 20:56:36.29
Yにスジ1本はやっぱりダメなのか
902 :
デフォルトの名無しさん :2012/10/31(水) 21:34:34.11
ユーロ記号はわりときっちり形状が定義されていた気がする。 角度とか。
そういやJISマークはどうなったんだろ。
>JISマーク 結局のところ、誰かが実用してるわけじゃないものは議論が深まらず結論も出ずに忘れ去られるという好例か
本屋に行って裏表紙を眺めてみるといいよ。 横一本の円記号で値段が書いてあるものは少なくない。
漢字に関してはうるさいくせに他の文字や記号類は適当だからなあ
>>905 うわーほんとだ。言われるまで気が付かなかった(自分が持ってる本で確認)。
結構びっくり。
JIS X9001を見ろよ
おれが見るの?
昔のタイプライターとかだと Y打ってBSして-だっけ
そういうのいいなあ
書体にOCR-Bが使われると横棒一本になる。
>>913 ああそういうことか。
本の裏のバーコードやISBNに並んでる価格の¥が横一本なのが多いのは。
同じ内容がバーコードで印刷されてるのに そこまでOCR記号使うなって気もするけどな
凝りまくったオールドスタイルの数字とかが並んでてもそれはそれでイヤだろ。 あくまで可読性重視、となるとOCRBは別に悪くない
JAN規格で目視可能数字にOCR-Bのようなフォントを使うように指示されているらしい
にゃらるほど
919 :
デフォルトの名無しさん :2012/11/01(木) 21:50:27.29
lOllOllO
マルイ?
いつの間にかISOのサイトで無償公開されてる10646の規格表が2012年版になってるな
OさんはWindowsの事情知らないんだったら フォントがIVSに対応していませんなんて断言しなきゃいいのになあ 草生やしてる場合じゃないよ
kwsk
ogwataが「Window 8の標準フォントはIVSに対応していない(キリッ」とかほざいた。 まあogwataが知ったかぶりでドヤ顔してるのはいつものことだから生暖かく見守っとけ
>>917 13桁化後はバーコード下の数字じゃないISBN表記の方はOCR-B以外ばかりじゃね?
「ばかり」ってことはないな。 手元の本調べるとOCR-Bのままのもある。 今時相当変わったフォント以外は機械的に読めるだろうけど、 変える必要もないところだし。
ふむ
やっと終わったのか
楽しかったけどこういうのって本にしてどこに需要があるんだろう
数年毎にユニコードの現状の記事を読む度に建て増し温泉旅館の規模がどんどん 大きくなってるんだがいつまでこれが維持できるんだろう。
UTF-8で符号化できる限りは維持できると思うよ
太陽系外知的生命体と交信が始まる頃までには
2020年までに人類は文字コードの悩みから解放するべきだ
16bitあれば世界中の文字が表現できると言ってた連中はどこに行ったんだ?
939 :
デフォルトの名無しさん :2012/11/15(木) 01:54:32.49
2030年頃には1文字あたり1024x1024のビットマップで扱うことになるから、文字コード自体廃止にしましょう。 文字列検索は画像検索と同じ技術で可能なので、簡単ですね。
で、数百年後には文字そのものが絵画同然のようなものに回帰していると
スタート画面ですね わかります
>>939 そういう時代になっても文字を仕分けする仕事が不必要になるわけではないのです。
同じ技術といっても、文字画像同士を同じ文字とみなす基準を作る仕事自体が、
今のUnicode.orgが文字集合に対してやっている仕事と同じなのです。
文字の発明とは、離散的で共通な情報の単位でやり取りをすると便利である、 と人類が太古の時代に気付いたことを意味する。 現代人はそれを如何に符号化するかを悩んでいるに過ぎない。 このろくでもない、素晴らしき文字コードの世界。
まあ字典/辞書作った人も通った道だもんね。
近現代で新文字創ったのは毛沢東が最後?
949 :
デフォルトの名無しさん :2012/11/16(金) 05:28:32.87
小説家がしょっちゅう発明してるだろ。 JIS X 0213に収録された&#173111;だってもとは創作漢字だ
950 :
デフォルトの名無しさん :2012/11/16(金) 05:31:48.02
ありゃ𪐷が文字化けした
一方富樫はハンター文字を作った
記号含めていいならインドルピーとかが公式に最新じゃなかろうか
ドルピーは「き」 コリラは「も」 テンゲは「テ」
ていうかISO/IEC 10646を10FFFFで永久に打ち止めにしちゃったのは問題ないの?
なんで?逆にとめないほうが問題じゃね?
地球のすべては一応把握できてるから、地球外生物が発見されるまでは大丈夫という事じゃね?w
>>958 地底人とか。
新しい言語と文字を作る自由とか。
そういえば中国人ってその場で適当に漢字を作って使うって聞いた。
符号空間を無意味に広く取りさえすればすべての問題が解決するとか 思うほうが幻想というか妄想
>>958 1つ発見された瞬間に数億〜数え切れないくらいの新惑星に
それぞれの新文字あることが判ったりするかも知れないね
963 :
デフォルトの名無しさん :2012/11/18(日) 09:22:20.92
ワレワレハ思考ヲ直接記録スルノデ 文字ノヨウナ原始的ナモノハ使イマセン
住基仮名の一覧が安岡さんの日記で公開されてるけど このデザインのままUnicodeに入るとかなりキツイな…
現代的にデザイン直しすぎると普通の平仮名と同じになっちゃうものもあるだろうし匙加減が大変だろうね
用例添付の義務って漢字だけだっけ? 「人名だから出せません」で済ますのか? 住基にはトラッキング機能があるからせめて実際に使われているものだけに してもらいたいもんだ
住基の変体仮名をゴシックで書きなおしてみると面白そうだ。
もう拡張Fのドラフトがはじまってんのか
1順目
今回でSIPはおおむね使いきるみたいだな
もう1面割り当てたとしたらなんて名前になるの
すでに名前は決まってる。TIP
VIPでやれ
Vigenary Ideographic Plane?
Tertiary Ideographic Plane
日本語にすると第三漢字面?
>ちゃんと中身を読め。 なんだそうだ
産経「安岡の本によると「沢」は旧陸軍による兵士のための漢字らしいよ」 安岡「そんなこと書いてねーよバカ」
これはしどい
>>977 TRONキチガイ信者のアンチ安岡は自分のblogで一生やってろ。出てくるな
987 :
デフォルトの名無しさん :2012/11/27(火) 06:32:47.03
馬鹿には無理
知ってる古い用例上げるのがけむに巻くなのかよw
>>771 >住基統一文字の字数を「21166字」から「21170字」へ、
>Unicodeに無い「残りの5787字」を「残りの5791字」へそれぞれ変更しました
なんだコレ?
数え間違いがあったか新たに4字見つかったか包摂解除されたか 司令塔が迷走してるのかもしれないけど
次スレどこ?
>>984 みたいなアンチ「アンチ安岡」って何なの?
そんなに安岡が好きなの? 安岡の愛人なの?
失せろゴミ