文字コード総合スレ part7

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
2デフォルトの名無しさん:2011/05/29(日) 02:18:26.51
■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
ISO-IR - 2.8.1 Coding systems with Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-1.htm
ISO-IR - 2.8.2 Coding Systems without Standard return
http://www.itscj.ipsj.or.jp/ISO-IR/2-8-2.htm
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
http://sourceforge.jp/projects/legacy-encoding/
CP50220
森山さんの説明
http://lists.sourceforge.jp/mailman/archives/legacy-encoding-talk-ja/2006-March/000002.html
JISX4061
日本語文字列照合順番
http://www.jisc.go.jp/
3デフォルトの名無しさん:2011/05/29(日) 02:19:14.95
漢字袋
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/
池田証寿
http://homepage3.nifty.com/shikeda/zatsubun.htm
SJIS2004とかJISX213系の文字コード表
http://x0213.org/codetable/
※JISCの奴は無料で閲覧できる奴じゃなくて購入したPDFでも手で書き取らされます
Windowsで扱える文字一覧(コードページ毎で良ければ)
http://www.microsoft.com/globaldev/reference/cphome.mspx
docomoの携帯コンテンツ制作者向け文字コード情報
http://www.nttdocomo.co.jp/service/imode/make/
auの携帯コンテンツ制作者向け文字コード情報
http://www.au.kddi.com/ezfactory/
SoftBank携帯コンテンツ制作者向け文字コード情報
http://creation.mb.softbank.jp/
漢字データベース
http://kanji-database.sourceforge.net/index.html
4デフォルトの名無しさん:2011/05/29(日) 02:20:00.21
Google Standard Unicode Emoji Mapping
http://unicode.org/~mdavis/08080r-emoji-proposal/
Proposal for Encoding Emoji Symbols/N3582
http://unicode.org/~scherer/emoji4unicode/snapshot/emoji.pdf
Emoji Symbols: Background Data
http://unicode.org/~scherer/emoji4unicode/snapshot/full.html
Amd.7のドラフト
http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3580.pdf
MacOSでのShift_JISとUnicodeとのマッピング
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/APPLE/JAPANESE.TXT
MS-DOS 5.0〜WindowsXPまでのコードページ
http://msdn.microsoft.com/en-us/goglobal/cc563921.aspx
Supported Code Pages (コードページなしは変換)
http://msdn.microsoft.com/en-us/library/aa288104(VS.71).aspx
Code Pages Supported by Windows (コード表)
http://msdn.microsoft.com/en-us/goglobal/bb964654.aspx
5デフォルトの名無しさん:2011/05/29(日) 02:52:45.34
リンク集も古くなっちまったな・・
6デフォルトの名無しさん:2011/05/29(日) 07:51:01.39
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
 内部的には Unicode -> CP932 -> CP5022x って変換な気もする
・人名をソートかけたらバストサイズ順の並びになる?
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた?
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示(Unicodeに変換)する際に
 機種依存文字はサポートされるか?
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・なぜ携帯業界はunicode化しないのか?
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
7デフォルトの名無しさん:2011/05/29(日) 07:51:54.14
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 (1面)」のバグ
 UTF-16: 0x304B 0x309A → Unicode: U+FD61809A (間違い) (ISO/IEC10646はU+10FFFFまで)
 サロゲートペアからコードポイントを引き出す計算を無理やり適用(間違い)
 ((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの? → ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
8デフォルトの名無しさん:2011/05/29(日) 07:53:14.72
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → ウンコマークもUnicodeに追加されるんだな。
・WindowsXP で フォルダに使用できないフォルダ名はどうやって判定
  → ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
 Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
 コントロールパネル-地域と言語のオプション-[言語]タブで
 「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か?海栗コードへの挿入は難しい。そこでTRONだ!!
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10%増加程度。用途に合わせて使うべし。
・「wchar_tは>849の嫁。>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。
9デフォルトの名無しさん:2011/05/29(日) 09:21:24.19
10デフォルトの名無しさん:2011/05/29(日) 09:21:52.15
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
 あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか
11デフォルトの名無しさん:2011/05/30(月) 09:46:51.87
今となっては>>3-4はもういらないんじゃないか
あとWG2方面のリンクがないので追加

JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
http://std.dkuug.dk/JTC1/SC2/WG2/

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
http://appsrv.cse.cuhk.edu.hk/~irg/

日本の委員 (JSC2)
http://www.itscj.ipsj.or.jp/meibo/020000.pdf
12デフォルトの名無しさん:2011/05/31(火) 10:54:51.14
前スレdat落ち
13デフォルトの名無しさん:2011/05/31(火) 13:54:38.53
甲乙丙丁戊己庚辛壬癸
癸だけが第二水準
14デフォルトの名無しさん:2011/06/01(水) 01:05:54.50
   ___              
  / ||>>1 .||   ∧_∧  
  |  ||乙_|| (・ω・`)  
  | ̄ ̄\三⊂/ ̄ ̄ ̄/  
  |    | ( ./     /  
15デフォルトの名無しさん:2011/06/01(水) 04:42:56.52
あちゃー前スレ落ちちゃったかー
16デフォルトの名無しさん:2011/06/02(木) 07:19:52.68
ほー、日本は小書きコに反対か。
汎用電子IVDに続いてアドビとしちゃ面白くないだろうな。
17デフォルトの名無しさん:2011/06/02(木) 07:52:40.89
反対するのが生きがいのような連中がWG2に居座ってるからな。

つーかIRGN1757にも反対しろよ。普通なら真っ先に反対してるだろ。
返す刀で汎用電子の追加登録に何か言われたくないのか?
18デフォルトの名無しさん:2011/06/02(木) 08:07:17.38
汎用電子で思い出したけど
ttp://twitter.com/ogwata/status/48519614107357184
↑これってMSやAdobeみたいな実装する側の意向すら差し置いて
ああいう決定したってことでしょ
よっぽど声のでかい理屈屋がいるんだろうな
19デフォルトの名無しさん:2011/06/02(木) 08:47:14.90
n4091
>some discussion in Japan on the possibility to have a standard set of hentaigana.

おっ!?
20デフォルトの名無しさん:2011/06/02(木) 09:43:46.13
Japanって常々どうも理解しがたい主張ばかりしてる気がする
21デフォルトの名無しさん:2011/06/02(木) 10:02:19.08
小書きコの運命やいかに
22デフォルトの名無しさん:2011/06/02(木) 10:40:53.94
もういっそ五十音全部小書き版作っちゃえよ
23デフォルトの名無しさん:2011/06/02(木) 10:48:42.38
http://slashdot.jp/%7Eyasuoka/journal/532369
「ネ申」と「示申」でいいよ
24デフォルトの名無しさん:2011/06/02(木) 11:05:08.26
ねもうす
しめしもうす
25デフォルトの名無しさん:2011/06/02(木) 19:55:59.03
UTCは小書きこを受理済みなのね
てことは日米での殴り合い確定か
26デフォルトの名無しさん:2011/06/02(木) 21:04:17.55
カゲながら米を応援したいと思ってる
27デフォルトの名無しさん:2011/06/03(金) 16:46:44.07
日本が何らかの決断するまで変体仮名は前に進められなくなっちゃったかも
28デフォルトの名無しさん:2011/06/05(日) 19:39:18.80
ヘルシンキかあ。ちょうど白夜の時期なんだろうなあ。
29デフォルトの名無しさん:2011/06/09(木) 15:06:10.33
377 :SIM無しさん:2011/06/09(木) 06:40:25.91 ID:7+dIaRVO
Segoe UI Symbol を担当した Agfa Monotype の人間出てこい…

気になる点を調べたが…
おでんの具の刺さり方がとんでもなかったり、ひな祭りの人形が百合祭り (性指向) の人形になってたり、
出来れば製品版で直っていてほしい。
30デフォルトの名無しさん:2011/06/09(木) 18:23:38.45
どこで見たんだろ。SDKには入っていなかった気がするけど。
31デフォルトの名無しさん:2011/06/09(木) 20:13:40.68
AppleはAppleで絵文字専用フォントフォーマット作っちゃったようだし
結局プラットフォームごとにバラバラな見え方することになるんだろうな
32デフォルトの名無しさん:2011/06/09(木) 22:22:48.52
うむ
33デフォルトの名無しさん:2011/06/10(金) 21:10:14.97
安岡センセイ、文字コード関係で編集合戦の結果、ウィキペディア無期限ブロック
ttp://ja.wikipedia.org/w/index.php?title=%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1:%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80&oldid=37835032
34デフォルトの名無しさん:2011/06/10(金) 21:29:13.46
安岡先生どこで編集合戦したの?
35デフォルトの名無しさん:2011/06/10(金) 21:59:54.70
36デフォルトの名無しさん:2011/06/10(金) 23:52:11.43
直接ウィキペディアをいじっちゃ駄目だろ
ウィキペディアの出典になりうる文書を書くほう(本業)を頑張ることだな
37デフォルトの名無しさん:2011/06/11(土) 01:42:04.40
お前ら反応する前に確認しろよ。濡れ衣だったとかで既に解除されてるぞ
http://ja.wikipedia.org/wiki/%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1:%E5%AE%89%E5%B2%A1%E5%AD%9D%E4%B8%80
38デフォルトの名無しさん:2011/06/11(土) 13:06:57.30
自著を典拠にして自分でwikipediaの記事書いてた/るってこと?
39デフォルトの名無しさん:2011/06/11(土) 13:17:35.16
なにか問題あるの?
40デフォルトの名無しさん:2011/06/11(土) 13:19:40.12
アンチ安岡の病人がネットには何人かいるようだから、そのうちの一人だろ。
相手にすんな。
41デフォルトの名無しさん:2011/06/11(土) 13:39:48.34
>>39
別に問題はないけど>>36と同じような感想は持った。
42デフォルトの名無しさん:2011/06/11(土) 14:14:43.84
小書きこ入らなかったか…
43デフォルトの名無しさん:2011/06/11(土) 15:38:11.75
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n4108.pdf
> Moreover, Japan national body is not comfortable with the idea to encode such
> ad-hoc inventions in UCS. Generally speaking, authors can do anything he/she
> considered appropriate, and most of those novel usages are just forgotten
> without any followers. We should not encode new characters unless they are
> considered to have some established usages.
JIS X 0213は吉本隆明のためだけにU+2A437「??」を収録したけどな。
44デフォルトの名無しさん:2011/06/11(土) 15:41:19.99
Janeから書いたら「𪐷」が文字化けした
45デフォルトの名無しさん:2011/06/11(土) 17:08:15.19
こんなにいっぱい矢印が入ることは見過ごせても
ちっちゃいコが二つ入ることは容認できないのね
46デフォルトの名無しさん:2011/06/11(土) 18:43:38.95
Jane(笑)

俺のV2C△□×
47デフォルトの名無しさん:2011/06/11(土) 19:19:17.91
>>46
しかも>>44がU+A437に文字化けして見えるんだぜorz
48デフォルトの名無しさん:2011/06/11(土) 19:21:23.38
>>45
一度入れたらなし崩しになるとでも思ってるのかね。
その観点ではもう手遅れもいいところだろ
49デフォルトの名無しさん:2011/06/11(土) 21:12:12.89
これが漢字なら、写研の文字セットにもある(キリッ
って逆に典拠として使いそう
50デフォルトの名無しさん:2011/06/11(土) 21:13:22.80
漢字はいろんな意味で特別扱いされてるよな
雪だるまとか包摂されまくりなのに
51デフォルトの名無しさん:2011/06/11(土) 21:17:55.05
写研といえばBA-90のUnicode収録マダー? (AAry
ログインとかうる星やつらで使用実績もあるぞ
52デフォルトの名無しさん:2011/06/11(土) 21:22:52.77
U+1F31Dに包摂されるんじゃないの
53デフォルトの名無しさん:2011/06/11(土) 21:32:23.65
(笑)が使われる以前はインタビュー記事とかでも結構使われてたな。
54デフォルトの名無しさん:2011/06/11(土) 21:44:56.41
今見ると{ハハッ ワロス}って吹出しがつきそうな顔だ。
55デフォルトの名無しさん:2011/06/11(土) 21:47:27.79
         ____
        /      \
       /  ─    ─\
     /    ⌒  ⌒  \     ハハッワロス
     |       ,ノ(、_, )ヽ    |
      \      トェェェイ   /
       /   _ ヽニソ,  く

よく雰囲気出てるな
56デフォルトの名無しさん:2011/06/11(土) 23:40:30.40
>>37
火のないところに煙は立たず
57デフォルトの名無しさん:2011/06/12(日) 00:01:57.07
ウィキペディアの管理者は一般利用者に対しては火のないところにも煙を立てるけど
CheckUserの靴下疑惑は「同棲してました」で済ませる人格者ぞろいだからな
58デフォルトの名無しさん:2011/06/12(日) 06:33:56.02
火のないところに火を付けて煙を立てる2ちゃんねらーが言うなw
59デフォルトの名無しさん:2011/06/12(日) 13:09:47.13
先週のWG2で日本に関係ありそうなのは
・コンソーシアムがUTS37などを改訂する時はWG2の意見を尊重すること
くらいかな

あとは
・Wingdings/Webdingsの記号がいっぱい受理された
・線文字A受理
・Amd8から先送りされ続けているA78Fがまた先送り
・USがこれ文字じゃないだろと言い続けて同じく先送りされてきた1BFA-1BFBがとうとう削除
・三つ巴の提案で暗礁に乗り上げていたOld Hungarianがようやく決着
・ミーティングの間隔が空きすぎているのでためしにオンライン会議を導入
60デフォルトの名無しさん:2011/06/12(日) 14:24:05.84
オンライン会議って動画をやりとりするの? チャットじゃなくて
61デフォルトの名無しさん:2011/06/12(日) 14:51:45.40
discussion list and teleconferencing facilities
って書いてあるねぇ。
62デフォルトの名無しさん:2011/06/13(月) 21:40:33.05
>>57-58
マジレスするが2chと同等かそれ以上にdqnのスクツ
63デフォルトの名無しさん:2011/06/13(月) 21:53:45.00
64デフォルトの名無しさん:2011/06/13(月) 22:42:18.60
著書にすらできない脳内ソースを延々書き連ねるよりよっぽどマシだな
65デフォルトの名無しさん:2011/06/13(月) 23:32:05.43
>>59
UTS37の改訂って↓コレ?
ttp://www.unicode.org/review/pri184/
66デフォルトの名無しさん:2011/06/13(月) 23:40:33.85
それも含めて10646からnormativeとして参照している文書すべて
らしい
67デフォルトの名無しさん:2011/06/14(火) 00:13:40.29
確かにUnicode側の都合だけで参照文書コロコロ変えられたらたまらんよな
68デフォルトの名無しさん:2011/06/14(火) 00:37:22.70
一度手にした白紙委任状をコンソーシアムがそう簡単に手放すかな〜
69デフォルトの名無しさん:2011/06/14(火) 13:14:23.65
>>65
俺の英語力がないのか、内容がわからん
何のためにこんな改訂するの?
70デフォルトの名無しさん:2011/06/14(火) 22:37:51.65
glyphic subsetが集合であることを明確化するため
71デフォルトの名無しさん:2011/06/15(水) 01:32:20.54
後から追加可能だったら閉集合にならないじゃん
72デフォルトの名無しさん:2011/06/15(水) 01:43:42.95
glyphic subsetに何が含まれないかはもともとはっきりしていない
何が含まれるかがより明確になるだけマシ
73デフォルトの名無しさん:2011/06/15(水) 13:51:52.85
「私の知っているKen Lundeなら必ずやる」にワロタ
74デフォルトの名無しさん:2011/06/15(水) 18:36:43.13
互いに素?
75デフォルトの名無しさん:2011/06/16(木) 10:19:49.12
無理だろうな
76デフォルトの名無しさん:2011/06/16(木) 23:47:48.31
>>74
2つのglyphic subsetが共通部分を持たない、って意味じゃね?
77デフォルトの名無しさん:2011/06/18(土) 20:18:31.95
向こうしばらくの主戦場はIVSか。
78デフォルトの名無しさん:2011/06/21(火) 21:28:13.55
PRI 183キター
79デフォルトの名無しさん:2011/06/22(水) 16:55:43.29
>互換漢字「氈v(U+FA20)はIVSの基底文字になれない
IVSの基底文字になれなかったら
艸カンムリ3画・4画の差をどうやって分けるの?
80デフォルトの名無しさん:2011/06/22(水) 23:06:50.55
>>79
U+FA20はバグだと主張して新たに統合漢字として追加提案する
81デフォルトの名無しさん:2011/06/23(木) 11:24:52.63
>>79
U+8612に艸カンムリ3画・4画のIVSを両方追加する
82デフォルトの名無しさん:2011/06/27(月) 00:22:37.18
うむ
83デフォルトの名無しさん:2011/06/27(月) 01:35:29.50
U+2B789とU+2B78Eみたいなことになりそうなのが微妙
84デフォルトの名無しさん:2011/06/29(水) 00:10:15.15
文字コードとRFC(2822)の関連性について、どなたか教えてください
85デフォルトの名無しさん:2011/06/29(水) 00:12:53.46
なんでRFC 5322に廃止された2822?
86デフォルトの名無しさん:2011/06/29(水) 00:15:48.26
UTS #37でdeprecationも規定してほしい
87デフォルトの名無しさん:2011/06/29(水) 09:51:55.55
>>85
すいません、今は更新されてRFC5322なんですね。
文字コードとRFC(5322)の関連についてのレポートを書かなければいけないのですが
いまいち良く分からないので、こんなの書いたら良いよっていうのがあれば教えてほしいです。
88デフォルトの名無しさん:2011/06/29(水) 11:16:40.59
文字コードのことわかってない土方大杉。
89デフォルトの名無しさん:2011/06/29(水) 22:44:26.13
>>87
質問が漠然としすぎててなあ。
・RFC 5322ではContent-Typeヘッダフィールドで本文の文字コードを指定する
・日本ではRFC 1468に従いふつーISO-2022-JP
・最近はUTF-8も増えてる
 (とくにRFCに根拠はないが強いてあげればIMC勧告から参照されているRFC 2277)
・添付ファイルの内容の文字コードはMIMEのRFC(2045〜2047)に従う
・添付ファイル名の文字コードはRFC 2231に従う
あとは適当にふくらませてくれ
90デフォルトの名無しさん:2011/06/30(木) 11:42:26.96
>>89
> ・添付ファイル名の文字コードはRFC 2231に従う

ちょっと表現が微妙ですね。
91天使 ◆uL5esZLBSE :2011/07/03(日) 17:50:47.53
2011年、Ruby,Perl,PHP,Pythonって並べたときにさ
ここで、Ruby以外を選ぶ奴ってマジでなんなんだろうな
ゴミグラマは社会底辺
92デフォルトの名無しさん:2011/07/04(月) 22:06:08.42
>>91
Rubyみたいに糞遅いもの使えるか。
どーせメンテしないなら、呪文みたいなperlのコード書く。
93デフォルトの名無しさん:2011/07/04(月) 22:08:15.73
荒らしはともかくそれにコメントしようとする前にせめてスレタイをみてくれないか
94デフォルトの名無しさん:2011/07/04(月) 22:19:29.63
>>93
何お前まだ表示してるの?
人生無駄にしてるな
95デフォルトの名無しさん:2011/07/06(水) 09:18:43.22
汎用電子第二陣もう来たのか。早かったなあ。
96デフォルトの名無しさん:2011/07/06(水) 22:54:32.65
>>95
安岡センセイが指摘したU+2B751
さっぱりわけわからん
97デフォルトの名無しさん:2011/07/09(土) 10:28:48.24
文字エンコーディング変換を自前で作ってしまう人はあとをたたない
http://fallabs.com/blog-ja/promenade.cgi?id=137
98デフォルトの名無しさん:2011/07/09(土) 12:00:15.14
全員が職業プログラマーってわけじゃないから別にいいだろ。
でもこのセンスの無い糞コードは何とかしたほうがいい。
99デフォルトの名無しさん:2011/07/09(土) 12:20:44.32
コンバータが大きくて不恰好なのは、過去あんまりにもめいめいに勝手な変換が行なわれたせいだ
だから、iconvが大きいと文句を言うのなら、変換にはiconvを使わなければならない
自分で文字コード変換なんて絶対にやってはいけない
ましてや公開とかありえない
100デフォルトの名無しさん:2011/07/09(土) 12:47:48.19
>変換にはiconvを使わなければならない
>ましてや公開とかありえない
はいはい。オマエは黙ってろ
101デフォルトの名無しさん:2011/07/09(土) 13:01:11.05
既存の何を使うかはともかく、自力で絶対にやってはいけないのは確かだな
自力でやって「どうしてこんなことをライブラリに頼らなければならないのだろう」と感じたならなおさら
102デフォルトの名無しさん:2011/07/09(土) 13:08:33.47
UTF間の変換ごときで外部ライブラリをリンクしたくないってのは同意できる。

せめて標準ライブラリが使い物になればいいんだけどな。
char16/32_tも、mbrtoc16等の関数群はあるけどこれってもしかしなくてもロケール依存だよな……?
103デフォルトの名無しさん:2011/07/09(土) 13:14:35.65
Unicode 6を読んでもISO/IEC 10646:2011を読んでもUTF-8は最大4バイト
としか読めないんだが、6バイトとか言う奴はなんなの?
104デフォルトの名無しさん:2011/07/09(土) 13:19:13.10
まあ、ライブラリの粒度がもうすこし細かければ全員ハッピーなんだと思う
そんな世界なら、わざわざ自分でやろうと考える人もおるまい
105デフォルトの名無しさん:2011/07/09(土) 13:19:57.06
>>103
31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
今んとこ21ビットしか使ってないからとりあえず4バイトでおkだけど
文字が割り当てられてないコードをUTF-8に変換しても維持しようとするなら6バイト対応が必要。
106デフォルトの名無しさん:2011/07/09(土) 13:24:33.40
>>105
>31ビット整数値をUTF-8で表現しようとしたら最長6バイトになる。
それはUTF-8じゃないよ。ill-formedと書かれてるんだから。
3.9『Any UTF-8 byte sequence that does not match the patterns listed in Table 3-7 is
ill-formed.』
107デフォルトの名無しさん:2011/07/09(土) 13:40:06.71
サロゲートを思い出すんだ。今illだからといってry
108デフォルトの名無しさん:2011/07/09(土) 13:48:08.11
>>103
> 6バイトとか言う奴はなんなの?
ただのジジイ。放置でおk。
109デフォルトの名無しさん:2011/07/09(土) 14:10:13.34
でも最大4前提で確保したバッファを最大6前提の変換ルーチンに渡したりすると……
110デフォルトの名無しさん:2011/07/09(土) 14:22:50.54
どんなルーチンも、バッファサイズ等の要件は仕様に明記し、両者それに従うべきで、UTF-8がどうとかは別問題
111デフォルトの名無しさん:2011/07/09(土) 23:24:12.31
安岡センセイは8バイト必要って言ってる
http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/
112デフォルトの名無しさん:2011/07/09(土) 23:30:28.31
base (3〜4バイト) + vs (4バイト)で最大8バイトってだけの話がどうかしたか?
ちなみにUnicodeは結合文字列の長さや組み合わせに何の制限も設けていないので
よろしく
113デフォルトの名無しさん:2011/07/10(日) 02:09:44.32
この記事見た時いやーな予感したんだよな。
これ読んで「じゃあ8バイト分のバッファを確保すればいいのか」みたいな解釈する
プログラマが出ないかって。
114デフォルトの名無しさん:2011/07/10(日) 02:18:55.43
VSに関しては例外的に「複数付けられない」「合成済み文字には付けられない」
「結合文字には付けられない」という制限があってむしろ簡単な部類なんだよな
115デフォルトの名無しさん:2011/07/10(日) 03:36:29.63
安岡はもう引退した方がいい。既に頭が老人ぼけずぎ
116デフォルトの名無しさん:2011/07/10(日) 03:43:18.92
「漢字1文字につき」って書いてあるが、漢字で2つ以上結合し、それがフォントのテーブルでサポートされてるグリフってある?
117デフォルトの名無しさん:2011/07/10(日) 03:44:38.90
2つ以上って、ベースを除いた数ね
118デフォルトの名無しさん:2011/07/10(日) 07:24:51.78
VSは2つ以上くっつけられないけどその他の結合文字はいくらでも付けられる。
たとえば濁点・半濁点付きの異体字なんかも可能だし
それをさらにCOMBINING CIRCLEで丸囲みすることも可能。
実装がサポートしているかどうかは知らない
119デフォルトの名無しさん:2011/07/10(日) 07:26:41.38
>>115
「互換漢字にVSを付けられるようにすればいい」とか何も考えてないにもほどがあるよな
120デフォルトの名無しさん:2011/07/10(日) 08:17:19.12
>>118
フォントにない文字を合成しても表示できないんだし、UTF-8だと(世間一般でいう)漢字は
最大4+4=8バイトの説明でいいんじゃないかなあと。実装されたグリフがあれば別だけど。
121デフォルトの名無しさん:2011/07/10(日) 08:21:26.94
当然、世間一般的な説明の範囲で。
122デフォルトの名無しさん:2011/07/10(日) 08:59:14.71
JIS系のコードからの変換で、なんやかんや付きまくってコードポイントが3つ以上になったりするものはある?
123デフォルトの名無しさん:2011/07/10(日) 11:07:46.51
>>120
> フォントにない文字を合成しても表示できないんだし

なことはない。美しくないだけ。
124デフォルトの名無しさん:2011/07/10(日) 12:55:47.64
>>123
一応、OpenType だと ccmp の話なんだけど。他のフォーマットだとそう?
125デフォルトの名無しさん:2011/07/10(日) 13:44:31.80
ラテン文字のダイアクリティカルマークなんかはすべての組み合わせ済みグリフが
あらかじめ収録されているわけじゃないぞ
濁点だってそういう実装は可能だし漢字に付けるなら現実的に言ってそういう
実装しかできないだろ
126デフォルトの名無しさん:2011/07/10(日) 13:46:27.84
Firefoxは正しく表示できなくても基底文字+結合文字をちゃんと選択や編集の
最小単位として扱う
127デフォルトの名無しさん:2011/07/10(日) 14:10:37.77
>>125
すべて収録されてないのは当然そんなことわかってる。
今は漢字の話だが、表示されないってところは認めてるわけだな。
128デフォルトの名無しさん:2011/07/10(日) 14:43:34.31
>>127
お前わかってねーじゃんw
129デフォルトの名無しさん:2011/07/10(日) 14:47:13.64
>>128
お前こそ話がわかってない。
いままでの話、もう一度読んでくれ。
130デフォルトの名無しさん:2011/07/10(日) 15:56:20.57
>>122
JIS X 0212の11-80とか?
131デフォルトの名無しさん:2011/07/10(日) 18:29:04.88
MIME導入前のメールの文字コードの区別ってどうやってしていたんですか
132デフォルトの名無しさん:2011/07/10(日) 18:45:25.59
エスケープシーケンス入っていればISO-2022-JP
8bitならISO-8859-*のどれか
どれでもなければASCII

さらにFrom:の人間に対する知識を合わせて。

いろいろ調べてShift_JISで送ってきたことが判明したら「おまえ殺すぞ」と返事。
133デフォルトの名無しさん:2011/07/10(日) 21:39:04.61
>>130
それ漢字じゃないだろ
134デフォルトの名無しさん:2011/07/10(日) 21:48:41.74
>>119
>「互換漢字にVSを付けられるようにすればいい」

http://slashdot.jp/%7Eyasuoka/journal/533227 のこと?
>ただ、私(安岡孝一)個人としては、
>これらのカウンターアクションを必ずしも望まない。
って書いてるんだから、これ安岡センセイのブラフだろ。
135デフォルトの名無しさん:2011/07/10(日) 22:13:28.91
EBCDIC
SJIS変換どうやったらいい?
136デフォルトの名無しさん:2011/07/10(日) 22:22:59.38
漢字入りのEBCDICか?
137デフォルトの名無しさん:2011/07/10(日) 22:26:37.64
>>134
U+FA20は互換漢字から外すべき
とは俺も思った
138デフォルトの名無しさん:2011/07/10(日) 23:47:22.43
せめてどのメーカーのEBCDICかくらい指定してもらわないと答えようがない
139デフォルトの名無しさん:2011/07/10(日) 23:53:28.06
google先生にebcdicで問い合わせると...
140デフォルトの名無しさん:2011/07/10(日) 23:54:44.51
邪魔だからわからない人は書き込まないでくれないか?
141デフォルトの名無しさん:2011/07/10(日) 23:56:38.41
iconvとか使えばいいだけだろうに
142デフォルトの名無しさん:2011/07/11(月) 00:29:45.34
じゃまだから質問の仕方がわからない奴は書きこまないでほしい
143デフォルトの名無しさん:2011/07/11(月) 06:11:05.03
>>137
U+FA20を互換漢字でなくすのと互換漢字にVSを許すのはまったく違う
144デフォルトの名無しさん:2011/07/11(月) 07:41:09.86
うむ
145デフォルトの名無しさん:2011/07/11(月) 14:09:31.48
KEISのSJIS変換は?
146デフォルトの名無しさん:2011/07/11(月) 23:13:06.76
むう
147デフォルトの名無しさん:2011/07/12(火) 00:48:07.50
SKFのソースを見るといいかも
http://sourceforge.jp/projects/skf/
148デフォルトの名無しさん:2011/07/12(火) 21:03:28.00
サンキュ。とりあえず読みかけた。
149デフォルトの名無しさん:2011/07/13(水) 21:46:43.55
150デフォルトの名無しさん:2011/07/13(水) 21:48:52.77
>>149
これの読み方教えて。
151デフォルトの名無しさん:2011/07/13(水) 21:58:28.31
152デフォルトの名無しさん:2011/07/13(水) 22:15:08.87
>>151
どうもありがとう!
153デフォルトの名無しさん:2011/07/13(水) 22:20:47.01
௵これより大きな文字や記号はあるのだろうか?
154デフォルトの名無しさん:2011/07/14(木) 00:21:35.65
155デフォルトの名無しさん:2011/07/14(木) 00:23:10.13
ミス
156デフォルトの名無しさん:2011/07/14(木) 23:22:25.05
中国は通用規範漢字で表外字への簡化の適用を廃止してたのか。
ますますIRGN1757はアホだな。
類推適用されるなら少しは気持ちがわからんでもなかったが
157デフォルトの名無しさん:2011/07/15(金) 16:59:36.77
>>156
でもUTC-00071とかUTC-00677とかは、通用規範漢字なんだろ?
158デフォルトの名無しさん:2011/07/16(土) 10:20:08.01
>>157
y-variantは独立に符号化すべき
現在符号化されていない通用規範漢字は130文字くらいあるみたいなのに
その一部しか取り上げていないんだから通用規範漢字に対応するのが
目的でもなさそうだし
159デフォルトの名無しさん:2011/07/16(土) 10:23:40.24
しかもUTC-00071はExt.Eに提案中だしUTC-00677に至ってはU+2B5AFに符号化済み
160デフォルトの名無しさん:2011/07/17(日) 07:15:03.60
MingLiUのU+8BDEはバグってるな(U+4725と同じ字形が入ってる)
161デフォルトの名無しさん:2011/07/18(月) 06:00:40.12
どうすんだよもう
162デフォルトの名無しさん:2011/07/18(月) 11:42:31.44
もうすんだよどう?
163デフォルトの名無しさん:2011/07/18(月) 13:13:12.26
MSゴシックの昴の字形みたいにいつの間にかこっそり訂正されてたりして。
その結果IBM拡張文字の昴の字形が入れ替わったわけだが
誰も話題にしていないところを見るとやっぱりほとんどの人にとっては自分の
名前に使われていない限りどうでもいいらしいな
164デフォルトの名無しさん:2011/07/18(月) 15:00:00.04
>>163
kwsk
165デフォルトの名無しさん:2011/07/18(月) 15:18:33.70
>>163
同じくkwsk
166デフォルトの名無しさん:2011/07/19(火) 01:22:49.71
H・Kとかいうアホに戦争中の東大生の文字中毒の話を予備校の日本史講師にされたと言われた
俺もそんな感じはある
と言ったらあのアホでバカで境界性人格障害のクズはため息つきやがった

文字への強迫性は悪い部分もあるんだろうが いい部分もたくさんあるんだよ だからH・Kに対して言わせてもらう、死ね、死んじまえ!
167デフォルトの名無しさん:2011/07/19(火) 06:24:44.75
>>164-165
昴じゃなくて昂だった。
JIS83で昂の字形がCID7680相当からCID1993相当に変わったんだけど
IBM拡張漢字の0xFAD0にはもともとCID1993相当の字形が収録されていた。
MSゴシックでは苦肉の策としてU+6602とU+663Bの両方にCID1993と
同じような字形を収録してIBM拡張漢字の0xFAD0はU+663Bに対応
させていたけど、JIS2004対応のついでにU+663Bの字形がCID7680
相当に変更された。結果としてIBM拡張漢字の0xFAD0の字形も変わった。
168デフォルトの名無しさん:2011/07/20(水) 01:45:50.26
フォントといえばWin7のTVゴシックシリーズって、SP1でもまだ隠し扱いなの?
169デフォルトの名無しさん:2011/07/20(水) 18:56:44.69
字形の細かい違いを拾いたい人と、捨象するのを是とする人とじゃ
話は噛み合わんだろうな。
170デフォルトの名無しさん:2011/07/20(水) 19:24:04.68
長さnのUTF16の文字列wchar_t[n]を、UTF8のchar[m]に変換した場合、
mはどのくらいの大きさであれば十分なのでしょうか?
自分程度の知識だと、UTF8は最大6バイトで1文字を表すので、
m=6nとすれば十分な大きさになるだろうと考えているのですが、
実際はもっと小さい容量でも足りるのではないか?と思っています。

また逆に、UTF8からUTF16にする場合、nはどのくらいの大きさが
あれば十分なのでしょうか?
UTF16はサロゲートペアで最大2要素で1文字を表すので、n=2m程度の
領域を確保してあげれば十分だと考えているのですが、実際は
どの程度あれば十分なのでしょうか?

よろしくお願いします。
171デフォルトの名無しさん:2011/07/20(水) 20:01:16.97
UTF-8とUTF-16で各コードポイント値が必要とするオクテット数は次の通り。
(左がUTF-8、右がUTF-16)

000000..00007f 1 2
000080..00007f 2 2
000800..00ffff 3 2
010000..10ffff 4 4

wchar_tが16bit以上ある環境なら右の値は半分になるので、
UTF-16→UTF-8の場合はm=3n、逆方向はn=1/2mとなります。
172デフォルトの名無しさん:2011/07/21(木) 06:30:02.31
wchar_tが32bitでUCSだったら普通はUTF-32を採用するんじゃね?
173デフォルトの名無しさん:2011/07/21(木) 06:37:51.57
>>171
どんな場合でも、m=3n, n=1/2mだけの領域を確保してあげれば、十分
という認識でよいでしょうか?
174デフォルトの名無しさん:2011/07/21(木) 07:12:56.52
>>171-172
逆方向はn=mじゃね?
175デフォルトの名無しさん:2011/07/21(木) 09:06:09.79
> UTF16の文字列wchar_t[n]を、UTF8のchar[m]

という前提のはなしだったら
UTF16 ⇒ UTF8: m = 3n
UTF8 ⇒ UTF16: n = m + 1
じゃないの? (ヒント UTF-16LE ではなくて UTF-16)
176デフォルトの名無しさん:2011/07/21(木) 09:32:10.85
変換後のサイズ知りたいなら実際にスキャンして調べたら?
自分で数えても良いし、処理系にAPIあればそれでも良いし。
まさか固定サイズのバッファ使ってるから、大風呂敷広げておこう戦法?
177デフォルトの名無しさん:2011/07/21(木) 09:34:18.61
LionのヒラギノはIVS対応か?
SafariはIVSちゃんと表示するようになったのか?
178デフォルトの名無しさん:2011/07/21(木) 10:02:23.67
>>176
1文字単位で変換するときのバッファサイズぐらい固定で取りたいとかじゃね?
どっちにしろwchar_tではなくてchar16_tをだな
179デフォルトの名無しさん:2011/07/21(木) 18:31:13.18
>>175 がFAかな
180デフォルトの名無しさん:2011/07/21(木) 18:36:42.10
ヒラギノはAdobe-Japan1-6にフル対応しないのかな
181170:2011/07/21(木) 20:44:05.03
皆さんありがとうございます。
m = 3n, n = m(LE or BE なので)、で作ります!

自分でも調べてみて色々勉強になりました
182デフォルトの名無しさん:2011/07/21(木) 23:36:33.77
ICUを使ってファイルの文字コードを調べたいのですが、
ファイルの先頭何バイトを使って調査するのが普通でしょうか?
183デフォルトの名無しさん:2011/07/21(木) 23:48:29.06
文字コードの自動判別に王道無し。
184デフォルトの名無しさん:2011/07/21(木) 23:49:29.17
HTML5では1024バイトと定めているな
185デフォルトの名無しさん:2011/07/22(金) 00:32:39.39
マジか
じゃあ1025バイト以降にUNICODEとかあったら、誤認識すんのか
186デフォルトの名無しさん:2011/07/22(金) 00:48:23.86
HTML5のケースは1024バイト目までにmeta charsetタグが現れることを期待してるんじゃないかな
187デフォルトの名無しさん:2011/07/22(金) 01:12:21.67
あぁ、なるほど
じゃあ一般の文字認識とは様子が違いそうだ
188デフォルトの名無しさん:2011/07/22(金) 01:16:08.22
美乳
189デフォルトの名無しさん:2011/07/22(金) 06:07:55.97
>>185
するよ
Firefoxは最後まで読んでたけど
HTML5 parser導入後は今まで化けていなかったページで文字化けすることがある
190デフォルトの名無しさん:2011/07/26(火) 23:01:50.95
PRI #184のレビュー期間が終了したようだな
識別子に間違って'+'と'-'を使っちゃった件のつじつま合わせが6月30日に
追加されていたようだ
191デフォルトの名無しさん:2011/07/27(水) 01:29:04.17
あの改訂はレビュー中のAJ1と汎用電子2陣にも適用されるのかなあ
192デフォルトの名無しさん:2011/07/31(日) 04:58:18.71
Webアプリケーション経由で、データベースから取得する文字コードと、
ブラウザに出力する文字コードが違う場合、マルチバイト文字が文字化けします。
文字コードの変換をしてから出力すれば問題ないのですが、
変換処理を全てに行うと重くなるため、マルチバイト文字にのみ行いたいのですが、
1バイト文字だけで構成されているものについても、変換処理は行わないと、
何かセキュリティとかに問題がありますか?
16進ダンプの結果が同じものなら、変換処理は必要ないですよね?
193デフォルトの名無しさん:2011/07/31(日) 05:20:17.12
1バイト文字というのは正確ではないな。Latin-9だって全部1バイトだし。
それはともかくバックスラッシュとかクオーテーションとかで地雷踏まないとわかってるなら別にいいんじゃね
194デフォルトの名無しさん:2011/07/31(日) 05:45:19.24
>>193
ありがとうございます。
Latin-9については全然わかりません。
調べてみてそれらしきものの16進ダンプみてみましたが、6バイトになってました。
http://www.eki.ee/letter/chardata.cgi?ucode=0178
http://charset.7jp.net/dump.html
文字コード難しいですね・・・

本題ですが、SQLインジェクション対策は入力可能なものを固定値か数値にしていて、
数値カラムに対してはint型に変換してから問い合わせしてるので、平気だと思います。
;' DELETEとかうたれても固定値と一致しないので排除されるか、int変換で0になるので。
特に問題はなさそうなので、intカラムはとりあえず変換をしないことにします。
英数字で構成されてるcharカラムは一応現状維持で変換することにします。
195デフォルトの名無しさん:2011/07/31(日) 13:44:14.51
>>192
>変換処理を全てに行うと重くなるため、
それは10文字程度を100万回ループして、何ミリ秒ほど重くなるの?

>SQLインジェクション対策は入力可能なものを固定値か数値に
えー。Perl CGIでサニタイズ処理をコリゴリ書く人ですか?
196デフォルトの名無しさん:2011/08/01(月) 01:17:02.76
マルチバイト文字を構成するバイトを探すのは、
テキストを全部舐めないといけないはずだけど、
そんな事やっている間に変換できちゃわないかな。
197デフォルトの名無しさん:2011/08/01(月) 02:27:45.73
マルチバイトが入ってないって最初から分かってるのでは?
データベースのintカラムなんでしょ
jis委員たちはいつまで南堂久史さんの私案を無視するんだ?

sjis改訂で本質的貢献を果たしたはずなのになんの見返りもなしとか、
どうなってるの?

http://hp.vector.co.jp/authors/VA011700/moji/code00.htm
http://www005.upp.so-net.ne.jp/greentree/koizumi/75_moji.htm
199デフォルトの名無しさん:2011/08/01(月) 19:21:07.08
一私案を考慮しなきゃならない理由なんて、どこにもないだろ。

規格に修正を加えたいならしかるべき手続きをとらなければならない。それだけ。
200デフォルトの名無しさん:2011/08/01(月) 22:23:26.49
いつまでもシフトJISにしがみつくような案は無視されて当然。
JIS X 0213のShift_JISX0213が世間でdisられてるの知ってんだろ
201デフォルトの名無しさん:2011/08/01(月) 22:58:00.59
202デフォルトの名無しさん:2011/08/02(火) 00:27:05.14
アンチ南堂の意見を見るほど、安岡をはじめとするスラッシュドットの住人って
変人だとしか思えない。

スラド信者は南堂の字形変更がJIS規格に採用されて正常な判断能力を失った
203デフォルトの名無しさん:2011/08/02(火) 07:09:26.99
安岡は本当に2004JISの委員だったのに対して南堂はただの空想家ですが何か?
頭おかしいの?
本人降臨ですか?
204デフォルトの名無しさん:2011/08/02(火) 07:10:27.93
スラドの日記に書かれているだけでスラド信者とか
どう考えても正常な判断能力を失ってるな
205デフォルトの名無しさん:2011/08/02(火) 07:23:42.07
どこの世界にも基地外っているんだなあ
>>202
そう、南堂の案は結局採用された。
本質的貢献をはたした。
なのに、委員会は南道の案を誤読し、
いざ、南堂案が正しいとわかったら、
徹底的に無視し続ける。
207デフォルトの名無しさん:2011/08/02(火) 18:25:02.58
南堂案って委員会に提出されてないよ
http://opac.ndl.go.jp/recordid/000003624020/jpn
そもそも南堂がアレを言いだしたのは委員会終了後
208デフォルトの名無しさん:2011/08/02(火) 18:27:00.43
2004年の規格が南堂案という話をしてるのに、
2001年の情報を出されても・・・
209デフォルトの名無しさん:2011/08/02(火) 19:26:16.14
どこの誰だか知らない人の話を延々とされても・・・
210デフォルトの名無しさん:2011/08/02(火) 21:40:48.16
あらま。JIS信者は南堂を無かったことにしたいのね
211デフォルトの名無しさん:2011/08/02(火) 21:49:56.66
あらまじゃねぇよ南堂信者

2004の委員会に提出した記録があるなら出せってんだよ
212デフォルトの名無しさん:2011/08/02(火) 21:55:43.01
>>207
それは違う。
南堂私案は池田委員の個人アドレスに個人メールとして送られてきた。
委員会としては公開レビュー窓口に送るよう促したが、彼は委員会を「敵」だとみなしていたらしく、
公開レビューには参加を拒否したし、もちろんヒアリングにも出席しなかった。
結局Shift_JISX0213には、レビューに参加した中島私案が採用された。
213デフォルトの名無しさん:2011/08/02(火) 22:05:42.80
>>212
誰?
で、結局南堂案のコンセプトが正しかったことが証明された。
にもかかわらず、南堂を無視し続けた。
それどころか南堂の案の重要な点である、字体の変更をトンデモ扱いした。
そんなことをすれば南堂が委員会を敵だとみなすのも無理は無い。
万死に値すると思うが。
215デフォルトの名無しさん:2011/08/03(水) 07:22:28.61
で、委員会に提出した記録は?
216デフォルトの名無しさん:2011/08/03(水) 08:10:17.28
>>214
南堂案のキモは字体変更じゃなくて包摂分離
南堂案を擁護するなら中身ちゃんと読めよ
217デフォルトの名無しさん:2011/08/03(水) 11:34:32.60
Lionのカラーフォントって、どういうフォーマットなの?
218デフォルトの名無しさん:2011/08/03(水) 11:50:46.08
png入ってるね
219デフォルトの名無しさん:2011/08/03(水) 13:13:05.60
だとすると、国旗とかKEYCAPとかは、合成後にpng処理?
220デフォルトの名無しさん:2011/08/03(水) 17:34:25.71
そういうこと
morxでリガチャのglyphID拾ってからpngで表示
>>216
いずれにしても、
本質的貢献をしたのに無視するのは異常。
222デフォルトの名無しさん:2011/08/03(水) 20:23:24.15
安岡センセイがsbixテーブルを解読
フォントのバイナリを読める人たちってどういう頭してんだろ
223デフォルトの名無しさん:2011/08/03(水) 20:35:41.23
TrueTypeのテーブルの基本構造は共通だし、多分解読用のフレームワークか
何か持ってるんだと思う。
224デフォルトの名無しさん:2011/08/03(水) 21:52:25.18
225デフォルトの名無しさん:2011/08/03(水) 21:53:52.84
226デフォルトの名無しさん:2011/08/04(木) 06:24:12.51
それはFontForge使ってるだけじゃん
これのことだろ
http://slashdot.jp/~yasuoka/journal/536365
バイナリ眺めてれば普通に大体見当つくよ
227デフォルトの名無しさん:2011/08/04(木) 06:28:37.18
>>221
単なるあれおれ詐欺を本質的貢献と思える頭の作りが異常
228デフォルトの名無しさん:2011/08/04(木) 06:51:10.81
PNGかぁ。実装の簡単さを取ったんだろうけど、
ラスタ画像ってのは将来性という点でどうだろうなあ。
229デフォルトの名無しさん:2011/08/04(木) 08:31:37.93
CFF/Type2のカラー化ってのも難しそうだし
今ならSVGがいいのかなあ?
230デフォルトの名無しさん:2011/08/04(木) 10:15:32.74
҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉

テスト
231デフォルトの名無しさん:2011/08/04(木) 10:17:04.06
>>230

これ何て読むか教えてください。
232デフォルトの名無しさん:2011/08/04(木) 10:18:15.53
>>231
アナル
233デフォルトの名無しさん:2011/08/04(木) 10:21:18.14
҉҉҉҉҉҉҉҉ ̨ͨͤ̊͒̅̒ͪ̽͂͆̓ͤ̈̊̋ͫ̿̒͏̵̡̼͔̲̺͘ !
234デフォルトの名無しさん:2011/08/04(木) 10:22:11.43
>>232

なるほど。
235デフォルトの名無しさん:2011/08/04(木) 10:25:31.03
>>233

では、これは?
236デフォルトの名無しさん:2011/08/04(木) 10:26:46.40

҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉҉
 イボ痔
237デフォルトの名無しさん:2011/08/04(木) 10:38:31.05
アナル系が人気のようですね。
238デフォルトの名無しさん:2011/08/04(木) 14:01:41.94
sbixググってみたけど、それらしいのは↓しか見つからなかった
http://developer.apple.com/library/mac/documentation/Carbon/Reference/CTFontRef/CTFontRef.pdf
もうちょっと詳細な情報キボンヌ
>>214

南堂案骨子は字体変更。当時は字体変更はトンデモだと思われていたが、
あとで字体変更が必要だとわかって、
南堂案が正しい事が証明された。
だから、委員は南堂案の肝が字体変更だとは意地でも言わないつもりなんだよね。
南道の手柄ってことがバレるから。


240デフォルトの名無しさん:2011/08/04(木) 20:39:38.72
>>238
安岡センセイの日記が今の時点では最も詳細な情報
241デフォルトの名無しさん:2011/08/04(木) 20:46:47.72
242デフォルトの名無しさん:2011/08/04(木) 21:34:44.32
>>239
そんな誰でも独立して思いつくことで手柄とか言ってるのが自意識過剰の馬鹿丸出し
243デフォルトの名無しさん:2011/08/04(木) 22:46:56.82
おや、JIS信者が南堂の存在だけは認めたようです
244デフォルトの名無しさん:2011/08/04(木) 23:07:45.81
http://www.unicode.org/review/pri201/
↑これ、レビューが実質1週間しかなかったんだけど、何だったの?
245デフォルトの名無しさん:2011/08/04(木) 23:16:44.33
>>240
それも何だかなー
246デフォルトの名無しさん:2011/08/05(金) 04:17:34.27
>>244
来月最終投票入りする予定の10646の3版に間に合わせる必要があって、
そのためには今週開催中のUTCで審議する必要があって、それで
こういう極短期の公開レビューになったんだと。
247デフォルトの名無しさん:2011/08/05(金) 08:15:42.60
そういう形だけのレビューなら、やらない方がマシ
248デフォルトの名無しさん:2011/08/05(金) 10:47:00.97
大注目している時期に見逃す方がどうかしてる。
249デフォルトの名無しさん:2011/08/05(金) 11:04:16.06
PRI 201が公開されたのは7月27日の昼前だった。
漢字を943字も収録してるのに、それで8月3日〆切ってのは、
チェックするための時間があまりに短か過ぎる。
250デフォルトの名無しさん:2011/08/05(金) 11:15:50.42
943字くらい半日もあればチェックできるだろ
字形が変わってるのもUTC-00919とUTC-00929の2つくらいだし
251デフォルトの名無しさん:2011/08/05(金) 11:26:52.61
>>249
締め切り前に短すぎると意見すればよかった。
252デフォルトの名無しさん:2011/08/05(金) 11:33:57.40
>>228
データの種類はシグネチャで見てる感じだからpdfでも構わんのでしょ。
それだとOSX/iOS以外で表示が難しいのと、ちゃんとしたグリフ作るのも
大変だから、取り敢えずpng入れてみましたって所じゃないかな。
253デフォルトの名無しさん:2011/08/05(金) 11:34:11.54
>>250
UTC-00919とUTC-00929の字形変更って…
じゃあU+FA15とU+FA20に出てる字形はどうなるの?
http://www.unicode.org/charts/PDF/UF900.pdf
254デフォルトの名無しさん:2011/08/05(金) 11:37:28.07
>>225
> URLが化けた orz

なぜにDelete w
255デフォルトの名無しさん:2011/08/05(金) 11:39:19.79
>>253
ISOの最終投票で字形変更
256デフォルトの名無しさん:2011/08/05(金) 11:54:41.18
>>251
後ろがつかえてるんだから
どうせ聞く耳もたないだろ
257デフォルトの名無しさん:2011/08/05(金) 11:58:38.08
愚痴ですね
258デフォルトの名無しさん:2011/08/05(金) 12:04:35.73
だってオレ英語かけないもん
259デフォルトの名無しさん:2011/08/05(金) 12:28:28.94
英語が書けたらあんな提案こんな提案…
260デフォルトの名無しさん:2011/08/05(金) 13:10:33.53
アン アン アン
261デフォルトの名無しさん:2011/08/05(金) 19:27:23.87
>Unicode 6.1.0 (Planned for February, 2012)

フム
262デフォルトの名無しさん:2011/08/05(金) 23:12:33.65
ムフ
263デフォルトの名無しさん:2011/08/05(金) 23:20:18.06
フムゥ
264デフォルトの名無しさん:2011/08/05(金) 23:58:58.56
なかは、膣はらめぇ〜
265 忍法帖【Lv=9,xxxP】 !denji 株価【E】 u:2011/08/13(土) 18:34:17.05
結局南堂さんの実績は認めるの?認めないの?
266デフォルトの名無しさん:2011/08/13(土) 18:41:51.62
JIS信者は認めないみたいだね。
字形変更はもっての他とか言っていたのに規格が通って発狂した
267デフォルトの名無しさん:2011/08/13(土) 18:55:55.74
UTCは小書きコに関しては取り下げるでもなく様子見か。
268デフォルトの名無しさん:2011/08/13(土) 19:46:24.40
>>265
南堂信者は発狂して相手のせいにして自分を慰めてる
269デフォルトの名無しさん:2011/08/13(土) 22:47:15.05
「お盆」をあらわす絵文字ってないの?
270デフォルトの名無しさん:2011/08/13(土) 22:52:17.28
どうやってあらわすんだよ
風習は地方によって様々なのに

(という文句が付けられそうなものは他にもあるだろうけども)
271デフォルトの名無しさん:2011/08/14(日) 02:16:31.07
○+盆。
272デフォルトの名無しさん:2011/08/14(日) 05:01:22.07
盆⃝
273デフォルトの名無しさん:2011/08/14(日) 06:47:40.56
山に大の字だな。
274デフォルトの名無しさん:2011/08/14(日) 10:30:40.67
>>272
すばらしい
275デフォルトの名無しさん:2011/08/16(火) 14:22:05.96
解説希望
276デフォルトの名無しさん:2011/08/16(火) 14:37:57.50
閲覧環境によっては囲い文字になってるんだろ
277デフォルトの名無しさん:2011/08/16(火) 14:48:10.83
U+20DDはCOMBINING ENCLOSING CIRCLEという結合文字。
ttp://www.unicode.org/charts/PDF/U20D0.pdf
278デフォルトの名無しさん:2011/08/17(水) 01:21:42.61
◎にそれ重ねたら三重丸と看做していいんかな
279デフォルトの名無しさん:2011/08/17(水) 14:25:10.71
二重丸を三重丸とみなしてもいい。あなたの勝手。
結局南堂の業績は認めるの?認めないの?
はっきりさせろ・
281デフォルトの名無しさん:2011/08/17(水) 22:55:33.31
>>280
結局って何だよ。JIS信者は南堂の業績は認めない。
これはこのスレで一貫しているだろ。
業績認めて欲しいなら南堂が貢献したというソースを出してみろ。
282デフォルトの名無しさん:2011/08/17(水) 23:09:36.30
今さらJISなんてどうでもいいよ
283デフォルトの名無しさん:2011/08/18(木) 10:02:41.00
UTS #37 v3リリース。
284デフォルトの名無しさん:2011/08/18(木) 15:16:18.41
グリフウィキに繋がらん
285デフォルトの名無しさん:2011/08/18(木) 18:10:38.20
次からといわず移せばいいのに
286デフォルトの名無しさん:2011/08/18(木) 22:10:31.19
>>285
kwsk
287デフォルトの名無しさん:2011/08/18(木) 23:25:18.88
288デフォルトの名無しさん:2011/08/20(土) 13:11:01.43
復帰したようだ
289デフォルトの名無しさん:2011/08/20(土) 20:15:09.39
OT版フォント復活したのかー
290デフォルトの名無しさん:2011/08/21(日) 23:08:53.89
>>281
ソース→ >>212
291デフォルトの名無しさん:2011/08/22(月) 00:26:26.56
ソースは2ちゃんの書き込み
292デフォルトの名無しさん:2011/08/25(木) 13:10:29.66
SEXTILEって、Unicode 6.0で追加されたみたいだけど、ソースは何?
293デフォルトの名無しさん:2011/08/25(木) 22:59:21.37
5.1だぬ
ソースは不明
294デフォルトの名無しさん:2011/08/30(火) 23:03:39.03
汎用電子のレビューコメント全然来ないのか…
295デフォルトの名無しさん:2011/08/31(水) 20:42:29.41
いっそ俺がレビューしてやろうか
296デフォルトの名無しさん:2011/09/01(木) 01:09:21.42
はにょでんし
297デフォルトの名無しさん:2011/09/01(木) 08:52:56.57
はにゃ〜
298デフォルトの名無しさん:2011/09/01(木) 18:55:46.56
LionでせっかくヒラギノがIVSに対応したのにSafariやChromeが対応してないのは勿体無いな
辻󠄀
辻󠄁
299デフォルトの名無しさん:2011/09/05(月) 00:27:39.83
フォントまわりはFirefoxの一人勝ちだぁね
300デフォルトの名無しさん:2011/09/06(火) 20:56:02.28
今使ってるCGIプログラムの文字コードがShift_JISだったから別の文字コードに変換したいんだけど
このスレ的には内部文字コードも出力もUTF-8なの?
301デフォルトの名無しさん:2011/09/06(火) 21:12:16.42
もしかして、内部コードって、ソースコードを表現するコードという意味で使ってる?
302デフォルトの名無しさん:2011/09/06(火) 21:29:09.49
このスレ的には、って?
このスレは基本、あらゆる論者が屯ってると思うが。
303デフォルトの名無しさん:2011/09/06(火) 22:21:14.15
内部文字コードを自由に替えられる処理系って、
BSD系のC+libc以外だと何があるんだろ?
304デフォルトの名無しさん:2011/09/06(火) 23:19:01.40
>>301-302
ごめんソースコードを表現するコードという意味で合ってる
ダメ文字から逃れたくて質問したけど
色んな説があるみたいだからEUC-JPにするよ
ありがとう
305デフォルトの名無しさん:2011/09/06(火) 23:34:33.51
いまどきEUCはないわ
SJISは論外
306デフォルトの名無しさん:2011/09/06(火) 23:40:34.13
好きにしろよ。スレ違いだ。
307デフォルトの名無しさん:2011/09/07(水) 04:19:05.45
黙ってUTF-16普及に努めるんだ
308デフォルトの名無しさん:2011/09/07(水) 16:06:50.47
分かりやすいデータ型の分類と役割を教えて下さい
intとかの
言語はjavaです
309デフォルトの名無しさん:2011/09/07(水) 16:22:24.03
スレ違い
310デフォルトの名無しさん:2011/09/07(水) 19:07:23.73
>>308
intは文字
charも文字
w_charも文字
とにかく文字に使う
311デフォルトの名無しさん:2011/09/08(木) 02:51:34.91
String s;
s = "Javaは、Unicodeです。漢字も1文字。わかりやすくて安心だ。";
t = s.substring(i, i + 1);
312デフォルトの名無しさん:2011/09/08(木) 03:15:44.44
そしてサロゲートペアに嵌る。
313デフォルトの名無しさん:2011/09/08(木) 07:25:18.84
"?田(よしだ)です。Java使いはアホが多いですね".substrin(0,1);
314デフォルトの名無しさん:2011/09/08(木) 16:41:09.82
サロゲートペアを解決した後は、合成文字にはまって、
合成文字を解決した後もVSが待ってるんだよな。

最初に16ビットに収めようと言い出したやつは刺されてもおかしくない。
315デフォルトの名無しさん:2011/09/09(金) 00:16:57.11
32bitなら合成文字も解決すると思うのか?
何文字分までの合成を想定してるの?
316デフォルトの名無しさん:2011/09/09(金) 01:41:03.72
合成文字ったって理論上はいくらでも繋げられるけど実際そこまでのものは無いだろ。
16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。
大文字小文字、ひらがなカタカナ濁点小書き、異体字、全角半角の違いなんかも全部詰め込めば
そこをマスクするだけで曖昧検索もできてウマーと勝手に思ってるんだが甘いかな。
ASCIIとも互換性なくなるけど。
317デフォルトの名無しさん:2011/09/09(金) 02:16:09.23
brainf*ckみたいなもんだな
はっきり言ってお前らの議論は南堂先生のレベルには遠く及ばない。
319デフォルトの名無しさん:2011/09/09(金) 14:40:15.38
合成を使わないと某半島のアレがウン十万字分のコードポイント占めるんだよ
320デフォルトの名無しさん:2011/09/09(金) 14:46:18.17
タイ文字なめとんのか?
321デフォルトの名無しさん:2011/09/09(金) 16:22:51.70
>>319
合成済みのが追加済みじゃなかったっけ?
あまりにも数が多いので規則的にして計算式で求められるようになってて表からは除外されてる
322デフォルトの名無しさん:2011/09/09(金) 20:06:00.46
感じも部首に分けて登録するか
323デフォルトの名無しさん:2011/09/09(金) 20:13:14.50
それいいな。ついでに部首ごとにキーを振ったら新しい漢直になるぞ
324デフォルトの名無しさん:2011/09/09(金) 21:17:33.12
>>316
> 16bitぐらいバリエーション表現用に取って、意味は言語ごとに変える。

どこが今のUnicodeに比べて優れているのかと…
325デフォルトの名無しさん:2011/09/09(金) 22:03:45.75
合成文字を常態化するなら慣用や拗音も文字コード充ててしまえと
326デフォルトの名無しさん:2011/09/09(金) 22:18:20.96
だって全文字共通で装飾にビットを振っていくと何ビットあっても足りなry

まあそれはいいよ。
とりあえず今のUnicodeは、何をするにしてもUCDのテーブルを抱え込まないといけないので
もうちょい全体的に範囲をまとめて欲しい。
なんで新しめの仕様なはずのVSですら散らばってんだよ。連続領域に取れなかったもんだろうか。
327デフォルトの名無しさん:2011/09/10(土) 15:08:50.66
どうやって並べても不満の出る射影はあるのだから、
テーブル実装技術の方で頑張ってください。
328デフォルトの名無しさん:2011/09/10(土) 18:15:23.12
>>321
コードポイントのどのあたり?
329デフォルトの名無しさん:2011/09/10(土) 20:40:21.59
330デフォルトの名無しさん:2011/09/10(土) 21:25:06.55
>>329
それだと、>>319と数が合わない。
>>319は現代では使われていない古文字の合成のことじゃないのか?
331デフォルトの名無しさん:2011/09/15(木) 01:22:24.15
Win8プレビュー版の日本語フォント、1F2xxがちょっとアレだな。
ただのスタブならいいんだけど
332デフォルトの名無しさん:2011/09/17(土) 02:20:34.92
MS3フォントに325のIVSが入っているのを確認。
333デフォルトの名無しさん:2011/09/17(土) 16:06:00.17
シングルバイト文字しかない文字列をエディタで保存したとき、
内部文字コードをUTF-8にしてもUTF-8にはならず、SJISとなってしまいます。
単にエディタが識別できないだけだと思いますが、気にしなくてもいいですか?
例えばhtmlでContent-Typeをtext/html;charset=UTF-8と指定してるにも関わらず、
マルチバイト文字がないため、内部文字コードがSJISになってる感じです。
334333:2011/09/17(土) 16:07:16.97
と、書いてから気づいたんですが、
こういうときのためにBOMがあるんですかね?
335デフォルトの名無しさん:2011/09/17(土) 17:06:36.21
BOMはバイトオーダーを識別するためにあるんですよ。
336デフォルトの名無しさん:2011/09/17(土) 17:31:46.68
>>333
円記号については問題が発生する
337デフォルトの名無しさん:2011/09/17(土) 17:59:00.61
>>333
> 内部文字コードがSJISになってる

というのはどういう状態? なぜそう判断したの?
338333:2011/09/17(土) 18:19:16.94
レスありがとうございます。

>>335
一般的にはそうみたいですね。
UTF-8には無意味とも書いていました。
ただ判別するためにUTF-8でも使うみたいなことは書いてました。

>>336
よくわかりませんが確かに\は発生しそうですね。

>>337
エディタで文字コードを指定して保存する時UTF-8で保存しますが、
再度開いたときにSJISで開かれてエディタもSJISと判断してるということです。
バイナリエディタなんかで開いたとき、
シングルバイト文字は、SJISでもUTF-8でも、16進数ダンプで同じ値になるので、
エディタにはそのへんが判断できないんじゃないのかなぁと思ってます。
339デフォルトの名無しさん:2011/09/17(土) 18:46:10.66
そのエディタのスレで聞いたほうがいいのでは。
エディタ名伏せられたままじゃ何とも言えん。
340デフォルトの名無しさん:2011/09/17(土) 19:38:46.95
>>338
適合する文字コードの中でSJISを優先して選ぶエディタか、
環境(ロケール等)ってだけでは?
341333:2011/09/17(土) 20:11:13.62
>>339
とりあえず手持ちで確認したところ、
Windowsメモ張、サクラエディタ、TeraPadなんかはそんな感じです。
Windowsメモ張でUTF-8で保存した場合、UTF-8として開かれますが、
あれはBOMついてるので、BOMなしでUTF-8で保存した場合、
どれもSJISで開かれます。

>>340
そうですね。
UTF-8と判断する材料がない場合、優先してSJIS選んでるんでしょうね。
>>333の例であげたhtmlにしても、文字化けするというわけではないので、
気にしないのが一番なんですかね。
342デフォルトの名無しさん:2011/09/17(土) 20:49:54.82
ASCII範囲の文字しかなければASCII=UTF-8(BOMなし)=SHIFT_JIS=ISO 8859-1にしかならんだろ。
このなかのどれを選ぶかはエディタを作ったやつ次第。メモ帳はANSI=現在のコードページだろうし。
343デフォルトの名無しさん:2011/09/19(月) 04:03:24.62
PRI 183(AJ1の追加分)は明日までか
344デフォルトの名無しさん:2011/09/20(火) 00:55:56.10
去年ちょろっとAdobe-Japan1-7の話が出たけど、
結局とくに意味はなかったのか。
345デフォルトの名無しさん:2011/09/20(火) 02:27:40.76
意味のないことは多いからな
346デフォルトの名無しさん:2011/09/24(土) 03:13:44.95
グリフの内訳はバラバラなのに、Glyphwiki発だからって理由で
何でもかんでも花園フォントとしてリリースするのは紛らわしい。
347デフォルトの名無しさん:2011/09/24(土) 10:40:30.47
もう少しkwsk
348デフォルトの名無しさん:2011/09/24(土) 18:50:07.33
本家版にOT版にKDP実験版に。
全部花園明朝名乗ってるけどグリフの内訳はバラバラ。
349デフォルトの名無しさん:2011/09/26(月) 00:23:08.24
そろそろ問題だらけのUnicodeはもう捨てて新しい文字コード体型考えようぜ
350デフォルトの名無しさん:2011/09/26(月) 10:44:16.58
どうぞどうぞ
351デフォルトの名無しさん:2011/10/01(土) 02:09:31.25
まさかの一人目上島
352デフォルトの名無しさん:2011/10/09(日) 18:15:42.34
うにコードより先にJISコードを時代に合わせて綺麗にしようや

円記号とバックスラッシュの分離
2・1バイト幅英数アルファベットの別を無くす
囲い文字コードを無くし付加記号の仕組みを入れる
異系文字の定数引き
現行コードから変換指針の提示
353デフォルトの名無しさん:2011/10/09(日) 21:16:57.01
誰得
354デフォルトの名無しさん:2011/10/10(月) 17:03:49.36
オマエ以外
355デフォルトの名無しさん:2011/10/10(月) 20:09:53.20
どんな得があるわけ?
356デフォルトの名無しさん:2011/10/13(木) 22:10:48.22
とりあえず携帯電話を早くUnicodeに対応させてくれ
357デフォルトの名無しさん:2011/10/20(木) 00:12:17.70
ガラケーは死んだ
358デフォルトの名無しさん:2011/10/20(木) 01:31:24.35
なぜだ?
359デフォルトの名無しさん:2011/10/27(木) 20:19:31.86
IPAmj明朝の正式版キタコレ
360デフォルトの名無しさん:2011/10/28(金) 13:56:24.36
文字コードスレとはあまり関係ないよね。
361デフォルトの名無しさん:2011/10/28(金) 14:45:08.44
これ以外に汎用電子対応のフォント出てくるのかねー
362デフォルトの名無しさん:2011/10/28(金) 18:56:01.03
1週間止まってたスレが動き出したか
363デフォルトの名無しさん:2011/10/29(土) 10:04:35.08
IRG N 1812って何だろ
またスケジュールを遅らすことになるのか
364デフォルトの名無しさん:2011/10/29(土) 19:37:47.69
>>361
そういえばIPAex明朝すらIVSはAJ1だったな
365デフォルトの名無しさん:2011/10/29(土) 19:41:27.70
>>360
オレオレ文字コードを発明しないでISO/IEC 10646の枠組み上で
できる限り符号化しようと努力しているのを評価対象にするとか
366デフォルトの名無しさん:2011/10/29(土) 22:23:27.79
今日電話で話した人が「テンプレが出てるんだよ」「テンプレになっちゃうんだ」と連呼するものだから、
一体何のことなのかと首をかしげていたら「豆腐」のことを「天ぷら」と間違えて覚えているらしいことに気付いた
367デフォルトの名無しさん:2011/11/01(火) 04:28:14.19
ブログのログインみたいな感じの部分を想像してほしいのですが、
データベースやファイルに入っているログイン情報がUTF-8以外、
ログインするためにフォームから入力する値がUTF-8で、
これらを比較するとします。

基本ログイン情報は半角英数字だと思うので問題は起きにくいとは思いますが、
もしこの状態のまま、ログイン情報にマルチバイト文字を入れた場合、
ログインが出来なくなる以外に何か問題は発生しますか?

例えば情報があってないのにログイン出来たとか、
そんな感じのはありえますか?
368デフォルトの名無しさん:2011/11/01(火) 11:01:59.68
>基本ログイン情報は半角英数字だと思う
これ次第じゃね。
369デフォルトの名無しさん:2011/11/01(火) 11:55:39.61
そうなの?
370デフォルトの名無しさん:2011/11/01(火) 12:01:14.27
UTF-8の入力がそれ以外の文字コードの何かにマッチする可能性があるのは、
Ascii文字セットの領域以外の文字に限定されるでしょ。つまり、ログイン情報に
Ascii文字セットの文字しか使っていなければ間違ってマッチすることは避けられるかと。
371デフォルトの名無しさん:2011/11/01(火) 14:59:25.98
[ce b1] UTF-8: α, Shift_JIS: 留
[ce b2] UTF-8: β, Shift_JIS: 硫
[ce b3] UTF-8: γ, Shift_JIS: 粒
372デフォルトの名無しさん:2011/11/01(火) 19:06:01.01
る?
373デフォルトの名無しさん:2011/11/01(火) 20:37:25.12
りゅう、だろ。
374デフォルトの名無しさん:2011/11/01(火) 20:40:21.24
りゅう
375デフォルトの名無しさん:2011/11/01(火) 20:47:50.39
                  __,  -──┐
         「 ̄ ̄::/  ̄       `丶::::::::::|
         !:::::::/, - 、         \::/
         i:::::/ /:::::::::::::i      ●   }        うりゅーっす!
          ∨ {:::::●::::l         -┼-、
          {  ゝ::::::_ノ └〜┘     `X
           X´            <_ヽ
          /  >        .....:...::..::::  \__  __
             _/ . \  /  .:.::..:.:::::::::::  ::   ̄ `ヽ
      , --―'´;.:.、  ... .: .:i :i:: :  .:::..:,.‐''".    .   .:、  :.:::}
     /   . :.:.ノ:. ..\. ヽ:  , -‐''´ ..::: ..    :     .::l . :.:.::|
   /   . .:.:.:./:.     `ヽ、::/     .:::、:.. .. . :.     .::i ...:.:∧ 
    |   .:.:.:;イ::      .:i::.       . .::`''‐-=、ヽ、.:.. . .:: .:ノ: :! 
  /{::.   '´.:.i::.      . :|:      . .:: :.::::::::::::/゙"ヽ、:..:.::´::..: :| 
  ,' `: :...:.:.:.::.::;!::.. .    .:.:|:       :: :.:.:::::::::{::. .::;'`  .::.: ;!:|  
 {  :. `''''゙´|:::.:     .:::l::.      .:.::..:.:::::::::::|::. . ::i   ..:::iく ::| 
  {:.:.. .:.. . .:.:::ト、:.:.. . .  . .:.:;!、::.. . . . ... .:.::..:::::::_;;.ゝ、..:|  ..:ノ :. ヾ、
 /`'''  、,,,___:ノ \::. :.....:.:ノ::..`'ー::.....;;;_;;:.-‐''....:...:::,>'=、  .::i :.::}
. {:.:. .   ___\   ` ‐-=、:::.:.. ..::r ー-=、.....:...::..::::/      . .:::! :; ::|
 !ー: . / ___;>┐    \:.. :! ,.-―:‐、:: ,,.:‐''´    . . :__;ノ.イ
 ';.:../  /´、   ̄)ヽ. _,r―‐亠- 、!    |「:     . . - '''´. : :.:/
  ヽ!  { :..  ̄ ̄厂:く__,.-‐''    ..|    |!:. .   . .. ... - =_ヲ'
376デフォルトの名無しさん:2011/11/01(火) 21:27:41.60
最初が「う」ならもっと前のほうだろう
377デフォルトの名無しさん:2011/11/02(水) 11:55:14.43
この流れは367に責任があるんだろうか
378デフォルトの名無しさん:2011/11/02(水) 20:09:12.62
>>367
>例えば情報があってないのにログイン出来たとか、
>そんな感じのはありえますか?

yes
379367:2011/11/03(木) 20:31:49.50
みなさんありがとうございます。
とても参考になりました。
修正しにくい箇所に記述してしまったので、
バグとわかってても修正はできませんが、
ASCIIの領域内に限定して何とかやり過ごすことにします。
380デフォルトの名無しさん:2011/11/10(木) 21:39:05.60
パイプラインに新規追加されたtext style, emoji style用vsって何だろ。
381デフォルトの名無しさん:2011/11/30(水) 10:55:32.51
ハートとかを、普通の文字として表示するか絵文字として
表示するかコントロールするものじゃないかと、元見ずに予想してみる
382デフォルトの名無しさん:2011/12/01(木) 00:53:03.32
ドコモ式au式みたいなのじゃ?みたいな
383デフォルトの名無しさん:2011/12/08(木) 02:52:54.99
そのうちwg2のページで内容見られるだろー
と思ってたんだけどなかなか公開されんね。
384デフォルトの名無しさん:2011/12/08(木) 22:29:49.19
どうなってるんだ
385デフォルトの名無しさん:2011/12/13(火) 01:56:13.83
で、どうなのか
386デフォルトの名無しさん:2011/12/14(水) 21:59:47.35
日本語の文字コードがいくつもある理由
http://qpon.at.webry.info/201112/article_14.html
387デフォルトの名無しさん:2011/12/14(水) 23:17:26.82
>文字コードの1文字目のコードに128を加えてアスキーコードの33〜126
>と重複しないようにした「Shift_jis」や「EUC」文字コードが作られました。

わかってないなこのひと
388デフォルトの名無しさん:2011/12/14(水) 23:18:46.37
>なぜsiftと言うのかというと2進で1桁繰り上がる(128が加わる)ためです。
389デフォルトの名無しさん:2011/12/14(水) 23:20:07.04
>そこで世界の主要な文字全部にダブらない文字コードとして作られたのが「utf-8コード」です。
390デフォルトの名無しさん:2011/12/15(木) 00:32:10.94
十数年前はこんな感じのページがいっぱいあったけどねえ。
いまどき珍しい。
391デフォルトの名無しさん:2011/12/15(木) 02:11:30.29
これはひどい
392デフォルトの名無しさん:2011/12/15(木) 10:10:35.28
>以上を理解したうえで各文字コード
>を見比べるのもいいのでは
393デフォルトの名無しさん:2011/12/15(木) 11:09:18.28
もうやめたげてー
394デフォルトの名無しさん:2011/12/15(木) 11:23:32.44
395デフォルトの名無しさん:2011/12/16(金) 19:36:50.97
WebKitのIVS対応キタワー.*:.。.:*・゚(n‘∀‘)η゚・*:.。.:*!!
https://bugs.webkit.org/show_bug.cgi?id=50999
396デフォルトの名無しさん:2011/12/16(金) 20:31:11.36
そういえばまだだったんだっけ
397デフォルトの名無しさん:2011/12/17(土) 13:19:27.81
>>386
てか、そのページいろいろと酷いな
398デフォルトの名無しさん:2011/12/17(土) 19:41:34.77
高度経済成長の時期に大会社で働いて、還暦を過ぎても今の技術に詳しいつもりの
俺が世界に向けて解説する、ドヤ顔ページか。

年金をちゃんともらいながら死んでいくんだろうね。
老害ってこういうのを言うのかね。
399デフォルトの名無しさん:2011/12/17(土) 20:49:01.38
ここで問題になってるのは「“今”の技術」でさえないぞ
400デフォルトの名無しさん:2011/12/17(土) 23:09:57.92
老害ってのは権力者がいつまでも実権を握って離さんこと。
無名の個人サイトによくそこまで熱くなれるな。
401デフォルトの名無しさん:2011/12/18(日) 03:30:38.65
まさに老害
402デフォルトの名無しさん:2011/12/18(日) 03:47:43.35
>>400
いや、ぐぐってそのページ見て納得されても困るだろ
嘘やいい加減を世界に解説はいかん
403デフォルトの名無しさん:2011/12/19(月) 18:21:40.66
文字コードでぐぐったら http://ash.jp/code/ 行っちゃうだろ
404デフォルトの名無しさん:2011/12/19(月) 21:00:37.49
http://jp.reuters.com/article/marketsNews/idJPTK804571420111219
KPS 9566の4行78列〜80列に金正恩が符号化される日が来たようだ
405デフォルトの名無しさん:2011/12/19(月) 23:57:13.20
あれってすごく不思議なんだけど、「金」「日」は親子共用で1つでことたりるよね?
ただでさえ王家専用符号位置なのに、なんで「金」「日」「成」「金」「正」「日」って6つも使うの?

組み文字として「金日成」「金正日」を符号化したなら分解できないから仕方ないし、
「“金日成”はポップ体、“金正日”は相撲体を使う」とかの儀礼があるなら意義がわかるんだけど。

「金」「日」「成」「正」だと付け足しみたいで金正日に不敬、みたいな価値観があったりする?


そうなると、うっかり「金正日」の「日」に「金日成」の「日」を使ってしまったらお仕置きがあったりするの?
406デフォルトの名無しさん:2011/12/20(火) 01:29:14.66
WindowsのIMEって単語変換いまいちなのに金正日は一発なんだよな
407デフォルトの名無しさん:2011/12/20(火) 07:42:15.65
ある国には過去、
天皇陛下 という 1x4 の活字が過去存在してたんだ。
別にどうだっていいだろうそんなもん。
408デフォルトの名無しさん:2011/12/20(火) 07:50:38.89
409デフォルトの名無しさん:2011/12/20(火) 14:22:12.59
>>405
「金同志」をハングルで書いた時に文字コードで誰だかわかる
のが基本なので、「金」は共有できないよ
「日」を共有しないのは、「金」を分離して「日」を共有すると面倒だから
410デフォルトの名無しさん:2011/12/20(火) 19:36:19.53
入力時にどうやって見分けるんだろう…
411デフォルトの名無しさん:2011/12/20(火) 20:05:03.62
理屈が全然わかんねえ。
普通の「金」で検索したら出てこねえのか? 検索も許されてないのか?
412デフォルトの名無しさん:2011/12/20(火) 20:11:03.46
左右上下一直線の書字方向という考え方をを改めて
欧文約物や濁点は時々上下や右上隅へ移るとした文字列処理系が出来ればいいんだよ

あー例のグチャグチャなハングルとかもサポートするかベタ直線的に字母を並べるかどうかは処理系依存で
413デフォルトの名無しさん:2011/12/20(火) 20:28:08.35
>>409
北朝鮮の人が書く/言う場合には例えば金正日同志とフルネームのことが
多い気がする。
414デフォルトの名無しさん:2011/12/20(火) 21:26:55.78
>405
ソートしたとき、金日成→金正日の順番で並ぶようにするため。
415デフォルトの名無しさん:2011/12/20(火) 22:14:02.07
まさかUnicodeに入れるとかしないよな?
416デフォルトの名無しさん:2011/12/20(火) 22:38:33.04
417デフォルトの名無しさん:2011/12/21(水) 18:11:49.16
418デフォルトの名無しさん:2011/12/21(水) 23:29:43.61
419デフォルトの名無しさん:2011/12/21(水) 23:38:07.90
VSを使って区別するようになったりして。
例えばU+AE40(ハングルGim)は
VS1(U+FE00)を付けると金日成の、VS2(U+FE01)で金正日の、VS3(U+FE02)で金正恩の、
VSを付けないと一般用のハングルGimになる
とかで。
420デフォルトの名無しさん:2011/12/21(水) 23:45:09.33
すみません、CGI質問スレが無いので、どなたか教えてください
sitemixで、メールフォームのchamamailを設置したのですが、http://www.chama.ne.jp/download/mail/chamamail/index.htm
送信の確認画面に�と出たりメールを受け取った時のメールフォームの中が
----------------------------------------------------
縺雁錐蜑&#65533;=縺&#65533;
email=[email protected]
---------------------------------------------------
の様に文字化けしてしまいます。サクラエディタ使用でファイル転送ソフトはFFTPです
ローカルの文字コードはEUCにしているのですが、ホスト側の漢字コードもどう設定したら良いのでしょうか?
ホスト側をJISやSJISにするとエラーが表示されます
421デフォルトの名無しさん:2011/12/22(木) 06:53:55.11
>>407
Unicodeにも歴代陛下のお名前があるよ! (U+337B〜U+337Eあたり)
収録を拒否された独裁国家とは格が違うね
422デフォルトの名無しさん:2011/12/22(木) 06:59:10.28
おまいらなんでそんな朝鮮事情に詳しいんだ
在日か?
423デフォルトの名無しさん:2011/12/22(木) 07:00:27.06
>>420
CGIならこっちで
http://kohada.2ch.net/php/
424デフォルトの名無しさん:2011/12/22(木) 07:02:41.27
>>412
それってUnicodeの結合文字と何が違うの?
もちろんハングル字母もあるというかむしろ韓国のゴリ押しで
BMPを1万字以上も食いつぶしたのは完成形のほう
425デフォルトの名無しさん:2011/12/22(木) 07:10:15.98
>>422 死ねよ
426デフォルトの名無しさん:2011/12/22(木) 07:50:51.22
427デフォルトの名無しさん:2011/12/22(木) 12:44:57.22
>>423
CGIが時代遅れなせいかそこではCGIスレ無いんですよ
有っても2ヶ月以上レス無かったりするスレばっかで
428デフォルトの名無しさん:2011/12/22(木) 13:10:11.58
この板にはひとつもない
どっちが妥当な板かは明白
429デフォルトの名無しさん:2011/12/22(木) 13:35:42.06
日本語の文字コードの保存形式を聞きたいだけなので
こっちのほうが専門かと思ったんですが・・・

430デフォルトの名無しさん:2011/12/22(木) 13:50:42.70
違います
431デフォルトの名無しさん:2011/12/22(木) 14:16:57.94
>>429
ソースをダウンロードしてみたら、chamamail.cgi(perl code)はシフトJISで書かれていた。
更に改行コードがCR+LFなので、Windows環境で開発された物と思われる。

>■設定設置方法
の部分を見るに文字コードについては一切の指定が無い。
どうやら作った人間は、そういう事まで頭が回らない人間と思われる。

ソース中に、
print "<META http-equiv=\"Content-Type\" content=\"text/html; charset=Shift_JIS\">\n";
というハードコーディングがなされているので、シフトJISのままサーバーに設置する物なのだろう。

ソースに書かれた日付を見ると、どうやら最後にメンテナンスされたのは2001年頃らしい。

2001年頃に、サーバー側にインストールされていたperlのバージョンを考えると、
最新でも5.6.0、ちょっと古ければ5.5.0、5.0.xxx、下手すればperl4の可能性だってある。

シフトJISのまま動かない理由としては、perlはバージョンが変わると、
使用可能なリテラルが変わったり、エスケープしなければならない文字が変わるので、
シフトJISで書かれたコードは上記の制限に該当しやすいのでエラーが発生し、
それはCGIでは結果的にInternal Server Errorを引き起こす。

これは元々シフトJISに対応していないperlで、
無理矢理シフトJISを使う事による弊害なので、perlが悪い訳でも無い。

修正したいならエラー出力に、問題となった箇所が出力されている筈なので、
httpdのerrorログを見てソースを修正すれば良い。

あとは↓のスレに行ってやれ。
http://toro.2ch.net/test/read.cgi/tech/1319953460/
432デフォルトの名無しさん:2011/12/22(木) 14:28:22.22
この手の物のエラーの最大の原因は改行コードだろ。
433デフォルトの名無しさん:2011/12/22(木) 14:33:36.45
>>431
めっちゃいい人や・・・
ありがとうござます><
434デフォルトの名無しさん:2011/12/22(木) 15:43:29.70
>>431 の罪は重い
435デフォルトの名無しさん:2011/12/22(木) 19:47:22.83
>>431 >>433
まずは板ルール読もう。
> CGI は Web プログラミング板へ。
そして、ここはプログラム板。

行くべきスレはこっち。ただし、学ぶ人のためのスレだから、そこは注意してくれ。
Perlコーディング初心者質問スレ Part 63
http://kohada.2ch.net/test/read.cgi/php/1315559509/

2chが初めてなら、初心者の質問板へ。
http://ikura.2ch.net/qa/
436デフォルトの名無しさん:2011/12/23(金) 15:27:45.64
>>407
ムハンマドの名前を言った後に唱える「彼にアラーの祝福と平安があらんことを」
を1文字(U+FDFA)に収録させたイスラム教徒に比べたらささやかなものです。
(U+FDFAは普通のアラビア文字18文字の並びと互換等価)
437デフォルトの名無しさん:2011/12/24(土) 00:08:11.58
それすげえなあ

へのへのもへじ を突っ込んだとしても7文字相当にしかならないからなあ
438デフォルトの名無しさん:2011/12/24(土) 00:43:09.75
へのへのもへじはIDSで表したい
439デフォルトの名無しさん:2011/12/24(土) 02:18:02.70
じゅげむじゅげむごこうのすりきれ……
440デフォルトの名無しさん:2011/12/24(土) 06:01:06.85
つるにはまるまるむし
441デフォルトの名無しさん:2011/12/24(土) 15:19:39.75
⿰⿶し⿳⿰⿱への⿱へのもへ゛
442デフォルトの名無しさん:2011/12/24(土) 22:54:46.97
あめんぼあかいなあいうえお
443デフォルトの名無しさん:2011/12/30(金) 05:47:34.14
>>436
おお、確かにNFKDしてみると18文字になったw NFDではそのまま。
その手の特殊文字と同じ扱いということなんですかね。
意味は違うけどBill Gates(TM)みたいな感じ?
444デフォルトの名無しさん:2012/01/01(日) 02:32:00.26
ちょっと助けて欲しい。C++で書いたプログラムで、 cin から getline で日本語入力を受け取ると、そのまま出力しても文字化けする。
ICUで文字コード判定しようとしたんだが、長い日本語を入力しても言語を判定してくれなかった。
で、入力に対してバイト列を吐かせたところ、以下のような結果になった。

あいうえおかきくけこさしすせそ
E7 B8 BA E3 82 85 EF BC 9E E7 B8 BA EF BF BD E2 88 B4 E7 B8 BA E7 BF AB C2 B0 E7 B8 BA E9 98 AA EF BF A5 E7 B8 BA E4 BB A3 EF BC 85 E7 B8 BA E8 BC 94 EF BC A0 E7 B8 BA E5 90 B6 E2 97 8B E7 B8 BA EF BF BD

あいうえお
E7 B8 BA E3 82 85 EF BC 9E E7 B8 BA EF BF BD E2 88 B4 E7 B8 BA EF BF BD


E7 B8 BA EF BF BD

共通点として先頭に E7 B8 BA が、末尾に E7 B8 BA EF BF BD が見当たって、バイト列内部にも E7 B8 BA EF BF BD が何箇所か見当たることは分かったが、原因がさっぱり。
Windows 7 64bit, MinGW + MSYS な環境だけども、原因か或いは解決策は何かないだろうか。
445デフォルトの名無しさん:2012/01/01(日) 02:43:48.73
あ(UTF-8) E3 81 82
縺(Shift-JIS) E3 81
縺(UTF-8) E7 B8 BA
446デフォルトの名無しさん:2012/01/01(日) 03:02:42.11
UTF-8専用の文字列リテラルがC++11で導入されたんじゃなかった?
447444:2012/01/01(日) 03:11:57.72
>>445
あー、解決しました。
新年早々ありがとうございました。
448デフォルトの名無しさん:2012/01/01(日) 19:03:55.27
新年早々ここは人が多いな
449デフォルトの名無しさん:2012/01/05(木) 09:45:50.28
450デフォルトの名無しさん:2012/01/05(木) 19:30:03.01
>>449
よくわからないので日本語でkwsk
451デフォルトの名無しさん:2012/01/05(木) 20:16:52.68
繁体字と簡体字で別々のコードポイントを割り当てるの止めようぜ、ってことか?
日本の漢字とか出てくる理由が良く分からんかったけど。
452デフォルトの名無しさん:2012/01/05(木) 20:43:50.07
unicode正規化の仕様にいれようぜ、と言っているだけに見えるけど。
>>449は驚いているから、オレの間違いかも。
453デフォルトの名無しさん:2012/01/05(木) 20:54:37.33
将来的にはCJKV(CTJK?)の漢字でコードポイントだけでなくグリフデザインも統一したら
いいんじゃね、 みたいな?
それを真の(genuine) Han Unification と呼ぼう、と。
GB 18030がいいモデルみたいなこと言ってるし繁体と簡体は区別するのかな。

でそういう流れは自然に起こるかもしれないと。例えば中国製のデバイスでフォントが
一種類しか入ってなくてもCTJKの人達で普通に使えるようになるとか...
ということは、UnicodeでHan Unificationしたことは、いいきっかけになったじゃないか、
みたいなw
454デフォルトの名無しさん:2012/01/05(木) 23:16:28.66
UNICODEに言語プロパティの皮みたいな話ですか?
455デフォルトの名無しさん:2012/01/06(金) 07:52:46.74
地域で字形が違うとかめんどくせぇから、ジャップは日本語の字形を捨てて中華フォント使っとけってこと
456デフォルトの名無しさん:2012/01/06(金) 07:58:44.65
Unicodeならこの改革を進められる、やるしかない
ギャーギャーうるさい連中がいるから今すぐはむりでも、25年ぐらいかけて洗脳すればいけるいける
スマホユーザ見てみ、どうせあいつら中華フォントでも気づかず使ってるで

ってこと
457デフォルトの名無しさん:2012/01/06(金) 11:58:22.98
日本のメーカー、またはキャリアが関わったandroid端末ではちゃんと日本語フォント入ってるけどなー。
海外製品無理やり使ってる連中はまず日本語フォント入れようとするし。
458デフォルトの名無しさん:2012/01/06(金) 16:01:09.23
ぼくも(´・ω・`)
459デフォルトの名無しさん:2012/01/06(金) 18:48:07.93
なんか気にくわんなあ。
460デフォルトの名無しさん:2012/01/07(土) 00:50:31.27
Han Unif.がレンダラ実装の重荷だってことは分かるけど、
レンダラは主なものに収斂してきているから、
こういう動きが足早に進められることはなさそう。
461デフォルトの名無しさん:2012/01/07(土) 08:29:02.18
>>460
よく意味がわからないのだが。
純粋なレンダリングの処理にはコードポイントは関係ないし、
フォントの切り替えとかの話なら別にHan Unif.が無くても生じるわけだが。
462デフォルトの名無しさん:2012/01/07(土) 08:56:55.36
日中台では大過無いがその他の地域では
日本語を簡体繁体で表示してたり
支那語を常用漢字で表示してたりする事態が頻発するようになる
463デフォルトの名無しさん:2012/01/07(土) 11:43:07.48
>>461
コードポイントでなく、
言語情報でフォント切り替えるのは、
ハンユニフィケーション以外にあるの?
464デフォルトの名無しさん:2012/01/07(土) 14:01:52.92
>>463
というか普通はコードポイントでフォントを切り替える手間がメインなので
Han Unif.が特に重荷だということはないような、と。
言語情報とやらの切り替えがやたらと発生するならあれだけど。
465デフォルトの名無しさん:2012/01/08(日) 23:27:26.76
449は非CJKV圏向けのプレゼンで、そのうち字体の統一が起こるかもねー
ぐらいのニュアンスじゃないかな。
まぁかなり書き手の希望的観測が強く混じってる感じするけど。
466デフォルトの名無しさん:2012/01/11(水) 16:46:42.99
大陸側が繁体字に回帰したらそういう流れも出てくるかも
467デフォルトの名無しさん:2012/01/12(木) 18:06:24.21
KVは帰ってくることなく、しかし配慮はしなきゃいけない
中途半端な状態がずっと続くんだろうか。
468デフォルトの名無しさん:2012/01/12(木) 18:29:28.10
CJKVからCHJTへ
469デフォルトの名無しさん:2012/01/12(木) 21:02:06.39
CHJMT
470デフォルトの名無しさん:2012/01/12(木) 22:13:16.77
マカオ?
471デフォルトの名無しさん:2012/01/12(木) 22:16:28.36
CHJMT+カナダ
472デフォルトの名無しさん:2012/01/12(木) 23:28:58.93
>>464
16bitで済ませたいんじゃないの?
32bitじゃあルックアップテーブルも工夫する必要あるし。
473デフォルトの名無しさん:2012/01/14(土) 00:44:16.69
WinXPのSimSunがU+4CA0の字形をU+4CADに収録してたって件、
やっぱり0とDを見間違えたしょうもないミスなんだろうか
474デフォルトの名無しさん:2012/01/14(土) 23:41:31.02
来月か再来月にAJ1-6に情報を追加するよーってことは
まだしばらく1-7は来ないってことか
予定ありゃこんなタイミングで更新せんだろうし
475デフォルトの名無しさん:2012/01/15(日) 00:27:41.03
ISO-2022-JPのファイルで「ESC ( B ESC $ B」とか「ESC ( B ESC ( B」という並びは形式的に許されますか?
476デフォルトの名無しさん:2012/01/15(日) 00:44:17.36
single-byte-segment = single-byte-seq 1*single-byte-char
double-byte-segment = double-byte-seq 1*( one-of-94 one-of-94 )
single-byte-seq = ESC "(" ( "B" / "J" )
double-byte-seq = ESC "$" ( "@" / "B" )

なので、single-byte-seqの後に1文字以上ないとダメですね。
477475:2012/01/15(日) 01:09:40.09
ありがとうございます。
ということは j1.txtがESC ( Bで終わっていて、j2.txtがESC $ Bで始まっているときに
Windowsのcopy /b j1.txt + j2.txt j3.txtでできたj3.txtは、形式的にはISO-2022-JPに
従っていないことになるんですね。
478デフォルトの名無しさん:2012/01/17(火) 19:38:15.46
WG2更新
ミーティングがもう来月なんですな
479デフォルトの名無しさん:2012/01/17(火) 21:48:40.07
ああ、もうすぐ6.1.0か
480デフォルトの名無しさん:2012/01/18(水) 01:16:41.28
来月は他にもUTCとかWin8 βリリースとか色々あるね。
481デフォルトの名無しさん:2012/01/18(水) 12:35:46.84
>>477
改行文字でも挟んでおけば大丈夫。
482デフォルトの名無しさん:2012/01/24(火) 01:07:14.37
プードルの眉毛からあそこまで話が広がるのかー
483デフォルトの名無しさん:2012/01/24(火) 02:12:55.26
どこの話?
484デフォルトの名無しさん:2012/01/24(火) 02:23:27.60
ISO-2022-JPは、規格的には、テキストの一番最後にCRLFがあってもなくてもいいが、
ESC ( BかESC ( Jの後にsingle-byte-charが来る(0文字でもいい)行末しか許してない。
485デフォルトの名無しさん:2012/01/24(火) 06:57:22.15
RFC 1468 のバグじゃなかったっけ?
確か修正とかされてないけど。
486デフォルトの名無しさん:2012/01/24(火) 10:46:39.78
ワザというそういう仕様にしている。
JIS X 0208に文字集合にしたまま行を終わらないように。
規格にもはっきりそう書いてある。
ただJIS X 0201かASCIIかどっちでもいいけども。
487デフォルトの名無しさん:2012/01/24(火) 23:30:26.78
行の最後はJIS X 0201とASCIIのどっちでもいい。
テキストの最後はASCIIじゃないとダメ。
みたいな、ややこしいことになってますね。

RFC 1468は、よーく読むと、ツッコミどころが沢山あるみたいですね。
488デフォルトの名無しさん:2012/01/24(火) 23:46:47.41
今時ISO-2022-JPなんてどうでもいい。
半角仮名も使えないようなウンコ。
みんなGmailでUTF-8だろ?
489デフォルトの名無しさん:2012/01/24(火) 23:57:07.67
半角って何ですか?

それはさて、Gmailはないわ。
490デフォルトの名無しさん:2012/01/24(火) 23:59:53.21
  ヘ_ヘ
 ミ ・ ・ ミ
  (  ° )〜
491デフォルトの名無しさん:2012/01/25(水) 00:30:45.42
Unicode 6.1.0リリースって、2月の何日でしょうか。
ソフトウェアリリースのタイミングが掴めない。
492デフォルトの名無しさん:2012/01/25(水) 02:44:06.94
ttp://www.unicode.org/Public/6.1.0/ucd/DerivedAge-6.1.0d14.txt
によると (January, 2012) に繰り上がっているのでもう出るかも。
493デフォルトの名無しさん:2012/01/25(水) 03:51:51.12
白背景が6.1で追加されるもの
ttp://www.unicode.org/alloc/Pipeline.html

日本関連だと9fccくらいかな
494デフォルトの名無しさん:2012/01/25(水) 05:19:51.90
リトアニアの首相からWG2へ直々に符号化要請来たのか。
495デフォルトの名無しさん:2012/01/25(水) 07:36:19.50
496デフォルトの名無しさん:2012/01/26(木) 22:27:30.73
>>493
涼に包摂されるかどうかが二転三転したアレか
497デフォルトの名無しさん:2012/01/31(火) 02:30:08.03
UTR#50締切日
498デフォルトの名無しさん:2012/02/01(水) 00:16:32.77
さて、今月はどうなりますか。
499デフォルトの名無しさん:2012/02/01(水) 19:48:00.37
UTR50なんて半年前からやってて一度〆切を延長してるのに
みんな何を今になってバタバタしてるんだ
500デフォルトの名無しさん:2012/02/01(水) 21:48:20.20
Unicode 6.1正式リリースキター
501デフォルトの名無しさん:2012/02/01(水) 21:57:45.06
現地だとぎりぎり1月中にリリースできたことになるんだな。
502デフォルトの名無しさん:2012/02/02(木) 01:35:34.09
それって大事なことなのか
503デフォルトの名無しさん:2012/02/02(木) 10:56:59.64
それって大事なことなのか
504デフォルトの名無しさん:2012/02/02(木) 14:20:41.45
事前予告しちゃったからね
505デフォルトの名無しさん:2012/02/04(土) 11:23:54.29
イワタに就職した某氏も「線の質がどうだとかケチをつける気にもならないトンデモ」
とか絶賛のCode2000がGPLv3で公開されたようだ
506デフォルトの名無しさん:2012/02/04(土) 13:44:23.32
それふぉんと?
507デフォルトの名無しさん:2012/02/04(土) 14:04:55.67
代替フォント専用でトーフ撲滅目的なら何でもいいじゃん
どーせ読めないんだしさ
508デフォルトの名無しさん:2012/02/04(土) 21:30:32.27
URL貼るの忘れてた
https://sourceforge.net/projects/code2000/
OFL 1.1とのデュアルライセンスになった模様
509デフォルトの名無しさん:2012/02/04(土) 22:51:51.60
>>508
フォントサイズが変わってるね。
unicode 6.0対応とかだったらありがたい。
510デフォルトの名無しさん:2012/02/05(日) 02:49:49.33
年賀状ソフトとかに付いてくるクラフト書体だっけ?
ああいうのを小学生が作ったらこうなりそうだな
511デフォルトの名無しさん:2012/02/10(金) 00:54:06.69
ずっと持ち越し扱いになってたN3698は今回のagendaに載ってないな。
N4091で一段落って形になったか。
512デフォルトの名無しさん:2012/02/11(土) 10:49:49.31
>>509
アカウント乗っ取りの偽物だった
513デフォルトの名無しさん:2012/02/11(土) 17:16:01.09
んっ!?どういうこと?
514デフォルトの名無しさん:2012/02/11(土) 19:27:19.83
ポーランドかどっかの知らない人がJames Kassのメールアカウントをクラックして
James Kassのふりをして勝手にGPLで公開したってこと
MLでの言動がおかしくてバレた(技術的な質問に全然答えられないとか)
515デフォルトの名無しさん:2012/02/11(土) 21:32:14.50
ほえええ
516デフォルトの名無しさん:2012/02/11(土) 23:05:13.65
N4229は手法論に文句ばっかり言う日本にTCAお怒りの巻かしら
517デフォルトの名無しさん:2012/02/11(土) 23:21:16.96
code2000より、symbola作ってた人のフォントを誰か引き継いでほしいな。
518デフォルトの名無しさん:2012/02/13(月) 01:10:33.17
で、今後はどうなるんだ
519デフォルトの名無しさん:2012/02/15(水) 20:30:39.29
USはつおいなー
520デフォルトの名無しさん:2012/02/19(日) 00:51:37.82
小書きコ飲まされましたか。
521デフォルトの名無しさん:2012/02/19(日) 02:19:04.92
Old Hungarianは泥沼っすなー
522デフォルトの名無しさん:2012/02/20(月) 01:49:50.20
もう小書きは五十音全部作っちゃいなよ
523デフォルトの名無しさん:2012/02/20(月) 04:06:28.13
実際カタカナは半分くらいすでにあるんじゃないか
524デフォルトの名無しさん:2012/02/22(水) 09:34:51.53
小書きンはまだないンだっけ。
525デフォルトの名無しさん:2012/02/22(水) 22:40:12.04
あいうえお
か〓クけこ ←NEW!
〓シス〓〓
〓〓つ〓ト
〓〓ヌ〓〓
ハヒフヘホ
〓〓ム〓〓
や_ゆ〓よ
ラリルレロ
わ〓_〓〓


ひらがな表記…平片両方ある
カタカナ表記…片仮名のみある
526デフォルトの名無しさん:2012/02/24(金) 05:19:43.31
小書きといえばARIB外字の70%サイズの氏副元故前新
527デフォルトの名無しさん:2012/02/25(土) 00:59:24.56
このスレのお前らは普段どのモジコード使ってるの?
528デフォルトの名無しさん:2012/02/25(土) 01:03:06.70
UTF-16
529デフォルトの名無しさん:2012/02/25(土) 01:37:09.93
UTF3
530デフォルトの名無しさん:2012/02/25(土) 01:38:41.55
Unicode7だろ
531デフォルトの名無しさん:2012/02/25(土) 01:41:20.56
Unicodeを
学んで分かる
Windowsの
痛々しさよ
532デフォルトの名無しさん:2012/02/25(土) 01:44:50.19
WindowsはUTF-16なんだっけ
533デフォルトの名無しさん:2012/02/25(土) 01:45:37.57
Windowsは日本語版だけ特殊なんだよな
534デフォルトの名無しさん:2012/02/25(土) 02:04:43.32
そうなの?
535デフォルトの名無しさん:2012/02/25(土) 09:58:52.87
>>525
カタカナしかないやつはアイヌ語用か
536デフォルトの名無しさん:2012/02/25(土) 10:14:27.49
もう小書き仮名セレクタ作った方が早いな
537デフォルトの名無しさん:2012/02/25(土) 11:04:54.97
小書き仮名は「大書きの仮名に一対一で対応するバリエーション」というより、
「音素文字がほしかったので間に合わせで用意しました」的なものも多いから、
大書き仮名を親字としてセレクタで表現されると困ると思う。
538デフォルトの名無しさん:2012/02/25(土) 21:41:02.19
それならFull-Widthもセレクタにしたほうがいいな。

ていうか16ビットに収まらなくなった時点で、上位ビットをバリエーション表現用に予約しとけば
ビット操作だけで曖昧検索にも対応できてすっきりしたと思うんだ。
こんだけgdgdになると、Unicodeを最整理した新コードができても、全文字互換を取るのはもう不可能だよね。
539デフォルトの名無しさん:2012/02/27(月) 23:11:44.72
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n4246.pdf
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n4246-A.txt
また同じ字形を増やすのか。いくつ目だよ
もうこの際だからCJKTVMHUKPそれぞれのソースの字形も
Standardized Variantで表してdisunify完了ってことでどうよ
540デフォルトの名無しさん:2012/02/28(火) 04:44:39.50
それは既存の互換漢字をBMPのVSで表す提案じゃないか
541デフォルトの名無しさん:2012/02/28(火) 23:41:21.77
うん、だから互換漢字だけと言わずいっそのこと統合漢字もやっちゃおうぜと
542デフォルトの名無しさん:2012/02/29(水) 02:06:49.11
タイミング見てそれもやってきそう。
543デフォルトの名無しさん:2012/02/29(水) 21:37:54.51
言語タグは犠牲になったのだ…
544デフォルトの名無しさん:2012/02/29(水) 23:57:20.88
今頃になってIVSの存在を知って、おおスゲェと感じ、もしかしたら戸籍管理に役立つのではないかと色々画策してみたんだけど、
これってFirefoxやその他対応ブラウザじゃないと使えないのね。

でもUTF-32を使えばIVSいらないんだぜって会社の先輩が話してたんだけどこれって単純に彼の勘違いであってる?

英語のドキュメント含めて色々調べたんだけど、UTF-32(UCS-4)の情報が見つからなくて…

なんか凄いあほな質問だけどよかったら答えて下さい。
545デフォルトの名無しさん:2012/03/01(木) 00:42:00.39
勘違いだろうね。よくある最初から32ビット固定にしとけば…って話なんだろうけど。
業務としてやるんなら、ここに参加するのもありかも。
ttp://ivstpc.jp/
546デフォルトの名無しさん:2012/03/01(木) 00:45:50.01
(´‥∀‥`)ほう
547デフォルトの名無しさん:2012/03/01(木) 02:13:06.91
むしろ、複数コードポイントが1文字になるのでUTF-32の存在意義すら危うくする存在>IVS
合成やセレクタをうまいこと区別できるUTF-??出てこないかなあ。
548デフォルトの名無しさん:2012/03/01(木) 02:20:59.85
>>547
IVSの有無に関わらずUTF-32は複数コードポイントで1文字だから。
合成可能なコードポイントかも属性見れば良い話。
549デフォルトの名無しさん:2012/03/01(木) 04:03:59.52
来たかコンシューマプレビュー
Unicodeまわりははたして
550デフォルトの名無しさん:2012/03/01(木) 07:49:48.10
>>547
結合文字なんてUnicodeに最初の最初から存在してたんだから今さら過ぎ。
制定当時の技術水準では非現実的な仕様だったけど
551デフォルトの名無しさん:2012/03/01(木) 07:52:01.56
>>549
デベロッパープレビューの時点でIVS対応してることは判明してたな
http://ameblo.jp/naoshi1128/entry-11030691791.html
552デフォルトの名無しさん:2012/03/01(木) 09:01:16.57
UTF64の出番か
553デフォルトの名無しさん:2012/03/01(木) 16:12:11.93
128にしようぜ
554デフォルトの名無しさん:2012/03/01(木) 16:47:14.21
UTF-128は合理的なんだよ。
なんと128bitのMD5がたった1文字に収まってしまう。
合理的だろ?
555デフォルトの名無しさん:2012/03/01(木) 16:53:21.12
収録数保持した512にしようぜ
556デフォルトの名無しさん:2012/03/01(木) 17:02:17.78
ワタシが現在開発しているUTF-160は、 SHA-1を一文字に納めることができる。
誰か投資しないか?
557デフォルトの名無しさん:2012/03/01(木) 20:57:16.29
すごい文字コード
http://slashdot.jp/comments.pl?sid=333447&threshold=1&commentsort=3&mode=thread&cid=1022907
これくらいのネタは考えてくれないと面白くもない
558デフォルトの名無しさん:2012/03/01(木) 22:14:34.40
結合文字は何文字でも無制限に付けていいことになってるから
2^nビット固定長脳の人は絶望するといいと思うよ
559デフォルトの名無しさん:2012/03/01(木) 22:29:24.08
濁点をたくさん付けたい
560デフォルトの名無しさん:2012/03/01(木) 22:32:50.09
三濁点、四濁点あたりまえ
561デフォルトの名無しさん:2012/03/01(木) 22:38:28.01
つゆだくだくで
562デフォルトの名無しさん:2012/03/01(木) 22:40:22.74
蓮画像を思い出したよ
563デフォルトの名無しさん:2012/03/01(木) 22:48:16.21
十濁点以上の字はグロ字にカテゴライズされて、
ブラウザーの「グロ字を表示しない」オプションを有効にすると代わりに井桁で表示される。
そうするとなんとか無理矢理表示させようとする悪徳業者が現れて
字の代わりに画像にする高等技術が生み出されて社会問題になるの。
それをNHKなんかが特集組んだりするわけ。
564デフォルトの名無しさん:2012/03/02(金) 00:15:20.76
十濁点字をうっかり自動読み上げさせようものなら、
変な周波数の音が出て家具がびりびり共振する
565デフォルトの名無しさん:2012/03/02(金) 21:53:41.67
>>500
http://www.unicode.org/charts/PDF/UF900.pdf
U+FA13の字形はどっちが正しいの?
566デフォルトの名無しさん:2012/03/02(金) 22:11:09.49
CIDをUnicodeに変換する事って出来るの?
記号(♂)のまっすぐバージョンがCIDにはあるんだけど、これをhtmlで表示させたい(もちろん、フォントには収録してます)。
もし、Unicodeに出来るのであれば、そのコードを指定してやれば表示させられるとは思うのですが、果たしてCIDをUnicodeに変換する事は可能なのでしょうか?
567デフォルトの名無しさん:2012/03/02(金) 22:28:20.62

568デフォルトの名無しさん:2012/03/02(金) 22:58:55.08
>>566
出来ないのもある。もともとUnicodeとは無関係に作られた集合だから。

フォントの中でそのまっすぐバージョンが♂の異体字扱いになってるなら、
CSS3のfont-feature-settingsでaaltを指定すれば呼び出せるかも。
569デフォルトの名無しさん:2012/03/02(金) 23:04:54.28
>>566
> 記号(♂)のまっすぐバージョンがCIDにはあるんだけど、

どういう意味?
曲線バージョンでもあるの?
570デフォルトの名無しさん:2012/03/02(金) 23:45:24.96
ビンビンで上向いてるんでしょ。
571デフォルトの名無しさん:2012/03/03(土) 00:14:25.80
ヒラギノには「♂」U+2640のグリフ4種類入ってるな。
Macだとrtfやpdf中ではちゃんと区別して使える。
572デフォルトの名無しさん:2012/03/03(土) 09:52:31.51
IVD新版来たな
http://www.unicode.org/ivd/
http://blogs.adobe.com/CCJKType/2012/03/new-ivd-version.html

汎用電子は228個も却下・取り下げか。これって却下の理由とか公開されないのん?
573デフォルトの名無しさん:2012/03/03(土) 11:19:19.87
もしやもしや、FirefoxのIVSってTruetypeしか対応してない?
花園明朝のTrueならIVS表示できたがOpenだとIVS表示できてない…
574デフォルトの名無しさん:2012/03/03(土) 11:47:22.43
あ〜、jp78とかいう属性付けるとIVSではないけど異体字表示できますね。
俺としてはIVSでやりたいんだが、誰か方法を御教授願います。
575デフォルトの名無しさん:2012/03/03(土) 13:16:43.35
>>572
理由はわからないけど、IRGのレポートだかに
異体字と見なせないものはあとで互換漢字として提案するようなこと書いてあったから、
そっちに回したんじゃないかな。
576デフォルトの名無しさん:2012/03/03(土) 14:12:31.97
>>574
IVSは漢字用だろ
577573:2012/03/03(土) 17:04:13.65
>>576
わかってるよw
firefoxでためしに表示させてみてくれ。
Truetypeでは正常に表示されるがOpentypeでは表示されない
578573:2012/03/03(土) 19:29:53.70
ttp://senda.shiteyattari.com/aalt.html

何か信じてくれてなさそうなので表示サンプル作ってみた。ローカルに落として、それぞれのフォント指定を自分の環境に変更させた上で
Firefoxで表示させてみて。OTFだけIVSが正常に表示されないから。

もし、俺のコーディングがおかしくて表示されてないのだとしたら、修正稿の提示をどうかお願いします。
579デフォルトの名無しさん:2012/03/03(土) 22:45:58.15
ここにいる奴はしったか8割だからあまり期待しないほうがいい
580デフォルトの名無しさん:2012/03/04(日) 00:03:58.26
>>578
FirefoxはCIDベースのOTF対応がまだ怪しいので、Bugzillaに投げた方がいい。
581デフォルトの名無しさん:2012/03/04(日) 00:15:32.99
>>578
表示されないってwebフォントの場合か。
ここの記事と同じっぽいからコメント欄参考にしてみれば?
ttp://d.hatena.ne.jp/mashabow/20110807/1312725162

試してないから解決するかどうかはシラネ
582デフォルトの名無しさん:2012/03/06(火) 21:02:33.62
https://www.lasdec.or.jp/cms/14,25829,72.html
戸籍統一文字を追加するらしい
583デフォルトの名無しさん:2012/03/08(木) 22:22:49.81
戸籍統一文字じゃなくて住民基本台帳
584デフォルトの名無しさん:2012/03/11(日) 13:26:15.37
そういや結局0213って改正するの? 常用漢字の関係で
585デフォルトの名無しさん:2012/03/11(日) 13:33:05.48
規格をいじる愚をこれ以上繰り返すのもなぁ
586デフォルトの名無しさん:2012/03/11(日) 14:27:38.15
常用漢字改訂の影響受ける字なんてあったっけ
587デフォルトの名無しさん:2012/03/11(日) 15:00:10.12
叱か
588デフォルトの名無しさん:2012/03/11(日) 16:02:37.18
JISCのサイト言ったらいつのまにか改正されててワロタ
誰も気づかなかったのか…
589デフォルトの名無しさん:2012/03/11(日) 16:15:54.33
>>584
> そういや結局0213って改正するの? 常用漢字の関係で

なぜそう思ったのか根拠を述べよ
590デフォルトの名無しさん:2012/03/11(日) 16:24:08.87
0213は今さらどうでもいいけど、0221はそろそろ改訂する必要ありそう。
591デフォルトの名無しさん:2012/03/11(日) 16:48:35.68
どこで聞いていいかわからないからとりあえずここで。
N88BASIC(Disk版)の、KI/KOコードで挟まれた中の「JISコード」がどんな風に格納されているのか
具体的な変換式なり表どっかにないですか。
592デフォルトの名無しさん:2012/03/11(日) 17:55:24.56
そのままだろ。その為にKI/KOで挟んでるんだし。
593デフォルトの名無しさん:2012/03/11(日) 17:58:36.10
エスケープシーケンスが違うだけで、中身は ISO-2022-JP と同じ、だと思う。基本的には
594デフォルトの名無しさん:2012/03/11(日) 18:20:06.85
ふむ
595デフォルトの名無しさん:2012/03/15(木) 12:46:46.49
Unicodeは次は6.2.0か
/Public/6.2.0/が出来てる
596デフォルトの名無しさん:2012/03/15(木) 13:17:24.43
次は何が変わるんです?
597デフォルトの名無しさん:2012/03/23(金) 21:50:28.33
IVDチャート来たか。
画像化されて相変わらず重いなー。
598デフォルトの名無しさん:2012/03/24(土) 20:21:52.09
599デフォルトの名無しさん:2012/03/25(日) 14:07:19.61
>>598
なんでレビューのときに指摘しないの? 指摘してるけど無視されてるの?
(無視したらそれまででそのまま登録するしかない)
600デフォルトの名無しさん:2012/03/25(日) 14:08:51.84
>>591
NECなので78JIS(正確にはJIPS)である点に注意
601デフォルトの名無しさん:2012/03/25(日) 14:12:31.70
>>589
JIS X 0213:2012の解説によると、
JIS X 0213の附属書6は第一水準と第二水準についてJIS X 0208の附属書6を
参照していて、JIS X 0208の附属書6には常用漢字を示す[常]マークと常用漢字表に
もとづいた音訓が書かれていたので、JIS X 0213・JIS X 0208ともに改正する必要が
あった。
602デフォルトの名無しさん:2012/03/25(日) 18:33:03.93
0208だけじゃだめなの>
603デフォルトの名無しさん:2012/03/25(日) 20:51:54.99
>>602
これも解説に書いてるけど
・常用漢字との対応がJIS X 0208とJIS X 0213で異なる
・JIS X 0213では一部の常用漢字が第三水準に対応する
というわけでダメだった。
604デフォルトの名無しさん:2012/03/25(日) 22:42:55.72
>>599
Unicodeのレビューシステムが壊れてて
結局レビューが届かなかったらしい >>294
605デフォルトの名無しさん:2012/03/26(月) 01:41:16.77
ワロタ
606デフォルトの名無しさん:2012/03/26(月) 03:08:35.51
それはワロタ
さて、四月馬鹿がやってきましたが
http://slashdot.jp/journal/548685/
本当にやってくれ
しっかし異体字の泥沼に終わりはあるのかしら
>>604
Unicodeのレビューシステムは4バイトのUTF-8がとおらない >>608
えっそれってどうするの
レビューなどしないという事だ
中の人は知ってるのかな
614デフォルトの名無しさん:2012/05/01(火) 07:32:05.55
なんと1ヶ月も書き込み梨か
615デフォルトの名無しさん:2012/05/04(金) 10:54:51.22
質問なのですが
文字実体参照や数値文字参照を正しくアンエスケープ出来ていない状態は、文字化けと呼んでも差し支え無いのでしょうか?
それとも明確に区別されるべきなのでしょうか?
616デフォルトの名無しさん:2012/05/04(金) 11:56:26.41
文字化けという言葉に厳密な定義などないのでどうでもよい。

ひとつ言えるとすれば、明確に区別したいなら文字化けというような
あいまいな言葉を使うべきではない。
617デフォルトの名無しさん:2012/05/04(金) 15:25:40.96
>>616
ありがとうございます。
618デフォルトの名無しさん:2012/05/15(火) 14:17:04.42
ありがたいのか
619デフォルトの名無しさん:2012/05/15(火) 18:37:20.75
Javaがらみなのですが、native2asciiでUTF-16でサロゲートペアになる辺の文字の
逆変換がうまくいかないっぽいのですが、こういうもんでしょうか。

例えばU+21300に対して(以下某専ブラの文字参照のテストも兼ね)

% echo 𡌀 | native2ascii -encoding UTF-8
¥ud844¥udf00
% echo 𡌀 | native2ascii -encoding UTF-8 | native2ascii -reverse -encoding UTF-8
¥ud844¥udf00

そのまんまやんけ、と。
620デフォルトの名無しさん:2012/05/15(火) 18:47:04.02
おお何それちゅのむ?
621デフォルトの名無しさん:2012/05/16(水) 21:43:05.47
共同通信社「字形と入力」が見当たらない。

CJKV Information Processing 著者: Ken Lunde
の参考文献に記述があるが、探しても見つけられない。
622デフォルトの名無しさん:2012/05/16(水) 22:31:24.92
Ken Lunde か共同通信社に問い合わせするっきゃないんじゃないか?
多分一般に販売してない印刷物なんだろうと思う。
623621:2012/05/19(土) 21:05:09.97
すまん!

ただいま問い合わせ中。
624デフォルトの名無しさん:2012/05/20(日) 00:06:17.80
けんちゃんのほうだろうか
これはwktkせざるをえない
625デフォルトの名無しさん:2012/05/20(日) 03:26:02.77
社内のガイドじゃないか?
626デフォルトの名無しさん:2012/05/20(日) 03:28:09.45
業界向けに配布されたものかrequesterがAdobeに送ったものか
どっちかだろうな
627デフォルトの名無しさん:2012/05/20(日) 17:28:08.48
10月のUnicode Conference行く?
628デフォルトの名無しさん:2012/05/20(日) 21:01:12.47
うちから遠いから行かないわ(´・ω・`)
629デフォルトの名無しさん:2012/05/20(日) 22:05:27.36
場所って決まってんの?
630デフォルトの名無しさん:2012/05/20(日) 23:26:53.06
UTCはN4246を受理したか
また血みどろの戦いが
631デフォルトの名無しさん:2012/05/21(月) 20:19:36.72
http://www.oreilly.co.jp/feedback/


類書には記載されていない文献がある。

632デフォルトの名無しさん:2012/05/21(月) 23:43:58.57
ああ例の互換漢字にStandardized Variantsを割り当てるって奴か
633デフォルトの名無しさん:2012/05/22(火) 19:47:38.71
恥ずかしながら今だに意味が良く理解できない
634デフォルトの名無しさん:2012/05/25(金) 21:21:14.56
安岡センセイが微妙な連載開始
http://www.taishukan.co.jp/kokugo/webkoku/series003_01.html
635デフォルトの名無しさん:2012/05/25(金) 21:40:06.08
いや、これはいいんじゃない?
文字コードオタクじゃなくても読める文書になってるし。
636デフォルトの名無しさん:2012/05/25(金) 22:25:07.69
文字コードオタクじゃなくても読めるけど、
文字コードオタクとの会話・意思疎通には慣れてないと読めない気がするなあ。

同じサイトのほかの連載を見てみると、果たしてここの読者層が
「U+0000」みたいなのが最初の段落だけで8回、全文で90回も出てくる文章に面食らわずにいられるのか気になる。
637デフォルトの名無しさん:2012/05/26(土) 00:47:48.62
悪くはないと思うけど
国語教室と言われるとかなり違和感がある
638デフォルトの名無しさん:2012/05/26(土) 01:38:43.21
馬鹿には無理
639デフォルトの名無しさん:2012/05/26(土) 05:55:02.22
とりあえず次回を待とうか。

今回の主役のLatin系はメインテーマの「日本の文字」とかかわりが薄いし、
いくつか書いてあるsjis系由来の問題なんかは何もUnicodeに限ったもんじゃない。

まずは本題に入ってくれてからでないと、
「日本の文字とUnicode」というお題で何を展開するつもりなのか想像がつかない。
640デフォルトの名無しさん:2012/05/26(土) 10:27:36.81
言論系雑誌でもそうだけど、顔写真でてるのはいいね
641デフォルトの名無しさん:2012/05/26(土) 11:05:09.72
JISに由来する問題もSJIS由来になってなかったか。
642デフォルトの名無しさん:2012/05/27(日) 05:08:42.55
ttp://babelstone.blogspot.jp/
今年の9月か10月:トルコリラ記号のためだけにUnicode 6.2をリリース
2013年春:annexのupdateや例の互換漢字のVSのために6.2.1を出すかも? 文字の追加は無し
2014年はじめ:6.2の次の定期リリース(Unicode 7.0?)

らしい。
643デフォルトの名無しさん:2012/05/27(日) 22:45:43.72
₺?
644デフォルトの名無しさん:2012/05/30(水) 06:09:22.47
インドルピーが「き」でトルコリラが「も」か。
645デフォルトの名無しさん:2012/05/30(水) 17:06:58.68
そしてカザフスタンはどう見ても〒ですありがとうございました
646デフォルトの名無しさん:2012/05/31(木) 00:40:31.81
「も」に似すぎなのでグリフの差し替えを要求されます
647デフォルトの名無しさん:2012/05/31(木) 01:44:40.39
ポイントはたぶん2本線なんだろうな
簡易な形の文字に2本線を引くと仮名っぽくなっちゃう
648デフォルトの名無しさん:2012/06/01(金) 02:44:41.48


↑これハングルっぽいよね
649デフォルトの名無しさん:2012/06/01(金) 03:10:01.13
Ю人

↑これもハングルっぽいよね
650デフォルトの名無しさん:2012/06/01(金) 03:55:05.62


↑これはカタカナです
651デフォルトの名無しさん:2012/06/02(土) 20:10:26.17
韓国の人名用漢字って、全部Unicodeに入ってるの?
652デフォルトの名無しさん:2012/06/03(日) 00:51:05.78
入ってない可能性もあるの?
653デフォルトの名無しさん:2012/06/03(日) 01:01:36.75
654デフォルトの名無しさん:2012/06/05(火) 22:34:14.51
windows8RPではUNICODE6.1のemoticonも載っているらしい
http://bardiel-of-may.blogspot.jp/2012/06/windows-8rp.html?m=1
655デフォルトの名無しさん:2012/06/09(土) 16:22:26.49
>>639
第2回もますます日本語から離れた
http://www.taishukan.co.jp/kokugo/webkoku/series003_02.html
656デフォルトの名無しさん:2012/06/09(土) 23:27:23.93
ふむ
657デフォルトの名無しさん:2012/06/09(土) 23:32:56.72
読んだ。結構おもしろい。
しかし、このページ見てると、Unicodeって仕様をバッサリ切れない
ダメなマネージャが要求丸呑みして作ったシロモノって感じがするな。
658デフォルトの名無しさん:2012/06/10(日) 03:41:54.07
むしろ世界規模の規格がこの程度のカオスで
まとまったことが奇跡に近い。
659デフォルトの名無しさん:2012/06/12(火) 15:38:38.15
http://www.icelandreview.com/icelandreview/daily_news/International_Day_of_Icelandic_Letter_%C3%9E_Celebrated_0_390746.news.aspx

英語がよくわからないんだけど
U+00DEがUnicodeに収録されたのが1994年6月9日ってこと?
660デフォルトの名無しさん:2012/06/14(木) 02:12:31.28
わかんないの?
661デフォルトの名無しさん:2012/06/14(木) 02:20:52.00
わかんねぇよ・・・もう・・・
662デフォルトの名無しさん:2012/06/15(金) 18:20:25.14
>>659
Unicode 1.0に収録されてたから1994年より前のはず
663デフォルトの名無しさん:2012/06/25(月) 21:16:03.47
664デフォルトの名無しさん:2012/06/25(月) 21:41:35.05
見せ方がうまいんだと思う
665デフォルトの名無しさん:2012/06/25(月) 22:21:18.35
安岡はキティの癖に、
コレじゃまるでマトモな人じゃないか。
666デフォルトの名無しさん:2012/06/25(月) 23:43:55.09
漢字やキー配列の話題から離れればこんなものなのかも。
667デフォルトの名無しさん:2012/06/26(火) 09:21:21.05
>>665
キチガイTRON信者乙
668デフォルトの名無しさん:2012/06/26(火) 16:33:21.50
トモは本当にいったいどうして漢字になっちゃったんだろうね。
669デフォルトの名無しさん:2012/06/26(火) 20:59:12.48
>>666
三省堂の連載も結構マトモ
http://dictionary.sanseido-publ.co.jp/wp/author/yasuoka
670デフォルトの名無しさん:2012/06/26(火) 22:06:11.05
いや、タイプライターの話題こそ地雷
671デフォルトの名無しさん:2012/06/27(水) 14:25:49.76
全何回なんだろ
日本の文字に限るともうそんなにネタなさそうな気がするけど
672デフォルトの名無しさん:2012/06/27(水) 22:02:50.38
次回が最終回
673デフォルトの名無しさん:2012/06/27(水) 22:19:01.27
最近タイプライターネタになってんのか。
あれはちっとつらい。
674デフォルトの名無しさん:2012/06/27(水) 23:01:44.22
上下逆順で読みにくい
675デフォルトの名無しさん:2012/06/28(木) 02:23:25.68
それはブログ型CMS全般にいえる問題
676デフォルトの名無しさん:2012/06/28(木) 10:38:28.50
http://takagikenziro.blog.fc2.com/blog-entry-145.html
安岡センセイここでも活躍中w
677デフォルトの名無しさん:2012/07/01(日) 07:17:31.56
バイタリティは見習いたい

遠巻きに見習いたい
678デフォルトの名無しさん:2012/07/10(火) 13:15:11.07
679デフォルトの名無しさん:2012/07/11(水) 03:51:22.72
日本の文字をUnicodeで扱う際のややこしい点を説明する筈が
どうしてcjkの統一性欠如の説明になるんだ
680デフォルトの名無しさん:2012/07/11(水) 09:35:43.12
ややこしいじゃん
681デフォルトの名無しさん:2012/07/11(水) 10:06:08.42
UnicodeってJIS X 2013の文字も全部1:1で収録されてる?
682デフォルトの名無しさん:2012/07/11(水) 12:33:44.25
JIS X先生の最新作?
683デフォルトの名無しさん:2012/07/11(水) 12:37:27.81
0213…
684デフォルトの名無しさん:2012/07/11(水) 17:28:44.01
1:1ってのがコードポイントの話ならno、
ラウンドトリップ可能かって意味ならyes…だったと思う。
685デフォルトの名無しさん:2012/07/11(水) 18:00:46.36
ということはJISの文字はそのままUnicodeに変換可能。
CJKの問題はあまり影響無いような。
686デフォルトの名無しさん:2012/07/11(水) 19:26:24.62
>>685
ほう
例えば漢字はどのコードポイントに変換するの?
統一漢字? 互換漢字? 統一漢字の場合IVSをつけてもいいの?
IVS付けてもいいときは、どの字体を使うの?
IVS付けたらダメときは、字体の違いをどう解消するの?
687デフォルトの名無しさん:2012/07/11(水) 20:45:47.47
へー、影響無いのかー。

>では、U+6674に統合されている「リ」と「晴」とを、
>どうしても使い分けたい人は、どうすればいいのでしょう。

>>685 は使い分けたくないんだろうな。だったら影響ないし。
688デフォルトの名無しさん:2012/07/11(水) 20:54:23.45
>>684
1-11-69と1-11-70でラウンドトリップが崩壊してる
って例を以前安岡センセイが書いてた
↓の図16あたり
http://itpro.nikkeibp.co.jp/article/COLUMN/20061221/257533/
689デフォルトの名無しさん:2012/07/11(水) 22:33:52.23
文盲が多いな
「我々が扱いたい日本の文字はx0213以外の文字もあるため
CJKの問題を考慮する必要があります」って言えばいいだけだろ
誰もCJK統合に問題がないなんて言ってないし
690デフォルトの名無しさん:2012/07/12(木) 16:08:42.84
officeって文字コードはsjisで保存してるんでしょうか?

sjisのテキストもユニコードのテキストもどちらも
貼り付けできるので不思議です。
691デフォルトの名無しさん:2012/07/12(木) 16:52:55.95
どのバージョンからかは忘れたけど、保存はUTF-8じゃなかったかな。
でもそれと、貼り付けできることとは何の因果関係もないが。
692デフォルトの名無しさん:2012/07/12(木) 17:04:08.74
1990年ごろから内部はUnicodeだよ。
その作業をしたのは日本人。
693デフォルトの名無しさん:2012/07/12(木) 18:23:01.02
Office 1 の頃から?
ちょっと信じられんが。
694デフォルトの名無しさん:2012/07/12(木) 21:18:18.29
受け取る側は UTF-16 でも MBCS でもどちらでも受け取れる。
たとえソフトが片方のエンコードでしか貼り付けなくても。
695デフォルトの名無しさん:2012/07/12(木) 22:50:46.00
>>689
「神」と「~」はどうするのさ
JIS X 0213の問題でもあり、CJKの問題でもあるだろ
696デフォルトの名無しさん:2012/07/12(木) 23:41:07.39
文盲がいるな
コンピューターで文字を扱う際の包摂等の問題だから
「Unicodeで日本語版を扱う時の問題」としては不適切ってだけだろ
だれも包摂に問題が無いなんて言ってないし
697デフォルトの名無しさん:2012/07/13(金) 00:09:58.38
すまない文盲以外は帰ってくれないか
698デフォルトの名無しさん:2012/07/13(金) 00:17:33.02
(≧ω≦)ノシ
699デフォルトの名無しさん:2012/07/15(日) 01:46:41.21
>>693
Unicode対応はWord97からのはず
700デフォルトの名無しさん:2012/07/26(木) 07:24:26.90
梵字の正式な提案書来たか
701デフォルトの名無しさん:2012/07/26(木) 07:30:47.96
変体仮名はいつのっかるんだろうねえ。
702デフォルトの名無しさん:2012/07/26(木) 09:12:19.83
変体仮名は異体字の切り分けと名付けにわかりやすい基準を用意できるんだろうか
703デフォルトの名無しさん:2012/07/26(木) 09:25:01.53
ようやく梵字がテキストエディタで編集できるようになるのか。
704デフォルトの名無しさん:2012/07/26(木) 11:05:25.15
http://www.taishukan.co.jp/kokugo/webkoku/series003_05.html
安岡センセイ互換漢字とIVSを同列に紹介
705デフォルトの名無しさん:2012/07/26(木) 12:57:33.28
ようやく日本の文字っぽくはなってきた
706デフォルトの名無しさん:2012/07/27(金) 19:01:38.86
http://slashdot.jp/%7Eyasuoka/journal/553806
>U+20F96は誰が提案したのか
707デフォルトの名無しさん:2012/07/27(金) 20:29:20.41
変体仮名は汎用電子の絡みでいずれWG2にも来そうな気がするけど
すんなりとは符号化されないんだろうな
708デフォルトの名無しさん:2012/07/27(金) 22:41:32.05
>>706
なんだか言い訳がましいな
709デフォルトの名無しさん:2012/07/28(土) 03:58:20.68
TCAは形式的には中国の代表ということになってるのか
710デフォルトの名無しさん:2012/07/31(火) 23:00:38.53
http://slashdot.jp/%7Eyasuoka/journal/553978
この入管外字f10eってCJK Extension E候補00437?
711デフォルトの名無しさん:2012/08/01(水) 01:17:22.20
有効なUnicodeのコードポイントかどうかを判定する必要に迫られているのですが、
どう調べたらいいですかね。コードポイントのデータベースとか、APIとか。

自分が受け取ったHTMLに文字参照(数値参照)がたくさん含まれているんだけど
どうもデタラメなコードポイントを含んでいるようで、それをチェックしたいのですが。
あ、HTMLから文字参照を抜き出すとかその辺はできてるんですが、数値の判定を
どうするかということです。

まあ実際にはいろんな次元のデタラメがある(たとえばUnicode的には正当でも
文書内容的におかしいとか)わけですが、今はUnicodeのレベルでのチェックを
必要としております。
712デフォルトの名無しさん:2012/08/01(水) 01:41:03.42
自分が使いたい文字の一覧を作っておけばいいだろう。
君が何を有効としたいかは誰にもわからないわけだし。
713デフォルトの名無しさん:2012/08/01(水) 01:50:05.73
\p{Cn}
714デフォルトの名無しさん:2012/08/01(水) 04:59:22.11
>>711
割当済コードポイントの一覧が欲しいってことならこれ。
ttp://www.unicode.org/Public/6.1.0/ucd/UnicodeData.txt
715デフォルトの名無しさん:2012/08/01(水) 08:34:50.33
どうも>>711です。

>>712 とりあえず最低限のチェックをしたいなと思って。
>>713 perlですね。なるほど。
>>714 なるほど。

というわけで>>713>>714をまず試してみようかと思います。どうもありがとうございます。
716デフォルトの名無しさん:2012/08/01(水) 11:29:05.51
>>715
シフトJISだけでいいなら
Unicodeコンソーシアムのcp932を基に一覧作るとか
717デフォルトの名無しさん:2012/08/01(水) 20:25:01.35
htmlのソースにどの文字コード表が使われてるか
ってことじゃあ
utf-8で書いてあるところの方が少ないような、html
718デフォルトの名無しさん:2012/08/01(水) 20:37:21.72
perl撲滅するついでにHTML完全UTF-8化も完了した
719デフォルトの名無しさん:2012/08/02(木) 05:01:41.71
>>716
HTMLの話でcp932なんて出されると。「shift_jisって何だっけ」問題を
思い出すじゃないか...
そこらへんにこだわっていた時期が、俺にもありましたw
720デフォルトの名無しさん:2012/08/04(土) 18:01:57.55
結局Encoding StandardでWebブラウザにとってshift_jisは単なるcp932の別名
ってことになった
721デフォルトの名無しさん:2012/08/05(日) 09:55:59.83
x-sjis
722デフォルトの名無しさん:2012/08/05(日) 15:39:38.53
x-sjisも正式なshift_jisのエイリアスになってたな
あとどうせそういうことになるのは目に見えてるせいか
とうとうRFC 6648で"X-"の使用自体が廃止されてしまった
723デフォルトの名無しさん:2012/08/10(金) 21:27:03.61
互換漢字用IVSはMark Davis巻き込んだか。
724デフォルトの名無しさん:2012/08/10(金) 23:49:45.72
小書きコは投票から外されちゃったかー
日本が押し返したかな
725デフォルトの名無しさん:2012/08/11(土) 18:40:27.30
あっても別にいいと思うんだがなあ
726デフォルトの名無しさん:2012/08/12(日) 02:06:14.16
AJ1-6をUnicodeへ紐付する作業もこれで一段落か
727デフォルトの名無しさん:2012/08/18(土) 23:18:47.58
728デフォルトの名無しさん:2012/08/22(水) 00:59:38.82
DIS 10646第1版
ttp://ja.wikipedia.org/wiki/DIS_10646
ってもう少し詳しい情報載ってるところある?
729デフォルトの名無しさん:2012/08/22(水) 01:43:02.08
>>728
そのページの脚注や参考文献にある本にかなり載っている。

10646のDISからISにかけての漢字統合の話なら、中国の1980年代後半の「語文
建設」とか「文字改革」あたりの雑誌を漁ればありそう。

というか、DP→DIS→IS というのはISO時代の呼び方で、JTC1の時は
FCD→FDIS→ISだったけど、最近の体制の変更で、呼び方が
DIS→FDIS→ISに変わったのでこのWikipediaのページはページ名自体が
微妙な気が…
730デフォルトの名無しさん:2012/08/22(水) 23:39:46.70
一応『文字符号の歴史−欧米と日本編−』には目を通してるんだけど、例えば
DIS 10646第1版の場合にこれまでのASCIIの範囲の文字を表わすのは
20202020 〜 2020207F ってことでいいの?
改行コードは 2020200A になるの?それとも 0000000A になるの?
教えてえろいひと
731デフォルトの名無しさん:2012/08/23(木) 11:25:37.58
ISO 646 IRV (というかASCII)は、そのまま20202020〜2020207Eに収録で、
コントロールコードは、全部、別の規格で吸収するつもりだったはず。
732デフォルトの名無しさん:2012/08/24(金) 01:09:49.33
例えばこれまでの通信機器がそのまま使えるように改行コードは0A(1バイト)
のままってこと?

あと『文字符号の歴史−欧米と日本編−』によれば日本のコードは
20 4x yy yy のところに割り当てようとしてた見たいだけど、4x の
ところと yy yy の部分はどう使われるの?

例えば
20 40 21-7E 21-7E は JIS C 6226:1978
20 41 21-7E 21-7E は JIS C 6226:1983
20 41 21-7E 21-7E は JIS X 0208:1990
・・・って具合?

あと半角カタカナ JIS X 0201 はサポートされるの?されないの?
733デフォルトの名無しさん:2012/08/24(金) 12:43:49.51
ttp://www.itscj.ipsj.or.jp/senmon/11sen/sc02.html
>JIS X0221については前回の改正から5年が経過するということで,
>2012年度は第3版の内容に基づいた改正を検討することになっている.
734デフォルトの名無しさん:2012/08/24(金) 18:09:26.47
10646じゃなくJIS X 0221を参照している規格ってあるのかな
735デフォルトの名無しさん:2012/08/25(土) 17:21:59.53
>>734
JIS X 0213
736デフォルトの名無しさん:2012/08/26(日) 16:01:33.71
>>733
やっと日本文字部分レパートリが本体に入るのか
737デフォルトの名無しさん:2012/08/26(日) 18:05:19.55
(´‥∀‥`)ほほう
738デフォルトの名無しさん:2012/08/27(月) 05:26:04.48
すみません、
日本&中国(簡体)の漢字を部首毎にUnicodeのコードポイントでさらう必要が
あるんですが、Unicodeの中の割当ってどの程度部首毎に並んでるんでしたっけ?
extension B 以降 (U+20000〜) なども。
できれば部首毎のコードポイントのリストがあると助かりますが...
739デフォルトの名無しさん:2012/08/27(月) 12:37:24.88
740デフォルトの名無しさん:2012/08/27(月) 13:31:01.02
>>734
JIS XMLとか
741デフォルトの名無しさん:2012/08/27(月) 13:58:32.49
>>739
それ便利よね
742デフォルトの名無しさん:2012/08/27(月) 17:20:20.04
>>739
おお素晴らしい! ありがとうございます。

しかし... 今さらながら字を見ていくと、繁体の文字で偏を簡体にした文字が
大量にあるんですねえ。そりゃあコードポイントが大量にいるわなと。
異体字じゃ駄目... なんでしょうねw
743デフォルトの名無しさん:2012/08/28(火) 19:29:03.07
744デフォルトの名無しさん:2012/08/28(火) 20:30:56.64
最後のとこは最低でも8バイトって書き方にしといてほしかったな
745デフォルトの名無しさん:2012/08/28(火) 22:17:55.13
文字コードと関係ないが、
安岡はバイトオーダーについて
少しは勉強した方がいい。
746デフォルトの名無しさん:2012/08/28(火) 23:23:27.02
そんなの本筋と関係ないから端折ってるだけだろ
747デフォルトの名無しさん:2012/08/29(水) 12:01:59.78
TRON信者か?
748デフォルトの名無しさん:2012/08/30(木) 00:58:43.10
>>713
化石レスなんですがperlが対応しているUnicodeのバージョンって調べられますかね?
自分の環境でやったらどうもCJK Extension C/D の文字が微妙な感じなので。
749デフォルトの名無しさん:2012/08/30(木) 01:29:09.72
>>748
データベースのバージョンなら
perl -MUnicode::UCD -E 'say Unicode::UCD::UnicodeVersion();'
かな
750デフォルトの名無しさん:2012/08/30(木) 07:20:31.19
>>749
自分の環境でやったら5.1.0と出ました。なるほど納得、という感じです。
的確なお答えに感謝です。
751デフォルトの名無しさん:2012/08/30(木) 16:41:42.06
さて
752デフォルトの名無しさん:2012/08/31(金) 14:17:59.60
>>745
武雄市図書館と喧嘩させとけよ
753デフォルトの名無しさん:2012/09/01(土) 07:38:30.79
ICUのAPIで偏とか画数の情報は取り出せるでしょうか。
754デフォルトの名無しさん:2012/09/02(日) 03:54:23.81
Unicodeデータベースの部首画数って(kRSJapaneseを除くと)中国語の字形基準だから
あまりアテにならない。kRSAdobe_Japan1_6が入って多少はマシにはなったが。
せっかく税金かけて作ったんだからこれも使ってやれよ
http://ossipedia.ipa.go.jp/ipamjfont/mjmojiichiran/index.html
755デフォルトの名無しさん:2012/09/02(日) 21:13:50.56
ossipediaをいつも「おっしペディア」と読んでしまって和む
756デフォルトの名無しさん:2012/09/06(木) 19:43:23.73
おしりペディア
757デフォルトの名無しさん:2012/09/06(木) 22:07:11.22
強行貫通
758デフォルトの名無しさん:2012/09/13(木) 00:24:23.96
759デフォルトの名無しさん:2012/09/13(木) 15:57:52.05
>そう、IVSを使うのです。
といいつつこのページではIVSを使わずフォントを指定することで対応している
760デフォルトの名無しさん:2012/09/13(木) 18:36:00.80
二枚舌だあ
761デフォルトの名無しさん:2012/09/13(木) 19:16:10.10
フォント指定を上書きしてたので気づかなかった
762デフォルトの名無しさん:2012/09/13(木) 21:32:49.77
別にIVSとフォント指定は排他じゃないんだから
(むしろ現状フォントを指定しないと使いものにならない)
両方やればいいのに
763デフォルトの名無しさん:2012/09/17(月) 11:54:36.76
いつからここはその連載のヲチスレに
764デフォルトの名無しさん:2012/09/17(月) 16:02:06.00
フォントのことを書くと怒られます
765デフォルトの名無しさん:2012/09/17(月) 16:43:58.38
ふぉんとに怒られます
766デフォルトの名無しさん:2012/09/24(月) 09:04:37.43
さて 気を取り直して。
767デフォルトの名無しさん:2012/09/29(土) 03:45:34.03
話題ないっすなあ
日本に関係ある字が提案されてこないせいもあるんだろうけど
768デフォルトの名無しさん:2012/09/29(土) 12:51:14.72
ないっすなあ
769デフォルトの名無しさん:2012/09/29(土) 23:36:05.08
あるTrueTypeフォントを渡されて「これにはAJ1-6相当のグリフが入ってる。確認して。」
と言われたんだけど、どうしたらいいですか?
770デフォルトの名無しさん:2012/09/30(日) 03:13:07.55
その種のフォントは、グリフ名がAJ1のCIDを示唆するものになっていることが
多いのでまずそこを確認。
771デフォルトの名無しさん:2012/09/30(日) 11:17:37.79
http://www.taishukan.co.jp/kokugo/webkoku/series003_09.html

住基統一文字の数が「21166字」って書いてあるんだけどホント?
21039字だと思うんだが。
772デフォルトの名無しさん:2012/09/30(日) 14:00:02.19
(´・ω・`)知らんがな
少しずつ追加されて数が増えてても不思議はないし
773デフォルトの名無しさん:2012/10/01(月) 15:51:28.50
差分を見たいわ
774デフォルトの名無しさん:2012/10/01(月) 20:41:54.79
127文字違いとか意味深だ。
775デフォルトの名無しさん:2012/10/02(火) 11:46:35.84
もうひと文字増えていたらオーバーフローの危機だったわけだ。
776デフォルトの名無しさん:2012/10/02(火) 20:34:18.71
nushuの提案(改)が来たか
1b1xxに入る予定だから、日本はkana supplementブロックが
残り254でいいのか早めに答えを出さないとな
777デフォルトの名無しさん:2012/10/02(火) 20:55:06.12
どうせ足りなくなったらkana supplement extendedとか
kana supplement-Bとか何とか追加されるまでだろ
778デフォルトの名無しさん:2012/10/02(火) 20:56:44.73
デタラメすぎてどこから突っ込んだらいいのやら
http://www.m-bsys.com/character-code/utf-48
779デフォルトの名無しさん:2012/10/02(火) 22:19:53.88
10/5の文字情報検討WGで変体仮名を取り上げるらしいから
結論が出れば必要なコードポイントの概数もつかめるかも
780デフォルトの名無しさん:2012/10/02(火) 22:24:25.72
それは朗報。早くのっけておくれ。
781デフォルトの名無しさん:2012/10/02(火) 23:36:28.40
そういやUTF-8って同じコードポイントを冗長表現できるけど
誰も、適当に加減算して重複が出ないような定義にしようって言い出さなかったのかな
782デフォルトの名無しさん:2012/10/02(火) 23:41:48.41
>>779
変体仮名が採用されたとすると、NKFC/NFKDで普通の仮名に変換されるのかな。
783デフォルトの名無しさん:2012/10/03(水) 00:04:30.22
784デフォルトの名無しさん:2012/10/03(水) 00:34:23.53
>>779
たぶん168字
785デフォルトの名無しさん:2012/10/03(水) 01:14:23.13
住基かなだっけ
あのデザインのまま上がってきたらちょっとあれだけど
786デフォルトの名無しさん:2012/10/03(水) 09:51:06.89
>>781
不正と見なされるようになってる
787デフォルトの名無しさん:2012/10/03(水) 22:08:17.55
>>785
知らないんだけどなんか残念な字形なの?
788デフォルトの名無しさん:2012/10/04(木) 08:53:36.65
>>786
最初からそうじゃなかったでしょ。
つーか最初からそうするなら(UTF-16のように)そもそも重複が生じないように
設計すればよかったって話じゃないの
789デフォルトの名無しさん:2012/10/04(木) 08:55:04.37
http://engineer.typemag.jp/trend/2012/10/fukuyuki-html5.php
ケータイ絵文字でさんざんカオスをもたらした挙句Googleに尻ぬぐいしてもらった
日本のほうが標準化がうまいとか面白いジョークだな
790デフォルトの名無しさん:2012/10/04(木) 09:50:59.80
>>788
演算コストを減らしたかったんでしょ。
UTF-1は重複が出ないようになっていたけど、乗算除算を多用していて演算コストがかかるために破棄され、
新たにUTF-8を作ったんだし。
791デフォルトの名無しさん:2012/10/04(木) 11:25:01.34
>>789
その人にはそう見えたんでしょ。
こちとら83JISの時代から一部のメーカーの傲慢に振り回されてきたっての。
792デフォルトの名無しさん:2012/10/04(木) 11:53:20.73
>789
GoogleはAndroidを売るために絵文字を統一したんだよ
日本のガラケーを滅亡させるために仕組んだTPPなの
尻拭いとか日本人の便利のためとか親切心は全く無い
793デフォルトの名無しさん:2012/10/04(木) 12:16:48.40
俺は絵文字がウニコードに入ったのは今でも微妙と思ってるクチだから、絵文字に関してはあれだが
他の部分でもその人は典型的な「他人と違う視点でもの見れる俺カコイイ」だな
自分的にいい思いつきが浮かんだら嘘を混ぜてでも正当化するタイプ
人のふり見て我がふり直せだな
794デフォルトの名無しさん:2012/10/04(木) 12:16:50.74
>789
トーハン日販まで読んだ
795デフォルトの名無しさん:2012/10/04(木) 12:31:38.75
ぼやき漫才みたいな芸風の「総裁」らしい。
これは取り上げた時点で負けなんじゃないのか?
796デフォルトの名無しさん:2012/10/04(木) 13:19:59.83
ヨーロッパは船頭多くして…をよくやってるような気がするんだがな。
797デフォルトの名無しさん:2012/10/04(木) 15:47:17.06
日本が加わっても携帯電話の無線部、ATM、HD DVD/Blu-rayとか、
まとまらない時はまとまらないって。
798デフォルトの名無しさん:2012/10/04(木) 16:59:21.56
>>790
加算一回増えるのと、冗長表現を弾くチェック入れるのとだと後者が重いし…
799デフォルトの名無しさん:2012/10/04(木) 20:05:28.58
絵文字といえば某連載はその後いかに
800デフォルトの名無しさん:2012/10/04(木) 22:13:18.00
dankogai
801デフォルトの名無しさん:2012/10/04(木) 22:20:50.76
>>798
いやいや。
君のコードを見せてみなよ。
802デフォルトの名無しさん:2012/10/04(木) 23:20:17.33
Hangulのcompose/decomposeなんて除算してるぞ。あんなんでいいのか?
まあ俺は使わないからいいけど。
803デフォルトの名無しさん:2012/10/04(木) 23:40:37.88
>>801
いやいやもなにも加算と分岐なら分岐が重いに決まってるだろ
804デフォルトの名無しさん:2012/10/05(金) 00:34:03.79
いつのCPUだよw
80386か?
805デフォルトの名無しさん:2012/10/05(金) 19:29:24.51
分岐予測は外れるかもしれないし、投機実行はそれだけ資源を必要とする。
加算に比べて分岐が重い処理であることに変わりはない。
806デフォルトの名無しさん:2012/10/05(金) 20:01:17.08
顔真っ赤だよ
807デフォルトの名無しさん:2012/10/05(金) 20:11:43.31
別に間違ってないじゃん
808デフォルトの名無しさん:2012/10/05(金) 21:12:47.81
加算が一番単純だよね。TTLでもできちゃう。
809デフォルトの名無しさん:2012/10/05(金) 21:13:04.96
>>806 おまえが鏡を見てるんだろw
810デフォルトの名無しさん:2012/10/05(金) 21:30:24.65
今は加算も分岐も1クロック。
811デフォルトの名無しさん:2012/10/06(土) 03:53:49.05
>>796 あいつら同一民族ですら一つの国で暮らせないんだぜ
812デフォルトの名無しさん:2012/10/06(土) 09:18:56.26
チョンの話かとおもたw
813デフォルトの名無しさん:2012/10/06(土) 12:49:12.19
日本民族は島国に閉じこもっていることしかできないって自慢になるの?
814デフォルトの名無しさん:2012/10/06(土) 12:53:17.50
当初は分岐など必要ない(重複してたっていいじゃない)と考えてたんだから
1よりゼロのほうが小さいだろ。
815デフォルトの名無しさん:2012/10/06(土) 15:57:15.93
>810
ビットシフトは?
816デフォルトの名無しさん:2012/10/06(土) 17:55:21.06
>>810
分岐ってのは減算+条件ジャンプ相当の処理がいるんだぞ
817デフォルトの名無しさん:2012/10/06(土) 18:18:15.47
>>816
てきとーこいてるやつにマジレスなんかするだけ無駄だよ
818デフォルトの名無しさん:2012/10/06(土) 18:25:52.20
819デフォルトの名無しさん:2012/10/06(土) 18:36:13.41
>>798
この辺から不正とされてる事をわざわざチェックすると処理が重いとか、
おかしな事を言い出してるから無視すれば良いよ。
話混ぜっ返して荒らしたいだけだろ。
820デフォルトの名無しさん:2012/10/06(土) 18:41:33.67
>>819
おかしなことを言ってるのはどっちだよ
有名なセキュリティホールじゃないか…
821デフォルトの名無しさん:2012/10/06(土) 19:14:03.89
普通にcode pointで比較すれば冗長表現だろうが関係無いだろ。
バイナリ比較とか本来ダメな事をやろうとするから、逆に無駄なチェックが必要になる。
822デフォルトの名無しさん:2012/10/06(土) 20:36:01.05
>>821
それで統一できる環境なら幸せなんだろうけど名

ってかそれで統一できる環境ならUTF-8自体要らないか
823デフォルトの名無しさん:2012/10/07(日) 01:13:09.53
このままユニコードを拡張に拡張を重ねてみんなが幸せになれるかどうかを知りたい。
824デフォルトの名無しさん:2012/10/07(日) 02:11:38.23
       //
     /  /   バカッ
     //⌒)∩__∩
    /.| .| ノ     ヽ
    / | |  ●   ● |     
   /  | 彡  ( _●_) ミ 馬鹿には無理
   /  | ヽ  |∪|  /_
  // │   ヽノ  \/
  " ̄ ̄ ̄ ̄ ̄ ̄ ̄(..ノ
825デフォルトの名無しさん:2012/10/08(月) 10:01:44.95
WindowsはUnicodeをサポートしてますが、
符号点が定義されている文字って全部表示出来るんでしょうか?

Windowsにおける外字ってどの範囲を指すのかなと気になって質問しました。

XPの場合、
Windows-31jの範囲以外が外字?
Unicode3.0の範囲以外が外字?

ここでの外字はその環境で表示出来ない文字、という定義で書いています。
826デフォルトの名無しさん:2012/10/08(月) 10:26:02.90
フォントのダウンロードが(ほぼ)自動だから
もう Windows 7 以降なら全部表示可能な気がする
827デフォルトの名無しさん:2012/10/08(月) 14:15:20.97
htmlやメールヘッダのcharsetって文字集合のことではないんですよね
charsetは符号化方式なのですか
828デフォルトの名無しさん:2012/10/08(月) 15:07:37.50
はい
829デフォルトの名無しさん:2012/10/08(月) 15:48:21.14
ISO 646やISO 8859やISO 2022に、符号化スキームを固定した頭で考えると、
文字集合の切り替えだけで済むのでそういう用語になってしまったと思われる。
今はそれを追従する形で公式な用法として認めている。ただし注釈を加えて。

http://www.cam.hi-ho.ne.jp/mendoxi/rfc/rfc2277j.html

IETF Policy on Character Sets and Languages
(文字集合と言語に関する IETF の方針)

> 3. 用語の定義
>
> この文書では、「charset」という用語を、符号化文字集合と文字符号化方式の組み合わせのような、
> オクテット連続を文字連続へ写像するための規則の集合という意味で用いる。
> これはまた、MIME の "charset=" パラメーターにおける識別子として使用されるものであり、
> IANA charset レジストリー [REG] に登録されている。
> (ISO などの他の標準化団体によって使用される用語ではないということに注意。)
>
> 「符号化文字集合」(coded character set) という用語の定義についてはワークショップ報告を参照されたい。
830デフォルトの名無しさん:2012/10/08(月) 16:33:10.24
まあ、そう定義するしかないわな。
831デフォルトの名無しさん:2012/10/09(火) 05:09:40.72
全部が全部で統一しようと思ったら
間違いなくどこかのグループにキチガイが居るからまとまらないもんな
832デフォルトの名無しさん:2012/10/14(日) 17:08:47.79
海外のIMEみたいなのがどうなってるのか知りたい。
833デフォルトの名無しさん:2012/10/14(日) 17:11:49.59
入れてみればいいのに
834デフォルトの名無しさん:2012/10/18(木) 00:53:15.73
unicodeでハングルの領域が邪魔すぎるんだけど
835デフォルトの名無しさん:2012/10/18(木) 01:21:22.20
領域は個人で勝手に割り当てられるわけでも無し邪魔になるような要素無い
でもfontセルフコンパイルで容量喰って邪魔臭いハングル抜きは世界常識
836デフォルトの名無しさん:2012/10/18(木) 16:16:44.99
Jamoだけで機能するのに
837デフォルトの名無しさん:2012/10/18(木) 23:40:54.23
JIS X 0221の改訂作業始まったのか
この機会にあのガチガチな権利保護やめりゃいいのに
838デフォルトの名無しさん:2012/10/19(金) 17:50:23.37
JIS全部の問題だからねぇ
839デフォルトの名無しさん:2012/10/20(土) 01:21:56.86
http://slashdot.jp/journal/557335/

安岡孝一大先生が依拠しようとする 台湾キャラ
現行のU+2051C(T6-353E)の字影は このキャラとしては風前のともし火、
いつまでここにあるか、、
840デフォルトの名無しさん:2012/10/20(土) 09:55:53.60
CNSの6-353Eと戸籍017290か
これ大漢和1480の作りそこないだろ
841デフォルトの名無しさん:2012/10/23(火) 12:33:23.27
真言宗総本山からWG2へ梵字符号化に関しての投稿ってなんか凄いな。
842デフォルトの名無しさん:2012/10/23(火) 14:32:55.02
豆腐代が苦
843片山博文MZボット ◆0lBZNi.Q7evd :2012/10/23(火) 16:55:43.87
MZCで文字コードの問題が解決する!!(Windows限定だけど)
844デフォルトの名無しさん:2012/10/24(水) 00:32:39.83
隔離スレ"UnicodeとUTF-8の違いは?"がすぐ落ちるのは何故?
845デフォルトの名無しさん:2012/10/24(水) 03:32:57.00
テンプレがないから
846デフォルトの名無しさん:2012/10/24(水) 05:08:51.26
でたらめかくな!
847デフォルトの名無しさん:2012/10/24(水) 05:09:30.30
1 名前:デフォルトの名無しさん [sage]: 2007/04/30(月) 20:02:37
ビッグインディアンとかなんとかかんとか

◆前スレ
http://toro.2ch.net/test/read.cgi/tech/1342963035/

◆過去スレ
UnicodeとUTF-8の違いは?
http://pc12.2ch.net/test/read.cgi/tech/1177930957/
UnicodeとUTF-8の違いは? その2
http://hibari.2ch.net/test/read.cgi/tech/1274937437/
UnicodeとUTF-8の違いは? その2 (実質3)
http://toro.2ch.net/test/read.cgi/tech/1291075205/
UnicodeとUTF-8の違い4(インディアン隔離スレ)
http://toro.2ch.net/test/read.cgi/tech/1342963035/


ttp://toro.2ch.net/test/read.cgi/tech/1350688952/1
http://logsouko.com/t/toro/tech/1350688952/ UnicodeとUTF-8の違いは?5
848デフォルトの名無しさん:2012/10/24(水) 10:51:44.07
それ、テンプレじゃなくて過去ログ載せてるだけじゃん
テンプレがないと今はすぐ落ちる仕様だから
849デフォルトの名無しさん:2012/10/24(水) 10:57:04.23
アイちゃんをちゃんと招喚しなかったからだよ
850デフォルトの名無しさん:2012/10/25(木) 00:41:38.60
隔離スレならここにあるじゃん。

文字コードの種類は何故複数あるのでしょうか?
http://toro.2ch.net/test/read.cgi/tech/1093251312/
851デフォルトの名無しさん:2012/10/25(木) 14:38:30.76
852デフォルトの名無しさん:2012/10/25(木) 18:29:52.22
国旗ひどす
853デフォルトの名無しさん:2012/10/25(木) 19:11:20.53
こんな仕様じゃ使えないわw
854デフォルトの名無しさん:2012/10/25(木) 19:13:49.20
西暦文字を新設して国旗文字の後に付け足すとかでもないと使えないな
855デフォルトの名無しさん:2012/10/25(木) 20:18:58.68
リンク先のPDFにも書いてあるけど、あれは国旗用じゃなくて国名コード用
それを実装によっては国旗として表示するかもね、というのが10646のスタンス
国旗用ってことにすると、そこに書いてあるような問題が発生するから
856デフォルトの名無しさん:2012/10/25(木) 21:52:42.05
だけど例えば、
南北朝鮮が統一したり、
統一後にまた分裂したりしたら、
ミャンマー国旗と同じ問題が発生しそう。
857デフォルトの名無しさん:2012/10/28(日) 00:42:42.16
いや、国旗絵文字はISO 3166に依存してるから、
問題が大きくなるも丸く収まるも3166でどう扱われるか次第。
858デフォルトの名無しさん:2012/10/28(日) 10:38:28.60
>>857
違うだろ
文字というのは意味と形の両方がともなってはじめて文字なのに、意味しか定義してないというのが問題の本質だろ。

ISOも所詮は意味の部分でしかない。
859デフォルトの名無しさん:2012/10/28(日) 18:43:49.28
意味しか定義されていない文字もどきなんてUnicode内にいくらでもあるじゃん。
何を今さら
860デフォルトの名無しさん:2012/10/28(日) 19:41:09.45
というか表示を定義しようとすると文字コード関係者で手に負える範囲じゃなくなるでしょ。

>>855のいう「実装によっては国旗として表示するかもね」、というのは
ややこしい問題から逃げてるのは間違いないけれど、
これよりいい実装方法が現実的な範囲に存在するとは思えない。

恨むなら、そもそもテキトーな実装をした携帯キャリアを恨め。
861デフォルトの名無しさん:2012/10/28(日) 19:46:35.32
国名二文字コードや三文字コードを_の用に表す方法がある。
862デフォルトの名無しさん:2012/10/28(日) 19:47:53.54
>>859
今まで問題がなかったとでも?
863デフォルトの名無しさん:2012/10/28(日) 20:59:13.83
あまりにも遍在しすぎて問題として注目するに当たらない、ってことでしょう。
864デフォルトの名無しさん:2012/10/28(日) 21:22:38.82
>>863
なら問題はunicode側にあって、ISO3166は関係ないという主張の反論にはならんないんでは。
865デフォルトの名無しさん:2012/10/28(日) 22:02:59.81
>>864
・Unicodeでは類似例がありふれているので、たとえ悪い状況 (=複数の国旗デザインを区別できない) になっても大きな問題ではない。
・しかし、>>856の問題については悪い状況になるもならないも3166次第。

例えば今は韓国=KR、北朝鮮=KPだけど、
・統一朝鮮がKRを引き継いだ場合→Unicodeで韓国国旗と統一国旗の区別がつけられない (悪い状況)
・統一朝鮮がKPを引き継いだ場合→Unicodeで朝鮮国旗と統一国旗の区別がつけられない (悪い状況)
・統一朝鮮に新しいコード (例えばKO) を割り当て、KR/KPは3166-3に移動→コード重複がないので国旗問題が起きない。

つまり「そもそも問題が起きるか起きないかは3166次第だけど、起きたとしてもUnicodeでは別に珍しくないからいいよね。」ってこと。
866デフォルトの名無しさん:2012/10/28(日) 22:06:56.08
>別に珍しくはないからいいよね
いや、よくはないだろw

あと3166次第なのは確かだけど、3166に丸投げするような仕様がそもそも変っていう話もあるしね
867デフォルトの名無しさん:2012/10/28(日) 22:11:14.24
そして>>860に戻る。
868デフォルトの名無しさん:2012/10/28(日) 22:17:22.97
西暦年付加だと、同じ年にころころ変わった例に対応できないしなあ。ほんといい方法が思いつかない。
869デフォルトの名無しさん:2012/10/28(日) 22:27:47.71
ISOでも抱えきれないものを、Unicodeコンソーシアムに持ってきたら即死だろw
870デフォルトの名無しさん:2012/10/28(日) 22:29:10.06
領土問題にかかわると、ろくな事にならない
871デフォルトの名無しさん:2012/10/28(日) 23:08:57.39
IVSでなんとかしろ
872デフォルトの名無しさん:2012/10/28(日) 23:10:55.88
国旗のデザイン1枚ごとに1文字ずつ割り当てればこの問題は「一応」解決する。
あとは実装の問題なので、文字コードがどうこうできる話じゃない。
873デフォルトの名無しさん:2012/10/28(日) 23:25:18.97
日の丸は中心にある現行版と
微妙に旗竿寄りの明治版の2種類を収録してもらうお

多分日常的に使うptでは区別付かないだろうけど
874デフォルトの名無しさん:2012/10/28(日) 23:30:48.10
国旗化して表示するのは完全に実装依存だからUnicodeの知ったこっちゃないだろ。
ドメイン名から国旗表示するネットクライアントとかよくあるけど、この表示が
おかしいからってUnicodeに文句言われても困る。
875デフォルトの名無しさん:2012/10/28(日) 23:47:03.49
ISO3166は別の国への再割り当てが既に起きてるわけだしどうしようもないな
876デフォルトの名無しさん:2012/10/29(月) 00:33:59.18
いやしかし盛り上がるもんですな
877デフォルトの名無しさん:2012/10/29(月) 06:41:49.66
モルドヴァとかパラグアイの国旗には表面と裏面があるんだが
こういうのはどうするのだ
878デフォルトの名無しさん:2012/10/29(月) 07:21:08.60
何だそれwいろいろあるんだな。
879デフォルトの名無しさん:2012/10/29(月) 10:57:20.36
>>877
当然表だろw
880デフォルトの名無しさん:2012/10/29(月) 11:23:12.21
>>877
アニメーションで両方描く
881デフォルトの名無しさん:2012/10/29(月) 11:45:15.68
>>873 の言っているように
かつては日本の国旗にも表裏があったのだよ
882デフォルトの名無しさん:2012/10/29(月) 13:58:39.37
それ竿に取り付ける分ずらしてただけだろ
883デフォルトの名無しさん:2012/10/29(月) 14:22:10.29
たんに表裏で鏡像になってるだけのものは>>877とは意味が違うでしょ。
884デフォルトの名無しさん:2012/10/29(月) 19:06:41.29
アラブの一部の国を除いて旗竿は左側が標準だということで。
885デフォルトの名無しさん:2012/10/29(月) 19:16:24.49
俺の竿も左側に傾いてる
886デフォルトの名無しさん:2012/10/30(火) 01:40:15.49
>>874
そもそも携帯絵文字の国旗をUNICODEに取り込むときにコードポイントけちるために
国名コードで表現する変な方法思いついただけちゃうんか?
それで実装依存だから関係ないとかありえんだろ。
887デフォルトの名無しさん:2012/10/30(火) 02:14:56.14
ケチとかじゃなくて最初から政治問題回避目的。
予備知識ゼロならまずこれを読め。
http://japan.cnet.com/sp/column_emojipandora/

国旗関係の経緯だけなら↓このあたり。
http://japan.cnet.com/sp/column_emojipandora/20394318/4/
888デフォルトの名無しさん:2012/10/30(火) 08:33:04.24
>>887
それ読んでも本質が見抜けない奴は黙ってろ。
889デフォルトの名無しさん:2012/10/30(火) 09:45:51.09
888ゲットおめ!

おめでたい記念にその本質をきっちり説明していってくれ。本人以外が理解できるようにな。
890デフォルトの名無しさん:2012/10/30(火) 09:53:52.65
ポエムとかかんべん
891デフォルトの名無しさん:2012/10/30(火) 12:40:55.24
>>888
本質はGoogleが日本のガラケー市場潰しのために絵文字を統一したと
892デフォルトの名無しさん:2012/10/30(火) 13:29:49.50
どんな薄手の参入障壁だよ
893デフォルトの名無しさん:2012/10/30(火) 21:16:03.00
ぶっつぶしてくれてむしろ大歓迎だわ
894デフォルトの名無しさん:2012/10/30(火) 22:44:06.42
横須賀通研のガラケー開発はプログラマの203高地だった。
毎日のように死人が出る文字通りのデスマーチ。

日本のソフトウェア業界の未来が縊死していった元凶だ。
895デフォルトの名無しさん:2012/10/30(火) 23:15:27.88
何でケータイってあんなにTRON系ばっかり使われてたんだろうな
Linuxはともかく、NetBSDそのまま使おうとか、そういう意見は出なかったんだろうか
896デフォルトの名無しさん:2012/10/31(水) 07:51:03.82
keyword
東大
御用学者
原発もTRON仕様にしとけば安全だったのに
897デフォルトの名無しさん:2012/10/31(水) 20:06:26.25
すんません、
ドル記号って確か本来縦棒が二本じゃないですか。なのに昨今のコンピュータ上の
では大抵一本しか線がない。でもこれに文句を付けている人はあまりみかけない。
ということはこれに関しては「こまけーことは気にするな」でいいということでしょうか。

実は仕事で中国系のフォントを扱っていたら円記号のデザインが横棒一本
なのがあって、この記号はおかしいというバグを処理する羽目になったのだけど、
これも「こまけーことは気にするな」でいいんでしょうか。
898デフォルトの名無しさん:2012/10/31(水) 20:13:17.99
U+1F4B2
899デフォルトの名無しさん:2012/10/31(水) 20:16:16.84
というか本来2本、ってのは事実なのか?
900デフォルトの名無しさん:2012/10/31(水) 20:34:30.32
ドル記号は縦棒一本と二本のグリフが存在する。
円記号は、日本円は常に横線二本、人民元は一本か二本。

ってWikipediaに載ってた。
901デフォルトの名無しさん:2012/10/31(水) 20:56:36.29
Yにスジ1本はやっぱりダメなのか
902デフォルトの名無しさん:2012/10/31(水) 21:34:34.11
ユーロ記号はわりときっちり形状が定義されていた気がする。
角度とか。
903デフォルトの名無しさん:2012/10/31(水) 22:18:53.85
そういやJISマークはどうなったんだろ。
904デフォルトの名無しさん:2012/11/01(木) 00:05:44.40
>JISマーク

結局のところ、誰かが実用してるわけじゃないものは議論が深まらず結論も出ずに忘れ去られるという好例か
905デフォルトの名無しさん:2012/11/01(木) 00:23:49.54
本屋に行って裏表紙を眺めてみるといいよ。
横一本の円記号で値段が書いてあるものは少なくない。
906デフォルトの名無しさん:2012/11/01(木) 01:52:00.06
漢字に関してはうるさいくせに他の文字や記号類は適当だからなあ
907デフォルトの名無しさん:2012/11/01(木) 06:54:06.87
>>905
うわーほんとだ。言われるまで気が付かなかった(自分が持ってる本で確認)。
結構びっくり。
908デフォルトの名無しさん:2012/11/01(木) 07:57:44.50
JIS X9001を見ろよ
909デフォルトの名無しさん:2012/11/01(木) 09:47:01.90
おれが見るの?
910デフォルトの名無しさん:2012/11/01(木) 10:22:05.79
昔のタイプライターとかだと
Y打ってBSして-だっけ
911デフォルトの名無しさん:2012/11/01(木) 10:38:18.83
そういうのいいなあ
912デフォルトの名無しさん:2012/11/01(木) 11:29:48.92
>>905
『ユニコード戦記』は横線2本
913デフォルトの名無しさん:2012/11/01(木) 16:03:30.55
書体にOCR-Bが使われると横棒一本になる。
914デフォルトの名無しさん:2012/11/01(木) 18:49:02.85
>>913
ああそういうことか。
本の裏のバーコードやISBNに並んでる価格の¥が横一本なのが多いのは。
915デフォルトの名無しさん:2012/11/01(木) 19:06:26.02
同じ内容がバーコードで印刷されてるのに
そこまでOCR記号使うなって気もするけどな
916デフォルトの名無しさん:2012/11/01(木) 19:44:09.11
凝りまくったオールドスタイルの数字とかが並んでてもそれはそれでイヤだろ。
あくまで可読性重視、となるとOCRBは別に悪くない
917デフォルトの名無しさん:2012/11/01(木) 20:08:39.06
JAN規格で目視可能数字にOCR-Bのようなフォントを使うように指示されているらしい
918デフォルトの名無しさん:2012/11/01(木) 20:18:10.41
にゃらるほど
919デフォルトの名無しさん:2012/11/01(木) 21:50:27.29
>>910

そもそも0と1がなかったりしたな。
920デフォルトの名無しさん:2012/11/01(木) 21:54:26.30
lOllOllO
921デフォルトの名無しさん:2012/11/01(木) 22:00:45.50
マルイ?
922デフォルトの名無しさん:2012/11/09(金) 20:07:04.56
いつの間にかISOのサイトで無償公開されてる10646の規格表が2012年版になってるな
923デフォルトの名無しさん:2012/11/09(金) 21:36:57.46
https://www.iana.org/assignments/character-sets
IANA registryにCP50220が追加されてた。
あとすべてのcharsetに"csxxx"形式のaliasが追加されているようだ。
924デフォルトの名無しさん:2012/11/10(土) 02:39:22.27
925デフォルトの名無しさん:2012/11/10(土) 13:21:55.32
OさんはWindowsの事情知らないんだったら
フォントがIVSに対応していませんなんて断言しなきゃいいのになあ
草生やしてる場合じゃないよ
926デフォルトの名無しさん:2012/11/10(土) 17:37:40.97
kwsk
927デフォルトの名無しさん:2012/11/11(日) 01:25:53.35
ogwataが「Window 8の標準フォントはIVSに対応していない(キリッ」とかほざいた。
まあogwataが知ったかぶりでドヤ顔してるのはいつものことだから生暖かく見守っとけ
928デフォルトの名無しさん:2012/11/11(日) 05:28:58.67
>>917
13桁化後はバーコード下の数字じゃないISBN表記の方はOCR-B以外ばかりじゃね?
929デフォルトの名無しさん:2012/11/11(日) 12:47:45.44
「ばかり」ってことはないな。
手元の本調べるとOCR-Bのままのもある。
今時相当変わったフォント以外は機械的に読めるだろうけど、
変える必要もないところだし。
930デフォルトの名無しさん:2012/11/13(火) 08:00:56.49
931デフォルトの名無しさん:2012/11/13(火) 11:25:13.33
ふむ
932デフォルトの名無しさん:2012/11/14(水) 10:29:51.67
やっと終わったのか
933デフォルトの名無しさん:2012/11/14(水) 11:40:39.54
楽しかったけどこういうのって本にしてどこに需要があるんだろう
934デフォルトの名無しさん:2012/11/14(水) 14:17:48.33
数年毎にユニコードの現状の記事を読む度に建て増し温泉旅館の規模がどんどん
大きくなってるんだがいつまでこれが維持できるんだろう。
935デフォルトの名無しさん:2012/11/14(水) 14:47:16.53
UTF-8で符号化できる限りは維持できると思うよ
936デフォルトの名無しさん:2012/11/14(水) 15:06:59.08
太陽系外知的生命体と交信が始まる頃までには
937デフォルトの名無しさん:2012/11/14(水) 15:19:47.66
2020年までに人類は文字コードの悩みから解放するべきだ
938デフォルトの名無しさん:2012/11/14(水) 23:37:14.49
16bitあれば世界中の文字が表現できると言ってた連中はどこに行ったんだ?
939デフォルトの名無しさん:2012/11/15(木) 01:54:32.49
2030年頃には1文字あたり1024x1024のビットマップで扱うことになるから、文字コード自体廃止にしましょう。
文字列検索は画像検索と同じ技術で可能なので、簡単ですね。
940デフォルトの名無しさん:2012/11/15(木) 04:50:14.96
で、数百年後には文字そのものが絵画同然のようなものに回帰していると
941デフォルトの名無しさん:2012/11/15(木) 05:24:25.87
スタート画面ですね
わかります
942デフォルトの名無しさん:2012/11/15(木) 06:43:40.60
>>939
せめてベクタ画像にしてください><
943デフォルトの名無しさん:2012/11/15(木) 16:29:34.17
>>939
そういう時代になっても文字を仕分けする仕事が不必要になるわけではないのです。
同じ技術といっても、文字画像同士を同じ文字とみなす基準を作る仕事自体が、
今のUnicode.orgが文字集合に対してやっている仕事と同じなのです。
944デフォルトの名無しさん:2012/11/15(木) 21:18:56.41
文字の発明とは、離散的で共通な情報の単位でやり取りをすると便利である、
と人類が太古の時代に気付いたことを意味する。
現代人はそれを如何に符号化するかを悩んでいるに過ぎない。
このろくでもない、素晴らしき文字コードの世界。
945デフォルトの名無しさん:2012/11/15(木) 21:31:59.74
まあ字典/辞書作った人も通った道だもんね。
946デフォルトの名無しさん:2012/11/16(金) 00:00:48.38
近現代で新文字創ったのは毛沢東が最後?
947デフォルトの名無しさん:2012/11/16(金) 00:17:35.84
>>946
どういうこと
948デフォルトの名無しさん:2012/11/16(金) 02:55:45.77
>>946
ドコモとかJ-フォンとかが最新だろう
949デフォルトの名無しさん:2012/11/16(金) 05:28:32.87
小説家がしょっちゅう発明してるだろ。
JIS X 0213に収録された&amp;#173111;だってもとは創作漢字だ
950デフォルトの名無しさん:2012/11/16(金) 05:31:48.02
ありゃ𪐷が文字化けした
951デフォルトの名無しさん:2012/11/16(金) 11:41:44.14
一方富樫はハンター文字を作った
952デフォルトの名無しさん:2012/11/16(金) 11:57:39.66
記号含めていいならインドルピーとかが公式に最新じゃなかろうか
953デフォルトの名無しさん:2012/11/16(金) 21:40:08.66
>>952
インドルピーキター
954デフォルトの名無しさん:2012/11/16(金) 22:08:53.45
955デフォルトの名無しさん:2012/11/16(金) 22:38:17.98
ドルピーは「き」
コリラは「も」
テンゲは「テ」
956デフォルトの名無しさん:2012/11/17(土) 02:43:36.79
ていうかISO/IEC 10646を10FFFFで永久に打ち止めにしちゃったのは問題ないの?
957デフォルトの名無しさん:2012/11/17(土) 12:34:02.01
なんで?逆にとめないほうが問題じゃね?
958デフォルトの名無しさん:2012/11/17(土) 14:12:04.56
地球のすべては一応把握できてるから、地球外生物が発見されるまでは大丈夫という事じゃね?w
959デフォルトの名無しさん:2012/11/18(日) 00:43:39.14
>>958
幻想に過ぎん
960デフォルトの名無しさん:2012/11/18(日) 02:08:02.26
>>958
地底人とか。
新しい言語と文字を作る自由とか。
そういえば中国人ってその場で適当に漢字を作って使うって聞いた。
961デフォルトの名無しさん:2012/11/18(日) 03:53:24.87
符号空間を無意味に広く取りさえすればすべての問題が解決するとか
思うほうが幻想というか妄想
962デフォルトの名無しさん:2012/11/18(日) 08:52:56.72
>>958
1つ発見された瞬間に数億〜数え切れないくらいの新惑星に
それぞれの新文字あることが判ったりするかも知れないね
963デフォルトの名無しさん:2012/11/18(日) 09:22:20.92
ワレワレハ思考ヲ直接記録スルノデ
文字ノヨウナ原始的ナモノハ使イマセン
964デフォルトの名無しさん:2012/11/18(日) 13:58:27.74
住基仮名の一覧が安岡さんの日記で公開されてるけど
このデザインのままUnicodeに入るとかなりキツイな…
965デフォルトの名無しさん:2012/11/18(日) 17:23:32.92
現代的にデザイン直しすぎると普通の平仮名と同じになっちゃうものもあるだろうし匙加減が大変だろうね
966デフォルトの名無しさん:2012/11/19(月) 02:47:40.45
用例添付の義務って漢字だけだっけ?
「人名だから出せません」で済ますのか?
住基にはトラッキング機能があるからせめて実際に使われているものだけに
してもらいたいもんだ
967デフォルトの名無しさん:2012/11/19(月) 10:50:31.37
住基の変体仮名をゴシックで書きなおしてみると面白そうだ。
968デフォルトの名無しさん:2012/11/19(月) 23:50:36.97
もう拡張Fのドラフトがはじまってんのか
969デフォルトの名無しさん:2012/11/20(火) 00:40:37.96
1順目
970デフォルトの名無しさん:2012/11/20(火) 05:27:35.45
今回でSIPはおおむね使いきるみたいだな
971デフォルトの名無しさん:2012/11/20(火) 06:00:08.61
もう1面割り当てたとしたらなんて名前になるの
972デフォルトの名無しさん:2012/11/20(火) 07:07:08.83
すでに名前は決まってる。TIP
973デフォルトの名無しさん:2012/11/20(火) 07:24:05.59
VIPでやれ
974デフォルトの名無しさん:2012/11/20(火) 17:10:19.46
Vigenary Ideographic Plane?
975デフォルトの名無しさん:2012/11/20(火) 19:28:39.33
Tertiary Ideographic Plane
976デフォルトの名無しさん:2012/11/21(水) 05:12:21.11
日本語にすると第三漢字面?
977デフォルトの名無しさん:2012/11/25(日) 21:58:48.92
http://slashdot.jp/~yasuoka/journal/559267
安岡は、犬か? 
こいつの研究分野には縄張りがあって、そこに入る場合は菓子折りもって、こいつに挨拶に行かなければならないのか?
978デフォルトの名無しさん:2012/11/25(日) 22:09:29.01
>>977
はあ?URL間違いか?
979 ◆QZaw55cn4c :2012/11/25(日) 22:52:18.06
>>977
どこをどう縦よみすれば?
980デフォルトの名無しさん:2012/11/25(日) 23:16:23.35
>ちゃんと中身を読め。
なんだそうだ
981デフォルトの名無しさん:2012/11/26(月) 00:16:52.34
>>980
kwsk
982デフォルトの名無しさん:2012/11/26(月) 00:47:30.34
産経「安岡の本によると「沢」は旧陸軍による兵士のための漢字らしいよ」
安岡「そんなこと書いてねーよバカ」
983デフォルトの名無しさん:2012/11/26(月) 01:40:27.38
これはしどい
984デフォルトの名無しさん:2012/11/26(月) 10:09:05.28
>>977
TRONキチガイ信者のアンチ安岡は自分のblogで一生やってろ。出てくるな
985デフォルトの名無しさん:2012/11/26(月) 20:21:14.37
>>982
ワロタ
986デフォルトの名無しさん:2012/11/26(月) 20:53:52.71
>>984
http://slashdot.jp/~yasuoka/journal/559306
新井白石で煙にまくのがお好きなようで
987デフォルトの名無しさん:2012/11/27(火) 06:32:47.03
馬鹿には無理
988デフォルトの名無しさん:2012/11/27(火) 09:20:58.33
知ってる古い用例上げるのがけむに巻くなのかよw
989デフォルトの名無しさん:2012/11/27(火) 12:12:45.96
>>771
>住基統一文字の字数を「21166字」から「21170字」へ、
>Unicodeに無い「残りの5787字」を「残りの5791字」へそれぞれ変更しました

なんだコレ?
990デフォルトの名無しさん:2012/11/27(火) 19:01:40.97
数え間違いがあったか新たに4字見つかったか包摂解除されたか
司令塔が迷走してるのかもしれないけど
991デフォルトの名無しさん:2012/11/28(水) 00:30:14.17
次スレどこ?
992デフォルトの名無しさん:2012/11/28(水) 20:21:12.17
スレ立てしくじった

とりあえず隔離スレに誘導
http://toro.2ch.net/test/read.cgi/tech/1093251312/
993デフォルトの名無しさん:2012/11/28(水) 20:33:25.90
>>984 みたいなアンチ「アンチ安岡」って何なの?
そんなに安岡が好きなの? 安岡の愛人なの?
994デフォルトの名無しさん
失せろゴミ