テキスト入力専用ツール 「ポメラ」 Vol.10

このエントリーをはてなブックマークに追加
7227
atok.dic 解析の途中メモ
・この辞書は独自フォーマット(古いatokのユーザ辞書とも互換性なし)
・4桁の16進数値はファイルオフセット
・格納形式はリトルエンディアン

0x2410,1 登録データ長
0x2412,3 登録単語数

[不明なデータ]
不規則に変化する。
0x2576,7 ffff 登録単語数 : 0,1,7 のとき 0000 登録単語数 : 2 のとき
0x2578,9 ffff 登録単語数 : 0,1 のとき 0500 登録単語数 : 2 のとき 0000 登録単語数 : 7 のとき
0x258e,f ffff 登録単語数 : 0 のとき 0000 登録単語数 : 1 のとき ffff 登録単語数 : 2 のとき

[辞書本体]
0x2614〜ユーザ辞書本体
 [文書トークン] [半角カタカナのバイト長] 半角カタカナ 漢字、の繰り返し。
 DM20の辞書登録数は1000個なので(読み7文字、語句7文字の場合)、 1+1+7+14 として 23,000バイト程度まで?(ファイル末端までは23988バイトあるので文書トークンが1バイトだと丁度になる)
■登録単語数とユーザ辞書本体の間の用途が不明。乱数表にでもなっているのか?
■最初、文書トークンが品詞を表すと思っていたが、訳の判らない法則に従っている。