mozc / Google 日本語入力 #3

このエントリーをはてなブックマークに追加
899login:Penguin
どうでもいいことなんだけど、mozcの辞書は「Google日本語入力」の辞書から
固有名詞なんかを抜いているらしいけど、その基準って公開されている?

たまたまアイドル声優の「悠木碧(ゆうきあおい)」を変換したら一単語として一発で変換できた。
なのに同じようなアイドル声優の「竹達彩奈(たけたつあやな)」は変換できない…

Google先生によると
・悠木碧 1,666,000件
・竹達彩奈 2,550,000件

もちろん、辞書登録しているとか言う訳じゃないよ。
ちなみにGoogle 日本語入力ではどちらも一発変換。
900login:Penguin:2013/09/07(土) 01:13:47.10 ID:7wf4CPUQ
>>899
変換できない方はアイドル声優じゃないからだろ
901login:Penguin:2013/09/07(土) 02:04:55.66 ID:xpfKq7zI
>>899
Mozc辞書は、「抜く」というより、「Google日本語入力用辞書データ用に調整してない(する前の状態)」って言ったほうが
が近いんじゃないかね。
声優の人名みたいな固有名詞レベルで違いがあると聞くとどんな調整が入ってるのか気にはなるけどね。

Mozcの中の人は固有名詞レベルでの基準は説明してないと思う。
http://code.google.com/p/mozc/wiki/AboutMozc
902login:Penguin:2013/09/09(月) 00:50:30.25 ID:zqA0VU7O
>>899
http://googlejapan.blogspot.jp/2010/05/google_10.html

mozcの辞書は「基本的に IPAdic と同一です。
そのため、固有名詞以外の変換精度は Google日本語入力 とほぼ同一です」

要はIPAdicに入っているかどうかが収録基準
調べてないけど「悠木碧」はIPAdicに入っていたのかも

ただ、実際は固有名詞以外の変換精度もGoogle日本語入力のほうがいい
あとで方針が変わったのか、
「固有名詞」と機械判定された単語の中にそれ以外のものが混じっているのか、
それは分からない
903login:Penguin:2013/09/09(月) 01:04:07.28 ID:Oat5bQ1T
>>900
お前、あずにゃんに何てことを
904login:Penguin:2013/09/09(月) 02:45:21.62 ID:bglIjdWW
>>902
> mozcの辞書は「基本的に IPAdic と同一です。
> そのため、固有名詞以外の変換精度は Google日本語入力 とほぼ同一です」

この書き方気に入らないな。この「固有名詞以外」って「一般名詞」て意味かね?
コロケーションデータを事実上持ってないMozcの、「文節変換精度」がGoogle日本語入力と
同じなわけ無い。
IPAdicは2007に公開されてそれっきりだから、固有名詞に関してはまったく期待できないね。