【FEP/IME/ワープロ】日本語変換システムの辞書を語れ
主に辞書内容について想定しているが、 かまわず自由に語れ。
おう、自由なこと語るぞ 何というか、構造的に文意を理解するための通常の品詞体系とは全く別物のさ、 かな漢字変換に特化した品詞体系、とかなんとかいうものが、もしかしたらあるかもしれないかもとか 思ったわけだ、たわけだ
>>2 いきなり的に本質的なところにきたな。辞書というより、本体の解析機能に
関わる部分かな。
かな漢字変換はかなonlyの文章を、見た目で適切な漢字交じり文に出来れば
いいので、たとえば「でぶはぴざでもくってろばか」と打ったとして、
でぶはぴざでもくってろばか デブはピザでも食ってろ馬鹿:固有名詞
みたいな辞書内容があれば、解析などせず発一で見た目オーライになるはず。
このへんは形態素解析の茶筅などとは事情が違うところじゃないかと思われる。
しかし、おみおつけ(味噌汁)=お_み_お_つけ スーパーハイデラックス
みたいなことまではしないのかな。
辞書を小さく≒検索を速くするために、ひらがな列を解析するということで その用に足るだけ、"ひらがな←→漢字対応"以外の辞書要素が要る、というわけですな
5季ぶり快勝 →ゴキブリ解消 その辺大変でしょ?→その変態変でしょ? 地区陸上大会 →チクリ苦情大会 電車間に合いそう →電車マニア移送 こういうのをなくすには?
>>5 さんの例文はどれも助詞が省かれて連語的な言い回しをする個性的な文だと思う。
たとえば、「ゴキブリ解消」は、「ゴキブリに改称した鹿島アントラーズ」→
五期ぶりに・・・という感じ。いまATOK使ってるけど、ゴキブリは頻出単語
扱いなんだろう。
この解決方法だけど、「丸ごと登録法」で、いくつかの文節を助詞が含まれる
ことを無視して丸ごと登録しちゃう。慣用句とか名詞とかで丸ごと登録すると、
変換システムが文法解析するときに、打った文章が固有名詞とかで丸ごと辞書から見つかる
と、そのまま出してくるので、逆手にとって、解析システムに考えさせる
ことなく、問答無用で丸ごと出させちゃうわけです。
こうすると、
>>4 さんがいうように、なるべく細かくかな文章列を解析して
辞書の単語の使用効率を上げるよう(辞書をコンパクトに出来る)にする
思想に反するわけですけど、結果として使い勝手がよくなるはず。
つづく
じゃ、フレーズをいちいち丸ごと取り込んでいたら、それこそ辞書登録が 大変で、パンパンにふくらんでしまうじゃないか? という感じがするわけですが、 実際そうではないということが個人的な実験ではっきりしているのです。 人間が? 常用する語彙の範囲というのは、たぶん6千〜8千くらいだと思われます。 これはアマゾンのようなネットショップはロングテールで勝負するなんていわれますけど、 縦に使用頻度、横に語彙数を取ったグラフと、商店の売れた個数とアイテム数のグラフは似ていて、 数千(コンビニが4000くらいか?)あたりまではよく売れる商品だが、後の方は売れないことはないが 売れても年に数個、みたいなアイテムが20万〜100万以上ある、みたいな調子で、これは 日本語辞書の単語の出現頻度と同じだろうと思うわけです。 個人的によく使う語6000というやつの、数は誰でも6000だけども、その内容は ずいぶん個性により差があると思います。 メーカーは、その個性の差を吸収できるよう、どんどん語彙数を増やして、一個人 にはロングテールの領域に属する単語もきっちり収録しないと、変換できないという クレームの嵐に悩むのだろうと思います。 つづく
もし、医療の分野で話題になる「オーダーメイド医療」みたいなことを辞書に 適用すれば、先ほどの「辞書内容の効率を上げる工夫(システム本体 の解析力の強化)」とは別に、「辞書が冗長になっても、結果オーライの 変換結果優先的辞書登録で辞書がふくらむ」とはいっても、6000を カバーすればいいわけですから、そんなに心配はいらないわけです。 しかし、他の人が使ったら、「クソつかえねー」辞書ではあろうと思います。 しかししかし、似たような境遇同士、たとえばアニメお宅のフリーターとか、 スポーツジャンキー名一だとか、てっちゃんだとか、そういう人同士 であれば、これは強力だと思うわけです。 で、6000という数なんですが、自分で辞書登録してもそのうち作れちゃう (手が届く)範囲なのですよ。 で、今ちょうど、オーダーメイド辞書たちのなかでも、さらにその辞書群 で共通するであろうという単語だけで出来ている辞書の作成目指して取りかかった ところなんで、ちょっと語ってみました。
>>5 私的には、
きぶり:季ぶり:助数詞
きぶりかいしょう:季ぶり快勝:慣用句
そのへん:その辺:名詞
たいへんでしょ:大変でしょ:慣用句
ちくりくじょうたいかい:チクリ苦情大会:名詞
でんしゃまにあ:電車マニア:名詞
でんしゃまにあいそう:電車マニア移送:名詞
で登録。電車マニア移送なんてそっくりそのままですが、必ず後で
使うフレーズだと思いますよ? 使わなくなっても、昔語り始めたら
また出てくるはずだから、オーダーメイド辞書的には丸ごと登録。
文章を丸ごと登録、ではないけれど、 IME 2007は、 2単語ではなく、3単語の関連を学習する「Trigram/SLM」という理論を使っているらしい。 だが期待とは逆に、使い込むほどにとんでもない誤変換が頻出して、ダメダメだそうだ。 これは一体どうなってるんだぜ?
>>10 私は15年くらいの過去からやってきました。その過去でも係り受けだのAI変換だのいろいろ
ありました。
一般論としての方法論ではそういうやり方を追求しないといけないでしょうけど、個別(ケースバイケース)
では、丸ごとでOKなはず。
オーダーメイド辞書ではかなり個性的な登録もOKだとおもうけど、本体の文法解析はそれじゃいけないかも。
逆に、文法にあわせて言語を使えと、ユーザーに指示するようなものくらいでないといけないかも。その意味では、
自動的に例外を学習するものは誤変換の荒らしになってしまうことも想像できる。打ってる人の文法が
ぶれているととらえたら、それを学習させてしまうのはマイナスのはず。
オーダーメイド辞書の発想の一つは、国会の速記をワープロでやってる人たちの話。「というふうにおもわれます」とか、
おきまりのフレーズは「ひとまとまりにして指が自動で動くように」してるらしい。
ということは、打ってる人が自動でやってるなら、変換の方も思考課程0でおきまりの文を表示して次に進む方が
合理的。むしろ、誤変換がでて、文節区切りのやり直しなどに気を取られるのは大きなブレーキ。
必要以外の語を登録しないか変換禁止フラグを付けて候補にも出さないってやり方は、出版・報道・速記などの
分野ではかなり有効な手段のはず。
明確な用字用語の方針を打ち出しておけば、オーダーメイド辞書はぐっと作りやすいはず。
なんか2単語間の連関と3単語間の連関で遊んでた記事があったような 言語関係じゃなくて、パソコン関係だ、黎明期の。
13 :
名無し象は鼻がウナギだ! :2007/12/13(木) 03:05:21 0
おもしろい あげ
>>12 単語の関連も、語数を増やしていくならすなわち単文。atokも2008が出るとかで
専用スレを覗けば例文の変換例がぞろぞろ。これも黎明期? から延々やってるのか
とびっくりする。自分なら例文を短文登録して一発で出す。
メーカーが万人を相手に製品を出すならあれこれ辞書内容を節約しつつ工夫がいるでしょうけど、
個人の辞書はオーダーメードでいいはず。
あと、一個人の語彙の範囲はそんなに広くないと言うところが、個人辞書にこだわる一つの理由。
文章のくせもそう。
つづく
先日、基本辞書を0から自作することにしたのですが、それに必要な空辞書は WXGには添付されており、MS-IME2007では辞書ツールに作成機能があることが わかりました。 0からの作成は昔やったことがあります。手を付けてみると、いろんなノウハウが思い出されてきます。 手順は最初ある程度の数エディタで一気に作り上げて一括登録し、その辞書を実際に使いながら文章を 打ちつつユーザ登録とエディタでファイルにしてがんがん登録していきます。 語彙が少ないうちはひらがな一文字をその読みで登録しておかないとシッチャカメッチャカな変換になります。 単漢字変換が使えない・使わない環境なら、適度な読みで単漢字を網羅しないといけないです。 動詞など、かなに開く場合でもひらがなで登録しないとだめです。特に用言はくまなく網羅しないとだめです。 この作り込みが使い勝手に直結します。体言は多くても少なくてもあまり変化はないです。用言が不足している と、文法解析が出来ずにめろめろになってしまうようです。 言語の体系は用言が骨格になっていて、体言は樹形で言うところの葉っぱの一つ一つではないかという感じです。 用言は網羅する必要がありますけど、幸い数が少ないので、個人で作成しても何とかなります。用言が 使い心地に直結するならば、助動詞などの扱いは特に大事なんだろうと思いますけど、このへんのからくりは メーカーの つづく
極秘事項なんでしょうね。基本辞書に秘匿で収めてあるのか本体のデータ領域に格納してあるのか うかがい知ることは出来ないのですけども。このあたりのことに首をつっこむとおもしろくて辞書どころじゃ なくなるかもしれないので、あえて考えていません。 それにしても、ずいぶん前にこのあたりの話が出たとき、「数年前の論文レベルだなぁ」って話が出ていて、 そうであるならば、国立の大学のそういう分野のところでは研究されているのだろうし、ある程度プリミティブ であっても変換システムの試作位しながら何らかの発表はされているのだろうし、少数のメーカーが 牛耳っているような状況はおかしいような気がします。 あと、辞書の作り込みは作る人ごとに色が出るからはまる人にははまるのではないかと予想するのですが、 あまりやる人がいないのはなぜだろうという疑問があります。 つづく
用字用語のことをちょっと調べると、出版関係や公的機関の出す文書の基準なんていうのは なるべく漢字を使わない方向に向いています。 出版関係では校正段階で漢字をかなに開く作業を盛んにやるようで、それならば最初から かなに開いた形で変換される辞書を用意しようという考えが出てくるし、作りやすい気がします。 しかして、学習漢字、当用漢字、常用漢字なんて縛りをかけると、行き着く先は「ゆとり教育」では ないかとかんがえることもできます。 ワープロやパソコンの日本語変換で漢字がどんどん出てくるので、積極的に漢字を使おうという 人も出てきたわけですけど、最近の漢字検定なんかの人気を聞くに及んで、これも一つの方向かなと おもうときもあります。 小学生向けの辞書を調べると、動詞も結構漢字で書くようになっていたりで、個人的にはいろいろと再発見が あります。 一気にいろんなことを書いてしまいましたけど、今日はこのへんで。
別なスレ見てて、よくある誤変換や誤入力らしき後に「もしかして〜ですか」という
コメントを表示させるための辞書を作成しようというアイデアが浮かんだ。誤用辞典?
googleの検索などはどんなアルゴリズムで出してるんだろうか?
>>14 のような全部登録というやり方は、たとえばSKKという日本語変換システム
では単語の定義を"文法的知識に頼らない辞書を作る"ということで、"一文を
適度な位置で区切ってそれをひとまとまりに単語とする"ような方針をとっている
みたいです。
弟から算数の宿題の答えを聞かれたときに「考え方の説明」をやっていたら
「おれはそんなことは聞いてないっ、答えは3なのか4なのか!」って言われて、
世の中には徹底した実利中心主義を取る人がいるんだなって思ったことがあります。
SKKの生い立ちを読んでいたら、コンピュータ的に日本語環境のない国にいかなければ
ならない理由ができて、2〜3週間でとりあえず使える日本語入力環境を自力で作ることに
なったとありました。文法がどうのとか関係なくて、とりあえず漢字まじりの文章が入力
できればよかったんですね。
1985年の出来事だったそうですが、無駄な思考抜きで直截的に入力できる
手段として現在も愛好家がいるというのだから、面白いと思います。
つづく
Japanistが届いたので入力予測を使ってみたら、携帯電話の日本語変換が 搭載しているような、過去入力(確定)されたつながった文節をずらっと候補に 出すというものでした。これは話を聞くだけでは滑稽な機能に思えますが、 かなり強力です。自分の文章の癖は自分が持っている限られた語彙の範囲 で作られるので、一度確定した文節の連なりは、繰り返し使用されることが 多いというのを痛感します。携帯で書き込んだら規制がかかっていて入力文 が消えてしまったことがありました。別な経路でまた書き込み直したのですが、 同じことをもう一度入力しようとしたら先ほど打った文章が入力予測の変換候補 に次々と現れ、結局、候補を選ぶだけで失った文章を再び入力することができたという 経験もあります。 誰かが思いつくようなことは、別な誰かが必ず思いついていて、さらに誰かが実験している ということですよね。 昔、PIN-INとかあったんだけど、どうなってるんだろう。 和文タイプみたいに、かなを打つ途中で、漢字だけを直接コード指定のような 方法で出す人も絶対いると思うのだけど、まだ見つからないです。2ストローク でダイレクトに漢字を出す人がいたはず。
頭・を・丸めて・お詫び・してるじゃないか・し・て・お詫び いた・二人・も・民営化・してるから・し・て・お詫び・・・ 牛・は・建設・ラッシュ・だし・。・この前・大臣・が・なんとかしろよ・し・て・お詫び・・・ ↑携帯でそれぞれ「あ、い、う」と打って出る候補をそのまま打ってみた (「・」は後から入れた。どんなスレ行ってるかわかっちゃうね)
>>19 > 和文タイプみたいに、かなを打つ途中で、漢字だけを直接コード指定のような
> 方法で出す人も絶対いると思うのだけど、まだ見つからないです。2ストローク
> でダイレクトに漢字を出す人がいたはず。
俺。
2ストロークから、2・3ストローク混在に転向したけど。
・単語の読みを誤って入力 ・「づ」を「ず」と誤入力 ・ローマ字入力モードでアルファベットの綴りをそのまま入力 ・IME側の設定で「LE」に「ぇ」を割り当てているにもかかわらず、「れ」と入力するつもりで 「LE」とタイプして「ぇ」と入力 ・上記のミスの複合 これらへの対策に加え難読な単語を音読みで入力・変換できる人名辞書を作ってみたが、 登録件数が膨れあがって管理が面倒になった。
人名辞書の場合、総当たり戦でやろうとすると、 博覧強記的力作業になりそうだったから、逆に考えることにしてみた。 どういうことかというと、名前の漢字を単漢字でとらえ、 一文字づつ丹念に読みを拾っていく登録。 使うときはトーナメント表を上るみたいに一文字づつ変換していく。 こうやってみると、人名のほとんどはお決まりのパターンじゃないかと思う。 ここまでは単漢字辞書。 かなの名前や特殊な当て字、夢と書いて希望とルビを振るようなアニソン風の 特殊なものは国語辞書のユーザー単語。 これでバッサリいけないかな?
24 :
名無し象は鼻がウナギだ! :2008/05/06(火) 15:48:53 0
skkの再帰辞書登録は神
ho
27 :
名無し象は鼻がウナギだ! :2009/03/15(日) 01:57:08 0
Social IMEの辞書は混沌の坩堝なのかな
28 :
名無し象は鼻がウナギだ! :2009/03/17(火) 15:31:32 0
spacebar での 変換は やめて くれ、 分かち書き が でくない。
29 :
名無し象は鼻がウナギだ! :2009/09/15(火) 19:25:13 0
IMEうんぬん言ってる人いるけど日本人ならATOK使おうよ My糞が中国に作らせた日本語IME使ってて気持ちいい?^^ ATOKは変換も使いやすいしカスタマイズも出来る それと、何と!登録した単語を失念しないでちゃんと使う事が出来る!(笑) IMEは勝手にどこかに消えてしまって使えないよね しかも登録し直そうとすると「すでに登録済みです」と出て全く訳がわからない^^;; IMEを10年以上使っててわかった事はATOKが非常に上手く作ってあるって事です ATOKとRealforceを導入してから仕事疲れが激減したのは言うまでもありません
30 :
名無し象は鼻がウナギだ! :
2009/09/16(水) 02:03:42 0 Wakatigaki o suru tame ni Space Bar de henkan o sinai you ni site hosii, Space Bar de no henkan wa dare ga hazimeta no ka, orokana koto o sita mono da, aratamete sikarubeki mondai dana.