日本語IMEとかの開発って

このエントリーをはてなブックマークに追加
1名無しさん
プログラマだけじゃなくて言語の専門家もはいってると思うんですけど、
どう言うタイプの専門家がどんな風にどの程度関与しているものなのでしょう。
2名無しさん:2000/04/03(月) 14:39
ATOKに関してなら前に何かで読んだけど、
ちゃんと專門に研究してる人が、
常時、携わってるようですね。
一太郎も一緒に使うと、それがどの程度の水準のモノか
実感出来ると思いますよ。
案外、馬鹿にしたもんじゃありません。
3SVOC:2000/04/12(水) 21:07
ATOKに関しての記事を、ちょっと前の「ASCII」(たしか月刊)
で読みました。そのうち単行本になるのでは?
開発には筑波の先生が関係しているらしいです。
IMEの生命線となる語彙については、
始めのうちは一人のある作家の語彙を基準にして構築、
バージョンが上がってからは辞書学(というのがあるらしい)の
先生によって磨かれているらしい。
ちょっとうろ覚えだから、正確さは保証できませんが。
4桃李:2000/06/27(火) 02:04
 情報系には自然言語処理という分野があります。略してNLP
IMEの開発には、情報処理の技術が必要なので、必ずかかわっているでしょう。
ちなみに、IMEは、形態素解析+αです。ATOKはかなり精度がいいので、
辞書作成には言語学者もかかわっているでしょう。ただ、IMEは速度が要求されるので、
複雑なアルゴリズムは出来ないです。
辞書は、詳しくはわかりませんが、新聞記事などいろいろなソースから集めていると
推測されます。
5名無しさん@1周年:2000/06/28(水) 05:29
以前、日本初のワープロ開発物語みたいなやつを雑誌で読んだことがある。
産学協同(東芝、沖電気、どこかの大学の教授)で、開発をすすめていたらしく、
辞書に関しては、その教授(教授の専攻分野は失念)が女子学生集め、
共同作業で開発したらしい。

辞書に関しては、当初は、既存の辞書(本)のデータを、
そのままデータとして打ち込めばいいと考えられていたらしいが、開発しているうちに、
「小中学生」とかいう簡単な言葉さえ(いや、簡単な言葉ほどと言うべきか)
既存の辞書にはないため、一から開発する必要があると判断し、一から作ったそうだ。

余談だが、
その教授は変わり者だったらしく、女子学生集めて辞書を開発している時も、
周りの教授達は、「アイツ、また何か分けわかんないことをやっている」
って感じでバカにしていたらしい。

#この話、雑誌で読んで凄く感動した。
 この教授がいなかったら、日本語ワープロの登場はかなり遅れただろう。
 ぜひプロジェクトXでとりあげてくれ。>NHK
65:2000/06/28(水) 05:33
5の補足訂正。
女子学生集め−>ゼミの女子学生を集め
失礼。
7名無しさん@1周年:2000/06/28(水) 20:28
 いまは辞書つくりどうしてるんだろう。
手作業やってるのかな。
たぶん、コーパスから、拾ってるのではないかな?
昔と違って、電子化されたデータ(&タグつけ)、コーパスが多くなってきたので、
ほとんどはコーパスから、+手作業によるチューニングじゃないかな?
>5
手作業による辞書つくりがいかに大変か、想像もつかない・・・NHKでやってくれないかな?
NHKって東大と仲いいようだから、無理なのだろうか。

どのようにしているかは、形態素解析ですが、ここに問い合わせたらいいと思います。
http://cl.aist-nara.ac.jp/index.html
8名無しさん@1周年:2000/11/20(月) 18:19
FEPあげ。
9名無しさん@1周年:2000/11/20(月) 22:51
>>8
現在のIMEはフロントエンドじゃなかったような…
10名無しさん@1周年:2000/11/21(火) 15:32
>>9
DOSの人なんでしょう
11名無しさん@1周年:2000/11/27(月) 11:43
>5
たぶん、それ、うちのゼミの先生です(すでに退職)
ゼミの女子学生を集めたのは、そこが女子大だからです。
研究者じゃないのでうろ覚えですが、
「計量国語学会」に参加している先生方が、言語学の分野から
自然言語処理に携わっているんだと思います。

今の辞書作り、末端でかかわることが多いですが、
手作業は大変です。泥塗れの力仕事です。
12名無しさん@1周年:2000/11/27(月) 12:41
どうでもいいけど、
「どらえもん」と打って「ドラえもん」と一発で
変換できたのには感動した覚えがある。
13ドラ得紋:2000/11/27(月) 15:16
>>12
松茸はやっぱりアホだ。
145:2000/11/30(木) 07:22
>>11
一月ほど前、NHKのWEBサイトにある
プロジェクトXのアンケートコーナーに投稿しました。
5で書いたワープロ開発者についての特集をやってくれって。
・・あんまり期待できないけど

そのうち、あなたの学校へ取材がくるかも。(ワラ
15名無しさん@1周年:2000/11/30(木) 16:07
IME開発の方から日本語学へのフィードバックって
あるのかしらん。
16名無しさん@1周年:2000/12/03(日) 08:55
>11
水谷静雄氏?
17名無しさん@1周年:2000/12/04(月) 02:53
ちょっと前の月刊アスキーにAtokの開発委員の記事が数ヶ月
連載されてたことがあったよ。それ読んでみればどういう人が
どんな風に仕事してるのかよく分かる。
18名無し象は鼻がウナギだ!:2001/02/20(火) 00:33
あげ
19名無し象は鼻がウナギだ!:2001/02/28(水) 12:01
IMEの辞書って何語くらい入ってるんですか
20名無し象は鼻がウナギだ!:2001/03/03(土) 02:21
わいせつな単語はどれくらい入ってるんですか
21名無し象は鼻がウナギだ!:2001/03/26(月) 04:25
>>20
[知っていると便利な女性器の主な隠語]

  穴、赤貝、赤烏帽子、赤団子、赤門、あけび、あぐら開き、上がりぼぼ、
 あさぼぼ、葦原、天岩戸、穴熊、あわび、あわびくぼ、あらばち、蟻の門
 渡り、青田八反、あたたかまんじゅう、空家、合わせ貝、泉、池、猪、磯
 巾着、淫門、厩、うなぎ開き、大口、おかんこ、奥の院、御香箱、お黒も
 の、おとし穴、斧きず、お鉢、大皿、お箱、落ちくぼ、おまんじゅう、お
 まん、おまんこ、おめこ、おちゃっぴい、かくしどころ、かくれどころ、
 かんこ、観音、開帳、歓器、柏餅、かわらけ、皮財布、貝、蟹、きず、巾
 着、玉門、客間、局所、くぼ、くみど、くぼみ、くど、桑名、くるみ、栗、
 毛雪駄、毛巾着、毛まんじゅう、毛靴、毛桃、鯉口、御秘蔵、木ノ実、故
 郷、香開、細工場、さかずき、ささげ、三寸、三角、逆さ富士、逆さ舟、
 鞘、蜆、四十八ひだ、しなたりくぼ、しも、下の口、品物、朱門、女根、
 すずり、すだれ、巣、すり鉢、せり箱、そそ、空、そら豆、空割、たれ、
 たま、谷間、大衆風呂、足袋、たらい、丹穴、茶碗、茶釜、茶壷、筑紫つ
 び、ちゃんこ、ちゃんべ、ちょこ、ちんつび、つびたり、つぼみ、つぼ、
 つか袋、露穴、鉄開大明神、兜巾、戸口、洞庭の月、洞門、道具、常闇、
 とさか、戸立、薙刀、情所、内陣、なま貝、奈落、肉まんじゅう、如来、
 沼、のこ、乗合舟、畑、蛤、花、はじけ豆、はりま鍋、火消壷、ひなさき、
 びり、菱餅、秘境、人穴、船霊、風呂、舟、ふいご、篩、へき、べにうす
 ざん、へへ、へっぺ、べっちょ、へその下、べこ、ほと、ぼぼ、ぼぼじょ、
 ほがみ、報謝開、ぼぼっこ、牡丹餅、ぼっしょー、ぽっぽ、ぽっぽじょ、
 ほほまる、ほら穴、豆、前、前のもの、幕の内、豆蔵、みほと、みと、め
 めこ、めめっちょ、めめっちょ舟、めこ、木魚、門、もやもやのせき、も
 の、ももんじい、桃、ももんがあ、薬研、山伏、やち、やけ、やち箱、よ
 ね、よねこ、よに、よね饅頭、わにぐち、笑いぐち、わらじ、われ
22名無しさん@1周年:2001/03/31(土) 05:19
携帯電話のかな漢字変換はどのくらいの精度ですか?
23名無し象は鼻がウナギだ!:2001/04/01(日) 01:58
IMEに覚えさせるものによっては
他人に使わせるのが躊躇われるマシンと化す
24名無し象は鼻がウナギだ!:2001/04/03(火) 22:21
IMEの辞書にオマエモナーとか入っていたら、そいつは2ちゃんねらー
25名無し象は鼻がウナギだ!:2001/04/03(火) 22:46
>>22
ぼくの持っている携帯電話のかな漢字変換では「ちん」と読む漢字の候補
に「朕」が入っているのですが、携帯メールで「朕」の字を使うことって
ほとんどないような気がする。
26:2001/04/03(火) 23:00
使え。
27名無し象は鼻がウナギだ!:2001/04/10(火) 02:13
携帯最近入手したけど、技術は進歩したのだなと思うよ。
パソコンに漢字ROMがオプションで携帯電話がカステラの箱みたいだった時代に比べると。
28名無し象は鼻がウナギだ!:2001/04/11(水) 01:12
日本語を下げるやつら、みんな逝ってよし!!!!!!!!!!!!!!!!!!!!!

29名無し象は鼻がウナギだ!:2001/04/11(水) 18:39
「日本語を下げる」って何?
30名無し象は鼻がウナギだ!:2001/04/12(木) 00:21
「言霊」といって、それを粗末にするものは命をも粗末にするのだ、
若者。

ま、どんな言葉を使おうが、本人の勝手だがな (w

それにしても(藁)って言葉はどっから来たんだい。これは厨房言葉にする
わけかな。厨房という言葉はどこに分類するんだい。「逝ってよし」は
いったいどこに分類する??????????????????????????????
31名無し象は鼻がウナギだ!:2001/05/18(金) 00:14
あぐえ
32 :2001/06/22(金) 01:59
 
33名無し象は鼻がウナギだ!:2001/06/22(金) 04:03
鯖威張る中
34名無し象は鼻がウナギだ!:2001/06/22(金) 11:38
後はよろしく名

名前の名がいつもでてくる。
35名無し象は鼻がウナギだ!:2001/06/25(月) 02:46
もっと
36黒田 亘:2001/06/28(木) 08:44
>25
「朕」の意味は,天使が自分を指して言う言葉。常用漢字表にある。
37黒田 亘:2001/06/28(木) 08:46
上の内容を次のように訂正します。
>25
「朕」の意味は,天子が自分を指して言う言葉。常用漢字表にある。
38名無し象は鼻がウナギだ!:2001/06/28(木) 09:06
25です。
>>37

だから何なのよ。
「朕」が常用漢字表にあるのは知ってるけどさ、なんで携帯のIMEにこの字がなけれ
ばならないのか、疑問に思ったわけよ。
携帯メールで「朕」なんて、冗談以外に使うか?
あ、冗談で使ってくださいってことか。それならわかる。
39名無し象は鼻がウナギだ!:2001/06/28(木) 09:21
「もーむす」を変換すると「モー娘。」になるのに感動した。 ATOK14
40名無し象は鼻がウナギだ!:2001/06/28(木) 09:40
ATOKとIME両方とも「いばらき」を間違って「いばらぎ」と打っても「茨城」に変換してしまうね。

いばらき県ホームページ
http://www.pref.ibaraki.jp/
41名無し象は鼻がウナギだ!:2001/06/28(木) 10:45
楽しそうな仕事ダナー
42名無し象は鼻がウナギだ!:2001/06/30(土) 06:11
関西弁がまともに変換できるIMEはあらへんのか!
43名無し象は鼻がウナギだ!:2001/06/30(土) 06:39
>>42
口語表現を正しく変換するのに大変で、そこまではとても間に合ってない。
44名無し象は鼻がウナギだ!:2001/08/16(木) 20:44
あげる
45名無し象は鼻がウナギだ!:2001/08/16(木) 21:25
あがってるので、つい。
買って来たときに完璧であることを期待するのは無理無理。
辞書はユーザーが育てよう。
MS−IME使っていて、文語を打つことが多い関係で古語対応の
ユーザー辞書がだいぶそだってます。
ATOKはハ行四段活用の動詞も登録できてさすがですね、といい
つつ使ってはいないけど。特定の活用形への接続がユーザー登録で
選べると(助動詞って単語区分を作るということ)、関西弁強化型
ユーザー辞書もすぐ作れると思う。
46名無し象は鼻がウナギだ!:01/09/11 21:17
炒め塩語って
47名無し象は鼻がウナギだ!:01/09/13 13:44
そろそろ、敬語に変換とか、方言標準語間変換、方言間変換とか、作りませう。
ジャンクが先に育っておる←顔文字から始まって、ネット語続々
敬語変換が自動でできるようになれば、それが手本になって妙な自己中敬語も減るんじゃ?
>>45
せかーく古語辞書が充実したならどっかにアプして共有しようよ(藁
以前、ビデオプレイヤー対応の2ちゃんスキンを自作してた人に
公開してくれーと頼んだら公開してくれた。

個人で育てたものとかでも品質は馬鹿にならないです。
お願いします。
49名無し象は鼻がウナギだ!:01/09/14 08:16
古語辞書とか、歴史的仮名遣い辞書とかは
結構フリーで出回ってるよ。

例えば↓
http://members.jcom.home.ne.jp/ksmiracle/Kokugo/IME/Orthographie.html
など。

でも漏れもうぷきぼんぬ
50名無し象は鼻がウナギだ!:02/02/22 19:37
MS-IMEはどうなのでしょうか?
51名無し象は鼻がウナギだ!
age