1 :
デフォルトの名無しさん :
05/01/25 07:38:01 日本語はご存じの通り、文章が単語で区切られていません。 そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。 これを形態素解析といいます。 このスレでは、その形態素解析について語っていきましょう。
2 :
デフォルトの名無しさん :05/01/25 07:58:59
Prolog屋なのですが、この分野の知識は全くありません。 勉強させてください。
4 :
デフォルトの名無しさん :05/01/25 08:13:52
お、茶筌ネタかい?いいねぇ。
まずは、漢字、ひらがな、カタカナ、句読点、記号などで分ける。 それから?
6 :
デフォルトの名無しさん :05/01/25 08:52:32
分けるとどうなるんだろう? 試してみますかね。
それくらいなら頭ん中で試せば十分だろ。
次に品詞でわけてみるる。 今日は良い天気ですね。 ↓ 今日|は|良い|天気|です|ね|。 (は(今日((天気 (良い ) です)ね))) 「今日は」は2通りの解釈がある。 こんにち|は|良い|天気|です|ね|。 きょう|は|良い|天気|です|ね|。
9 :
デフォルトの名無しさん :05/01/25 11:29:05
もう1通りあるんじゃない? こんにちは|良い|天気|です|ね|。
漢字かな混じりの文章はわかりやすいですが、ディクテーション情報(音素から組んだ文章、要は全部ひらがなとかローマ字)から形態素分析って可能なんでしょうか? 人はどのように判断しているんでしょうかね?
何か良い死霊ないの?
ここではきものをぬいでください
13 :
デフォルトの名無しさん :05/01/25 13:04:03
あしがりのわをかけやまのかずのきのわをかずさねもかずさかずとも あれもしかしてあしがらだったか
大原ゆきが華麗に2get
?
16 :
デフォルトの名無しさん :05/01/25 14:17:03
きょうはいしゃにいく 今日歯医者に行く 今日は医者に行く
こっちは初心者スレ?
すもももももももものうち
21 :
デフォルトの名無しさん :05/01/25 21:45:51
最初に区切りとなる文字を探すところから始める?
プロが来ないと駄スレの予感…
はんかくかたかなはやめろ 半角カタカナ早めろ 半角カタカナは止めろ 単なる誤変換スレ化?
>>22 すでに研究されつくされたテーマって気がするが。
1はスレ立ててないで、論文探した方がいいんじゃないの?
>>25 本当にそうかな?
もしそうなら完璧にできるソフトが存在するはずだ。
そうとも限らんだろ。 完璧にできるソフトが作れるはずの論文が存在するはずだ、 ならいえるかも知れないが。
もしくは完璧に作るのは不可能だ、という論文な。
>>28 その手の論文は数十年後に破られるのがありがちな話なので、それはなんとも。
>>29 > その手の論文は数十年後に破られるのがありがちな話なので、
実例キボン
完璧に出来てるだろ 茶筅とか あとは辞書を増やすだけ
統計推論型のはまだ全然
なんつーか先が無さそうでかわいそうな分野だよね
じゃあこのスレで日本語変換システムを一つ作るってのはどうだ? かんなやうんぬは丸っきりクソだろ?
名前は「ぬるぽ」
36 :
デフォルトの名無しさん :05/01/27 07:10:51
形態素解析のアルゴリズムさえできれば、WindowsでもXでも使えるだろう。
UnicodeかShift_JISかeuc-jpか。文字コード多いよ。低レベルの処理ではデータ構造を抽象化すると遅くなるから、高位のメソッドを抽象化しないと。 gchは抽象化された符号なし文字。 typedef unsigned int uint; inline gch*GchNext(gch*); inline gch*GchPrev(gch*,gch*); inline uint GchLen(gch*);
まず、お前のエロ雑誌に出現する品詞をKAKASIかCHASENかJUMAN使って統計してくれ。
>39 をっさん、何を統計するだ? 品詞の数、品詞の並び方のパターン、パターンのパターン…。 文法上の属性か?
まあどうがんばってもATOKには勝ち目ないし
まずはどういう設計にするのかを決めないと。データだけあっても仕方がない。
いや、データさえあれば簡単だ。俺なら1日で組める。
>>43 それだったら君個人で作ればいいじゃない。
ごめん、全言撤回。
だからデータがねえっつってんだろ。 日本語わからねえのか? おまえこそ形態素解析勉強して日本語読めるようになれよ。
×全 ○前
>>46 どんなアルゴリズムにするつもりなの?
データが豊富にあったら良い物ができるの?本当に?
アルゴリズムなんて問題じゃない。 何度も言うが、必要なのはデータとデータ構造だ。
文法データならCHASENとKAKASIからXMLパーサ使って借りてこい。 他のちまちましたデータは辞書.comや省庁回ってこい。
ポータルサイトも膨大な情報を分類しているだろ
細かい実装はうんぬの公開情報見ればいいだろ。今は変換先読みとWeb辞書連携が主流だ。
なんでそんなに堅実に作ろうとするんだろう。 新規性はないの?
日本語ワープロの元祖では変換候補を木構造でしぼりこんでいく単純なものだ。それこそデータがあれば一日で作れる。 大学のwebに逝けば変換方法の論文は腐るほど見付かる。ぐぐれ!
ここで作れるのは、特定の用途に特化した入力補助エンジンと概念データベースくらいだろ?違うか?
いちいち探すのマンドクサイ。誰か秘密基地作れよ
aを任意の名詞節とする。文「aを食べる」をJUMANやKAKASIなどで統語的に調べ、機械的に品詞並びにする。 文「aを食べる」が真の場合、aは食べ物に分類される。このように、その文の真偽から食べ物かどうかを知ることができる。 文が偽の場合、その文はどんな文脈にあるか?
>58 夢や空想、憶測などの心の中の出来事や会話などの文脈に多い。〜と思う、〜と言う、考える。 また、物語や体験談などでは以前の勘違いを打ち消すことが多い。
このように、比較的規則的に書かれた文書から概念の意味や分類法を抽出できるはずだ。
>60 要するに、2ちゃんねるみたいな不規則なソースから知能を作るのは無理そうだな。
>>61 2ちゃんねるは日本語としておかしい文章が多いけれど、規則性がないとは言えない
と思うような気がするでそ
そこで「知能とインターフェースの段階的進化法」を唱える!
「ん」を「そ」に変えれば2ちゃん語っぽくなる
65 :
デフォルトの名無しさん :05/01/29 21:59:33
形態素解析された誤りの含まれた文章を、文字マルコフ連鎖で誤りの場所を 探したのですが上手く誤りの場所を探すことができませんでした。 何かいい方法はないでしょうか?アドバイスください、よろしくお願いします。
66 :
デフォルトの名無しさん :05/01/29 23:44:34
>>33 > なんつーか先が無さそうでかわいそうな分野だよね
ある手法のことをウェブで比較的あっさり批判してる人がいて、批判された方
がマジでキレてるのには笑った。同じ専門分野の研究者として悲しいとか恥か
しい、みたいなことまで書き連ねてた。
批判の内容が正当なのか間違ってるのかは自分は門外漢だから判断できん。で
も研究の上で不当な批判を受けるのなんか当たり前。誤解や不当な評価があっ
たら、無視したっていいし、冷静に反論してもいい。
細かいことを感情的にウジウジつつくようになってるのはタコツボ化してる何
よりの証拠だね。
>>65 単純にマルコフ連鎖だけを頼りにすると、助詞が邪魔になってうまくいかないって意味?
つーか、どんなレベルの誤りを検出しようとしている?
74 :
65です :05/01/31 00:11:16
音声認識装置によって書籍を何文か出力させて、これをマルコフ連鎖モデル にかけて置換誤りなどの誤りの場所を探したいのですが誤りのある部分が閾値を 下回ってくれず上手くいきませんでした。これは音声認識装置は単語区切り(形態素解析) で文章を出力しているので文字マルコフでは有効ではないということなのでしょうか? 上手く探すいい方法はないでしょうか?(構文解析とか使うのかなあ?) 詳しい方、アドバイスもらえないでしょうか。長文でゴメンナサイ。
閾値を厳しくする
76 :
デフォルトの名無しさん :05/01/31 03:31:01
誰かがいぜんやってたが、2chのスレを形態素解析する。そしてマップを作る。 そこまではそいつがやってたが、精度をあげ、リンクなども絡めて 新しい掲示板のトップメニューとして確立したらどう? まったく新しいインデックスになるよ。KnoppixのHPで紹介されてる ウェブの中での自分の位置みたいな地図を 掲示板に特化して作るわけ。 そうするとインデックスからスレ同士の関係が把握しやすい。 例えば総合の質問スレにレスつけるか専用の質問スレにレスつけるかどうか 検索せずに目的のスレの大体の場所がわかる。そのスレから引用されてる、 もしくは言及されてる単語が載っているほかのスレも判る。 って、WebProgの新しい掲示板作るスレで言ったらまったく相手にされなかったよ
77 :
デフォルトの名無しさん :05/01/31 08:18:43
それと同じことはベイズ推定を利用したメールのフィルタリング機能やWikiの機能として 既に実現されてるけどな。
このスレ全体的に他のスレよりレベル高杉。 もう少しかみ砕いて、わかりやすく説明してください
マルコフとかベイズとか日本語の解析するなら日本人だしてこいや。 名前出せるほどのものがあるかどうかはしらんが…。
>>78 2・3の専門用語が出ているけれど、この世界では当り前だから、要は慣れです。
知っているか知っていないかの違いですね。
しかも、それほど複雑でも無いので、自分で調べてください。
>>76 スレタイ検索に実装して、関連スレを検索可能にするのも楽しそうだけど
82 :
デフォルトの名無しさん :05/01/31 23:49:38
>>76 カキコしている人が無意識のうちにやってるカテゴライズを
もう一回やり直すのね。
>>76 形態素分析なんかしないで、スレの内容を適当にベクトル化して
クラスタリングでもしてみるのも面白いかもしれない。
>>83 自分で何言ってるかわかってないだろ。
ベクトル化の前に形態素解析(でもn-gramでもいいけどさ)があるんだろ。
85 :
デフォルトの名無しさん :05/02/01 02:09:14
形態素解析せずにスレの内容をベクトル化する方法を教えてください
>>85 文字種でベクトル化
日本語の場合、結構いけるかもよ
87 :
デフォルトの名無しさん :05/02/06 02:01:36
形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを 用いれば簡単にできます。 ただし、問題は、そのためには、各種辞書とかが必要です。 もちろん、それに伴う、確率値とか、コストとか。 さらに、連語とか、複合語とかをどのようにあつかうかとか、 未知語(辞書にない言葉)とかをどのように扱うとか、 いろいろな問題があります。 そこらあたりをなんとかかいぬぐり実用に達しているのが、茶筅とか その部類の有名な形態素解析な感じです。 研究的にはやりつくした感はありますが、実用にはほど遠いと思います。 これはもはや情報処理というよりは言語学の力を借りないと難しいな と、個人的には思います。
>>88 > 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
「ヴィタビ」(もしくはビタビ)ってんだよ。
90 :
デフォルトの名無しさん :05/02/09 08:37:26
>>88 > 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
> 用いれば簡単にできます。
理屈としてはヴィタビがいいけど、実際に使われるのはA*が多いだろ。
>>90 「お知らせ」なら「知らせ」で検索させた後で
「お」が付く文脈かどうか判定するフロントエンド作れ。
93 :
デフォルトの名無しさん :05/02/11 21:17:11
おまいら、教えて下さい。 漏れのマシンは別に一太郎やらATOKやらはインスコしてないのに C:\Program Files\Justsystem\JSLIB32\AddWord2.exe なんてものがあります。で、バージョン情報を見たら 「Js形態素解析登録プログラム」とかってなってますた。これってなんですか? どうしてこんなもんが入ってるか調べる方法とかありますか?
スレ違い
〃〃∩ _, ,_ ⊂⌒( つД`) `ヽ_ ノ ⊂ノ グスグス・・ ∩ ⊂⌒( _, ,_) グスン・・・。 `ヽ_つ ⊂ノ
97 :
デフォルトの名無しさん :05/02/12 15:00:27
教えてください。 昨年からJuman-4.0を使っています。 これはどのような特徴を持ったソフトなのですか。
99 :
デフォルトの名無しさん :05/02/12 17:23:44
文楽の義太夫なんか聴く場合、7・5調の音数律のような意識を 働かさないと理解しがたい。少なくとも私には。 こういうものがメインにはなりえないだろうが、並列処理で 音数律解析が働いている、なんてことはできないものだろうか。
100 :
デフォルトの名無しさん :05/02/12 21:34:30
日本語の文を形態素解析すると、構文木を作成できると思います。 その構文木から動詞基準で格構造を抽出する方法ってあるでしょうか?? 意味解析が利用できれば可能なのでしょうか・・
だからそれがわからんからこうやって議論してるんじゃないか。 どこかにいい本ない?
102 :
デフォルトの名無しさん :05/02/12 23:56:07
>>100 バイト雇ったらどうか?
コンピュータよりずっとまともな処理が期待できると思うが。
奴隷やとったらどうだ? コンバインよりずっとまともな農作業が期待できると思うが。
自然言語処理に向いてるプログラミング言語って、 やっぱりCですか? 半期javaやってたんだけども、Cやり直すかなぁ… 勝手に思いついたアルゴリズムで文章解析して、 データベースみたいなのを吐き出してまた使えるようなのを作りたいんですが(将来的に)
>>104 Cはどちらかというと向いてないと思う。
文字列の塊を切った貼ったが楽にできる言語の方がいいんじゃないかな。
なわけでやっぱりLispとかかねえ。
ありがとうございます。 Lispって、なんか、そっちへ行ったら帰ってこれなそうな印象が…(苦笑)
>>106 Lispのテイストを味わったことないのなら、一度味わってみるべし。
それから留まるか帰ってくるか決めなされw
108 :
デフォルトの名無しさん :05/02/15 09:04:30
>104 単純に向き不向きでいったら、断然Prologです。自然言語を 解析するために作られた言語ですから。ただ、左再帰問題というのが あって、Prologの探索順序の関係で、 << 文 とは 文 がきて その後に 助詞 と 述語がくる >> というような定義をすると、最初の部分で、文とは文である、となって 再帰的述語の呼び出しが終了できなくなる。これさへなければ、 あっという間に、簡単な句構造解析くらいできてしまうのですが、 実際にはこれを回避するため一段と複雑なコードを書かなくてはならなくなる。 それでPrologなら圧倒的に有利とはいえませんね。
110 :
108 :05/02/15 09:33:07
>108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、 これは形態素解析が終わってから後の話です。
>>108 > 自然言語を
> 解析するために作られた言語ですから。
そんな話は初耳だな。
>>110 > >108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、
>
> これは形態素解析が終わってから後の話です。
自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。
112 :
デフォルトの名無しさん :05/02/15 12:40:03
>111 Prologを作ったのはマルセイユ大学ですが、 これは自然言語を解析するツールとして作られました。 論理式をそのまま言語にしてみたらというアイデアではあったようですが 言語として設計されたわけではありません。 >自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。 完全性の問題を問われない程度のものなら、済むんじゃないですか。
>>112 自然言語をパースするためではなくて、「自然言語処理」一般だろ。
まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
その論理式を用いて知識推論をしようとした、じゃないのか?
自然言語の文を直接Prologでパースするなんて悪い冗談だ。
>>104 > 自然言語処理に向いてるプログラミング言語って、
> やっぱりCですか?
NLP関連でpythonを使う人も多い。
有名なAI: Modern ApproachのPeter Norvigもpythonについて色々書いている。
http://www.norvig.com/
115 :
デフォルトの名無しさん :05/02/15 15:48:49
1971-2年の話で、当時の学問的環境も想像し難いし、1973年に書かれた 仏語の論文も読んだことがないので、どういう意図だったかわからない。 ただ、「悪い冗談」であるかどうかも皆目判っていなかったのではないか?
116 :
デフォルトの名無しさん :05/02/15 16:32:04
117 :
デフォルトの名無しさん :05/02/15 16:35:59
>113 >まず専用のパーサで自然言語の文を術語論理に翻訳した上で、 そうそう。専用のパーサは無かったと思う。 マルセイユ版Prologが動いて、append/3が発見されるまで 3ヶ月かかったとのことで、今日のProlog観は全然通用しない。 少なくとも知識推論しようとしたなどということはなさそう。
>>117 > 少なくとも知識推論しようとしたなどということはなさそう。
AlainやPhilippeが書いた最初のprologプログラムは人間の質問に答える自動
応答システムです。
119 :
117 :05/02/15 18:52:43
>118 それは知りませんでした。この件について全然知識が無いので なにか資料等残っているならぜひ教えてください。
>>120 型にはまった人間ばかり評価されるのはなんだかなぁと思った
>>120 採点が楽になるってだけの理由で採用するのはどうかと思うし、
どの程度の性能か具体的に示されていない所が疑問ではあるな。
同等の評価を受けた物であっても、大きく評価が変わるケースが1%でもあれば、それだけでは使い物にならないわけで・・
自然言語をパースするためなら、Perlがいいねぇ。 正規表現は、最強。ライブラリも豊富で最初から自分で作る必要もない。
>>104 Cで書いてあるエンジンって速さを優先してるからじゃない?
String Operationが優れていてそこそこOOPに対応してる言語なら
JavaでもPerlでも。Pythonはどうよ。
RegExpの使いやすさは結構重要かと。
126 :
デフォルトの名無しさん :05/02/16 11:43:38
>>109 みたいな係り受けを分析するフリーのライブラリってないんですか教えてください。
昔、C と Perl の正規表現速度対決のページを見た。 Perl の方が機能豊富なのに速かった気がするんだけど、どうなんだろう。 まぁ、ベンチマークなんてあてにはできないのだけど。
>>127 あなた、正規表現のエンジンがPerlで書いてあるわけじゃないんだから。
機能の豊富さとそのルールを使わないマッチングの速度も関係ないし。
130 :
デフォルトの名無しさん :05/02/16 13:13:46
131 :
119 :05/02/16 13:28:15
>123 ありがとうございました。
ここは良スレですね
>>117 > 3ヶ月かかったとのことで、今日のProlog観は全然通用しない。
この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
>>134 pythonのmonty taggerはちょっと遅いけど速度に厳しい用途でなければ
それほど問題ない。parserもいくつか見かけた。
138 :
デフォルトの名無しさん :05/02/17 12:25:41
>133 > この一連の流れは今のNLP観で言語選択する話だと思っていたのだが… 117のここの部分は、Prologが最初は何の目的で作られたか。その時点で、 可能な技術はどんなものだったかという話に脱線していますね。
139 :
デフォルトの名無しさん :05/02/17 20:57:44
>>138 今のNLP観で言語選択すると英語だよな。
>>139 おじいちゃん、おむつからウンコがはみ出てますよ。
141 :
デフォルトの名無しさん :05/02/18 22:41:52
正規表現エンジンってどうやって作るのかな?
FAを作る。
Football Assosiation
Final Answer
fuck anal
147 :
デフォルトの名無しさん :05/02/21 17:18:49
作る話してるときにFAって単語がどうとか言い出すのはどうかと思う。
148 :
デフォルトの名無しさん :05/02/23 13:53:29
Futtoboru Awaa
FusiAnasan
150 :
デフォルトの名無しさん :05/02/23 15:06:16
Finite Automaton(有限オートマトン)
Flets ADSL
Free Agent
Fighting Arts
Fujikofujio A
155 :
M.B. :05/03/03 10:52:04
Java 使って、チャート法ベースの 形態素解析システム組んだのはいいが、 係り受けの処理とどうやって融合したらいいかよくわからん。 チャート法っつーのは本来構文解析によく使われる手法だっつーのだが、 日本語みたいなForth もどきの文法構造を持った言語だと、 BNF みたいな形での抽象的な構文法の記述がうまくいかん。 誰か解決策を知らないか?
156 :
デフォルトの名無しさん :05/03/03 15:31:37
サーチクロスって,形態素解析してません,なんて書いてあったんだけど, じゃ,どうやってインデックス作ってるんだろう. N-gram じゃないだろうしなぁ.インデックスサイズから考えても.
157 :
M.B. :05/03/03 19:33:04
>>156 解析精度が低くていいなら、手法はそれなりにあると思われ。
英文用のスペルチェッカーなんかはそうした経験則の集大成だし。
漢字以外の文字から漢字に変わる点でぶった切って、
切れたものの末尾から附属語らしき要素を取りつくしてくだけで、
インデックス用のキー文字列は作れるしね。
あとは検索用の文字列に同じ処理を施して、それをキーにして候補を
かき集めて、それからじっくりマッチするかどうかチェックしてけばいい。
>>155 係り受けなんて品詞で辿れるもんじゃないの?
自分で文章組み立てる手順とか考えた事ある?
つーか何のためにチャート法にしたの?
159 :
M.B. :05/03/03 21:53:32
> 係り受けなんて品詞で辿れるもんじゃないの? 日本語だと省略が多いもんだから、 「嬉しいです」の「連体形+用言(助動詞)」みたいに、 ある程度長いスパンで見ないと係り受けの関係が見えないケースが多いのよ。 だから、体言ごとに格を推定して、動詞のほうから必要な格を割り出して、 余ってる体言が出ないようにするとかいった手続きが、 係り受けの推定には必要なわけ。 > つーか何のためにチャート法にしたの? かな漢字変換もできる双方向の解析システム作ってたら、 結果的にそうなっちゃった。 「はくさいやだいこんなどのやさいが」は、切り方によって 「白砂 嫌だ こんな どの 野菜が」みたいな いろんな屑候補が出てくるのだが、これをバックトラックで処理してると 同じ処理を何度もやることになって具合が悪い。 チャート法なら同じ部分の解析は一度しかされないし、 見込みのありそうな候補に絞って探索するとかいった制御も楽。
日本語XLEは?
161 :
M.B. :05/03/04 16:25:06
技法っつーか解析戦術レベルでは有効だろうし、 チャート法に代表される、並列処理にもってきやすい技法とも 併用可能なので、実用化っつー部分では要チェックと思われ。 ただ、「意味に即した解析」をうまく取り込むには、 職人芸的な技巧が要求されるので、「機械翻訳の質を上げる」みたいな 意味に踏み込んだ処理をやろうとすると、使いこなせるのは ごく一部の特殊な才能を持った人なんじゃないかなぁ、と思う。 本当にできる人は、かな漢字変換に使われる「接続テーブル法」とかの 制約の中でも、意味処理に近いことをやってたしね。
>>155 補強項処理を追加したら?
つまり文法記述中にJAVAのプログラムを記述する。
補強項つきの文法をいったんJAVAプログラムに落とすために、コンパイラコンパイラを
作る必要があるが、たいした手間ではないでしょう。
チャートパーサは、ちょっと変更すれば、そのまま使えるはず。
163 :
デフォルトの名無しさん :05/03/05 13:44:33
KAKASIがやってる処理ってこういうの? お?[亜-Kア-ヶー -◯Α-ωА-я0-9a-zA-Z]+[あ-んー]*[!?!?。、]? | [あ-んア-ヶー]+[!?!?。、]?
人工無能スレってないの? 昔あったような・・・
日本語解析って大変だよね。 わりに合わない気がするし。 文字コードの問題もあるし。 これが必ず正しい!って毎回答えが決まるわけでもないし。 おまえら形態素解析して何に使ってますか?
166 :
デフォルトの名無しさん :05/03/05 16:41:20
167 :
M.B. :05/03/05 20:52:53
>>165 聴覚障害者や外国人向けの、漢字かな交じり文の読解支援。
読みがわからんと国語辞典が引けんので、
漢和辞典を引くしかなく、けっこうツラい。
「冷たい」と「冷える」、「下ろす」と「下がる」、
「生やす」と「生む」等、「漢和辞典引いて
読みを調べて国語辞典引いて活用形調べて
どれがマッチするか確認して……」とかいった手続きが
必要な語はけっこうある。それ以外にも、
「入れない」がイレナイかハイレナイか、「行った」が
イッタかオコナッタかわからないとかいった問題もある。
辞書引きの自動化だけでも、助かる人はけっこういる。
マルコフ連鎖で前後関係の統計をとればほとんどいけると思われます
マルコフ連鎖厨出現 このスレの運命やいかに?!
170 :
M.B. :05/03/06 07:40:32
>>162 いまあるシステム自体がコンパイラ・コンパイラに近いので、
C 言語のインライン・アセンブラとかJava のJSP みたいな方法で
実装はできそうだな。
考えてみる。サンクスコ。
マールーコーフ! マールーコーフ! マールーコーフ! マールーコーフ! ハイ!fgg'いつもやるのは緑の積分!
173 :
デフォルトの名無しさん :int 2ch =05/04/02(土) 04:36:47
ボクにマルコフ連鎖を丁寧に教えて!
174 :
デフォルトの名無しさん :int 2ch =05/04/02(土) 14:32:01
だめだこりゃ
そんなことなら俺に聞きゃよかったのに
177 :
Mb :2005/07/21(木) 21:09:26
長岡技術科学大学の自然言語処理掲示板が いつの間にか消えているのだが、 誰か消息を知らないか。
う、自然言語処理研究室が出来てたなんてしらんかった…。
,:::-、 __ ,,r 〈:::::::::) ィ::::::ヽ 〃 ,::::;r‐'´ ヽ::ノ ,'::;' /::/ __ l:::l l::::l /:::::) ,:::::、 ji |::::ヽ j::::l、ゝ‐′ ゙:;;:ノ ,j:l }:::::::ヽ!::::::::ゝ、 <:::.ァ __ノ::;! パンダー! . {::::::::::::::::::::::::::::`='=‐'´:::::::::/ ';::::::::::::ト、::::::::::::::i^i::::::::::::/ `ー--' ヽ:::::::::::l l;;;;::::ノ `ー-" 【ラッキーレス】 このレスを見た人はコピペでもいいので 10分以内に3つのスレへ貼り付けてください。 そうすれば14日後好きな人から告白されるわ宝くじは当たるわ 出世しまくるわ体の悪い所全部治るわでえらい事です。
180 :
デフォルトの名無しさん :2005/09/02(金) 22:23:43
JUMANてルールベースやん なにあの手作り感w
181 :
デフォルトの名無しさん :2005/09/03(土) 01:11:52
統計的アプローチではないでしょうか。
HERMANてベーブルースやん
Hermesは?
HERMESってトリスメギストスやん
逆さに読んでもストスギメスリト
187 :
デフォルトの名無しさん :2005/09/04(日) 21:11:32
JUMANが最強なの?
189 :
名無しさん@そうだ選挙に行こう :2005/09/11(日) 17:40:25
形態素解析ってもう成熟しきってるでしょ?
よさげなアイデアがない 特に日本語の場合は一般に認知された文法が役立たずな事がわかっただけか
現状より性能を上げるなら意味論と語彙論に踏み込まざるを得ないからね。
192 :
名無しさん@そうだ選挙に行こう :2005/09/11(日) 20:03:14
大体文法なんて暇な言語学者が適当に思いつきで構築したものだろ? だったらおおざっぱな品詞だけを定義して あとはタグ付きの巨大なコーパスで学習させた方がよくね?
・おおざっぱな品詞だけを定義して ・あとはタグ付きの巨大なコーパスで学習させた方がよくね ぷげら 学習アルゴリズムだけで、後は自動で人工知能とかできたら、いいねぇ(w
194 :
デフォルトの名無しさん :2005/09/12(月) 12:14:20
形態素解析は人工知能じゃないけどねー
だから「できたら、いいねぇ」で「(w」なんでしょ。
Chasenは192の方法
ChaSenがcorpusで学習!!? なんか凄い勘違いしてるんでないかい。
文法だけでできてると思ってるの!? おめでたいな。
おめでたいも何も、学習機構なんかどこにも実装されてないじゃないの。 なんでこここんなレベル低いの。
>>199 学習機構がないなんて言っちゃうレベル低いのはお前
んー、じゃあ手許にソース一式と辞書があるんで このどこに学習機構があるのか教えてちょ
202 :
デフォルトの名無しさん :2005/09/13(火) 16:14:18
なんでこんなに荒れてんだw コーパスから確率モデルを計算してるのは確かだから そういう意味では学習しているけど 毎回モデルを計算しているのではなく 毎回計算しているのはコストだろ
最近あまりにしょうもないレスが多かったもんで。 正直おとなげなかった。スマソ
官能小説のエロさを形態素解析による数値化という研究を考えて 教授のところにいってきたんだけど5時間正座させられてお説教された ひどい
つまらんネタだ
>>204 当たり前だ馬鹿。
おまえ自分の論文見せてくれって言われたとき困らないとでも思ったのか?
感性情報処理とかそれっぽい言葉を絡めて書けば普通に通りそうなもんだけどな。 形態素解析でエロさが出るかバカという点では教授に同意。
文学部なら普通に通りそうなテーマだな、 そつぎょうかだいせいさく くらいの軽いノリで
料理本の単語を○にするとエロくなる事について。
210 :
デフォルトの名無しさん :2005/10/08(土) 00:05:44
MeCab: 形態素解析エンジンをコマンドラインで使う事って可能ですか? /bin/mecab -Oyomi "今日は良い天気ですね。" 見たいな感じです。 エロい人お願いします。
211 :
デフォルトの名無しさん :2005/10/08(土) 04:17:19
PHPからMeCabやkakasiを利用可能ですか? 出来るならどの様に使うか教えてください。
212 :
デフォルトの名無しさん :2005/10/10(月) 03:56:52
条件付確率場って何?
らふぁてー
214 :
デフォルトの名無しさん :2005/11/11(金) 22:09:52
最近暇だったので bayes とか弄ってた。 英語コーパスを元に、thisisapen を this/is/a/pen に区切ってみたり。 "t-h" の確率を "t- -h" の確率と比較して正規化して合計するだけだが、 未知語もそれなりに上手く分けられる予感。超遅いが。 で、これをどうやって日本語の形態素解析に応用すればいいのかが 分からん。英語みたいに既に区切られた分けられた情報に頼るってのも、 結局辞書を人様が作ってるみたいで、なんかヤダ。 教えてエラい人!
>>214 たくさんテキスト食わせて比較してみたら〜
>>214 カナを一旦ローマ字(訓令式がいい)に変換してから処理してみ。
活用の処理が一気に楽になるから。
日本語文用の、語彙ベースの検索エンジン(用言は語幹で検索、 体言は異表記も認める)を作ってみたのだが、 ・Web上のどのサイトを検索対象にするか ・インデクスはすでに存在するとして、鍵語の集まりから 効率よく対象のページを検索する問合せ(SQLを想定)はどう 生成するか で詰まっている。小規模な検索(たとえば自分のマシンにある.txt ファイルだけを対象とするとか)だったら悩まなくて済むのだが、 なんか面白い用途ってないもんだろうか。
昔はえろえろあった、おもしろい機能を持ったサーチエンジンも ほとんど淘汰されて消えちゃったからね。 正規表現で検索できるサーチエンジンとか作らない? #小規模検索はestraireがありゃいいや
> 正規表現で検索できるサーチエンジンとか作らない? それってgrepって言わないか?(^_^;) 冗談はともかく、その部分は ・インデクスにどんな情報を持たせるか(インデクスDB設計) ・インデクスを抱えてるDBサーバにどんな問合せをするか(DBインタフェース) ・問合せに対して、どれだけレスポンスを上げるか(探索戦略および チューニングの問題) なので、形態素解析とか日本語処理とかとは別の話題かと。 DBインタフェースの一部として、自然言語インタフェースとか考えるなら また別なのだが。
正規表現検索で有用なインデックスがつけられるものなら、 とっくにRDBMSについてると思う……。
えらくタイミングよくestraierに正規表現サポートが入ったな
E・∇・ヨノシ <222ゲット♫
223 :
Mb :2006/03/14(火) 22:37:45
復帰age
TextSS のWindowsXP(Professional)64bit化おながいします もしくは64bitにネイティブ対応したテキスト置換ソフトありますか?
225 :
デフォルトの名無しさん :2006/04/10(月) 21:57:43
あげとくね。
漢字の文字コードが読み仮名情報を保持してれば、 形態素解析って楽になると思うんだけど、そんな仕様ないの?
227 :
デフォルトの名無しさん :2006/04/11(火) 16:20:34
これは何の釣りだ?
228 :
デフォルトの名無しさん :2006/04/11(火) 21:42:17
229 :
デフォルトの名無しさん :2006/04/27(木) 09:14:19
茶筌やめかぶが覚えてる学習用コーパスって何万語位何ですか? めかぶが自力でコーパスの学習出来るので遊んでみたいのですが、 学習コーパスをどの位用意しなきゃならないか、わからないので。
IPADICとかなしに、巨大なコーパスから辞書を作る、 そんな方法ってないんかのう。
231 :
デフォルトの名無しさん :2006/04/27(木) 18:42:23
>>230 圧縮ソフトのアルゴリズムが利用できるかも?
辞書式ってのは、よくでてくるビット列に短い符号を割り当てるんだから、
そのあたりを応用すれば、単語としてよくあるものが抽出されると思う。
ただし品詞タグ付は無理だろうけど。
このアイデアはどう?
で、めかぶや茶筌が動くコーパスはどの位の大きさが必要なのかなぁ?
だれか知ってる人いない?
ハッシュでインデックス作って放り込めば100万語くらいは軽いんじゃない? つか、俺はそうやってる。
233 :
デフォルトの名無しさん :2006/04/27(木) 19:18:10
>>232 それは
>>230 へ対する回答?
それとも
>>231 へ対する回答?
辞書で100万語は多すぎるし(辞書になってない)
学習コーパスの必要量なら、文章が良くわからない。
234 :
デフォルトの名無しさん :2006/04/27(木) 22:13:57
日本語を書くと意味解析して、それにそったプログラムに変換し コンパイルして実行してくれる研究プロジェクトはありますか?
正直もうn-gramで良いと思いました。
236 :
デフォルトの名無しさん :2006/04/28(金) 07:20:22
>>234 計算機言語が覚えられない程度の馬鹿は、
日本語でも業務をまともに記述できないから、
そんな研究しても無意味だと思うけど、
やってる人はいると思う。
こーんな感じにぐわーっとやってくれ。ぐわあああっと。
238 :
デフォルトの名無しさん :2006/08/26(土) 02:05:17
239 :
デフォルトの名無しさん :2006/08/31(木) 21:50:25
不明単語を抽出するってどうやるんですか?
わかってるたんごをぜんぶとっぱらって のこったのがふめいたんごー
>>240 分かっている単語が無いです。
どこかにフリーの単語辞書はありますか?
茶筌についてきますか?
[XXxXXxx] 12:28 フッ・・・だが!俺のエキゾチックマグナムをもってすればっ! みたいな文から「エキゾチックマグナム」を不明単語として抽出したいです。 茶筌でできますか? あとベイズって P = [馬][鹿] / ( [馬][鹿] + [^馬][^鹿] ) みたいな感じで使うものなんですか?
「エキゾチック」と「マグナム」が既知の単語になっている限り 形態素解析器で「エキゾチックマグナム」を形態素として取り出すのは不可能と思われ 解析できてしまうからね 複合語の抽出には形態素解析とは別のアプローチが必要
メーカ子会社左遷者の楽園
245 :
デフォルトの名無しさん :2006/09/13(水) 04:24:11
>>243 >複合語の抽出には形態素解析とは別のアプローチが必要
「従来の形態素解析」とは、なんじゃ・・・・
形態素解析について詳しい訳じゃないけど、複合語抽出を
構文解析とみるか、形態素解析と見るかで言えば、形態素解析の範疇だと思うけど、
「いいや,構文解析だ!!」と叱られてしまうと、嫌な気分になって言い返せないし、
「これこれこういう理由が有って構文解析だ!!」と言われると一つ勉強になるので
ありがたい。
とわいえ、形態素解析、複合語抽出、構文解析、と言う話も有るとも思うし。
複合語を形態素として取り出す だなんて意味不明なレス相手にマジレス乙
質問者の要求がそういうことだから不可能だと書いてるんじゃ
248 :
242 :2006/09/23(土) 23:37:34
回答ありがとうございます。 つまり形態素解析後、「エキゾチック」と「マグナム」の組み合わせが 未知のものであるか?という判定を何らかの方法で行わないと、 複合語を不明単語として取り出すことはできないということですね。 オタ同士の会話だと、即席の複合語がその場で作られたりすることも あるので、難しいですね・・・。
そもそも一意の解析結果を得ることが不可能だと気づけ。 「エキゾチック+マグナム」が98%、「エキゾチックマグナム」が1%、その他が1%、 みたいな解析結果のほうが、現象の記述としてより忠実。
ネイティブ(つまり日本人)に聞いたとしても 「エキゾチックマグナム」を1語と思うか2語と思うかは意見が分かれるだろうからね
251 :
デフォルトの名無しさん :2006/10/10(火) 19:18:09
mecabと一緒に配布されてる辞書を可変して流用したいけど、著作権的に大丈夫だろうか。
>>249 その辺は使用頻度=単語の区分けという認識で問題ないのでは?
まあ辞書自体に頻度表がついてるものはないがw
254 :
デフォルトの名無しさん :2006/10/10(火) 19:27:55
>>253 形態素辞書ならたいてい付いているんじゃないの?
形態素的辞書没有
258 :
デフォルトの名無しさん :2006/10/11(水) 12:21:56
中国語の形態素解析
漢語的形態素解析
260 :
デフォルトの名無しさん :2006/10/12(木) 12:28:22
例えば「書きながら」をmecabにかけると、 書き:動詞,自立,*,*,五段・カ行イ音便,連用形,書く,カキ,カキ ながら:助詞,接続助詞,*,*,*,*,ながら,ナガラ,ナガラ が吐かれるけど、辞書を見ると「書き」自体の文字情報はなく、 あるのは「書く,カキ,カキ」だけ。 活用の解析はどうやってるんだろう。 単純に読みだけを見るとしても、漢字1文字=読みのカナ1文字とは限らないし。
書き+カ行イ音便つう形態素辞書エントリーだけで、 書か(ない)、書き(ます)、書く、書け、書こう みたいな検索が全部ひっかかる、それだけの話だと思うけど。
>>252 使用頻度∝単語区分けの適合確率
だろwwww
263 :
文学 :2006/12/18(月) 03:52:31
mecabで読み仮名を取得するには どうやればいいのでしょうか?
まにゅある嫁
民明書房刊「マニュアル嫁」 第六章 結婚前後の諸心得 第二節 甘美な新婚旅行 - 入浴をするとき - 夫としては、 「どうです、一緒に入りませんか」 というのが一応のエチケットとなっている。しかしお互いにまだ清浄な関係 である場合には、新婦としていきなりその言葉に従い、いそいそとして夫につ いて行くのはどうかと思う。初夜が済むまでは矢張り、ほのかな羞恥の色を漂 わせながら、にこやかに 「ええ、でも、あとでいただきますわ」 と柔かく辞退して別々に入浴する方が好ましい。夫としてもそれが花嫁のエ チケットだと思って、しつこくすすめないことである。 しかし初夜が済んでからは、最早や完全な夫婦となったのであるから、二人 で入る方が却ってよろしい。そうだからといって、矢張り女としてのはにかみ は忘れてはならない。湯船に入るときでも 「おねがい、向う向いてて」 などといっておいて、静かに入る。また湯船の中でも、乳のあたりへはタオ ルを軽く当てて、ともかく露骨になるようなことは避けなければならない。
YOMIのRESTってどうやって使うんすか?
何故かcgiコードが丸見え
NTTが作ったすももってどうやれば入手できるの? なんかデッドリンクで公開ページがないんだけど。 mecabより強力なら是非手に入れたい。 ついでにage
MORPHOLOGY ↑なんか異常にかっこいい
外国人がローマ字で表記した口語体の日本語を 漢字仮名まじりの通常の表記に効率的に 変換するために役立ちそうなソフトウェアを 探しています。 例: kekkou kireinagakkou zyanai 結構 奇麗な学校 じゃない 全自動変換では間違いが多そうなので,ソフトウェアが 提示するいくつかの変換候補の中から,正しいものを日 本人のオペレータが選ぶ,という作業を考えています。 少しでも作業効率を上げるためのヒント,ソフトウェア などはございますでしょうか?
例を見る限り形態素に分かれているかいないかは任意か 面倒くさいなり
ローマ字のテキストをソフトに音読させて、それを聞きながら オペレータがワープロ入力するのが一番速そうな気がする。
>>272 それは俺らが日本語を入力するとき使うのと同じ仮名漢字変換に、
何らかの方法でテキストを渡せばできそう。
>>272 LinuxならAnthyでできたよ。最後の(space)は変換用。
$ echo "kekkou kireinagakkou zyanai(space)" | anthy-agent
(3 ((UL RV) "結構" 0 7) ((UL) "きれいな" 0 4) ((UL) "学校じゃない" 0 3))
>>275 はい、そこまでは理解できますが、実際にどのような
方法で可能かが分かりません。
>>276 素晴らしく分かりやすい実例までありがとうございます。
Anthyを試してみます。
そういやajaxでIMEってのあったよね あれ、どういう仕組みなんだろ
JavaScriptからIMEを少しだけ弄れたようなきが。 多分JavaScriptよりもっと干渉できるやつでも使ってるんじゃないの?DirectXとか。
283 :
デフォルトの名無しさん :2007/08/31(金) 15:47:46
sage
そもそも、公式文章でも方言のような専門用語や表現方法が多様しているのに
地方や皇族、政治、あらゆる専門分野、日本語が1つだと定義すれば扱えない
言葉や用語だらけになる。
会話言葉と目的別文章でも激しく特定できない。
>>1 >まず単語や品詞に分ける必要があります。
機械的な言葉の分類遊びならともかく。。。。。。
これは正しいとはいえない。言葉というのは柔軟性があり生き物である。
別ける時点で意味が変更されることもある。ある程度まとまった文節で
巨大辞書で判断するのが妥当でしょう。
文法で明らかに変でも通常の言葉として扱われているものとかNHKとかで
時々解説放送がある。それらは言葉が生き物であることを証明するもので、
日本語は言葉として扱うのではなく、概念として扱うべきです。
翻訳が正しくても作成者の意味が通じないのでは翻訳としてはできそこないです。
日本語を正しく扱えるには価値観とその雰囲気、心を読み解く抽象認識処理が
必須になるでしょう。
と、へんてこ日本語モドキで力説されてもなあ。
286 :
デフォルトの名無しさん :2007/09/02(日) 08:49:46
拓ちゃんがいるのに 最近のグーグルの調子はおかしいよね
>>276 anthy-agent にひらがな入力する方法はないのかな。
質問です!! yahoo!の形態素解析使ってるんですがreadingがうまく表示されません。 surface pos readingと表示させようとしたら 美しい 形容詞 形容詞 となぜか、readingにも品詞が入ってるみたいな気がします。 reading単体で使ってもなぜか品詞が返ってきます。 どなたか助けてください。。。
ageマス。
必死で申し訳ありませんが、ルビーを使ってます。
291 :
デフォルトの名無しさん :2008/02/04(月) 10:20:29
292 :
デフォルトの名無しさん :2008/02/04(月) 10:24:54
293 :
デフォルトの名無しさん :2008/02/04(月) 11:16:52
294 :
デフォルトの名無しさん :2008/02/04(月) 12:16:30
類似語とそうでないものを判別するにはどうすればいいですか 類似語 勝利 大勝利 類似語でない 本人 日本人 カウント アカウント 京都 東京都
お前が今分けた手順でおk
296 :
デフォルトの名無しさん :2008/02/04(月) 12:25:33
297 :
デフォルトの名無しさん :2008/02/04(月) 12:35:09
類似語が分類できるならば、単語分解もそこに含まれるから 類似語の分類をするルーチン作ろうぜ
298 :
デフォルトの名無しさん :2008/02/04(月) 13:47:37
単語らしさはどうやって判定したらいいですか あと形態素解析はあまり有効でない気がします 何故ならば日本語研究が必須になってしまう為です 韓国や中国に対応できないし 素解・・・あり得ない 形態素・・・ある 本語・・・あり得ない 日本語・・・ある というのを数値的に表したいものです
299 :
デフォルトの名無しさん :2008/02/04(月) 22:40:26
日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか
300 :
デフォルトの名無しさん :2008/02/04(月) 22:46:53
類似単語が判れば、それを同一視することで類似文書が判りますね 1単語のズレのある類似文書から品詞分解が判りますかね たとえば 僕は釣りをします → 僕 は 釣り を します 私は料理をしますわ → 私 は 料理 を しますわ → 僕 は 料理 を します とすると、釣りと料理は同じ分類だと判明します
>>298 文法研究をすっ飛ばして考えるなら、
文章のログから部分共通文字列を探せば見つかるような気がする。
302 :
デフォルトの名無しさん :2008/02/05(火) 00:22:01
圧縮接尾辞配列っていいみたいだけどわかる人いますか
303 :
デフォルトの名無しさん :2008/02/05(火) 00:57:54
圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね
304 :
デフォルトの名無しさん :2008/02/05(火) 06:37:27
バカ過ぎる
>>294 京都と東京都は、地名として考えたら類似じゃない?
狂都 東狂都
307 :
デフォルトの名無しさん :2008/02/05(火) 11:42:17
圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う インディックスサイズが小さくできても ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・
308 :
デフォルトの名無しさん :2008/02/05(火) 11:44:29
向いているのはCHMの代わりになる位だな ファイルサイズ小さくできてサイズの3〜5倍のメモリ消費ですむだろうから
309 :
デフォルトの名無しさん :2008/02/05(火) 11:55:19
>>309 接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・
suffix arrayでぐぐっとけ、カスが
バカ過ぎる(笑)
313 :
デフォルトの名無しさん :2008/02/06(水) 12:52:48
各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら 日 本語 は ご 存じ の通 り、 文 章が 単 語で区 切られて い ま せん の確率は0.01% 日本語 は ご存じ の 通り 、 文章 が 単語 で 区切られて いません だと10% とか計算できればよい
>>313 ひょっとしてマルコフ連鎖のことを言いたい?
文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず!!!!111
316 :
デフォルトの名無しさん :2008/02/07(木) 04:54:43
>>314 マルコフ連鎖とは違う
前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
317 :
デフォルトの名無しさん :2008/02/07(木) 05:05:06
もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず たとえば、文書が1単語となる確率が高いなら、次のように分割され残りの文書は短い たとえば、日本語はご存じの通り、 文章 が単語で区切られていません
318 :
デフォルトの名無しさん :2008/02/07(木) 05:16:59
first loaded.
319 :
デフォルトの名無しさん :2008/02/07(木) 05:30:29
日本語¥n+xは¥n+x単語¥n+xに¥n+x拠って¥n+x区切られ¥n+xます¥n+x。 ですが¥n+x、¥n+x詳細¥n+xの¥n+x作成¥n+xは¥n+x大変¥n+xな¥n+x事¥n+xでしょう¥n+x…
>>316 だからマルコフ連鎖をA*探索したのとどう違うんだって?
naist-jdic マダ−?
322 :
デフォルトの名無しさん :2008/02/07(木) 23:29:31
>>320 前後のつながりだけじゃないって書いてるじゃん。
>前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの ここをもうちょっと formal な形で言わないと伝わらないと思われ どういう確率モデルを想定しているのか。つーか俺にも伝わってない 単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが
>>324 ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。
結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…
327 :
デフォルトの名無しさん :2008/02/23(土) 13:44:46
音声の検索システムできた。
ソースうp
329 :
デフォルトの名無しさん :2008/03/27(木) 07:31:14
>MySQLおよびPostgreSQLで日本語キーワードインデック >スを実現しているもの(Sennaおよびtextsearch-ja)は、 >現在バックエンドエンジンとしてMecabを推奨してい >るようです。 あるフォーラムあらのコピーですが、本道だとすると、 すごいですね?! AppleのOSXの日本語処理もMecab? Mecabの一人勝ちか。
>>329 >AppleのOSXの日本語処理もMecab?
そうなん?
Mac OS X には Language Analysis Manager というのがあるけど。
ありゃ、リファレンスを見ると Leopard から deprecated だな。
>>330 おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。
なさけねえな、Apple スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに 自社技術捨ててオープン物に蔵換えか そろそろジョブズ氏ねよ
>>332 初音ミクのApple版でも出せってかw
まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。
オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ
なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を
打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。
しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。
ただのりあぽーか。
blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、 オープンものに頼った結果ってことか。 奴らの言う最先端とやらは素晴らしい技術力だことで(呆 MS-IMEの糞っぷりも失笑ものだが、 Macの信仰のしどころの間違いっぷりは抱腹絶倒だな
Mac に IME なんて無いけどな。
今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない?
どこかに2文字でインデックスを作って、漏れのない全文検索を行う というライブラリがあったんですが、知りませんか? 日本人が作っていたと思うのですが
Hyper Estraier
それです。ありがとうございました。
ハイパーエストレイヤーは名前がカコイイ
悪役プロレスラーみたいだなw
エスカレイヤー?
カワサキ エストレヤ
自然言語処理スレッド その3 マダ〜?
おおざっぱな質問していいですか。 形態素解析辞書UniDic というものがありますが、これは一般的な日本語変換プログラム用のの辞書とは 性質が異なるものですか? MeCabを使う時は、この手の辞書を一緒に使うことが必要なんですか?
必須ではないが精度を求めるには必要かもしれない MeCabは単に文法的に単語分割できるかを調べるだけなので 本来固有名詞なのが文法的に他の意味に取られる場合、 MeCabにはそれが固有名詞であることを知らないので、間違った解釈をされることもある
>>348 なるほど、といことは主に固有名詞の判定に関係する部分を改善できるという感じ
ですかね?
逆に言うと、固有名詞以外の部分で解析がうまくいっていない場合にUniDicを
追加したところで改善されることはないとか...???
350 :
デフォルトの名無しさん :2008/12/01(月) 11:56:25
質問です。主にソフトの使い方になってしまうかもしれませんが・・・。
今、プログラムの処理の過程で
カタカナを音節単位でローマ字に変換する必要に迫られています。
kakasiでカタカナをローマ字に変換すると、例えば
チョット は chottoと変換されます。
これを、音節単位で区切りたいのです。
この場合だと、
"cho"と"tto"くらいで分けれれば良いと思っています。
詰まり音に関しては、もう半分あきらめてるので、割と適当で良くて、
せめて普通の音節だけでも綺麗に分けれれば良いのですが・・・
-sオプションはちょっと違いますし。そういうオプションはないのでしょうか?
最悪、予めカタカナの方を分割してしまってから、kakasiにかけようと思っていますが・・・
>>346 実質その3が昨日たってた
自然言語処理スレッド その2
http://pc11.2ch.net/test/read.cgi/tech/1227953574/
>>350 sedか何かで、aiueoの後ろにスペースを入れればいいんじゃ?
352 :
350 :2008/12/01(月) 13:19:08
>>351 おお!
それだけの事ですね。なんで気づかなかったんだ・・・
どうもありがとうございました。
どのローマ字体系を使うか知らんけど nが来た時注意だけどな ンがnnならいいけど nになってるやつだと、それだと判別不能だと思う。
蔓延,manen だと ma ne n か ma n e n かわからん。 KAKASIは、ンはnで吐き出す。
355 :
デフォルトの名無しさん :2008/12/06(土) 12:52:57
辞書なしで、大量の生コーパスだけを使って 形態素解析を行う。っていうアプローチはもう使われてないの? 昔は、n-gram統計でやってたと思うんだけど、最近辞書使うやつばっかで そういうの聞かないんですけど。
形態素解析器単体では聞かないけど 漢字変換の分割位置の決定に使われる事はある。
HMMとかあるやん HMMで全部回してたらオーダーかかるから HMMとかで辞書つくるだけ
HMMで辞書をつくる?ハア?頭おかしいんじゃね?
時代についてこいよ
事実上確実に誤りを含んだ辞書なんて、誰が使うんだよwww
柔軟な頭脳を
この場合、辞書なしの話でしょ? 誤りを含んでるのはある意味当然。 モデルを辞書と読んじゃうから、話がおかしくなってる。
363 :
デフォルトの名無しさん :2009/01/23(金) 11:27:13
mecabで明智光秀の辞世の句(順逆無二門 大道徹心源 五十五年夢 覚来帰一元) を検索すると 順逆無二門 × 大道徹心源 × 五十五年夢 ◎ 覚来帰一元 × と'五十五年夢'で検索した時だけヒットします。 これはこういうものなのでしょうか? mecabの辞書に登録されていない単語では検索できない?
「mecabで検索」
365 :
デフォルトの名無しさん :2009/01/31(土) 12:52:04
インターネットアーカイブ
367 :
デフォルトの名無しさん :2009/01/31(土) 20:20:39
>>366 GoSen取得できました。
ありがとうございます。
mecabを、solaris10de-m6
370 :
デフォルトの名無しさん :2009/02/28(土) 21:45:29
自動翻訳では対訳コーパスで統計翻訳する研究あるね
研究がある、というか研究ではそれが現在主流であり、 逆に統計でない翻訳(ルールベース、用例ベース) を探す方が難しいと思うが…… 逆に販売されていたりサービスインされていたりする翻訳では まだ統計翻訳は主流ではない。質がけっこうひどいので。
手元のFedora8(UTF-8)にmecabをインストールしたけど、 解析結果がどうも変・・・ 「太郎はこの本を二郎を見た女性に渡した。」を 解析すると、「二郎」が「二」と「郎」に分けられてしまいます。 Web上の見本を見る限りそうはならなさそうなのですが。 ほかに、「一人」も「一」と「人」に分けられてしまいます。 同じような症状の方いらっしゃいます? 原因・解決法等ご存じでしたら教えてください。 バージョンは: mecab of 0.97 mecab-ipadic 2.7.0-20070801
windows版 0.98pre1でもubuntuで自前ビルドした0.97,0.98pre1でもそうなるよ。 naist-jdicでもなった。
>>373 ありがとう。
そうなのかぁ。
「一人」が分割されるのはまだ良いとして、「二郎」はショックだった。
WindowsXPにmecab-0.97.exeをインストールして試してみたらこうなった。 太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー は 助詞,係助詞,*,*,*,*,は,ハ,ワ この 連体詞,*,*,*,*,*,この,コノ,コノ 本 名詞,一般,*,*,*,*,本,ホン,ホン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 EOS 一 名詞,数,*,*,*,*,一,イチ,イチ 人 名詞,接尾,助数詞,*,*,*,人,ニン,ニン 。 記号,句点,*,*,*,*,。,。,。 EOS
原因は分からないけど、テキストと辞書のエンコーディングが EUC-JPのときとUTF-8のときで結果が微妙に違うことがあるね。
同じコストがついているときどれを返すのかは undefined だった気がする。で、エンコードによって違う、と。 メーリングリストで何回か話題になっていたような?
そろそろUTF8デフォにしてほしいな
379 :
デフォルトの名無しさん :2009/03/11(水) 08:25:33
質問なのですが、ブログなどの文章を形態素解析して 書いている人の文体の特徴を特定するには どのくらい文章量のサンプルが必要なのでしょうか? また2ちゃんなどの短い文章の書き込みを当人がした場合にも その特徴はデータとして露見しますか? 因みに私が知りたいブログの書き手は、有名な某連盟の会長さんです どなたかお詳しい方がおりましたら、宜しくお願いします。
>>380 抽出 ID:dJcsiq0u (3回)
781 名前:名無し名人[sage] 投稿日:2009/03/10(火) 14:25:09 ID:dJcsiq0u
中継の仕事に求められるモノが大きくなればなるほど、ネット中継は衰退する(できなくなる)と思うけどな。
仕事というのは、自分にだけできるというものではダメでしょう。継続していかない。
さらに現状のコメントは、控え室の棋士たちの善意のコメントに基づいているような状態だし。
したがって、今後は規格化され、記者やコメント棋士への報酬なども体系化され、
悪く言えば画一化されたネット中継になっていくことが予想される。
まあしかしそれが発展というものなのではないかなあ。反発はあると思うけども。
801 名前:781[sage] 投稿日:2009/03/10(火) 14:56:50 ID:dJcsiq0u
>>786 少し意味が違う気がする。
配信の知識、手の意図を解説する棋力、適切なコメント、キレイな写真。松本さんがすごいのは間違いない。
でも今後ネット中継をパッケージ化していく場合には、そういった良い部分も排除されてしまって、
誰でもある程度の品質が確保できるものになるのは仕方ないのではないか、という意味。
松本さんをないがしろにして良いという意味ではないからね。念のため。
816 名前:名無し名人[sage] 投稿日:2009/03/10(火) 15:21:34 ID:dJcsiq0u
>>800 現状のネット中継で、新聞社に旨みが少ないのは同意。
ソフトバンクとかがスポンサーになってくれるとネット中継もフルパワー出せるかもねえ。
>>812 あなたは上の方にいる「釣堀某」と同じ方?ずっといるけれど、何か訴えたいことでもあるの?
切ったり貼ったりもいいけれど、わかりやすくまとめてくれると話が早い。
「どの程度の確度がいるのか」という質問に答えないクズは消えろ。
あームリムリ。 警察の鑑定とかの専門家が「これは同一人物でしょう」とかやるのが関の山で、 数字で「85.2 % の確率で麦長が書いた文章です」とか機械的に出すなんてのは 不可能です。 あきらめて祭りに戻ってください。 # 麦長もいいかげん諦めろよなw
387 :
デフォルトの名無しさん :2009/03/11(水) 10:44:26
>>386 そうですか。。。
でも麦長ってwよくご存知で
お手数かけました
ありがとうございます
388 :
372 :2009/03/11(水) 12:23:11
>>375 ,356
ううむ。
そうなのか、と思って、EUCの辞書を使っても同じ結果になってしまいました。
その後いろいろ試してみると、下記のような結果になったので、
これは仕様ってことですかね。
この本を二郎を。
この 連体詞,*,*,*,*,*,この,コノ,コノ
本 名詞,一般,*,*,*,*,本,ホン,ホン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二 名詞,数,*,*,*,*,二,ニ,ニ
郎 名詞,一般,*,*,*,*,郎,ロウ,ロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
。 記号,句点,*,*,*,*,。,。,。
EOS
二郎を。
二郎 名詞,固有名詞,人名,名,*,*,二郎,ジロウ,ジロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
。 記号,句点,*,*,*,*,。,。,。
EOS
太郎はこの本を、二郎を見た女性に渡した。 なら問題ないんだよね
周辺の文脈を見て切っているんだから文脈が違えば別の切り方になるのは 全然不思議じゃないと思うけど、両方出したければ N-best の結果 (-N オプション)出せばいいんじゃない?
名詞,数,*,*,*,*, 名詞,一般,*,*,*,*, が並ぶ場合はプログラム側で膠着しているな。 その上で、辞書をひいてみて、ルールを適用。
普通に書くときは、〜を〜をなんて文章は書かないけど、結構あるんだろうね。
どうしても言い回しが思いつかなければ
>>390 みたいにするか。
ATOKが「をの連続」と注意してきたな。
日本語に形態素解析は向いていないという事だな。
>>391 >両方出したければ
正しい方だけが良い!!
こういう文を正確に解析しようとしたら、プログラムに特別ルールを どんどん増やして辞書も肥大化させざるを得ないんだろうな。 そもそも人間の言語行動がそうだからな。
>>388 みたいな結果になるというのは、数+一般は冒頭に来にくい、みたいな文脈判断が
あるんですかね? それとも単に
>>377 ?
「二」「郎」と分ける場合はいわば二つの郎という解釈をしてるわけですよね?
英語みたいに、名詞に数えられるかどうかの属性を持たせるとか...
まあ、頑張って付けたところで今回みたいなケースでしか役に立たないかもしれないけどw
数+一般はそもそも日本語として普通にある表現なので、 文頭に来るかどうかのコストが違うか、同じで undefined になっている、 のどっちか、ってことじゃないの。 いずれにせよコストはコーパスから学習されているので、 コーパスに出てきていなかったら変な学習結果になるはずで、 数+一般は普通に出る表現だと思うけど、 「二郎」という表現が固有名詞でしかほとんど出現しない、という知識は、 「二郎」がコーパスの中に出現していてくれないと分からないわけで、 新聞記事に「二郎」はそんなに出てこないんじゃないかと。
二朗、次郎はダメだが、治郎ならいける。
二郎はラーメン屋だから名詞であるべき
>>400 それは当たり前(名詞というか名詞の中でも特に固有名詞)で
そこには誰も反対していない。じゃあ二五四郎は? ってことでは。
加藤一二三九段は?
>>402 呼称としての段位は十段までである、というルールを適用する事により、解析可能w
>>396
>>403 そんなルールをいちいち追加したくないからコーパスを使って
学習しているんだと思うが。
囲碁は何級まであるか知っているか?
ヨーヨーに何段まであるか知っているか?
フェンシングは何級まであるか知っているか?
何に怒っているのかしらんがそういう話だ
単に一二三が名詞(人名)として辞書にあれば大丈夫?
>>404 人間だって、小説を読んで分からない単語や読みが出てくれば辞書を引いたり
人に聞いたりする。他者の会話(この場合のコーパス)からそれを類推する
ためには、会話以外の情報(例えば地名ならその土地でかわされている会話から
なら類推できる可能性が高い)が必要なわけで、(
>>396 )
>そんなルールをいちいち追加したくないからコーパスを使って
>学習しているんだと思うが。
なんてことを言い出す時点で、視点や立場が違うんじゃないかな。
>>406 辞書にあっても重みつーか文脈依存な評価値が高くならないと
結局「センニヒャクサンジューキュウダン」になっちゃう。
で、その評価値の元データとしてコーパスを準備するわけだけれども、
自然言語の性質としてどんなに大量のコーパスを用意しても、
1-2回しか登場しない例外的な「正しい文脈」が出ちゃうから
同じ問題につき当たり続ける。
>>407 「他者の会話」というのが(生)コーパスだと思うけど。
辞書に聞くといっても辞書にない単語だっていくらでもあるし、
そういうときは Web で検索するよね(今なら)。
それと同じことを(生)コーパスを用いてする、
というのは普通だし、JUMAN みたくルールを人手でハードコードするのは
限界がある(特定の分野に限定すれば可能)ので、
最近ルールのハードコードする人はほとんどいない、
というのが現状では?
>>409 の論点の空振り具合に舌を巻く私であった。
つーか、
>>409 のどこに論点があるのかわからん。
で? で終わるな きっと続きがあるのだろう
413 :
デフォルトの名無しさん :2009/05/29(金) 18:57:05
場違いな感じですが、質問させてください。 一般のレンタルサーバでの公開用に検索CGIを作っています(管理者権なし) 内容は、MeCabにより分かち書きしたデータをDBに用意->MySQLの全文検索(FULLTEXT)で検索、と考えています。 自宅の開発環境(Windows)では問題ないのですが、レンタルサーバには自分でMeCabをインストールできません。 Windows版の感覚ですと、辞書とモジュールをアップすればいけそうな気もするのですが、 UNIXでの情報をググっても、MeCab本体をインストールするケースしか見つかりません。 使用内容は、分かち書き済みのデータの検索をするため、フォームに入力された文字列を処理するだけなのですが 本体のインストールなしでMeCabを使用する方法ありますか?
API
>>413 tar zxfv mecab-X.X.tar.gz
cd mecab-X.X
./configure
make
make check
ここまででlibmecab.so.*(番号)ができてるはず
(WindowsでのDLLはUNIX系ではShared Object)
使い方はWindowsと一緒
つかmecabは単一ソースだから環境あればWindows用もコンパイルできるはず(やったことないけど)
mecab0.98で簡体字の辞書を構築中ですが、 出力する文字が化けます。 これはmecab側のバグなんでしょうか?
OSと辞書の文字コードをエスパーしろと?
ここに書き込んでる人って、元々の専門は何だったの? 言語?、情報?、全くの畑違いから仕事ではじめたの?
俺は趣味で気になって除いてる
専攻はシステムプログラミング系。 自然言語処理は学部の授業で取った。
統計解析
>>416 今更ではあるけどWinとかで使ってて
辞書の文字コードSHIFT-JISにしてないからじゃないかね。
お、このスレ生きてたか。嬉しい
MeCabを自作アプリに組み込んで配布したいんだけど libmecab.dllだけをアプリのフォルダにコピーして動かしても動くんだけど ipdic辞書の場所は環境変数か何かに入ってるのかな? 辞書も一緒にアプリに組み込みたい場合はどうすれば?
事故解決 mecab_new2で指定するのね
形態素解析したいんだけど chasenよりmecabを使う人のほうが多い?
chasenを選ぶ意味がわかんない
mecabはchasenの上級バージョンなんだが
そうなのか 普通にmecab使うわ さんくす
いや普通に別のものだろ
使用している計算法は別物だが、mecabにあってchasenにも付けられるのにchasenについてない機能がmecabにはある。
ある文章中に形容詞+名詞となってるものの個数を数えたいんだけど mecab使えばすぐできる?
mecabでnodeのリストを得る。 nodeには品詞情報としてそれが形容詞であるとか、名詞であるとかいろいろ値が入っているので それらをチェックして個数を数えればすぐできる。
435 :
デフォルトの名無しさん :2010/07/15(木) 08:50:11
「動詞+ない」とか「動詞+たい」は 形容詞に数えていいのか? 準体助詞の「の」は名詞に入れていいのか? 「最近は梅干のしょっぱいのが売ってない」 の「梅干のしょっぱいの」は「しょっぱい梅干」を 含意するがどうだ?
「逢いたいの」の「の」が 準体助詞の「の」ではなくて 強意の終助詞「の」だとかいうのは 文脈追わないとムリなので、 目的が分かると判断しやすい。
Natural Language Processing with Pythonってどう? 5月頃に和訳でるって聞いたから待ってたけど、全然来ないから買おうと思うんだが 今までC++ばっかでpythonやってないんだけど、これとは別にpythonを勉強したほうがいいんだろうか
>>436 文脈追わなくても使用頻度とマルコフ統計を取れば分かるでしょ
辞書ばりばりの形態素解析なんてもう時代遅れだよ
439 :
デフォルトの名無しさん :2010/07/20(火) 18:02:20
>>438 最尤候補はわかる。
実際にどっちかはわからん。
>>438 > もう時代遅れだよ
ジジイじゃあるめぇし、安心したがるなよ。
技術の話ってのは、ややこしくややこしくしてった方が、
最終的に得るものが多いんだぜ?
「燈下探索症候群」っつー言葉もあるわけで、
競合しそうな技術にはそれなりに目配りしとくもんだ。
新しい手法を知ると、ちょっとでも古い手法を「時代遅れ」とか言いたがるのはむしろ若い人じゃないかな? > 競合しそうな技術にはそれなりに目配りしとくもんだ。 これには同意。 たとえば、JUMANの結果のほうが使いやすい場合もある。
どんな手法が適切かはアプリケーションの種類に依存する。
全文検索だけが目的なら、マルコフ解析のような統計的手法だけで足りるかもしれないが、
談話理解や日英翻訳が目的なら、辞書による形態要素解析の技術は必須になる。
たぶん
>>438 は全文検索しか頭の浮かばない人で、若いとか年寄りとかいうよりも、
ちょっと可哀想な人なのだと思われる。
>>442 そういうことはまともに翻訳出来る翻訳機を発明してから言ってよw
>>442 がまともに使える(ゴミを拾わない)全文検索機を発明してくれたら考えとくよ
>>441 > 新しい手法を知ると、ちょっとでも古い手法を
> 「時代遅れ」とか言いたがるのはむしろ若い人じゃないかな?
いやすまん、言葉が足りなかった。
若いクセに精神がジジイになっとる奴が、
「時代遅れ」とか言いたがるわけよ。
「昔はよかったが、今はもうダメだ」という
昔を生きてた人間と、
「今はいいが、昔はもうダメだ」という
今を生きてる人間というのは、
同じように精神的にジジイだっちゅーこと。
446 :
デフォルトの名無しさん :2010/09/17(金) 23:34:05
上げる 書き込む 終了
それちゃうちゃうちゃう? いやちゃうちゃうちゃうんちゃう?
ちゃうちゃうちゃうちゃうちゃうんちゃう?
うらにわにはにわにわにはにわがいる __,‐"~~`‐、 .( (^|:: ● ●|-、 ヽ]::::.....● ..|^) ) ....... |::::::....... [ノ ........... ~‐:::;;:::::‐"
それはハニーだw
おまえら楽しそうだなw
452 :
デフォルトの名無しさん :2010/10/11(月) 19:11:23
すっごい馬鹿な質問かもしれないけど、 文節が同じなら文節に含まれる形態素列も完全に同じものになるんでしょうか?
>>452 完全に同一な文章だよね?なんで違う形態素があると思えるの
日本語独特の曖昧な文法とか? 副詞なのか助動詞+助詞なのか、文節は同じだけど分類がわかんねーとか? ……いや、それでも無理があるか。
>>452 今更誰も見ていないだろうけど・・・
その前後の文節によって、形態素解析が違ったものになる
ことはありうる。
>>455 ------------------
<<<<<<<<<<<< 今更誰も見ていないだろうけど・・・ >>>>>>>>>>>>(キリッッキリッッッ!キリ!!!!!!
----
<<<<<<<< その前後の文節によって、形態素解析が違ったものになる >>>>>>>>(キリッッ!!!!キリッッッ!キリッッッ!!!ッッ!!!
--(キリッ!キリッッッ!きリッッ
--
<<<<<<<<<<<<< ことはありうる。 >>>>>>>>>>>>>(キリ!!キリッッ!キリ!!!!キリッッ!!!!!
-------(キリッッ!
放射性廃棄物のほうがマシ
457 :
デフォルトの名無しさん :2011/07/29(金) 21:01:44.01
いまさら人工知能や形態素解析について勉強しようと思ったんだけど どこも下火な感じなのかね
研究のブームは過ぎた感もあるけど、たとえば、日本語の過去の膨大な文献を 機械可読にして知識ベース化とかはまだまだこれからだし、やることはあると思うね。
459 :
デフォルトの名無しさん :2011/08/10(水) 20:21:55.63
それは画像処理じゃないか?
461 :
デフォルトの名無しさん :2011/11/28(月) 18:50:33.51
人工知能の勉強しようと思ったが資料が全然ないのね
462 :
デフォルトの名無しさん :2011/12/02(金) 22:03:01.66
文章や段落またがった係り受けとかって無理? 大量にデータがあればできんの?
無理じゃないとは思うけど、基本的に、場所が離ればなれになってる構造ほど扱いにくい ことは確かね。
464 :
デフォルトの名無しさん :2011/12/13(火) 23:35:16.69
日本語処理ってことはテキストマイニングだと思うんですが、 皆さんはC++、Perl、Python、Rなど言語は何を使っていますか? また、最近ではどの言語が一番いいのでしょうか?
Python
Java
テキストマイニングをRでってあるけど、Rは流石にオーバー?
ぜんぶ無料なんだから試してみればいいじゃん 使える引出しが多いといいこともあるよ