形態素解析と日本語処理

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。
2デフォルトの名無しさん:05/01/25 07:58:59
Prolog屋なのですが、この分野の知識は全くありません。
勉強させてください。
3デフォルトの名無しさん:05/01/25 08:01:53
自然言語処理スレッド
http://pc5.2ch.net/test/read.cgi/tech/1011988273/
4デフォルトの名無しさん:05/01/25 08:13:52
お、茶筌ネタかい?いいねぇ。
5デフォルトの名無しさん:05/01/25 08:38:39
まずは、漢字、ひらがな、カタカナ、句読点、記号などで分ける。
それから?
6デフォルトの名無しさん:05/01/25 08:52:32
分けるとどうなるんだろう?
試してみますかね。
7デフォルトの名無しさん:05/01/25 10:35:40
それくらいなら頭ん中で試せば十分だろ。
8デフォルトの名無しさん:05/01/25 11:16:33
次に品詞でわけてみるる。


今日は良い天気ですね。

今日|は|良い|天気|です|ね|。

(は(今日((天気 (良い ) です)ね)))

「今日は」は2通りの解釈がある。

こんにち|は|良い|天気|です|ね|。

きょう|は|良い|天気|です|ね|。
9デフォルトの名無しさん:05/01/25 11:29:05
もう1通りあるんじゃない?

こんにちは|良い|天気|です|ね|。
10デフォルトの名無しさん:05/01/25 11:29:45
漢字かな混じりの文章はわかりやすいですが、ディクテーション情報(音素から組んだ文章、要は全部ひらがなとかローマ字)から形態素分析って可能なんでしょうか?
人はどのように判断しているんでしょうかね?
11デフォルトの名無しさん:05/01/25 11:30:54
何か良い死霊ないの?
12デフォルトの名無しさん:05/01/25 11:45:23
ここではきものをぬいでください
13デフォルトの名無しさん:05/01/25 13:04:03
あしがりのわをかけやまのかずのきのわをかずさねもかずさかずとも

あれもしかしてあしがらだったか
14大原ゆき:05/01/25 13:24:00
大原ゆきが華麗に2get
15デフォルトの名無しさん:05/01/25 14:11:19
?
16デフォルトの名無しさん:05/01/25 14:17:03
17デフォルトの名無しさん:05/01/25 19:06:20
きょうはいしゃにいく

今日歯医者に行く
今日は医者に行く
18デフォルトの名無しさん:05/01/25 20:06:04
こっちは初心者スレ?
19デフォルトの名無しさん:05/01/25 20:13:33
>>18
どちらかというと、より特化したスレ。
20デフォルトの名無しさん:05/01/25 20:20:37
すもももももももものうち
21デフォルトの名無しさん:05/01/25 21:45:51
最初に区切りとなる文字を探すところから始める?
22デフォルトの名無しさん:05/01/25 21:52:35
プロが来ないと駄スレの予感…
23デフォルトの名無しさん:05/01/25 22:01:41
形態素解析システム茶筌
ttp://chasen.naist.jp/hiki/ChaSen/
24デフォルトの名無しさん:05/01/25 22:22:19
はんかくかたかなはやめろ

半角カタカナ早めろ
半角カタカナは止めろ

単なる誤変換スレ化?
25デフォルトの名無しさん:05/01/25 23:28:36
>>22
すでに研究されつくされたテーマって気がするが。
1はスレ立ててないで、論文探した方がいいんじゃないの?
26デフォルトの名無しさん:05/01/25 23:29:37
>>25
本当にそうかな?
もしそうなら完璧にできるソフトが存在するはずだ。
27デフォルトの名無しさん:05/01/25 23:34:31
そうとも限らんだろ。
完璧にできるソフトが作れるはずの論文が存在するはずだ、
ならいえるかも知れないが。
28デフォルトの名無しさん:05/01/25 23:39:03
もしくは完璧に作るのは不可能だ、という論文な。
29デフォルトの名無しさん:05/01/25 23:44:04
>>28
その手の論文は数十年後に破られるのがありがちな話なので、それはなんとも。
30デフォルトの名無しさん:05/01/26 03:59:06
>>29
> その手の論文は数十年後に破られるのがありがちな話なので、

実例キボン
31デフォルトの名無しさん:05/01/26 06:28:42
完璧に出来てるだろ
茶筅とか
あとは辞書を増やすだけ
32デフォルトの名無しさん:05/01/26 07:03:44
統計推論型のはまだ全然
33デフォルトの名無しさん:05/01/26 15:03:57
なんつーか先が無さそうでかわいそうな分野だよね
34デフォルトの名無しさん:05/01/27 06:45:35
じゃあこのスレで日本語変換システムを一つ作るってのはどうだ?
かんなやうんぬは丸っきりクソだろ?
35デフォルトの名無しさん:05/01/27 07:01:31
名前は「ぬるぽ」
36デフォルトの名無しさん:05/01/27 07:10:51
>>34
Windows用なら参加する。
37デフォルトの名無しさん:05/01/27 07:50:52
形態素解析のアルゴリズムさえできれば、WindowsでもXでも使えるだろう。
38デフォルトの名無しさん:05/01/27 09:12:34
UnicodeかShift_JISかeuc-jpか。文字コード多いよ。低レベルの処理ではデータ構造を抽象化すると遅くなるから、高位のメソッドを抽象化しないと。
gchは抽象化された符号なし文字。
typedef unsigned int uint;
inline gch*GchNext(gch*);
inline gch*GchPrev(gch*,gch*);
inline uint GchLen(gch*);
39デフォルトの名無しさん:05/01/27 09:59:27
まず、お前のエロ雑誌に出現する品詞をKAKASIかCHASENかJUMAN使って統計してくれ。
40デフォルトの名無しさん:05/01/27 10:11:38
>39
をっさん、何を統計するだ?

品詞の数、品詞の並び方のパターン、パターンのパターン…。
文法上の属性か?
41デフォルトの名無しさん:05/01/27 13:38:18
まあどうがんばってもATOKには勝ち目ないし
42デフォルトの名無しさん:05/01/27 19:53:40
まずはどういう設計にするのかを決めないと。データだけあっても仕方がない。
43デフォルトの名無しさん:05/01/27 19:54:42
いや、データさえあれば簡単だ。俺なら1日で組める。
44デフォルトの名無しさん:05/01/27 20:03:54
>>43
それだったら君個人で作ればいいじゃない。
4544:05/01/27 20:06:18
ごめん、全言撤回。
46デフォルトの名無しさん:05/01/27 20:07:13
だからデータがねえっつってんだろ。
日本語わからねえのか?
おまえこそ形態素解析勉強して日本語読めるようになれよ。
4744:05/01/27 20:07:54
×全
○前
48デフォルトの名無しさん:05/01/27 20:11:09
>>46
どんなアルゴリズムにするつもりなの?
データが豊富にあったら良い物ができるの?本当に?
49デフォルトの名無しさん:05/01/27 21:00:31
アルゴリズムなんて問題じゃない。
何度も言うが、必要なのはデータとデータ構造だ。
50デフォルトの名無しさん:05/01/27 21:10:05
文法データならCHASENとKAKASIからXMLパーサ使って借りてこい。
他のちまちましたデータは辞書.comや省庁回ってこい。
51デフォルトの名無しさん:05/01/27 21:13:24
ポータルサイトも膨大な情報を分類しているだろ
52デフォルトの名無しさん:05/01/27 21:19:24
細かい実装はうんぬの公開情報見ればいいだろ。今は変換先読みとWeb辞書連携が主流だ。
53デフォルトの名無しさん:05/01/27 21:20:58
なんでそんなに堅実に作ろうとするんだろう。
新規性はないの?
54デフォルトの名無しさん:05/01/27 21:25:59
日本語ワープロの元祖では変換候補を木構造でしぼりこんでいく単純なものだ。それこそデータがあれば一日で作れる。
大学のwebに逝けば変換方法の論文は腐るほど見付かる。ぐぐれ!
55デフォルトの名無しさん:05/01/27 21:28:46
>>54
うん、知ってる。
56デフォルトの名無しさん:05/01/27 21:32:22
ここで作れるのは、特定の用途に特化した入力補助エンジンと概念データベースくらいだろ?違うか?
57デフォルトの名無しさん:05/01/27 21:35:22
いちいち探すのマンドクサイ。誰か秘密基地作れよ
58デフォルトの名無しさん:05/01/27 21:50:31
aを任意の名詞節とする。文「aを食べる」をJUMANやKAKASIなどで統語的に調べ、機械的に品詞並びにする。
文「aを食べる」が真の場合、aは食べ物に分類される。このように、その文の真偽から食べ物かどうかを知ることができる。
文が偽の場合、その文はどんな文脈にあるか?
59デフォルトの名無しさん:05/01/27 21:57:24
>58
夢や空想、憶測などの心の中の出来事や会話などの文脈に多い。〜と思う、〜と言う、考える。
また、物語や体験談などでは以前の勘違いを打ち消すことが多い。
60デフォルトの名無しさん:05/01/27 22:01:56
このように、比較的規則的に書かれた文書から概念の意味や分類法を抽出できるはずだ。
61デフォルトの名無しさん:05/01/27 22:10:14
>60
要するに、2ちゃんねるみたいな不規則なソースから知能を作るのは無理そうだな。
62デフォルトの名無しさん:05/01/27 22:12:10
>>61
2ちゃんねるは日本語としておかしい文章が多いけれど、規則性がないとは言えない
と思うような気がするでそ
63デフォルトの名無しさん:05/01/27 22:25:10
そこで「知能とインターフェースの段階的進化法」を唱える!
64デフォルトの名無しさん:05/01/28 11:10:05
「ん」を「そ」に変えれば2ちゃん語っぽくなる
65デフォルトの名無しさん:05/01/29 21:59:33
形態素解析された誤りの含まれた文章を、文字マルコフ連鎖で誤りの場所を
探したのですが上手く誤りの場所を探すことができませんでした。
何かいい方法はないでしょうか?アドバイスください、よろしくお願いします。
66デフォルトの名無しさん:05/01/29 23:44:34
>>65
出来の良い売り物を買えばよいです
67デフォルトの名無しさん:05/01/30 01:34:18
>>65
総当たり
68デフォルトの名無しさん:05/01/30 05:45:19
>>33
> なんつーか先が無さそうでかわいそうな分野だよね
ある手法のことをウェブで比較的あっさり批判してる人がいて、批判された方
がマジでキレてるのには笑った。同じ専門分野の研究者として悲しいとか恥か
しい、みたいなことまで書き連ねてた。

批判の内容が正当なのか間違ってるのかは自分は門外漢だから判断できん。で
も研究の上で不当な批判を受けるのなんか当たり前。誤解や不当な評価があっ
たら、無視したっていいし、冷静に反論してもいい。

細かいことを感情的にウジウジつつくようになってるのはタコツボ化してる何
よりの証拠だね。
69デフォルトの名無しさん:05/01/30 15:12:04
>>65
単純にマルコフ連鎖だけを頼りにすると、助詞が邪魔になってうまくいかないって意味?
70デフォルトの名無しさん:05/01/30 15:25:47
つーか、どんなレベルの誤りを検出しようとしている?
71デフォルトの名無しさん:05/01/30 15:42:05
>>70の文章だと全体に下線がつくレベル。
72デフォルトの名無しさん:05/01/30 16:14:15
>>65
ベイズ推定使え。
73デフォルトの名無しさん:05/01/30 16:39:53
>>72
bayesはどう考えても無茶だろ(藁
7465です:05/01/31 00:11:16
音声認識装置によって書籍を何文か出力させて、これをマルコフ連鎖モデル
にかけて置換誤りなどの誤りの場所を探したいのですが誤りのある部分が閾値を
下回ってくれず上手くいきませんでした。これは音声認識装置は単語区切り(形態素解析)
で文章を出力しているので文字マルコフでは有効ではないということなのでしょうか?
上手く探すいい方法はないでしょうか?(構文解析とか使うのかなあ?)
詳しい方、アドバイスもらえないでしょうか。長文でゴメンナサイ。
75デフォルトの名無しさん:05/01/31 01:45:11
閾値を厳しくする
76デフォルトの名無しさん:05/01/31 03:31:01
誰かがいぜんやってたが、2chのスレを形態素解析する。そしてマップを作る。
そこまではそいつがやってたが、精度をあげ、リンクなども絡めて
新しい掲示板のトップメニューとして確立したらどう?
まったく新しいインデックスになるよ。KnoppixのHPで紹介されてる
ウェブの中での自分の位置みたいな地図を
掲示板に特化して作るわけ。
そうするとインデックスからスレ同士の関係が把握しやすい。

例えば総合の質問スレにレスつけるか専用の質問スレにレスつけるかどうか
検索せずに目的のスレの大体の場所がわかる。そのスレから引用されてる、
もしくは言及されてる単語が載っているほかのスレも判る。

って、WebProgの新しい掲示板作るスレで言ったらまったく相手にされなかったよ
77デフォルトの名無しさん:05/01/31 08:18:43
それと同じことはベイズ推定を利用したメールのフィルタリング機能やWikiの機能として
既に実現されてるけどな。
78デフォルトの名無しさん:05/01/31 18:38:30
このスレ全体的に他のスレよりレベル高杉。
もう少しかみ砕いて、わかりやすく説明してください
79デフォルトの名無しさん:05/01/31 20:12:49
マルコフとかベイズとか日本語の解析するなら日本人だしてこいや。
名前出せるほどのものがあるかどうかはしらんが…。
80デフォルトの名無しさん:05/01/31 21:36:48
>>78
2・3の専門用語が出ているけれど、この世界では当り前だから、要は慣れです。
知っているか知っていないかの違いですね。
しかも、それほど複雑でも無いので、自分で調べてください。
81デフォルトの名無しさん:05/01/31 22:50:45
>>76
スレタイ検索に実装して、関連スレを検索可能にするのも楽しそうだけど
82デフォルトの名無しさん:05/01/31 23:49:38
>>76
カキコしている人が無意識のうちにやってるカテゴライズを
もう一回やり直すのね。
83デフォルトの名無しさん:05/02/01 01:44:42
>>76
形態素分析なんかしないで、スレの内容を適当にベクトル化して
クラスタリングでもしてみるのも面白いかもしれない。
84デフォルトの名無しさん:05/02/01 02:00:57
>>83
自分で何言ってるかわかってないだろ。
ベクトル化の前に形態素解析(でもn-gramでもいいけどさ)があるんだろ。
85デフォルトの名無しさん:05/02/01 02:09:14
形態素解析せずにスレの内容をベクトル化する方法を教えてください
86デフォルトの名無しさん:05/02/01 04:16:29
>>85
文字種でベクトル化
日本語の場合、結構いけるかもよ
87デフォルトの名無しさん:05/02/06 02:01:36
88デフォルトの名無しさん:05/02/09 01:03:38
形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
用いれば簡単にできます。
ただし、問題は、そのためには、各種辞書とかが必要です。
もちろん、それに伴う、確率値とか、コストとか。

さらに、連語とか、複合語とかをどのようにあつかうかとか、
未知語(辞書にない言葉)とかをどのように扱うとか、
いろいろな問題があります。

そこらあたりをなんとかかいぬぐり実用に達しているのが、茶筅とか
その部類の有名な形態素解析な感じです。

研究的にはやりつくした感はありますが、実用にはほど遠いと思います。
これはもはや情報処理というよりは言語学の力を借りないと難しいな
と、個人的には思います。
89デフォルトの名無しさん:05/02/09 04:54:41
>>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
「ヴィタビ」(もしくはビタビ)ってんだよ。
90デフォルトの名無しさん:05/02/09 08:37:26
えっと、kakasi のいわゆる「お知らせ問題」は、
もうどうしようもない事実として受け止めるしかないんでしょうか?
http://ofo.jp/osakana/diary20030522.phtml

POPFile とかも kakasi を使ってるんで、
なんとか解決方法 & パッチは無いものかと思っているんですが。
91デフォルトの名無しさん:05/02/09 08:53:35
>>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
> 用いれば簡単にできます。

理屈としてはヴィタビがいいけど、実際に使われるのはA*が多いだろ。
92デフォルトの名無しさん:05/02/09 11:46:08
>>90
「お知らせ」なら「知らせ」で検索させた後で
「お」が付く文脈かどうか判定するフロントエンド作れ。
93デフォルトの名無しさん:05/02/11 21:17:11
おまいら、教えて下さい。
漏れのマシンは別に一太郎やらATOKやらはインスコしてないのに
C:\Program Files\Justsystem\JSLIB32\AddWord2.exe
なんてものがあります。で、バージョン情報を見たら
「Js形態素解析登録プログラム」とかってなってますた。これってなんですか?
どうしてこんなもんが入ってるか調べる方法とかありますか?
94デフォルトの名無しさん:05/02/11 21:42:32
スレ違い
9593:05/02/11 23:38:49
    〃〃∩  _, ,_
     ⊂⌒( つД`)
       `ヽ_ ノ ⊂ノ
              グスグス・・

       ∩
     ⊂⌒(  _, ,_) グスン・・・。
       `ヽ_つ ⊂ノ
96デフォルトの名無しさん:05/02/12 10:01:04
取りあえずそれを立ち上げて
http://www.sysinternals.com/ntw2k/freeware/procexp.shtml
こういうのでどのプロセスが他に起動するか見てみればどう?

もしくは他のソフトを一個一個試してみてその形態素解析の奴が一緒に
立ち上がった瞬間を見ておくしかないな。

サービスの一つに関連付けられてるかもしれんし。

わかったら何のためのプログラムか、何に使えるのか報告ヨロ


97デフォルトの名無しさん:05/02/12 15:00:27
教えてください。
昨年からJuman-4.0を使っています。
これはどのような特徴を持ったソフトなのですか。
98デフォルトの名無しさん:05/02/12 15:05:38
99デフォルトの名無しさん:05/02/12 17:23:44
文楽の義太夫なんか聴く場合、7・5調の音数律のような意識を
働かさないと理解しがたい。少なくとも私には。
こういうものがメインにはなりえないだろうが、並列処理で
音数律解析が働いている、なんてことはできないものだろうか。
100デフォルトの名無しさん:05/02/12 21:34:30
日本語の文を形態素解析すると、構文木を作成できると思います。
その構文木から動詞基準で格構造を抽出する方法ってあるでしょうか??
意味解析が利用できれば可能なのでしょうか・・

101デフォルトの名無しさん:05/02/12 23:11:10
だからそれがわからんからこうやって議論してるんじゃないか。
どこかにいい本ない?
102デフォルトの名無しさん:05/02/12 23:56:07
>>100
バイト雇ったらどうか?
コンピュータよりずっとまともな処理が期待できると思うが。
103デフォルトの名無しさん:05/02/14 14:39:43
奴隷やとったらどうだ?
コンバインよりずっとまともな農作業が期待できると思うが。
104デフォルトの名無しさん:05/02/15 07:12:54
自然言語処理に向いてるプログラミング言語って、
やっぱりCですか?

半期javaやってたんだけども、Cやり直すかなぁ…
勝手に思いついたアルゴリズムで文章解析して、
データベースみたいなのを吐き出してまた使えるようなのを作りたいんですが(将来的に)
105デフォルトの名無しさん:05/02/15 07:18:50
>>104
Cはどちらかというと向いてないと思う。
文字列の塊を切った貼ったが楽にできる言語の方がいいんじゃないかな。
なわけでやっぱりLispとかかねえ。
106104:05/02/15 07:42:56
ありがとうございます。
Lispって、なんか、そっちへ行ったら帰ってこれなそうな印象が…(苦笑)
107デフォルトの名無しさん:05/02/15 08:38:50
>>106
Lispのテイストを味わったことないのなら、一度味わってみるべし。
それから留まるか帰ってくるか決めなされw
108デフォルトの名無しさん:05/02/15 09:04:30
>104 単純に向き不向きでいったら、断然Prologです。自然言語を
解析するために作られた言語ですから。ただ、左再帰問題というのが
あって、Prologの探索順序の関係で、
<< 文 とは 文 がきて その後に 助詞 と 述語がくる >>
というような定義をすると、最初の部分で、文とは文である、となって
再帰的述語の呼び出しが終了できなくなる。これさへなければ、
あっという間に、簡単な句構造解析くらいできてしまうのですが、
実際にはこれを回避するため一段と複雑なコードを書かなくてはならなくなる。
それでPrologなら圧倒的に有利とはいえませんね。
109デフォルトの名無しさん:05/02/15 09:16:24
大昔に一世を風靡した「電信八号」を作った偉い人のやってる
形態素解析、構文解析
http://www.web-tscom.co.jp/
たいして金になりそうもないし、ついていけねぇ(;´Д`)
110108:05/02/15 09:33:07
>108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、

これは形態素解析が終わってから後の話です。
111デフォルトの名無しさん:05/02/15 12:15:27
>>108
> 自然言語を
> 解析するために作られた言語ですから。

そんな話は初耳だな。

>>110
> >108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、
>
> これは形態素解析が終わってから後の話です。

自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。
112デフォルトの名無しさん:05/02/15 12:40:03
>111 Prologを作ったのはマルセイユ大学ですが、
これは自然言語を解析するツールとして作られました。
論理式をそのまま言語にしてみたらというアイデアではあったようですが
言語として設計されたわけではありません。
>自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。
完全性の問題を問われない程度のものなら、済むんじゃないですか。
113デフォルトの名無しさん:05/02/15 15:34:34
>>112
自然言語をパースするためではなくて、「自然言語処理」一般だろ。
まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
その論理式を用いて知識推論をしようとした、じゃないのか?
自然言語の文を直接Prologでパースするなんて悪い冗談だ。
114デフォルトの名無しさん:05/02/15 15:39:30
>>104
> 自然言語処理に向いてるプログラミング言語って、
> やっぱりCですか?

NLP関連でpythonを使う人も多い。
有名なAI: Modern ApproachのPeter Norvigもpythonについて色々書いている。
http://www.norvig.com/
115デフォルトの名無しさん:05/02/15 15:48:49
1971-2年の話で、当時の学問的環境も想像し難いし、1973年に書かれた
仏語の論文も読んだことがないので、どういう意図だったかわからない。
ただ、「悪い冗談」であるかどうかも皆目判っていなかったのではないか?
116デフォルトの名無しさん:05/02/15 16:32:04
>>109 これはちょっとわからないな…
117デフォルトの名無しさん:05/02/15 16:35:59
>113
>まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
そうそう。専用のパーサは無かったと思う。
マルセイユ版Prologが動いて、append/3が発見されるまで
3ヶ月かかったとのことで、今日のProlog観は全然通用しない。
少なくとも知識推論しようとしたなどということはなさそう。
118デフォルトの名無しさん:05/02/15 17:58:54
>>117
> 少なくとも知識推論しようとしたなどということはなさそう。

AlainやPhilippeが書いた最初のprologプログラムは人間の質問に答える自動
応答システムです。
119117:05/02/15 18:52:43
>118 それは知りませんでした。この件について全然知識が無いので
なにか資料等残っているならぜひ教えてください。
120デフォルトの名無しさん:05/02/15 19:21:39
「小論文、コンピューターで自動採点 入試センターが試作」
http://www.asahi.com/national/update/0215/019.html

これマジか?本当にこんなものがもう実用段階に入ってるのか?
だとしたら俺らがやろうとしてることって一体何なんだ?
121デフォルトの名無しさん:05/02/15 19:43:18
>>120
型にはまった人間ばかり評価されるのはなんだかなぁと思った
122デフォルトの名無しさん:05/02/15 19:59:26
>>120
採点が楽になるってだけの理由で採用するのはどうかと思うし、
どの程度の性能か具体的に示されていない所が疑問ではあるな。

同等の評価を受けた物であっても、大きく評価が変わるケースが1%でもあれば、それだけでは使い物にならないわけで・・
123デフォルトの名無しさん:05/02/16 09:00:57
124デフォルトの名無しさん:05/02/16 11:09:42
自然言語をパースするためなら、Perlがいいねぇ。
正規表現は、最強。ライブラリも豊富で最初から自分で作る必要もない。
125デフォルトの名無しさん:05/02/16 11:21:16
>>104
Cで書いてあるエンジンって速さを優先してるからじゃない?
String Operationが優れていてそこそこOOPに対応してる言語なら
JavaでもPerlでも。Pythonはどうよ。
RegExpの使いやすさは結構重要かと。
126デフォルトの名無しさん:05/02/16 11:43:38
>>109 みたいな係り受けを分析するフリーのライブラリってないんですか教えてください。
127デフォルトの名無しさん:05/02/16 13:04:25
昔、C と Perl の正規表現速度対決のページを見た。
Perl の方が機能豊富なのに速かった気がするんだけど、どうなんだろう。
まぁ、ベンチマークなんてあてにはできないのだけど。
128デフォルトの名無しさん:05/02/16 13:07:47
>>126
KNPとかmsrlだろ。
129デフォルトの名無しさん:05/02/16 13:10:35
>>127
あなた、正規表現のエンジンがPerlで書いてあるわけじゃないんだから。
機能の豊富さとそのルールを使わないマッチングの速度も関係ないし。


130デフォルトの名無しさん:05/02/16 13:13:46
>>128 ありがとうございますぐぐります
131119:05/02/16 13:28:15
>123 ありがとうございました。
132デフォルトの名無しさん:05/02/16 18:32:08
ここは良スレですね
133デフォルトの名無しさん:05/02/16 19:38:16
>>117
> 3ヶ月かかったとのことで、今日のProlog観は全然通用しない。

この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
134デフォルトの名無しさん:05/02/16 20:31:56
>>124
>自然言語をパースするためなら、Perlがいいねぇ。
CPANから欧米語のTaggerモジュールが手に入る。
(ただし、あまり精度はよくない。)

http://search.cpan.org/~acoburn/Lingua-EN-Tagger-0.06/Tagger.pm

他のコンピュータ言語で、Tagger, Parserなどのライブラリー、モジュール
が無料で公開されているのはありますか?
135デフォルトの名無しさん:05/02/16 21:37:37
>>134
pythonのmonty taggerはちょっと遅いけど速度に厳しい用途でなければ
それほど問題ない。parserもいくつか見かけた。
136135:05/02/16 21:41:59
137デフォルトの名無しさん:05/02/16 23:29:35
なんかよくわかんないけどリンク針

OpenNLP http://opennlp.sourceforge.net/
OpenNLP Maxent http://maxent.sourceforge.net/
Grok http://grok.sourceforge.net/
OpenNLP Leo http://leonlp.sourceforge.net/
OpenCCG, the OpenNLP CCG Library http://openccg.sourceforge.net/
nlpFarm http://nlpfarm.sourceforge.net/
138デフォルトの名無しさん:05/02/17 12:25:41
>133
> この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
117のここの部分は、Prologが最初は何の目的で作られたか。その時点で、
可能な技術はどんなものだったかという話に脱線していますね。
139デフォルトの名無しさん:05/02/17 20:57:44
>>138
今のNLP観で言語選択すると英語だよな。
140デフォルトの名無しさん:05/02/18 03:08:43
>>139
おじいちゃん、おむつからウンコがはみ出てますよ。
141デフォルトの名無しさん:05/02/18 22:41:52
正規表現エンジンってどうやって作るのかな?
142デフォルトの名無しさん:05/02/19 01:20:34
FAを作る。
143デフォルトの名無しさん:05/02/20 14:25:59
>>142
FAって単語が分かれば>>141は書き込まないと思われ。
144デフォルトの名無しさん:05/02/20 22:52:12
Football Assosiation
145デフォルトの名無しさん:05/02/21 02:49:23
Final Answer
146デフォルトの名無しさん:05/02/21 04:03:44
fuck anal
147デフォルトの名無しさん:05/02/21 17:18:49
作る話してるときにFAって単語がどうとか言い出すのはどうかと思う。
148デフォルトの名無しさん:05/02/23 13:53:29
Futtoboru Awaa
149デフォルトの名無しさん:05/02/23 14:27:38
FusiAnasan
150デフォルトの名無しさん:05/02/23 15:06:16
Finite Automaton(有限オートマトン)
151デフォルトの名無しさん:05/02/23 15:40:48
Flets ADSL
152デフォルトの名無しさん:05/02/24 10:52:17
Free Agent
153デフォルトの名無しさん:05/02/24 16:19:06
Fighting Arts
154デフォルトの名無しさん:05/02/28 12:44:17
Fujikofujio A
155M.B.:05/03/03 10:52:04
Java 使って、チャート法ベースの
形態素解析システム組んだのはいいが、
係り受けの処理とどうやって融合したらいいかよくわからん。
チャート法っつーのは本来構文解析によく使われる手法だっつーのだが、
日本語みたいなForth もどきの文法構造を持った言語だと、
BNF みたいな形での抽象的な構文法の記述がうまくいかん。
誰か解決策を知らないか?
156デフォルトの名無しさん:05/03/03 15:31:37
サーチクロスって,形態素解析してません,なんて書いてあったんだけど,
じゃ,どうやってインデックス作ってるんだろう.
N-gram じゃないだろうしなぁ.インデックスサイズから考えても.
157M.B.:05/03/03 19:33:04
>>156
解析精度が低くていいなら、手法はそれなりにあると思われ。
英文用のスペルチェッカーなんかはそうした経験則の集大成だし。
漢字以外の文字から漢字に変わる点でぶった切って、
切れたものの末尾から附属語らしき要素を取りつくしてくだけで、
インデックス用のキー文字列は作れるしね。
あとは検索用の文字列に同じ処理を施して、それをキーにして候補を
かき集めて、それからじっくりマッチするかどうかチェックしてけばいい。
158デフォルトの名無しさん:05/03/03 21:27:46
>>155
係り受けなんて品詞で辿れるもんじゃないの?
自分で文章組み立てる手順とか考えた事ある?
つーか何のためにチャート法にしたの?
159M.B.:05/03/03 21:53:32
> 係り受けなんて品詞で辿れるもんじゃないの?
日本語だと省略が多いもんだから、
「嬉しいです」の「連体形+用言(助動詞)」みたいに、
ある程度長いスパンで見ないと係り受けの関係が見えないケースが多いのよ。
だから、体言ごとに格を推定して、動詞のほうから必要な格を割り出して、
余ってる体言が出ないようにするとかいった手続きが、
係り受けの推定には必要なわけ。
> つーか何のためにチャート法にしたの?
かな漢字変換もできる双方向の解析システム作ってたら、
結果的にそうなっちゃった。
「はくさいやだいこんなどのやさいが」は、切り方によって
「白砂 嫌だ こんな どの 野菜が」みたいな
いろんな屑候補が出てくるのだが、これをバックトラックで処理してると
同じ処理を何度もやることになって具合が悪い。
チャート法なら同じ部分の解析は一度しかされないし、
見込みのありそうな候補に絞って探索するとかいった制御も楽。
160デフォルトの名無しさん:05/03/04 12:20:33
日本語XLEは?
161M.B.:05/03/04 16:25:06
技法っつーか解析戦術レベルでは有効だろうし、
チャート法に代表される、並列処理にもってきやすい技法とも
併用可能なので、実用化っつー部分では要チェックと思われ。
ただ、「意味に即した解析」をうまく取り込むには、
職人芸的な技巧が要求されるので、「機械翻訳の質を上げる」みたいな
意味に踏み込んだ処理をやろうとすると、使いこなせるのは
ごく一部の特殊な才能を持った人なんじゃないかなぁ、と思う。
本当にできる人は、かな漢字変換に使われる「接続テーブル法」とかの
制約の中でも、意味処理に近いことをやってたしね。
162デフォルトの名無しさん:05/03/05 13:37:38
>>155
補強項処理を追加したら?
つまり文法記述中にJAVAのプログラムを記述する。
補強項つきの文法をいったんJAVAプログラムに落とすために、コンパイラコンパイラを
作る必要があるが、たいした手間ではないでしょう。
チャートパーサは、ちょっと変更すれば、そのまま使えるはず。
163デフォルトの名無しさん:05/03/05 13:44:33
KAKASIがやってる処理ってこういうの?

お?[亜-Kア-ヶー -◯Α-ωА-я0-9a-zA-Z]+[あ-んー]*[!?!?。、]?
|
[あ-んア-ヶー]+[!?!?。、]?
164デフォルトの名無しさん:05/03/05 15:56:11
人工無能スレってないの?
昔あったような・・・
165デフォルトの名無しさん:05/03/05 16:31:33
日本語解析って大変だよね。
わりに合わない気がするし。
文字コードの問題もあるし。
これが必ず正しい!って毎回答えが決まるわけでもないし。

おまえら形態素解析して何に使ってますか?
166デフォルトの名無しさん:05/03/05 16:41:20
>>165 サイトの全文検索
167M.B.:05/03/05 20:52:53
>>165
聴覚障害者や外国人向けの、漢字かな交じり文の読解支援。
読みがわからんと国語辞典が引けんので、
漢和辞典を引くしかなく、けっこうツラい。
「冷たい」と「冷える」、「下ろす」と「下がる」、
「生やす」と「生む」等、「漢和辞典引いて
読みを調べて国語辞典引いて活用形調べて
どれがマッチするか確認して……」とかいった手続きが
必要な語はけっこうある。それ以外にも、
「入れない」がイレナイかハイレナイか、「行った」が
イッタかオコナッタかわからないとかいった問題もある。
辞書引きの自動化だけでも、助かる人はけっこういる。
168デフォルトの名無しさん:05/03/06 00:00:40
マルコフ連鎖で前後関係の統計をとればほとんどいけると思われます
169デフォルトの名無しさん:05/03/06 06:14:22
マルコフ連鎖厨出現
このスレの運命やいかに?!
170M.B.:05/03/06 07:40:32
>>162
いまあるシステム自体がコンパイラ・コンパイラに近いので、
C 言語のインライン・アセンブラとかJava のJSP みたいな方法で
実装はできそうだな。
考えてみる。サンクスコ。
171デフォルトの名無しさん:05/03/06 12:11:17
マールーコーフ!
マールーコーフ!
マールーコーフ!
マールーコーフ!
ハイ!fgg'いつもやるのは緑の積分!
172デフォルトの名無しさん:05/03/07 04:07:36
173デフォルトの名無しさん:int 2ch =05/04/02(土) 04:36:47
ボクにマルコフ連鎖を丁寧に教えて!
174デフォルトの名無しさん:int 2ch =05/04/02(土) 14:32:01
175デフォルトの名無しさん:2005/04/19(火) 20:27:42
だめだこりゃ
176デフォルトの名無しさん:2005/05/16(月) 10:06:00
そんなことなら俺に聞きゃよかったのに
177Mb:2005/07/21(木) 21:09:26
長岡技術科学大学の自然言語処理掲示板が
いつの間にか消えているのだが、
誰か消息を知らないか。
178デフォルトの名無しさん:2005/07/23(土) 13:57:52
う、自然言語処理研究室が出来てたなんてしらんかった…。
179デフォルトの名無しさん:2005/08/18(木) 05:57:51
            ,:::-、       __
      ,,r   〈:::::::::)    ィ::::::ヽ
      〃   ,::::;r‐'´       ヽ::ノ
    ,'::;'   /::/  __
     l:::l   l::::l /:::::)   ,:::::、  ji
    |::::ヽ j::::l、ゝ‐′  ゙:;;:ノ ,j:l
    }:::::::ヽ!::::::::ゝ、 <:::.ァ __ノ::;!  パンダー!
.    {::::::::::::::::::::::::::::`='=‐'´:::::::::/
    ';::::::::::::ト、::::::::::::::i^i::::::::::::/
      `ー--' ヽ:::::::::::l l;;;;::::ノ
          `ー-"

【ラッキーレス】
このレスを見た人はコピペでもいいので
10分以内に3つのスレへ貼り付けてください。
そうすれば14日後好きな人から告白されるわ宝くじは当たるわ
出世しまくるわ体の悪い所全部治るわでえらい事です。
180デフォルトの名無しさん:2005/09/02(金) 22:23:43
JUMANてルールベースやん
なにあの手作り感w
181デフォルトの名無しさん:2005/09/03(土) 01:11:52
統計的アプローチではないでしょうか。
182デフォルトの名無しさん:2005/09/03(土) 01:27:22
HERMANてベーブルースやん
183デフォルトの名無しさん:2005/09/03(土) 03:19:23
Hermesは?
184デフォルトの名無しさん:2005/09/03(土) 03:38:25
HERMESってトリスメギストスやん
185デフォルトの名無しさん:2005/09/03(土) 14:53:15
逆さに読んでもストスギメスリト
186デフォルトの名無しさん:2005/09/04(日) 11:54:07
>>185
頭大丈夫?
187デフォルトの名無しさん:2005/09/04(日) 21:11:32
JUMANが最強なの?
188デフォルトの名無しさん:2005/09/05(月) 14:57:26
189名無しさん@そうだ選挙に行こう:2005/09/11(日) 17:40:25
形態素解析ってもう成熟しきってるでしょ?
190名無しさん@そうだ選挙に行こう:2005/09/11(日) 18:22:28
よさげなアイデアがない
特に日本語の場合は一般に認知された文法が役立たずな事がわかっただけか
191名無しさん@そうだ選挙に行こう:2005/09/11(日) 18:47:56
現状より性能を上げるなら意味論と語彙論に踏み込まざるを得ないからね。
192名無しさん@そうだ選挙に行こう:2005/09/11(日) 20:03:14
大体文法なんて暇な言語学者が適当に思いつきで構築したものだろ?
だったらおおざっぱな品詞だけを定義して
あとはタグ付きの巨大なコーパスで学習させた方がよくね?
193デフォルトの名無しさん:2005/09/12(月) 06:58:13
・おおざっぱな品詞だけを定義して
・あとはタグ付きの巨大なコーパスで学習させた方がよくね

ぷげら

学習アルゴリズムだけで、後は自動で人工知能とかできたら、いいねぇ(w
194デフォルトの名無しさん:2005/09/12(月) 12:14:20
形態素解析は人工知能じゃないけどねー
195デフォルトの名無しさん:2005/09/12(月) 13:31:58
だから「できたら、いいねぇ」で「(w」なんでしょ。
196デフォルトの名無しさん:2005/09/12(月) 16:15:53
Chasenは192の方法
197デフォルトの名無しさん:2005/09/13(火) 01:21:08
ChaSenがcorpusで学習!!? なんか凄い勘違いしてるんでないかい。
198デフォルトの名無しさん:2005/09/13(火) 07:24:08
文法だけでできてると思ってるの!?
おめでたいな。
199デフォルトの名無しさん:2005/09/13(火) 10:52:26
おめでたいも何も、学習機構なんかどこにも実装されてないじゃないの。
なんでこここんなレベル低いの。
200デフォルトの名無しさん:2005/09/13(火) 11:59:11
>>199
学習機構がないなんて言っちゃうレベル低いのはお前
201デフォルトの名無しさん:2005/09/13(火) 12:05:15
んー、じゃあ手許にソース一式と辞書があるんで
このどこに学習機構があるのか教えてちょ
202デフォルトの名無しさん:2005/09/13(火) 16:14:18
なんでこんなに荒れてんだw

コーパスから確率モデルを計算してるのは確かだから
そういう意味では学習しているけど
毎回モデルを計算しているのではなく
毎回計算しているのはコストだろ
203デフォルトの名無しさん:2005/09/13(火) 16:24:18
最近あまりにしょうもないレスが多かったもんで。
正直おとなげなかった。スマソ
204デフォルトの名無しさん:2005/09/14(水) 01:31:54
官能小説のエロさを形態素解析による数値化という研究を考えて
教授のところにいってきたんだけど5時間正座させられてお説教された
ひどい
205デフォルトの名無しさん:2005/09/15(木) 01:53:47
つまらんネタだ
206デフォルトの名無しさん:2005/09/15(木) 03:07:38
>>204
当たり前だ馬鹿。

おまえ自分の論文見せてくれって言われたとき困らないとでも思ったのか?
207デフォルトの名無しさん:2005/09/15(木) 05:53:09
感性情報処理とかそれっぽい言葉を絡めて書けば普通に通りそうなもんだけどな。
形態素解析でエロさが出るかバカという点では教授に同意。
208デフォルトの名無しさん:2005/09/16(金) 23:03:16
文学部なら普通に通りそうなテーマだな、
そつぎょうかだいせいさく くらいの軽いノリで
209デフォルトの名無しさん:2005/09/16(金) 23:23:41
料理本の単語を○にするとエロくなる事について。
210デフォルトの名無しさん:2005/10/08(土) 00:05:44
MeCab: 形態素解析エンジンをコマンドラインで使う事って可能ですか?
 /bin/mecab -Oyomi "今日は良い天気ですね。"
見たいな感じです。
エロい人お願いします。
211デフォルトの名無しさん:2005/10/08(土) 04:17:19
PHPからMeCabやkakasiを利用可能ですか?
出来るならどの様に使うか教えてください。
212デフォルトの名無しさん:2005/10/10(月) 03:56:52
条件付確率場って何?
213デフォルトの名無しさん:2005/10/17(月) 00:07:07
らふぁてー
214デフォルトの名無しさん:2005/11/11(金) 22:09:52
最近暇だったので bayes とか弄ってた。
英語コーパスを元に、thisisapen を this/is/a/pen に区切ってみたり。
"t-h" の確率を "t- -h" の確率と比較して正規化して合計するだけだが、
未知語もそれなりに上手く分けられる予感。超遅いが。

で、これをどうやって日本語の形態素解析に応用すればいいのかが
分からん。英語みたいに既に区切られた分けられた情報に頼るってのも、
結局辞書を人様が作ってるみたいで、なんかヤダ。

教えてエラい人!
215デフォルトの名無しさん:2005/11/11(金) 22:57:37
>>214
たくさんテキスト食わせて比較してみたら〜
216仕様書無しさん:2005/11/12(土) 21:20:29
>>214
カナを一旦ローマ字(訓令式がいい)に変換してから処理してみ。
活用の処理が一気に楽になるから。
217仕様書無しさん:2005/11/15(火) 22:07:43
日本語文用の、語彙ベースの検索エンジン(用言は語幹で検索、
体言は異表記も認める)を作ってみたのだが、
・Web上のどのサイトを検索対象にするか
・インデクスはすでに存在するとして、鍵語の集まりから
効率よく対象のページを検索する問合せ(SQLを想定)はどう
生成するか
で詰まっている。小規模な検索(たとえば自分のマシンにある.txt
ファイルだけを対象とするとか)だったら悩まなくて済むのだが、
なんか面白い用途ってないもんだろうか。
218デフォルトの名無しさん:2005/11/15(火) 22:30:44
昔はえろえろあった、おもしろい機能を持ったサーチエンジンも
ほとんど淘汰されて消えちゃったからね。

正規表現で検索できるサーチエンジンとか作らない?
#小規模検索はestraireがありゃいいや
219仕様書無しさん:2005/11/15(火) 23:05:26
> 正規表現で検索できるサーチエンジンとか作らない?
それってgrepって言わないか?(^_^;)
冗談はともかく、その部分は
・インデクスにどんな情報を持たせるか(インデクスDB設計)
・インデクスを抱えてるDBサーバにどんな問合せをするか(DBインタフェース)
・問合せに対して、どれだけレスポンスを上げるか(探索戦略および
チューニングの問題)
なので、形態素解析とか日本語処理とかとは別の話題かと。
DBインタフェースの一部として、自然言語インタフェースとか考えるなら
また別なのだが。
220デフォルトの名無しさん:2005/11/16(水) 11:29:06
正規表現検索で有用なインデックスがつけられるものなら、
とっくにRDBMSについてると思う……。
221デフォルトの名無しさん:2005/11/18(金) 13:21:33
えらくタイミングよくestraierに正規表現サポートが入ったな
222ハーピィ:2005/12/05(月) 02:45:15
E・∇・ヨノシ <222ゲット♫
223Mb:2006/03/14(火) 22:37:45
復帰age
TextSS のWindowsXP(Professional)64bit化おながいします

もしくは64bitにネイティブ対応したテキスト置換ソフトありますか?
225デフォルトの名無しさん:2006/04/10(月) 21:57:43
あげとくね。
226デフォルトの名無しさん:2006/04/11(火) 15:06:25
漢字の文字コードが読み仮名情報を保持してれば、
形態素解析って楽になると思うんだけど、そんな仕様ないの?
227デフォルトの名無しさん:2006/04/11(火) 16:20:34
これは何の釣りだ?
228デフォルトの名無しさん:2006/04/11(火) 21:42:17
>>226
http://www.doraneko.org/webauth/ruby/19981221/Overview.html
これのこと?

実際の現場では、形態素解析ソフトを使って文章にルビふってるけども?
229デフォルトの名無しさん:2006/04/27(木) 09:14:19
茶筌やめかぶが覚えてる学習用コーパスって何万語位何ですか?

めかぶが自力でコーパスの学習出来るので遊んでみたいのですが、
学習コーパスをどの位用意しなきゃならないか、わからないので。
230デフォルトの名無しさん:2006/04/27(木) 17:23:39
IPADICとかなしに、巨大なコーパスから辞書を作る、
そんな方法ってないんかのう。
231デフォルトの名無しさん:2006/04/27(木) 18:42:23
>>230
圧縮ソフトのアルゴリズムが利用できるかも?
辞書式ってのは、よくでてくるビット列に短い符号を割り当てるんだから、
そのあたりを応用すれば、単語としてよくあるものが抽出されると思う。
ただし品詞タグ付は無理だろうけど。

このアイデアはどう?

で、めかぶや茶筌が動くコーパスはどの位の大きさが必要なのかなぁ?
だれか知ってる人いない?
232デフォルトの名無しさん:2006/04/27(木) 19:06:56
ハッシュでインデックス作って放り込めば100万語くらいは軽いんじゃない?
つか、俺はそうやってる。
233デフォルトの名無しさん:2006/04/27(木) 19:18:10
>>232
それは>>230へ対する回答?
それとも>>231へ対する回答?

辞書で100万語は多すぎるし(辞書になってない)
学習コーパスの必要量なら、文章が良くわからない。
234デフォルトの名無しさん:2006/04/27(木) 22:13:57
日本語を書くと意味解析して、それにそったプログラムに変換し
コンパイルして実行してくれる研究プロジェクトはありますか?
235デフォルトの名無しさん:2006/04/27(木) 22:50:44
正直もうn-gramで良いと思いました。
236デフォルトの名無しさん:2006/04/28(金) 07:20:22
>>234
計算機言語が覚えられない程度の馬鹿は、
日本語でも業務をまともに記述できないから、
そんな研究しても無意味だと思うけど、
やってる人はいると思う。
237デフォルトの名無しさん:2006/08/25(金) 22:38:25
こーんな感じにぐわーっとやってくれ。ぐわあああっと。
238デフォルトの名無しさん:2006/08/26(土) 02:05:17
>>235
ウリもウリも
239デフォルトの名無しさん:2006/08/31(木) 21:50:25
不明単語を抽出するってどうやるんですか?
240デフォルトの名無しさん:2006/08/31(木) 21:52:24
わかってるたんごをぜんぶとっぱらって
のこったのがふめいたんごー
241デフォルトの名無しさん:2006/08/31(木) 21:59:26
>>240
分かっている単語が無いです。
どこかにフリーの単語辞書はありますか?
茶筌についてきますか?
242デフォルトの名無しさん:2006/08/31(木) 22:04:22
[XXxXXxx] 12:28 フッ・・・だが!俺のエキゾチックマグナムをもってすればっ!

みたいな文から「エキゾチックマグナム」を不明単語として抽出したいです。
茶筌でできますか?

あとベイズって

P = [馬][鹿] / ( [馬][鹿] + [^馬][^鹿] )

みたいな感じで使うものなんですか?
243デフォルトの名無しさん:2006/09/01(金) 07:43:11
「エキゾチック」と「マグナム」が既知の単語になっている限り
形態素解析器で「エキゾチックマグナム」を形態素として取り出すのは不可能と思われ
解析できてしまうからね

複合語の抽出には形態素解析とは別のアプローチが必要
244デフォルトの名無しさん:2006/09/02(土) 12:33:38
メーカ子会社左遷者の楽園
245デフォルトの名無しさん:2006/09/13(水) 04:24:11
>>243
>複合語の抽出には形態素解析とは別のアプローチが必要
「従来の形態素解析」とは、なんじゃ・・・・
形態素解析について詳しい訳じゃないけど、複合語抽出を
構文解析とみるか、形態素解析と見るかで言えば、形態素解析の範疇だと思うけど、
「いいや,構文解析だ!!」と叱られてしまうと、嫌な気分になって言い返せないし、
「これこれこういう理由が有って構文解析だ!!」と言われると一つ勉強になるので
ありがたい。

とわいえ、形態素解析、複合語抽出、構文解析、と言う話も有るとも思うし。
246デフォルトの名無しさん:2006/09/15(金) 04:05:27
複合語を形態素として取り出す
だなんて意味不明なレス相手にマジレス乙
247デフォルトの名無しさん:2006/09/15(金) 16:32:39
質問者の要求がそういうことだから不可能だと書いてるんじゃ
248242:2006/09/23(土) 23:37:34
回答ありがとうございます。
つまり形態素解析後、「エキゾチック」と「マグナム」の組み合わせが
未知のものであるか?という判定を何らかの方法で行わないと、
複合語を不明単語として取り出すことはできないということですね。

オタ同士の会話だと、即席の複合語がその場で作られたりすることも
あるので、難しいですね・・・。
249デフォルトの名無しさん:2006/09/24(日) 00:28:24
そもそも一意の解析結果を得ることが不可能だと気づけ。
「エキゾチック+マグナム」が98%、「エキゾチックマグナム」が1%、その他が1%、
みたいな解析結果のほうが、現象の記述としてより忠実。
250デフォルトの名無しさん:2006/09/24(日) 07:29:35
ネイティブ(つまり日本人)に聞いたとしても
「エキゾチックマグナム」を1語と思うか2語と思うかは意見が分かれるだろうからね
251デフォルトの名無しさん:2006/10/10(火) 19:18:09
mecabと一緒に配布されてる辞書を可変して流用したいけど、著作権的に大丈夫だろうか。
252デフォルトの名無しさん:2006/10/10(火) 19:21:22
>>249
その辺は使用頻度=単語の区分けという認識で問題ないのでは?
253デフォルトの名無しさん:2006/10/10(火) 19:22:10
まあ辞書自体に頻度表がついてるものはないがw
254デフォルトの名無しさん:2006/10/10(火) 19:27:55
>>253
形態素辞書ならたいてい付いているんじゃないの?
255デフォルトの名無しさん:2006/10/10(火) 20:18:15
>>254
そんなのが本屋売ってるかよ
256デフォルトの名無しさん:2006/10/10(火) 23:18:07
>>255
広東語でおk
257デフォルトの名無しさん:2006/10/11(水) 03:27:58
形態素的辞書没有
258デフォルトの名無しさん:2006/10/11(水) 12:21:56
中国語の形態素解析
259デフォルトの名無しさん:2006/10/11(水) 14:16:40
漢語的形態素解析
260デフォルトの名無しさん:2006/10/12(木) 12:28:22
例えば「書きながら」をmecabにかけると、

書き:動詞,自立,*,*,五段・カ行イ音便,連用形,書く,カキ,カキ
ながら:助詞,接続助詞,*,*,*,*,ながら,ナガラ,ナガラ

が吐かれるけど、辞書を見ると「書き」自体の文字情報はなく、
あるのは「書く,カキ,カキ」だけ。
活用の解析はどうやってるんだろう。
単純に読みだけを見るとしても、漢字1文字=読みのカナ1文字とは限らないし。
261デフォルトの名無しさん:2006/10/12(木) 19:23:37
書き+カ行イ音便つう形態素辞書エントリーだけで、
書か(ない)、書き(ます)、書く、書け、書こう
みたいな検索が全部ひっかかる、それだけの話だと思うけど。
262デフォルトの名無しさん:2006/10/12(木) 19:25:39
>>252
使用頻度∝単語区分けの適合確率
だろwwww
263文学:2006/12/18(月) 03:52:31
mecabで読み仮名を取得するには
どうやればいいのでしょうか?
264デフォルトの名無しさん:2006/12/18(月) 12:43:32
まにゅある嫁
265デフォルトの名無しさん:2006/12/25(月) 20:00:37
民明書房刊「マニュアル嫁」
第六章 結婚前後の諸心得
 第二節 甘美な新婚旅行

 - 入浴をするとき -
夫としては、
「どうです、一緒に入りませんか」
 というのが一応のエチケットとなっている。しかしお互いにまだ清浄な関係
である場合には、新婦としていきなりその言葉に従い、いそいそとして夫につ
いて行くのはどうかと思う。初夜が済むまでは矢張り、ほのかな羞恥の色を漂
わせながら、にこやかに
「ええ、でも、あとでいただきますわ」
 と柔かく辞退して別々に入浴する方が好ましい。夫としてもそれが花嫁のエ
チケットだと思って、しつこくすすめないことである。
 しかし初夜が済んでからは、最早や完全な夫婦となったのであるから、二人
で入る方が却ってよろしい。そうだからといって、矢張り女としてのはにかみ
は忘れてはならない。湯船に入るときでも
「おねがい、向う向いてて」
 などといっておいて、静かに入る。また湯船の中でも、乳のあたりへはタオ
ルを軽く当てて、ともかく露骨になるようなことは避けなければならない。
266デフォルトの名無しさん:2006/12/25(月) 21:01:31
>>265
わっふる、わっふる
267デフォルトの名無しさん:2006/12/26(火) 01:15:36
YOMIのRESTってどうやって使うんすか?
268デフォルトの名無しさん:2007/01/02(火) 03:50:30
269デフォルトの名無しさん:2007/01/02(火) 04:44:54
何故かcgiコードが丸見え
270デフォルトの名無しさん:2007/02/02(金) 12:06:30
NTTが作ったすももってどうやれば入手できるの?
なんかデッドリンクで公開ページがないんだけど。
mecabより強力なら是非手に入れたい。
ついでにage
271デフォルトの名無しさん:2007/02/07(水) 15:14:44
MORPHOLOGY

↑なんか異常にかっこいい
272デフォルトの名無しさん:2007/05/03(木) 18:18:07
外国人がローマ字で表記した口語体の日本語を
漢字仮名まじりの通常の表記に効率的に
変換するために役立ちそうなソフトウェアを
探しています。

例:
kekkou kireinagakkou zyanai
結構 奇麗な学校 じゃない

全自動変換では間違いが多そうなので,ソフトウェアが
提示するいくつかの変換候補の中から,正しいものを日
本人のオペレータが選ぶ,という作業を考えています。

少しでも作業効率を上げるためのヒント,ソフトウェア
などはございますでしょうか?
273デフォルトの名無しさん:2007/05/03(木) 23:05:46
例を見る限り形態素に分かれているかいないかは任意か
面倒くさいなり
274デフォルトの名無しさん:2007/05/04(金) 01:18:55
ローマ字のテキストをソフトに音読させて、それを聞きながら
オペレータがワープロ入力するのが一番速そうな気がする。
275デフォルトの名無しさん:2007/05/04(金) 21:57:06
>>272
それは俺らが日本語を入力するとき使うのと同じ仮名漢字変換に、
何らかの方法でテキストを渡せばできそう。
276デフォルトの名無しさん:2007/05/04(金) 21:59:35
>>272
LinuxならAnthyでできたよ。最後の(space)は変換用。
$ echo "kekkou kireinagakkou zyanai(space)" | anthy-agent
(3 ((UL RV) "結構" 0 7) ((UL) "きれいな" 0 4) ((UL) "学校じゃない" 0 3))
277デフォルトの名無しさん:2007/05/04(金) 22:03:33
>>274
速記をなめてね?
278デフォルトの名無しさん:2007/05/05(土) 23:36:56
>>275
はい、そこまでは理解できますが、実際にどのような
方法で可能かが分かりません。

>>276
素晴らしく分かりやすい実例までありがとうございます。
Anthyを試してみます。
279デフォルトの名無しさん:2007/05/06(日) 10:31:03
そういやajaxでIMEってのあったよね
あれ、どういう仕組みなんだろ
280デフォルトの名無しさん:2007/05/06(日) 12:15:07
JavaScriptからIMEを少しだけ弄れたようなきが。
多分JavaScriptよりもっと干渉できるやつでも使ってるんじゃないの?DirectXとか。
281デフォルトの名無しさん:2007/05/06(日) 22:14:27
>>280
http://chasen.org/~taku/software/ajax/imekwic/

連休中なので、動いていない?
282デフォルトの名無しさん:2007/05/07(月) 09:59:40
283デフォルトの名無しさん:2007/08/31(金) 15:47:46
sage
284デフォルトの名無しさん:2007/09/01(土) 13:46:11
そもそも、公式文章でも方言のような専門用語や表現方法が多様しているのに
地方や皇族、政治、あらゆる専門分野、日本語が1つだと定義すれば扱えない
言葉や用語だらけになる。
会話言葉と目的別文章でも激しく特定できない。
>>1
>まず単語や品詞に分ける必要があります。
機械的な言葉の分類遊びならともかく。。。。。。
これは正しいとはいえない。言葉というのは柔軟性があり生き物である。
別ける時点で意味が変更されることもある。ある程度まとまった文節で
巨大辞書で判断するのが妥当でしょう。
文法で明らかに変でも通常の言葉として扱われているものとかNHKとかで
時々解説放送がある。それらは言葉が生き物であることを証明するもので、
日本語は言葉として扱うのではなく、概念として扱うべきです。
翻訳が正しくても作成者の意味が通じないのでは翻訳としてはできそこないです。
日本語を正しく扱えるには価値観とその雰囲気、心を読み解く抽象認識処理が
必須になるでしょう。

285デフォルトの名無しさん:2007/09/01(土) 20:28:27
と、へんてこ日本語モドキで力説されてもなあ。
286デフォルトの名無しさん:2007/09/02(日) 08:49:46
拓ちゃんがいるのに
最近のグーグルの調子はおかしいよね
287デフォルトの名無しさん:2007/09/05(水) 19:11:28
>>276
anthy-agent にひらがな入力する方法はないのかな。
288デフォルトの名無しさん:2007/12/19(水) 18:41:14
質問です!!
yahoo!の形態素解析使ってるんですがreadingがうまく表示されません。
surface pos readingと表示させようとしたら
美しい 形容詞 形容詞 となぜか、readingにも品詞が入ってるみたいな気がします。
reading単体で使ってもなぜか品詞が返ってきます。

どなたか助けてください。。。
289デフォルトの名無しさん:2007/12/19(水) 18:42:48
ageマス。
290デフォルトの名無しさん:2007/12/19(水) 18:43:54
必死で申し訳ありませんが、ルビーを使ってます。
291デフォルトの名無しさん:2008/02/04(月) 10:20:29
形態素まで行かずに単語分解だけをしようと思います
言語を文書から自動生成したい

こんなのありますよ 参考に

辞書不要の形態素解析エンジン「マリモ」とは http://www.atmarkit.co.jp/news/200708/15/mooter.html
292デフォルトの名無しさん:2008/02/04(月) 10:24:54
各文書を特徴づける重要語を計算して、
どの文書でも重要でない単語を無視すれば良い単語帳が作れるはず

TF・IDF法
http://nlp.nagaokaut.ac.jp/wiki/wiki.cgi/term?page=TF%A1%A6IDF
293デフォルトの名無しさん:2008/02/04(月) 11:16:52
http://d.hatena.ne.jp/nskt0628/
ここなかなかいいよ
294デフォルトの名無しさん:2008/02/04(月) 12:16:30
類似語とそうでないものを判別するにはどうすればいいですか

類似語 
勝利 大勝利

類似語でない
本人 日本人
カウント アカウント
京都 東京都
295デフォルトの名無しさん:2008/02/04(月) 12:18:23
お前が今分けた手順でおk
296デフォルトの名無しさん:2008/02/04(月) 12:25:33
>>295
自動化したいのですが こういうやつはどうやればできますか
http://labs.preferred.jp/reflexa/
297デフォルトの名無しさん:2008/02/04(月) 12:35:09
類似語が分類できるならば、単語分解もそこに含まれるから
類似語の分類をするルーチン作ろうぜ
298デフォルトの名無しさん:2008/02/04(月) 13:47:37
単語らしさはどうやって判定したらいいですか
あと形態素解析はあまり有効でない気がします
何故ならば日本語研究が必須になってしまう為です 韓国や中国に対応できないし

素解・・・あり得ない
形態素・・・ある
本語・・・あり得ない
日本語・・・ある

というのを数値的に表したいものです
299デフォルトの名無しさん:2008/02/04(月) 22:40:26
日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか
300デフォルトの名無しさん:2008/02/04(月) 22:46:53
類似単語が判れば、それを同一視することで類似文書が判りますね
1単語のズレのある類似文書から品詞分解が判りますかね
たとえば
僕は釣りをします → 僕 は 釣り を します
私は料理をしますわ → 私 は 料理 を しますわ → 僕 は 料理 を します

とすると、釣りと料理は同じ分類だと判明します
301デフォルトの名無しさん:2008/02/04(月) 22:51:21
>>298
文法研究をすっ飛ばして考えるなら、
文章のログから部分共通文字列を探せば見つかるような気がする。
302デフォルトの名無しさん:2008/02/05(火) 00:22:01
圧縮接尾辞配列っていいみたいだけどわかる人いますか
303デフォルトの名無しさん:2008/02/05(火) 00:57:54
圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね
304デフォルトの名無しさん:2008/02/05(火) 06:37:27
バカ過ぎる

305デフォルトの名無しさん:2008/02/05(火) 09:54:40
>>294
京都と東京都は、地名として考えたら類似じゃない?
306デフォルトの名無しさん:2008/02/05(火) 11:15:02
狂都
東狂都
307デフォルトの名無しさん:2008/02/05(火) 11:42:17
圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う
インディックスサイズが小さくできても
ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・
308デフォルトの名無しさん:2008/02/05(火) 11:44:29
向いているのはCHMの代わりになる位だな 
ファイルサイズ小さくできてサイズの3〜5倍のメモリ消費ですむだろうから
309デフォルトの名無しさん:2008/02/05(火) 11:55:19
↓こう書いてあるけど絶対にこの方針ではgoogleの足下にも及ばないと予測する


「Googleの弱点を克服したアルゴリズムによる検索エンジンを世界で初めて実装した」
Sedue:圧縮接尾辞配列を実装した初の商用検索エンジン
http://itpro.nikkeibp.co.jp/article/NEWS/20070209/261537/
310デフォルトの名無しさん:2008/02/05(火) 19:13:35
>>309
接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・
311デフォルトの名無しさん:2008/02/05(火) 20:19:16
suffix arrayでぐぐっとけ、カスが
312デフォルトの名無しさん:2008/02/05(火) 22:12:20
バカ過ぎる(笑)
313デフォルトの名無しさん:2008/02/06(水) 12:52:48
各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う

たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら

日 本語 は ご 存じ の通 り、 文 章が 単 語で区 切られて い ま せん の確率は0.01%

日本語 は ご存じ の 通り 、 文章 が 単語 で 区切られて いません だと10%

とか計算できればよい
314デフォルトの名無しさん:2008/02/06(水) 21:24:05
>>313
ひょっとしてマルコフ連鎖のことを言いたい?
315デフォルトの名無しさん:2008/02/06(水) 22:35:11
文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず!!!!111
316デフォルトの名無しさん:2008/02/07(木) 04:54:43
>>314
マルコフ連鎖とは違う
前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
317デフォルトの名無しさん:2008/02/07(木) 05:05:06
もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず
たとえば、文書が1単語となる確率が高いなら、次のように分割され残りの文書は短い



たとえば、日本語はご存じの通り、

文章

が単語で区切られていません
318デフォルトの名無しさん:2008/02/07(木) 05:16:59
first loaded.
319デフォルトの名無しさん:2008/02/07(木) 05:30:29
 
日本語¥n+xは¥n+x単語¥n+xに¥n+x拠って¥n+x区切られ¥n+xます¥n+x。 
ですが¥n+x、¥n+x詳細¥n+xの¥n+x作成¥n+xは¥n+x大変¥n+xな¥n+x事¥n+xでしょう¥n+x…   
320デフォルトの名無しさん:2008/02/07(木) 07:21:39
>>316
だからマルコフ連鎖をA*探索したのとどう違うんだって?
321デフォルトの名無しさん:2008/02/07(木) 21:14:40
naist-jdic マダ−?
322デフォルトの名無しさん:2008/02/07(木) 23:29:31
>>320
前後のつながりだけじゃないって書いてるじゃん。
323デフォルトの名無しさん:2008/02/07(木) 23:36:23
>前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
ここをもうちょっと formal な形で言わないと伝わらないと思われ
どういう確率モデルを想定しているのか。つーか俺にも伝わってない
単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが
324デフォルトの名無しさん:2008/02/10(日) 16:31:23
325デフォルトの名無しさん:2008/02/10(日) 16:37:25
>>324
ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。
326デフォルトの名無しさん:2008/02/11(月) 08:21:36
結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…
327デフォルトの名無しさん:2008/02/23(土) 13:44:46
音声の検索システムできた。
328デフォルトの名無しさん:2008/02/23(土) 14:13:43
ソースうp
329デフォルトの名無しさん:2008/03/27(木) 07:31:14
>MySQLおよびPostgreSQLで日本語キーワードインデック
>スを実現しているもの(Sennaおよびtextsearch-ja)は、
>現在バックエンドエンジンとしてMecabを推奨してい
>るようです。

あるフォーラムあらのコピーですが、本道だとすると、
すごいですね?! AppleのOSXの日本語処理もMecab?

Mecabの一人勝ちか。
330デフォルトの名無しさん:2008/03/29(土) 01:45:22
>>329
>AppleのOSXの日本語処理もMecab?

そうなん?
Mac OS X には Language Analysis Manager というのがあるけど。
ありゃ、リファレンスを見ると Leopard から deprecated だな。
331デフォルトの名無しさん:2008/04/05(土) 11:11:05
>>330
おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。
332デフォルトの名無しさん:2008/04/05(土) 23:48:58
なさけねえな、Apple
スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに
自社技術捨ててオープン物に蔵換えか
そろそろジョブズ氏ねよ
333デフォルトの名無しさん:2008/04/07(月) 06:31:49
>>332
初音ミクのApple版でも出せってかw
まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。

オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ
なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を
打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。
334デフォルトの名無しさん:2008/04/07(月) 19:37:41
しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。
335デフォルトの名無しさん:2008/04/09(水) 21:10:16
ただのりあぽーか。
336デフォルトの名無しさん:2008/04/22(火) 02:47:39
blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、
オープンものに頼った結果ってことか。
奴らの言う最先端とやらは素晴らしい技術力だことで(呆

MS-IMEの糞っぷりも失笑ものだが、
Macの信仰のしどころの間違いっぷりは抱腹絶倒だな
337デフォルトの名無しさん:2008/04/22(火) 07:44:33
Mac に IME なんて無いけどな。
338デフォルトの名無しさん:2008/04/27(日) 00:53:20
今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない?
339デフォルトの名無しさん:2008/06/04(水) 21:42:08
どこかに2文字でインデックスを作って、漏れのない全文検索を行う
というライブラリがあったんですが、知りませんか?
日本人が作っていたと思うのですが
340デフォルトの名無しさん:2008/06/05(木) 01:30:08
Hyper Estraier
341デフォルトの名無しさん:2008/06/05(木) 22:29:38
それです。ありがとうございました。
342デフォルトの名無しさん:2008/06/11(水) 22:29:45
ハイパーエストレイヤーは名前がカコイイ
343デフォルトの名無しさん:2008/06/17(火) 06:33:30
悪役プロレスラーみたいだなw
344デフォルトの名無しさん:2008/06/19(木) 15:13:43
エスカレイヤー?
345デフォルトの名無しさん:2008/06/21(土) 03:34:28
カワサキ エストレヤ
346デフォルトの名無しさん:2008/09/08(月) 16:17:27
自然言語処理スレッド その3
マダ〜?
347デフォルトの名無しさん:2008/11/02(日) 02:31:17
おおざっぱな質問していいですか。

形態素解析辞書UniDic
というものがありますが、これは一般的な日本語変換プログラム用のの辞書とは
性質が異なるものですか?
MeCabを使う時は、この手の辞書を一緒に使うことが必要なんですか?
348デフォルトの名無しさん:2008/11/02(日) 08:04:58
必須ではないが精度を求めるには必要かもしれない
MeCabは単に文法的に単語分割できるかを調べるだけなので
本来固有名詞なのが文法的に他の意味に取られる場合、
MeCabにはそれが固有名詞であることを知らないので、間違った解釈をされることもある
349デフォルトの名無しさん:2008/11/02(日) 10:00:21
>>348
なるほど、といことは主に固有名詞の判定に関係する部分を改善できるという感じ
ですかね?
逆に言うと、固有名詞以外の部分で解析がうまくいっていない場合にUniDicを
追加したところで改善されることはないとか...???
350デフォルトの名無しさん:2008/12/01(月) 11:56:25
質問です。主にソフトの使い方になってしまうかもしれませんが・・・。

今、プログラムの処理の過程で
カタカナを音節単位でローマ字に変換する必要に迫られています。

kakasiでカタカナをローマ字に変換すると、例えば
チョット は chottoと変換されます。
これを、音節単位で区切りたいのです。
この場合だと、
"cho"と"tto"くらいで分けれれば良いと思っています。
詰まり音に関しては、もう半分あきらめてるので、割と適当で良くて、
せめて普通の音節だけでも綺麗に分けれれば良いのですが・・・

-sオプションはちょっと違いますし。そういうオプションはないのでしょうか?

最悪、予めカタカナの方を分割してしまってから、kakasiにかけようと思っていますが・・・


>>346
実質その3が昨日たってた

自然言語処理スレッド その2
http://pc11.2ch.net/test/read.cgi/tech/1227953574/
351デフォルトの名無しさん:2008/12/01(月) 12:18:10
>>350
sedか何かで、aiueoの後ろにスペースを入れればいいんじゃ?
352350:2008/12/01(月) 13:19:08
>>351
おお!
それだけの事ですね。なんで気づかなかったんだ・・・

どうもありがとうございました。
353デフォルトの名無しさん:2008/12/01(月) 14:35:46
どのローマ字体系を使うか知らんけど
nが来た時注意だけどな

ンがnnならいいけど
nになってるやつだと、それだと判別不能だと思う。
354デフォルトの名無しさん:2008/12/01(月) 14:40:40
蔓延,manen
だと
ma ne n

ma n e n
かわからん。
KAKASIは、ンはnで吐き出す。
355デフォルトの名無しさん:2008/12/06(土) 12:52:57
辞書なしで、大量の生コーパスだけを使って
形態素解析を行う。っていうアプローチはもう使われてないの?
昔は、n-gram統計でやってたと思うんだけど、最近辞書使うやつばっかで
そういうの聞かないんですけど。
356デフォルトの名無しさん:2008/12/08(月) 04:03:05
形態素解析器単体では聞かないけど
漢字変換の分割位置の決定に使われる事はある。
357デフォルトの名無しさん:2008/12/08(月) 07:51:10
HMMとかあるやん
HMMで全部回してたらオーダーかかるから HMMとかで辞書つくるだけ
358デフォルトの名無しさん:2008/12/08(月) 08:23:49
HMMで辞書をつくる?ハア?頭おかしいんじゃね?
359デフォルトの名無しさん:2008/12/08(月) 14:29:36
時代についてこいよ
360デフォルトの名無しさん:2008/12/08(月) 16:49:31
事実上確実に誤りを含んだ辞書なんて、誰が使うんだよwww
361デフォルトの名無しさん:2008/12/08(月) 18:38:48
柔軟な頭脳を

362デフォルトの名無しさん:2008/12/11(木) 02:25:46
この場合、辞書なしの話でしょ?
誤りを含んでるのはある意味当然。
モデルを辞書と読んじゃうから、話がおかしくなってる。
363デフォルトの名無しさん:2009/01/23(金) 11:27:13
mecabで明智光秀の辞世の句(順逆無二門 大道徹心源 五十五年夢 覚来帰一元) を検索すると
順逆無二門 ×
大道徹心源 ×
五十五年夢 ◎
覚来帰一元 ×
と'五十五年夢'で検索した時だけヒットします。
これはこういうものなのでしょうか?
mecabの辞書に登録されていない単語では検索できない?
364デフォルトの名無しさん:2009/01/23(金) 15:57:37
「mecabで検索」
365デフォルトの名無しさん:2009/01/31(土) 12:52:04
Javaで作られた形態素解析ライブラリである「GoSen」を利用したいのですが、
下記のURLが死んでいます。

ttp://itadaki.org/wiki/index.php/GoSen

どこかで手に入れること出来ませんか?
366デフォルトの名無しさん:2009/01/31(土) 12:55:06
インターネットアーカイブ
367デフォルトの名無しさん:2009/01/31(土) 20:20:39
>>366
GoSen取得できました。

ありがとうございます。
368デフォルトの名無しさん:2009/02/18(水) 21:09:25
mecabを、solaris10de-m6
369デフォルトの名無しさん:2009/02/28(土) 19:36:41
>>355
現在 NTT CS 研の持橋さんがそういう研究をやっている。
ttp://chasen.org/~daiti-m/diary/?200901c&to=200901280#200901280
源氏物語でもやっていたと思うけど、消しちゃったのかな?
たぶん↓の話がそれだと思うんだけど。
ttp://nl-ipsj.r.dl.itc.u-tokyo.ac.jp/NL190program.html
370デフォルトの名無しさん:2009/02/28(土) 21:45:29
自動翻訳では対訳コーパスで統計翻訳する研究あるね
371デフォルトの名無しさん:2009/03/01(日) 00:11:29
研究がある、というか研究ではそれが現在主流であり、
逆に統計でない翻訳(ルールベース、用例ベース)
を探す方が難しいと思うが……
逆に販売されていたりサービスインされていたりする翻訳では
まだ統計翻訳は主流ではない。質がけっこうひどいので。
372デフォルトの名無しさん:2009/03/10(火) 08:49:08
手元のFedora8(UTF-8)にmecabをインストールしたけど、
解析結果がどうも変・・・

「太郎はこの本を二郎を見た女性に渡した。」を
解析すると、「二郎」が「二」と「郎」に分けられてしまいます。
Web上の見本を見る限りそうはならなさそうなのですが。
ほかに、「一人」も「一」と「人」に分けられてしまいます。

同じような症状の方いらっしゃいます?
原因・解決法等ご存じでしたら教えてください。

バージョンは:
mecab of 0.97
mecab-ipadic 2.7.0-20070801
373デフォルトの名無しさん:2009/03/10(火) 17:51:35
windows版 0.98pre1でもubuntuで自前ビルドした0.97,0.98pre1でもそうなるよ。
naist-jdicでもなった。
374デフォルトの名無しさん:2009/03/10(火) 22:15:51
>>373
ありがとう。
そうなのかぁ。

「一人」が分割されるのはまだ良いとして、「二郎」はショックだった。
375デフォルトの名無しさん:2009/03/10(火) 23:38:20
WindowsXPにmecab-0.97.exeをインストールして試してみたらこうなった。

太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は  助詞,係助詞,*,*,*,*,は,ハ,ワ
この 連体詞,*,*,*,*,*,この,コノ,コノ
本  名詞,一般,*,*,*,*,本,ホン,ホン
を  助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー
を  助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見  動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た  助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に  助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た  助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。  記号,句点,*,*,*,*,。,。,。
EOS
一  名詞,数,*,*,*,*,一,イチ,イチ
人  名詞,接尾,助数詞,*,*,*,人,ニン,ニン
。  記号,句点,*,*,*,*,。,。,。
EOS
376デフォルトの名無しさん:2009/03/11(水) 00:54:17
原因は分からないけど、テキストと辞書のエンコーディングが
EUC-JPのときとUTF-8のときで結果が微妙に違うことがあるね。
377デフォルトの名無しさん:2009/03/11(水) 00:57:06
同じコストがついているときどれを返すのかは undefined
だった気がする。で、エンコードによって違う、と。
メーリングリストで何回か話題になっていたような?
378デフォルトの名無しさん:2009/03/11(水) 01:53:48
そろそろUTF8デフォにしてほしいな
379デフォルトの名無しさん:2009/03/11(水) 08:25:33
質問なのですが、ブログなどの文章を形態素解析して
書いている人の文体の特徴を特定するには
どのくらい文章量のサンプルが必要なのでしょうか?

また2ちゃんなどの短い文章の書き込みを当人がした場合にも
その特徴はデータとして露見しますか?


因みに私が知りたいブログの書き手は、有名な某連盟の会長さんです

どなたかお詳しい方がおりましたら、宜しくお願いします。
380デフォルトの名無しさん:2009/03/11(水) 09:38:30
>>379
どの程度の確度がいるんだ?
381デフォルトの名無しさん:2009/03/11(水) 09:50:42
>>380
抽出 ID:dJcsiq0u (3回)

781 名前:名無し名人[sage] 投稿日:2009/03/10(火) 14:25:09 ID:dJcsiq0u
中継の仕事に求められるモノが大きくなればなるほど、ネット中継は衰退する(できなくなる)と思うけどな。
仕事というのは、自分にだけできるというものではダメでしょう。継続していかない。
さらに現状のコメントは、控え室の棋士たちの善意のコメントに基づいているような状態だし。

したがって、今後は規格化され、記者やコメント棋士への報酬なども体系化され、
悪く言えば画一化されたネット中継になっていくことが予想される。
まあしかしそれが発展というものなのではないかなあ。反発はあると思うけども。

801 名前:781[sage] 投稿日:2009/03/10(火) 14:56:50 ID:dJcsiq0u
>>786
少し意味が違う気がする。
配信の知識、手の意図を解説する棋力、適切なコメント、キレイな写真。松本さんがすごいのは間違いない。
でも今後ネット中継をパッケージ化していく場合には、そういった良い部分も排除されてしまって、
誰でもある程度の品質が確保できるものになるのは仕方ないのではないか、という意味。

松本さんをないがしろにして良いという意味ではないからね。念のため。

816 名前:名無し名人[sage] 投稿日:2009/03/10(火) 15:21:34 ID:dJcsiq0u
>>800
現状のネット中継で、新聞社に旨みが少ないのは同意。
ソフトバンクとかがスポンサーになってくれるとネット中継もフルパワー出せるかもねえ。
>>812
あなたは上の方にいる「釣堀某」と同じ方?ずっといるけれど、何か訴えたいことでもあるの?
切ったり貼ったりもいいけれど、わかりやすくまとめてくれると話が早い。
382デフォルトの名無しさん:2009/03/11(水) 09:52:57
>>380
http://8154.teacup.com/yonenaga/bbs

これが本人のブログです

383デフォルトの名無しさん:2009/03/11(水) 10:03:14
「どの程度の確度がいるのか」という質問に答えないクズは消えろ。
384デフォルトの名無しさん:2009/03/11(水) 10:04:50
>>380

ブログを見ていただくと分かると思うのですが、かなり特徴のある文体だと思うのですが。。。

現在マスコミは黙殺してますが、会長がある中継記者を
その地位を濫用して新聞各社に圧力をかけ強制的に排除したことが将棋板で祭り状態になってます
経緯はhttp://www23.atwiki.jp/yonemtmt/まとめサイトに

確度はあまりこの分野に明るくないので何とも言えないのです
385デフォルトの名無しさん:2009/03/11(水) 10:06:25
>>383
すみません
386デフォルトの名無しさん:2009/03/11(水) 10:33:06
あームリムリ。

警察の鑑定とかの専門家が「これは同一人物でしょう」とかやるのが関の山で、
数字で「85.2 % の確率で麦長が書いた文章です」とか機械的に出すなんてのは
不可能です。

あきらめて祭りに戻ってください。
# 麦長もいいかげん諦めろよなw
387デフォルトの名無しさん:2009/03/11(水) 10:44:26
>>386
そうですか。。。
でも麦長ってwよくご存知で
お手数かけました
ありがとうございます
388372:2009/03/11(水) 12:23:11
>>375,356

ううむ。
そうなのか、と思って、EUCの辞書を使っても同じ結果になってしまいました。
その後いろいろ試してみると、下記のような結果になったので、
これは仕様ってことですかね。

この本を二郎を。
この 連体詞,*,*,*,*,*,この,コノ,コノ
本 名詞,一般,*,*,*,*,本,ホン,ホン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二 名詞,数,*,*,*,*,二,ニ,ニ
郎 名詞,一般,*,*,*,*,郎,ロウ,ロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
。 記号,句点,*,*,*,*,。,。,。
EOS
二郎を。
二郎 名詞,固有名詞,人名,名,*,*,二郎,ジロウ,ジロー
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
。 記号,句点,*,*,*,*,。,。,。
EOS

389デフォルトの名無しさん:2009/03/11(水) 12:24:36
>>388
375,356は>>375,376 の間違いでした。
390デフォルトの名無しさん:2009/03/12(木) 17:42:48
太郎はこの本を、二郎を見た女性に渡した。
なら問題ないんだよね
391デフォルトの名無しさん:2009/03/13(金) 07:15:54
周辺の文脈を見て切っているんだから文脈が違えば別の切り方になるのは
全然不思議じゃないと思うけど、両方出したければ N-best の結果
(-N オプション)出せばいいんじゃない?
392デフォルトの名無しさん:2009/03/13(金) 08:19:44
名詞,数,*,*,*,*,
名詞,一般,*,*,*,*,

が並ぶ場合はプログラム側で膠着しているな。
その上で、辞書をひいてみて、ルールを適用。
393デフォルトの名無しさん:2009/03/13(金) 08:51:18
普通に書くときは、〜を〜をなんて文章は書かないけど、結構あるんだろうね。
どうしても言い回しが思いつかなければ>>390みたいにするか。

ATOKが「をの連続」と注意してきたな。
394デフォルトの名無しさん:2009/03/13(金) 15:18:39
日本語に形態素解析は向いていないという事だな。
395デフォルトの名無しさん:2009/03/13(金) 19:41:53
>>391
>両方出したければ

正しい方だけが良い!!
396デフォルトの名無しさん:2009/03/13(金) 19:49:18
こういう文を正確に解析しようとしたら、プログラムに特別ルールを
どんどん増やして辞書も肥大化させざるを得ないんだろうな。
そもそも人間の言語行動がそうだからな。
397デフォルトの名無しさん:2009/03/14(土) 08:10:07
>>388 みたいな結果になるというのは、数+一般は冒頭に来にくい、みたいな文脈判断が
あるんですかね? それとも単に >>377 ?

「二」「郎」と分ける場合はいわば二つの郎という解釈をしてるわけですよね?
英語みたいに、名詞に数えられるかどうかの属性を持たせるとか...
まあ、頑張って付けたところで今回みたいなケースでしか役に立たないかもしれないけどw
398デフォルトの名無しさん:2009/03/14(土) 16:26:39
数+一般はそもそも日本語として普通にある表現なので、
文頭に来るかどうかのコストが違うか、同じで undefined になっている、
のどっちか、ってことじゃないの。
いずれにせよコストはコーパスから学習されているので、
コーパスに出てきていなかったら変な学習結果になるはずで、
数+一般は普通に出る表現だと思うけど、
「二郎」という表現が固有名詞でしかほとんど出現しない、という知識は、
「二郎」がコーパスの中に出現していてくれないと分からないわけで、
新聞記事に「二郎」はそんなに出てこないんじゃないかと。
399デフォルトの名無しさん:2009/03/14(土) 19:58:47
二朗、次郎はダメだが、治郎ならいける。
400デフォルトの名無しさん:2009/03/15(日) 14:07:50
二郎はラーメン屋だから名詞であるべき
401デフォルトの名無しさん:2009/03/15(日) 23:02:44
>>400
それは当たり前(名詞というか名詞の中でも特に固有名詞)で
そこには誰も反対していない。じゃあ二五四郎は? ってことでは。
402デフォルトの名無しさん:2009/03/16(月) 03:40:08
加藤一二三九段は?
403デフォルトの名無しさん:2009/03/16(月) 14:21:11
>>402
呼称としての段位は十段までである、というルールを適用する事により、解析可能w
>>396
404デフォルトの名無しさん:2009/03/16(月) 19:26:13
>>403 そんなルールをいちいち追加したくないからコーパスを使って
学習しているんだと思うが。
囲碁は何級まであるか知っているか?
ヨーヨーに何段まであるか知っているか?
フェンシングは何級まであるか知っているか?
405デフォルトの名無しさん:2009/03/16(月) 22:09:12
何に怒っているのかしらんがそういう話だ
406デフォルトの名無しさん:2009/03/16(月) 22:53:07
単に一二三が名詞(人名)として辞書にあれば大丈夫?
407デフォルトの名無しさん:2009/03/17(火) 00:50:13
>>404
人間だって、小説を読んで分からない単語や読みが出てくれば辞書を引いたり
人に聞いたりする。他者の会話(この場合のコーパス)からそれを類推する
ためには、会話以外の情報(例えば地名ならその土地でかわされている会話から
なら類推できる可能性が高い)が必要なわけで、(>>396)

>そんなルールをいちいち追加したくないからコーパスを使って
>学習しているんだと思うが。

なんてことを言い出す時点で、視点や立場が違うんじゃないかな。
408デフォルトの名無しさん:2009/03/17(火) 07:51:45
>>406
辞書にあっても重みつーか文脈依存な評価値が高くならないと
結局「センニヒャクサンジューキュウダン」になっちゃう。

で、その評価値の元データとしてコーパスを準備するわけだけれども、
自然言語の性質としてどんなに大量のコーパスを用意しても、
1-2回しか登場しない例外的な「正しい文脈」が出ちゃうから
同じ問題につき当たり続ける。
409デフォルトの名無しさん:2009/03/17(火) 09:37:05
>>407
「他者の会話」というのが(生)コーパスだと思うけど。
辞書に聞くといっても辞書にない単語だっていくらでもあるし、
そういうときは Web で検索するよね(今なら)。
それと同じことを(生)コーパスを用いてする、
というのは普通だし、JUMAN みたくルールを人手でハードコードするのは
限界がある(特定の分野に限定すれば可能)ので、
最近ルールのハードコードする人はほとんどいない、
というのが現状では?
410デフォルトの名無しさん:2009/03/17(火) 22:24:29
>>409の論点の空振り具合に舌を巻く私であった。
411デフォルトの名無しさん:2009/03/18(水) 08:06:57
つーか、>>409のどこに論点があるのかわからん。
412デフォルトの名無しさん:2009/03/24(火) 21:24:15
で? で終わるな
きっと続きがあるのだろう
413デフォルトの名無しさん:2009/05/29(金) 18:57:05
場違いな感じですが、質問させてください。

一般のレンタルサーバでの公開用に検索CGIを作っています(管理者権なし)
内容は、MeCabにより分かち書きしたデータをDBに用意->MySQLの全文検索(FULLTEXT)で検索、と考えています。
自宅の開発環境(Windows)では問題ないのですが、レンタルサーバには自分でMeCabをインストールできません。
Windows版の感覚ですと、辞書とモジュールをアップすればいけそうな気もするのですが、
UNIXでの情報をググっても、MeCab本体をインストールするケースしか見つかりません。

使用内容は、分かち書き済みのデータの検索をするため、フォームに入力された文字列を処理するだけなのですが
本体のインストールなしでMeCabを使用する方法ありますか?
414デフォルトの名無しさん:2009/05/29(金) 22:49:21
API
415デフォルトの名無しさん:2009/06/10(水) 20:22:58
>>413
tar zxfv mecab-X.X.tar.gz
cd mecab-X.X
./configure
make
make check
ここまででlibmecab.so.*(番号)ができてるはず
(WindowsでのDLLはUNIX系ではShared Object)
使い方はWindowsと一緒
つかmecabは単一ソースだから環境あればWindows用もコンパイルできるはず(やったことないけど)
416デフォルトの名無しさん:2009/11/22(日) 15:45:43
mecab0.98で簡体字の辞書を構築中ですが、
出力する文字が化けます。
これはmecab側のバグなんでしょうか?
417デフォルトの名無しさん:2009/11/23(月) 17:08:41
OSと辞書の文字コードをエスパーしろと?
418デフォルトの名無しさん:2009/12/12(土) 11:15:04
ここに書き込んでる人って、元々の専門は何だったの?
言語?、情報?、全くの畑違いから仕事ではじめたの?
419デフォルトの名無しさん:2009/12/12(土) 15:47:47
俺は趣味で気になって除いてる
420デフォルトの名無しさん:2009/12/12(土) 16:09:36
専攻はシステムプログラミング系。
自然言語処理は学部の授業で取った。
421デフォルトの名無しさん:2009/12/12(土) 18:10:44
統計解析
422デフォルトの名無しさん:2010/04/10(土) 13:46:49
>>416
今更ではあるけどWinとかで使ってて
辞書の文字コードSHIFT-JISにしてないからじゃないかね。
423デフォルトの名無しさん:2010/04/26(月) 17:33:11
お、このスレ生きてたか。嬉しい
424デフォルトの名無しさん:2010/05/31(月) 12:04:18
自然言語処理スレッド その3
http://pc12.2ch.net/test/read.cgi/tech/1235129481/
425デフォルトの名無しさん:2010/07/07(水) 14:33:28
MeCabを自作アプリに組み込んで配布したいんだけど
libmecab.dllだけをアプリのフォルダにコピーして動かしても動くんだけど
ipdic辞書の場所は環境変数か何かに入ってるのかな?
辞書も一緒にアプリに組み込みたい場合はどうすれば?
426デフォルトの名無しさん:2010/07/07(水) 14:46:41
事故解決
mecab_new2で指定するのね
427デフォルトの名無しさん:2010/07/09(金) 08:04:06
形態素解析したいんだけど
chasenよりmecabを使う人のほうが多い?
428デフォルトの名無しさん:2010/07/09(金) 08:18:39
chasenを選ぶ意味がわかんない
429デフォルトの名無しさん:2010/07/09(金) 21:43:12
mecabはchasenの上級バージョンなんだが
430デフォルトの名無しさん:2010/07/09(金) 22:35:35
そうなのか
普通にmecab使うわ
さんくす
431名無しさん@そうだ選挙に行こう:2010/07/10(土) 08:06:21
いや普通に別のものだろ
432名無しさん@そうだ選挙に行こう:2010/07/10(土) 09:53:09
使用している計算法は別物だが、mecabにあってchasenにも付けられるのにchasenについてない機能がmecabにはある。
433デフォルトの名無しさん:2010/07/14(水) 12:07:21
ある文章中に形容詞+名詞となってるものの個数を数えたいんだけど
mecab使えばすぐできる?
434デフォルトの名無しさん:2010/07/15(木) 01:44:25
mecabでnodeのリストを得る。
nodeには品詞情報としてそれが形容詞であるとか、名詞であるとかいろいろ値が入っているので
それらをチェックして個数を数えればすぐできる。
435デフォルトの名無しさん:2010/07/15(木) 08:50:11
「動詞+ない」とか「動詞+たい」は
形容詞に数えていいのか?
準体助詞の「の」は名詞に入れていいのか?
「最近は梅干のしょっぱいのが売ってない」
の「梅干のしょっぱいの」は「しょっぱい梅干」を
含意するがどうだ?
436デフォルトの名無しさん:2010/07/15(木) 08:54:19
「逢いたいの」の「の」が
準体助詞の「の」ではなくて
強意の終助詞「の」だとかいうのは
文脈追わないとムリなので、
目的が分かると判断しやすい。
437デフォルトの名無しさん:2010/07/20(火) 15:36:17
Natural Language Processing with Pythonってどう?
5月頃に和訳でるって聞いたから待ってたけど、全然来ないから買おうと思うんだが
今までC++ばっかでpythonやってないんだけど、これとは別にpythonを勉強したほうがいいんだろうか
438デフォルトの名無しさん:2010/07/20(火) 15:57:26
>>436
文脈追わなくても使用頻度とマルコフ統計を取れば分かるでしょ
辞書ばりばりの形態素解析なんてもう時代遅れだよ
439デフォルトの名無しさん:2010/07/20(火) 18:02:20
>>438
最尤候補はわかる。
実際にどっちかはわからん。
440デフォルトの名無しさん:2010/07/20(火) 18:11:34
>>438
> もう時代遅れだよ
ジジイじゃあるめぇし、安心したがるなよ。
技術の話ってのは、ややこしくややこしくしてった方が、
最終的に得るものが多いんだぜ?
「燈下探索症候群」っつー言葉もあるわけで、
競合しそうな技術にはそれなりに目配りしとくもんだ。
441デフォルトの名無しさん:2010/07/20(火) 18:27:46
新しい手法を知ると、ちょっとでも古い手法を「時代遅れ」とか言いたがるのはむしろ若い人じゃないかな?

> 競合しそうな技術にはそれなりに目配りしとくもんだ。
これには同意。
たとえば、JUMANの結果のほうが使いやすい場合もある。
442デフォルトの名無しさん:2010/07/20(火) 21:11:46
どんな手法が適切かはアプリケーションの種類に依存する。
全文検索だけが目的なら、マルコフ解析のような統計的手法だけで足りるかもしれないが、
談話理解や日英翻訳が目的なら、辞書による形態要素解析の技術は必須になる。

たぶん>>438は全文検索しか頭の浮かばない人で、若いとか年寄りとかいうよりも、
ちょっと可哀想な人なのだと思われる。
443デフォルトの名無しさん:2010/07/20(火) 21:14:37
>>442
そういうことはまともに翻訳出来る翻訳機を発明してから言ってよw
444デフォルトの名無しさん:2010/07/20(火) 21:29:58
>>442がまともに使える(ゴミを拾わない)全文検索機を発明してくれたら考えとくよ
445デフォルトの名無しさん:2010/07/20(火) 22:36:38
>>441
> 新しい手法を知ると、ちょっとでも古い手法を
> 「時代遅れ」とか言いたがるのはむしろ若い人じゃないかな?
いやすまん、言葉が足りなかった。
若いクセに精神がジジイになっとる奴が、
「時代遅れ」とか言いたがるわけよ。
「昔はよかったが、今はもうダメだ」という
昔を生きてた人間と、
「今はいいが、昔はもうダメだ」という
今を生きてる人間というのは、
同じように精神的にジジイだっちゅーこと。
446デフォルトの名無しさん:2010/09/17(金) 23:34:05
上げる 書き込む
終了
447デフォルトの名無しさん:2010/09/17(金) 23:40:26
それちゃうちゃうちゃう?
いやちゃうちゃうちゃうんちゃう?
448デフォルトの名無しさん:2010/09/18(土) 08:07:21
ちゃうちゃうちゃうちゃうちゃうんちゃう?
449デフォルトの名無しさん:2010/09/18(土) 09:08:04
うらにわにはにわにわにはにわがいる
   __,‐"~~`‐、
 .( (^|:: ● ●|-、
  ヽ]::::.....● ..|^) )
 ....... |::::::.......  [ノ
........... ~‐:::;;:::::‐"
450デフォルトの名無しさん:2010/09/18(土) 09:44:45
それはハニーだw
451デフォルトの名無しさん:2010/09/18(土) 13:30:02
おまえら楽しそうだなw
452デフォルトの名無しさん:2010/10/11(月) 19:11:23
すっごい馬鹿な質問かもしれないけど、
文節が同じなら文節に含まれる形態素列も完全に同じものになるんでしょうか?
453デフォルトの名無しさん:2010/10/11(月) 19:21:32
>>452
完全に同一な文章だよね?なんで違う形態素があると思えるの
454デフォルトの名無しさん:2010/10/11(月) 19:55:15
日本語独特の曖昧な文法とか? 副詞なのか助動詞+助詞なのか、文節は同じだけど分類がわかんねーとか?
……いや、それでも無理があるか。
455デフォルトの名無しさん:2010/11/05(金) 13:46:56
>>452
今更誰も見ていないだろうけど・・・
その前後の文節によって、形態素解析が違ったものになる
ことはありうる。
456天使 ◆uL5esZLBSE :2011/07/06(水) 04:39:52.21
>>455
------------------
<<<<<<<<<<<< 今更誰も見ていないだろうけど・・・ >>>>>>>>>>>>(キリッッキリッッッ!キリ!!!!!!
----
<<<<<<<< その前後の文節によって、形態素解析が違ったものになる >>>>>>>>(キリッッ!!!!キリッッッ!キリッッッ!!!ッッ!!!
--(キリッ!キリッッッ!きリッッ
--
<<<<<<<<<<<<< ことはありうる。 >>>>>>>>>>>>>(キリ!!キリッッ!キリ!!!!キリッッ!!!!!
-------(キリッッ!


放射性廃棄物のほうがマシ
457デフォルトの名無しさん:2011/07/29(金) 21:01:44.01
いまさら人工知能や形態素解析について勉強しようと思ったんだけど
どこも下火な感じなのかね
458デフォルトの名無しさん:2011/07/30(土) 09:10:50.49
研究のブームは過ぎた感もあるけど、たとえば、日本語の過去の膨大な文献を
機械可読にして知識ベース化とかはまだまだこれからだし、やることはあると思うね。
459デフォルトの名無しさん:2011/08/10(水) 20:21:55.63
どなたか記事を解析できる方はいませんか?
東てる美の記事です。http://blog-imgs-16-origin.fc2.com/o/l/d/oldhonn/060911ee.jpg
前張りって一度付けてしまうと、それに慣れてしまうからそれを取って演技
することはちょっと恥ずかしいわネ!・・・・。


460デフォルトの名無しさん:2011/08/10(水) 20:49:27.61
それは画像処理じゃないか?
461デフォルトの名無しさん:2011/11/28(月) 18:50:33.51
人工知能の勉強しようと思ったが資料が全然ないのね
462デフォルトの名無しさん:2011/12/02(金) 22:03:01.66
文章や段落またがった係り受けとかって無理?
大量にデータがあればできんの?
463デフォルトの名無しさん:2011/12/03(土) 15:16:07.93
無理じゃないとは思うけど、基本的に、場所が離ればなれになってる構造ほど扱いにくい
ことは確かね。
464デフォルトの名無しさん:2011/12/13(火) 23:35:16.69
日本語処理ってことはテキストマイニングだと思うんですが、
皆さんはC++、Perl、Python、Rなど言語は何を使っていますか?

また、最近ではどの言語が一番いいのでしょうか?
465デフォルトの名無しさん:2011/12/14(水) 00:11:31.28
Python
466デフォルトの名無しさん:2011/12/14(水) 22:24:05.50
Java
467デフォルトの名無しさん:2011/12/14(水) 22:37:19.82
テキストマイニングをRでってあるけど、Rは流石にオーバー?
468デフォルトの名無しさん
ぜんぶ無料なんだから試してみればいいじゃん
使える引出しが多いといいこともあるよ