こんな面白そうなスレがありましたか…。
いつか自然言語を解するプログラム作りたいな。
文法を解する
>>2みたいのがあるなら、C#とかで比較的簡単に作れそうだ。
井の中の蛙、大海を知らずと言ってだな。
8 :
6:2007/03/06(火) 23:30:16
>>5 C#が嫌いなので、つまらないコメントを書いてしまった。ごめんなさい。
でも、Jumanを使いこなすだけでも、大変なことなのですよ。
私は以下の手順でプログラム開発をしています。
1..仕様をpdfファイルでもらう。(文章か表)
2..これをtxtに変換。(文字情報を抜き取る)
3..形態素解析。
4..格判断、後置詞、接続詞などの整理、並べ直し。
5..Prologの述語として整形する。
1から3までは作業を制御するのはPrologのプログラムです。
4,5もPrologが候補を出してきますが、相当に人間の判断が必要です。
3のJumanがやはり問題です。数に関する情報が上手く処理できません。
Jumanの出してくる候補はバラバラです。これを繋ぎ合わせる必要がある
のですが、一つの名詞として繋ぐのか、部分的に独立した数値として
扱うのか、私の能力ではうまくコード化出来ないケースが多々あります。
9 :
5:2007/03/07(水) 18:15:41
>>8 気分を害したりはしていないのでご心配なく…。
自然言語を解するとなれば想像を絶する壁がたくさんあるだろうな
とは思ってますので。
「Jumanの出してくる候補はバラバラです」というのはどういうことですか?
たとえば「1足す2は3」と入れれば、「1」「足す」「2」「は」「3」と
ちゃんと区切られているように見えますが…。
第五世代コンピュータを第、五、世代、と区切られてしまうと、
これをプログラムで第五世代に膠着し直すのは結構難しいのです。
なるほど。
こういうのが出てきたら特殊な処理をして結合し、Jumanに名詞として辞書
登録してもらう必要がありそうだ。
その「特殊な処理」というのが難しいんでしょうね。
各単語同士の連続出現率を記憶しておいて、ある割合を超えたら1つの
単語だと認識してJumanに辞書登録を促す、とか…。(素人考え)
でもだとしたら、オラクルとかの大規模データベースを使って、各単語の
パラメータを記憶しておかないとダメですね。
難しいそう…。
>>13 辞書でいいのでしょうね
Prologのプログラムでは何のオプションも付けずにjumanを使います。
?- sh('echo "第五世代コンピュータ" | juman',X).
X = [['第','(だい)','第','名詞接頭辞'],
['五','(ご)','五','数詞'],
['世','(せい)','世','名詞性名詞助数'],
['代','(だい)','代','名詞性名詞接尾'],
['コンピュータ(こんぴゅーたコンピュー','普通名詞'],
['技術','(ぎじゅつ)','技術','普通名詞']].
Prologインタプリタのトップレベルから呼ぶとこんな感じになります。これを
形態素解析(_文,_形態素ならび) :- concat_atom(['echo "',_文,'" | juman'],S),
sh(S,X),再膠着(X,_形態素ならび).
再膠着([],[]) :- !.
再膠着([[A,_,_,名詞接頭辞],[B,_,_,数詞]|R1],[C|R2]) :- concat_atom([A,B],C),
,再膠着(R1,R2).
再膠着([[A,_,_,_]|R1],[A|R2]) :- 再膠着(R1,R2).
のようなプログラム(述語)を定義しておいて(再膠着と品詞等付加情報の除去を
同時に行っている好ましくない定義です)
..., 仕様読み取り(_受信文), ... ,形態素解析(_受信文,_形態素ならび), ...
のように呼びだして処理します。要するに「本当にこれで澄むのか!」の問題ですね。
澄む -> 済む
それから concat_atom([A,B],C), の後改行してまたカンマがきていますが
これは間違いです。いりません。
そのUNIXの正規表現のような書き方はなんでしょう… (゚Д゚)ボーゼン
PROLOG言語ってPERL言語のような側面もあるのかな?
自然言語を解そうというのだから複雑なのは当然ですがこれは…
「形態素解析」や「再膠着」とかにカッコ ( ) が付いてますが、
これは関数ということでしょうか?
…PROLOG、面白そうなのでちょっと私も勉強してみます
>>16 >>17 疑問はリストのことですね。Prologのリスト表記は例えば、
[a,b,c] = [a|[b,c]] であり、
[a,b,c] = [a|R] だとRは英数の大文字から始まっているので変数であり
R=[b,c] になります。
再膠着([[A,_,_,名詞接頭辞],[B,_,_,数詞]|R1],[C|R2]) の部分を解説すると
再膠着という関数は2引数の関数である。最初の要素(第一引数)は
リストの形式をしており、その第一番目の要素も
またリストである、 [A,_,_,名詞接頭辞]
さらに第二番目の要素もまたリストである。 [B,_,_,数詞]
第三番目以降もリストであってその部分は変数R1で表すこととしよう。
さて、
この第一引数のリストの第一番目の要素もリストなのだが、その第一番目の
要素はAという変数である。その四番目の要素は「名詞接頭辞」である。
同様に第二番目のリストの第一番目の要素はBという変数であり、
第四番目の要素は「数詞」である。
以下省略するがこんなことが宣言されている。
このようなパターンを持った情報が第一引数に与えられて、
述語、再膠着が呼びだされた時に限り、このルールが適用されて
バラバラになったA(実は第)とB(実は五)が再膠着されるのだ。
そういうことを述べている。
再膠着という関数(述語)は
第一引数がリストでその最初の要素もリストで
その四番目の要素に名詞接頭辞がきて、
かつ、
第一引数の二番目の要素のやはり四番目の要素が数詞の時は
済みません。最後五行、ゴミが入ってしまいました。
>>18 _, ._
( ゚ Д゚)
もともと難しいんだろうけど、その説明も難しい…
あと「prolog 再膠着」でググってもヒット件数0というのはどういうことでしょう?
レアモノですか?
その検索は無理でしょう。再膠着なんて言葉聞いたことない。
多分、私の造語だと思います。説明が難しいのは、一般にリストの場合
構造体ですから仕方ない。この場合などは
構造体のなかにさらに構造体があるというケースですから尚更です。
リストのような構造データを使わずに、スカラ型データ渡し
だけで書くのが理想ですが、
1..問題が要素の前後関係などに依存する場合(
>>18がこれ)
2..集約問題(sum()など)
などはリストで処理せざるを得ないですね。ここでは説明は避けますが
Prologの泣き所です。
ここは自然言語処理のスレでプログラム言語を語る場ではないので
Prologの話はこれくらいにします。最後に、Prologと自然言語処理との
間の以下のことに触れておくべきでしょう。
Prologが普及する初期に、自然言語処理向きの言語ということが
喧伝されました。実際はそれほどでもなかった。すぐに左再帰問題の
ような基本的な難題に直面しましたし、上でもちょっと触れましたが、
Prologで深いデータ構造を扱うとPrologの良さが生きてこないという
ことにも気づきました。プログラム言語の記述力にだけ目を奪われて、
対象としている世界とのギャップに対しても、あまりに楽観的でした。
実際この分野で成果がどんどん積み上がっていくということはあり
ませんでした。期待が大きいだけ失望も大きかったのかも知れません。
結果的にこのPrologへの過度の期待はこの言語の普及、実用への展開
にはマイナスに働きました。もっと強調するべき点は他にあったのです。
Prologと自然言語処理にはそんな少々不幸な歴史があります。
> リストのような構造データを使わずに、スカラ型データ渡し
「リストのような構造データ」と、「スカラ型データ渡し」は、
具体的な例を出すとすれば、どういう例を出せますか?
>>23 理想的なPrologプログラムは引数に構造体を要求しない
年令(大島,32).
年令(尾崎,58).
年令(稲葉,55). というようなものでしょう。
この定義に対して、
?- 年令(X,58). と質問する。答えは X=尾崎 となり質問は真となります。
このようなフラットな構造のデータだけで構成されるプログラムを
Prologプログラマは夢見ます。この辺りはリレーショナルデータベースの
第三正規形などの議論をご存じの方にはわかりやすいかも知れません。
これに対して
sum([],0).
sum([A|R],X) :- sum(R,Y),X is A+Y.
と云う定義はリスト構造を引数に期待しています。
?- sum([32,58,55],X). これは X=146 となり質問は真となります。
Prologの多分最大の魅力は部分要素の簡単なパターンマッチだけで
プログラムの挙動が完全に読み取れるという点なのですが、そのためには
データ構造はフラットであるほどよい。リストでさえプログラムの明快さ
に欠けるという感覚があります。それから、
>>21でちょっと触れた 1..集約問題 とは、上の 年令( ) 定義に於いて、
このクラスの年令の合計を求めるプログラムをPrologでは上手く書けない
ということを云っています。武骨にやればもちろん書けますが。
や、や、 X=145 だ(笑)
自然言語処理は、prologでできそうですか?
私のここまでの印象では、確かに自然言語処理らしき片鱗が見えるプログラム
を作ることができるとしても、それは日本語を部分的に解釈しているだけで
あって、たとえば知識を溜め込むとか、という部分にまで至らない感じがしま
す。
>>27 Prologだと簡単に行くかという期待は裏切られた、というところ
でしょう。
自然言語処理の困難さに較べたら、プログラム言語の記述力の差など
小さい小さいということかも知れません。
確かに言語うんぬんではなくどういう論理構造を作るか、なんでしょうねぇ。
ただ以前、C++やC#のオブジェクト指向というパラダイムは自然言語処理
に適切かも知れないな、と勉強してたときに思った記憶があります。
たとえば
「私は人間です」
の「私」を「人間」という基本クラスから派生した派生クラスだとすると、
「私」=「人間」という真偽判定ができてしまうんですよね。
Prologにもオブジェクト指向という考え方はあるのでしょうか?
私も含めて、Prologプログラマはオブジェクト指向が嫌いだと思います。
「あの本は厚い」という仕様に対して、
厚い(本). がよいか
厚い(あの,本). か
厚い(あの本). が良いのかを即断する能力を磨くのがPrologプログラマです。
あの、や、本、や、厚い、は仕様を与えた人の内面には像があっても、
それには踏み込まずあくまで言語的なシンボルとしてのみ受取り、
これを述語として形式化して定義することにとどめます。
一方、オブジェクト指向プログラマは
「あの本」は「他の本」とは違うに相違ないなどと、意味に踏み込んだ、
解釈をいきなり始めようとする。オブジェクト指向プログラミングの本質は
差分プログラミングなので、どうしても立ち入って解釈をする習性が
身に付きます。これはPrologプログラマから見ると余計なことなのです。
ということで、Prologプログラマは全員が一度はオブジェクト指向Prologを
自作していると思いますが、全員がこれを捨ててしまっていると想像します。
ESPという大変立派なオブジェクト指向Prologがあったのですが、私も
含めてそのオブジェクトを生成して論理変数として述語の引数に持ち回る
仕様に陰で文句ばかり云っていました。
>>22 >>30 読み物としては大変面白いが、すこし、話が極端なのでは
ないかな。そこまで徹していることには敬意を表するが。
ん〜〜〜、少し誤解されているかもですw
オブジェクト指向Prologというのがよほど使い勝手が悪かったのでしょうか…。
オブジェクト指向は、どういう形式でプログラムをつくるか、ということですので
「あの本」などのようなデータの中身とは別じゃないかな、と思います。
「仕様を与えた人の内面」にしかない、
この記述が興味深いですね。
自然言語処理では、知識を蓄積した上で、相手の意図を予測するんでしょう
けど難しそうだw
>30
> あの、や、本、や、厚い、は仕様を与えた人の内面には像があっても、
> それには踏み込まずあくまで言語的なシンボルとしてのみ受取り、
> これを述語として形式化して定義することにとどめます。
私も Prolog のこういう部分は凄いと思う。
中身を本当に「一切」定義しないことに最初は驚いた。
「厚いってどういうこと?」ということを Prolog 自体が必要としないんだよね。
ちなみに、その定義をOOP風に表すなら、単に
本 . 厚い
この場合、厚いか否かの判断は「本」に任せるって形になるね。
本が厚いか訊いた質問者はそこまで踏み込むことはない。
(深入りすることはあるけど、それはOOPの理念からはちょっとズレると思う)
まぁ、Prolog と違って最終的には「本」か、もしくは
「本」が頼んだどこかのメソッドで具体的な判断がされるけど。
> 「あの本」は「他の本」とは違うに相違ないなどと
> 意味に踏み込んだ解釈をいきなり始めようとする。
それはOOPで意識しないけどなぁ。
OOPって良くも悪くも「たらい回し」が多くなるから
「本」自体も他から「この本ね」と渡されたものである場合が多い。
>>33 OOPに関しては大分遠ざかっているからまともなレスが書けそうにない。
私が書いてきたことは自然言語処理というより、自然言語プログラミング
ですね。この自然言語プログラミングの一番大事な処理は今のところ
人間がやってしまって、Prologに落としちゃいましょう、ということです。
そのスキルを磨いて、同時通訳くらい早く書けるようになったら、その時
にはその部分をPrologでエキスパートシステムとして記述すればよい。
そういう道筋の第一段として現在のPrologプログラミングがある。
エキスパートシステムとして記述される段階では、実は落とすコードは
Prologである必要はありません。Prolog的なロジックをライブラリに
持つ、C++ あるいは Ruby のプログラムコードで構いません。なぜかと
いうと、その部分が機械処理された時点で人間の思考・論理とプログラムの
親和性という視点は必要なくなってしまうからです。
36 :
デフォルトの名無しさん:2007/03/11(日) 18:16:51
age
ここの人たちからするとレベルが低いと思いますが、
ニュー速+の記事を要約して読めるサービスを作ってみました。
http://misaki.mine.nu/chradio/s.cgi スレの投稿速度でランキングするのは2nnのマネです。
単純に重要度でソートしてるだけなので、
似たような書き込みを除外できてませんが、
スレッドの要約というのも面白いテーマと思います。
形態素解析はMeCabを使っています。
38 :
デフォルトの名無しさん:2007/03/11(日) 21:02:15
39 :
37:2007/03/11(日) 22:11:53
>>38 過去ログ読みました!
GoogleNewsがやってるような似たもののグルーピングはできてません。
確かに。抽出が正しいっす(ノД`)ノ
オーム社の「テキスト自動要約」を読んで作ってます。
頻出する重要単語をより多く含む文を抽出してます。
今後、似たものをまとめる方面をやってみようと思います。
それと因果関係としてレス同士の>>の関係も利用してみます
…前スレ 438-497 を読んだけどすごいな。
煽り合いを楽しんでいるかのようだ…。
やさしく指摘して「あ、そうかスマソ」で終わらせりゃいいのに…。
あん時は、どっかのバカが俺の発言の陰に隠れて
「Google検索結果の引用文は『要約』の一種だ」とか主張しちゃって
誤爆の嵐でまいったさあー
Google検索は抜粋、キーワードが該当した場所ってだけだよなぁ。
つーかあそこで出てたような要約なんてできるのかな?
日本語を解して要点をまとめる機能が必要か…。
要約とはなにかって、この分野ではどう定義されてるのよ。
>>43 文意を変えずに書き手の<<意図>>を抽出することだから、たんなる抽出と間違えやすいんじゃないのかな?
「AはBに似ておりCとは違うためDと同じである」
という文章の意図は「AはDと同じ」
…こういうのを解釈して、なおかつ簡潔な文章に装飾するのが
ここで言う要約ってことでしょうか?
>>37 そんなパクリページ作るくらいだったら
2NNに協力する方がええんじゃね?
47 :
素人:2007/03/12(月) 21:43:44
>>37 よくわかんないんだけど、これってどうやって抽出してるの?
左側のIDの意味ってなに?レスの番号とは違うようだし・・・点数とも関係なさげだし・・・
48 :
37:2007/03/13(火) 01:09:23
>>46 2NNは2chビュアーが無いみたいですねえ。read.cgiに直接飛ばしてるし。
>>47 簡単に説明しますと、(ちょっと長いですごめんなさい)
スレ内で、たとえば1-100のレスから、まず単語の出現回数を数えます。
数の多いものが重要語となります。
つぎに、重要語を含む数をスコアにして、重要なレスから表示しています。
左側の番号は、レス番号ではなくて、いったん文章を単文にひらいた場合の
単文番号です。
レス番号の方が分かりやすいかもしれませんが、長文レスが重要になったときに
全体が長くなるので、こうしました。
http://misaki.mine.nu/blog/tf.cgi 同じ手法で要約だけやってるページも作ってるので参考にどうぞ。
チェックを入れると、やってることがわかります。
49 :
37:2007/03/13(火) 01:21:22
>>48 自己レスですが、
要約サイトはkakasiで形態素解析してますが、
2nnもどきはMeCab使ってます。
MeCabで工夫してるのは、品詞も使って見ました。
名詞が続くときは、名詞+名詞+名詞=名詞とまとめてます
これで未知の「国民投票法案」とかも抽出できました
あと、名詞+の+名詞=名詞もやってます。
その他、長文になってくると頻度が偏るのでlog10をとってみました。
50 :
素人:2007/03/13(火) 02:11:20
>>37,48,49 なるほど。勉強になりました m(_ _)m
この方法はtf-idfを用いた重要文の抽出で認識あってますでしょうか?
聞きかじりなので、tf-idfも詳しくわかっていない状態です。間違っていたらすみません。
やっぱむつかしいなこういうの
53 :
37:2007/03/14(水) 00:03:17
>>50 オーム社の本でもTF法と紹介されてるので合ってると思います。
>>51 perlで作ってます。
perlは遅いイメージがあると思いますが、ハッシュを使うと頻出語の調査は簡単に素早くできますよ
use MeCab;
use Encode;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数
sub TermFreq
{
my ($str) = @_;
my $n = $m->parseToNode($str);#形態素解析
while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語
$tf{$word}++;#単語のハッシュ変数の出現回数を1増やす
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}
とりあえず1文字とか名詞以外は除外でもいいと思います。 実際は、複合語を扱えるようにしたりとか工夫が面白いです。
ベイズ推定によるニュース分類もやってますが、単語の出現回数も同じ手法で作ってます。
54 :
37:2007/03/14(水) 00:09:32
こんな感じでずいぶんいい感じになりました
#名詞でかつ全角で2文字以上の場合だけ有効
use MeCab;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数
sub TermFreq
{
my ($str) = @_;
my $n = $m->parseToNode($str);#形態素解析
while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語そのもの
my $hinshi = (split( /,/, $n->{feature} ))[0];#品詞
if( ($hinshi eq "名詞") and (length( $word ) >=4) )
$tf{$word}++;#単語のハッシュ変数の出現回数を1増やす
}
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}
55 :
37:2007/03/14(水) 00:24:41
バッチで新聞社の経済記事を毎日読み込んで、単語の出現回数を数えてるのですが、
現在、2250個の文で、発表が428回、東京が369回出現となってます
過去の統計データを使えば、
与えられた「未知の記事」が経済記事であるか?を推定する確率が求められます(・∀・)/
(経済以外の記事の出現回数を、非経済記事である確率に使ってます)
2250
発表,428
東京,369
市場,351
前日,289
ドル,284
株式市場,234
株価,221
東証,188
(改行が多いと怒られたので以下略)
パールかー。
ちょっと遅いイメージがあるけど、いまどきのマシンなら問題ないだろうし、
すぐ変更できるし使い勝手はいいだろうね。
あと、しばらくみないうちに変わったのかな。
なんかnewとかあるし…クラスまである?
オブジェクト指向!?
変数名の$は相変わらずのようで…w
>>56 どれだけ遅れてるんだよw
10年前のPerl5からずっとOO機構はあったよw
>>56は1999年の書き込みだとちょうどいいぐらい
59 :
56:2007/03/14(水) 20:42:50
遅れてるっていうか、そんな使ってないしオレ…
せいぜい簡単な定期処理動かすのくらいだし…
(´・ω・`)ショボーン
まぁでもPerl5のOOPはちょっと無理矢理だけどな
クラス設計する側がかなり疲れる仕様
> クラス設計する側がかなり疲れる仕様
まぁ慣れの問題のような気がする。
PerlのOOは動的OOだから、
実経験で感覚掴まずに、
仕様だけ見て想像で設計しようとしたら、
まぁ大変だろうね
言語ってOOPを取り込むと美しさが全く失われるのはなぜだろう。
自然言語処理とは何の関係もないが・・。
>>62 表現と構造の次元の違いによるギャップだろ。
自然言語、プログラム言語は一次元的表現
データ構造、オブジェクト構造は二次元以上
etc.
ところで人間の頭の中にある概念空間は・・・いったい何次元だろうね?
操作員A「こんにちは」 → COM「はい、こんにちは」
操作員A「今日は天気が良いですね」 → COM「そうですか」
操作員A「今日は何月何日ですか?」 → COM「今日は3月22日です」
操作員B「今日の天気はどうでしょう?」 → COM「良いという話です」
…こんなの可能でしょうか?
人工無能でそういうふうにプログラムすれば可能だろ。
2chのレスは全部人工無能で生成されている。
まめちしきな。
>68
まぢで!?
俺もお前も人工無脳だったのか…
誰が!?誰が俺を作ったんだ!?
あの晩、おとんが酔って帰ってこなければ・・・
あの時、スキンの買い置きさえあれば・・・
俺が思うに・・・
自然言語というか人工知能はRubyとかでこつこつ作るものじゃなくて、
単純なロジックを再帰的に呼び出して形とし、
ある時点ではじめて単語になり、ある時点でやっと文章になる・・・って感じだと思う。
非常に観念的だけど・・・
たぶん、フラクタル理論を勉強して応用したほうが早いんじゃないかと。
実際にそれを証明してみたまえ
Infinite monkey theoremと何が違うんだ。
すべてデータ化する前提で文法解釈ロジックを考えるべきだと思う。
単語はそれが名詞だろうと助詞だろうと動詞だろうとすべて同列なもので
ただ属性が違うだけ、という風に。
>>72 結婚してセックルして、子供が出来て3年後ぐらいに証明できる。
しつもんなんですが、
形態素解析ソフトを使わないで、
有る文書の中から重要な単語だけを抜き取る場合、
何か良い案はないでしょうか?
77 :
デフォルトの名無しさん:2007/04/07(土) 22:13:12
まず重要という意味を定義しろボケ
>>76 形態素解析ソフトを使わないなら、少なくとも自力か他力で
単語の辞書を作る必要があるよ。他力がお勧め。
辞書が出来たら、文書の中に出てくる単語の出現頻度、出現確率などから
適当に重要さを計算すればいい。
一般には他の文書にはあまり出てこないけど、その文書にだけよく出てくる単語、
というのは重要にすればいい。
79 :
デフォルトの名無しさん:2007/04/11(水) 08:31:23
頻出頻度だけ調べたら
「の」「が」「。」が多いだろうね
80 :
デフォルトの名無しさん:2007/04/11(水) 13:33:38
>>79 最長一致法(最も長い単語を採用する)ではダメだろうか。
>>79 助詞を省いて、名詞と動詞だけに限定すれば良いんじゃない?
頻度ランク100以内は無条件に削除、でもまあいける
83 :
デフォルトの名無しさん:2007/04/14(土) 09:57:28
形態素解析せずに、
助詞を省いて名詞と動詞だけに限定できるの?
形態素解析は使わないが、辞書は使う、ということだろう。
トートロジー
これだから自作自演は・・・
トトロがどうしたって?
87 :
デフォルトの名無しさん:2007/04/17(火) 22:02:43
88 :
デフォルトの名無しさん:2007/04/17(火) 23:03:43
papersに日本人いねえ
オワタ
下から2つめ
4つあるじゃん.T研から2つ,K先生,あとMSのSさん.
チェコ航空だとウィーン経由。
ウィーンで2泊しても成田・プラハ
往復運賃は同じなので、ACLから2日早く
抜け出して、ウィーン観光をする。
ACLは開催期間が長いので、出張が延ばせ、
良い季節に観光旅行ができる最高の学会だ。
うぃ〜〜〜ん
93 :
デフォルトの名無しさん:2007/04/22(日) 09:09:24
辻井先生は元気だな
この分野で理論だけじゃなく実際のプログラミング言語で実装している入門書か専門書知らないですか?
>>94 全くの見当はずれかもしれないけど答えがないよりましだから、
「LISPで学ぶ認知心理学3 言語理解」
佐伯胖監修 田中穂積 元吉文男 山梨正明 共著 東京大学出版会
1983年7月初版 3311-12233-5149
96 :
デフォルトの名無しさん:2007/04/24(火) 08:38:00
たぶんそういうのを求めてるんじゃないと思うが
ちまたにあふれる画像処理本みたいなやつの
自然言語処理版は無いのかってことかと
97 :
デフォルトの名無しさん:2007/04/30(月) 08:55:50
ちょっと質問しますよ
例えばです
今日は天気がいいから
外出しようかな
でも雨が降ったらいけないから
天気予報を見よう
こういう様に複数行に改行された日本語文章があります
2chのレスもそうです
今日は天気がいいから外出しようかな
でも雨が降ったらいけないから天気予報を見よう
これを一文完結してるようにつなげたいのだけどどうしたらいいんでしょう?
98 :
デフォルトの名無しさん:2007/04/30(月) 09:04:13
文章を1文字、2文字、
3文字、4…と
区切っていき、その文字が
文末に来る文字(辞書から検索する)なら
改行する。
とかは?
>>97 きちんとやるなら、真面目に形態素解析するしかなかろう。
尤も句点がないと完璧な判断は無理だけどね。
簡易な方法でいいなら、「文末らしい」語の辞書を持っておいて行末をチェックすればいい
> 簡易な方法でいいなら、「文末らしい」語の辞書を持っておいて行末をチェックすればいい
簡易すぎ。
せめて次の行の頭が続きそうかどうかは見た方がいい。
101 :
デフォルトの名無しさん:2007/05/01(火) 08:41:16
今日は天気がいいから。
外出しようかな。
でも雨が降ったらいけないから。
天気予報を見よう。
どの文も句点で終わる可能性があるよな
>>100 「続き<そう>」これってマルコフ連鎖とかで確立的に決めちゃう方式ってこと?
>>97 接続語でチェックすればいいんじゃね?
「から」は文頭に来ることはなさそう.
「でも」は文末に来ることはなさそう.
>>95 あーそれ読んだことある!
確かに「LISPを」勉強するときはそのシリーズいいね。
自然言語処理のしの字も知らない俺にオススメな本はありますか
106 :
デフォルトの名無しさん:2007/05/06(日) 23:10:05
「テキストマイニングを使う技術/作る技術」が読みやすくていいよ
>>108 FSNLPってよく推薦されてるけど、そんなにいいか?
あんまり好きじゃないんだけど。
すごく偏りがあるのは認める
111 :
デフォルトの名無しさん:2007/05/07(月) 11:31:02
>>108 どっかの研究室で訳してくれないかな
奈良先あたりでさー
やっぱあれだな。
一口に自然言語処理と言っても形態素解析や係り受け解析のような基礎技術から
テキストマイニングとかのアプリケーションまで幅が広すぎる。
おまけに今は機械学習の各手法を知らないと論文も読めないし、なかなか大変。
研究するって訳じゃなければそんな真剣に考えなくてもいいか。結局何が目的にかによるな。
しかし、新しめトピックもカバーしたライトで実用寄りの入門書は存在しないというのが実情では
ないだろうか。
>>113 新しくてライトで実用的って無理じゃね?
「SVMという魔法のツールがあります」から始めるのか?
115 :
デフォルトの名無しさん:2007/05/09(水) 07:50:37
SVMってちゃんと理解しようと思うと
甘利タンの情報幾何学まで引っ張り出さないとダメ
116 :
デフォルトの名無しさん:2007/05/09(水) 09:02:27
文系出身の俺には無理
文系ならなおさら言語構造に詳しいだろw
116はSVMのことでしょ。
119 :
デフォルトの名無しさん:2007/05/10(木) 07:50:33
自然言語処理をやっている研究室って
画像処理をやっている研究室より数が少ないよね?
MSが日本語のNLP研究やり始めたからな…
日本オワタ
>>120 終わんねーだろ・・・
常識的に考えて・・・
122 :
デフォルトの名無しさん:2007/05/10(木) 10:55:18
画像処理のほうが
世界共通言語
124 :
デフォルトの名無しさん:2007/05/10(木) 12:53:44
英語のこと?
エスペラント語に決まってんでしょ
126 :
デフォルトの名無しさん:2007/05/10(木) 19:45:55
何それ?
自然言語処理の<教科書>に登場する
(文科系?)言語学者はチョムスキー
の他は誰?
128 :
デフォルトの名無しさん:2007/05/10(木) 20:02:36
チョムスキーが文科系って・・・
スタンフォード大HPSGのSag?
130 :
デフォルトの名無しさん:2007/05/12(土) 07:12:08
ロシア人?
LFGのBresnan
132 :
デフォルトの名無しさん:2007/05/19(土) 13:34:51
自然言語処理やったらメーカーに入れるの?
メーカーなんて自社製品売ってなんぼだから。自然言語処理とか関係ない。
134 :
デフォルトの名無しさん:2007/05/19(土) 14:16:41
修士卒で自然言語処理関係の仕事をやってる人なんていないよ、と教授に言われました。。。
うちは歓迎する
むしろ、自然言語処理で学部卒とかどうしようもないっしょ
そんな短時間で何が習得できるってんだ。
137 :
デフォルトの名無しさん:2007/05/19(土) 16:03:14
>>135 どこ?
うちの院(マスター)は過去五年間の就職実績で関連した企業なんて、
ヤフー、ジャストシステムくらいだよ
NTTデータとか
NTTデータ、Google、MSR、Yahoo
この辺は、院卒前提でしょ。
自然言語をまじで処理する仕事したけりゃ、
院卒前提だろうな
データって関連してるの?
ただのSIかと思ってた
うちのとこ(メーカー)は音声・言語のUI開発してるんだけど、
音声や自然言語をやってた学生には来てほしいよ
でも、いっつも、ぜんぜん違うことやってた学生ばっか来るんだよね
カーナビとか?
145 :
デフォルトの名無しさん:2007/05/19(土) 21:46:58
パイオニア?松下?
Microsoft Research行きたいよー
自然言語処理の研修室かPLDの研究室か迷ってるんだよなぁ
まぁ行くのは来年度の事だけど
148 :
デフォルトの名無しさん:2007/05/19(土) 23:14:50
自然言語は止めといた方が良いよ
n-gramモデルを調べようと思ったのですが、何かわかりやすい解説がされてる資料はありませんでしょうか?
完全に知識0からなので、これらがどう有用なのか、とか、どういう研究に使われてるかなどもわかれば嬉しいのですが・・・。
ググレカス (AAry
自然言語処理研究者の馴れ合いキモス
関西、特に奈良、京都ばっかじゃん
奈良線と京大の馴れ合いですか?
NTT
名大
京大と奈良先端の人多杉ww
関西人ばかりだということが丸わかりのスレだなwww
>>149 簡単な知識だからgoogle先生で十分
厳密さを求めるなら元論文で
なんで関西人は自然言語処理好きなの?
一昔前、まったく自然言語処理が注目されてなかった時に
予算がなかなか下りなかったって歴史的時代背景じゃね?
で、たまたま、やってた数少ないところが、京大だったって話かと。
奈良先端だって、比較的若い大学院大学っしょ
鳥取大学(´・ω・`)ショボーン
東工大は最近どうなん?
なぜ東大がでない?
鳥取は、京大に居たやつが始めたんだっけな。
関東勢はどうも弱いよな。
JAIST
徒弟制度じゃないけど、
元をたどればN尾先生の弟子だったり孫弟子だっり。
166 :
デフォルトの名無しさん:2007/05/22(火) 11:28:03
ながおタンね
ながおタンハァハァ
168 :
デフォルトの名無しさん:2007/05/22(火) 17:54:15
機械翻訳の技術が向上していけば
より上質な翻訳が出来る翻訳家以外あぼーんだな
でも、所詮今の機械翻訳って、大企業が金に物を言わせて巨大な辞書を作ってお茶を濁してる感じでしょ。
もう破綻した手法だが、だからと言って別の手段だと誤訳率が上がるんだよなぁ。
171 :
デフォルトの名無しさん:2007/05/22(火) 20:13:40
100億文くらい例文集めても駄目か?
英語はほとんどが比喩表現だから辞書いくら作っても無駄w
翻訳機械が完成されるのと、脳に意味を直に送信できるようになるのではどちらが先ですか。
>>172 >英語はほとんどが比喩表現
そこで、G. Lakoffが登場し、UC Berkeleyの自然言語
処理グループとの共同研究で巨額なNSF資金を獲得する。
ぬおお!足りぬ・・・・足りぬぞ・・・!コーパスがッ!
まぁ、機械翻訳なんてのは大企業に任せときなさいって
どうあがいても学術機関では敵わない。
小さなコーパスで何か画期的な事が出来るようなモデルを考えるとかじゃない限りな。
177 :
デフォルトの名無しさん:2007/05/23(水) 06:11:12
ATRも大企業になるのか?
国からの補助金は削減された?
優しくてかわいい彼女が欲しい脳
頭がよければモアベター
大規模な誤爆をしました
182 :
デフォルトの名無しさん:2007/05/25(金) 20:50:27
Google翻訳よりExcite翻訳、Excite翻訳よりYahoo翻訳の方がいいな
>>182 >Yahoo翻訳の方がいいな
私もそう感じます。理由をご存知の方はいらっしゃいますか?
それは、そう思った理由が、そもまま理由じゃないか?
>>183 Yahooはなぁ、"ぬるぽ"を翻訳したら「ガッ」になった事があって嗤ったっけ
187 :
デフォルトの名無しさん:2007/05/26(土) 11:15:35
私もそう感じます。理由をご存知の方はいらっしゃいますか?
google翻訳
→I so feel. As for the person who knows the reason it is and others the [tsu] plain gauze is?
yahoo翻訳
→I feel so it, too. Does a person knowing a reason come?
googleはしっかりしろ
検索ボットやgmailやgoogle docでテキストを只で手に入れてんだからさー
50歩100歩のような。。。
I think so too, Does anyone know the reason?
とか、もっと自然に訳してくれるソフトはないの?
Webの無料翻訳じゃなくて、富士通のAtlasとかでも全然だめなのかな。
189 :
デフォルトの名無しさん:2007/05/26(土) 17:04:07
>>187 テキストがあったって意味が分からないと知識にはならんがな。
191 :
デフォルトの名無しさん:2007/05/26(土) 18:10:38
excite翻訳のbizlingoはatlasがベースだろ?
オープンソースの英日機械翻訳のプロジェクトはまだないのかな。
結局、機械翻訳っつーのはコーパスをガシガシ整備しさえすりゃいいんでしょ?
ほら、同音多義語なんかは今風にタグでジャンル別に分類すればいいわけだし。
なんかそんな難しい分野じゃない気がしてきた
( ^ω^)タダでコーパス書いてくれる人が居ればね
194 :
デフォルトの名無しさん:2007/05/26(土) 21:06:38
オープンソース厨は(゚听)イラネ
上手く理解すれば出来ると思いますが?
ソースを部品と見抜けない人には(オープンソースを使うのは)難しい
オープンソース思想家は去れ。
オープンソース厨と罵倒するのは簡単だ。
日本語WordNetの構築は、なぜ行われないの
でしょうか? EDR関係者が邪魔をしているの
でしょうか?
関西の連中が牛耳ってるからだろ?
自分とこの研究室で研究させて論文生産して
院生をATRとかNICTあたりに突っ込んで
また自分とこの研究室と一緒に研究させて論文生産して
図星かよwww
内輪過ぎて大半の人がついてきてないんじゃね?w
このスレは、NISTと京大と鳥取と、ATR、NICTの提供でお送りしました。
ここム板だから、あんまり内輪すぎる話をするのもどうかと
まったくの専門外の分野から自然言語処理をやるマもいないだろ?
いくらでもいるだろ
JAISTのこともときどき思い出してやってください
205 :
デフォルトの名無しさん:2007/05/27(日) 22:57:59
[JN]AIST
JAISTとか、能無しが行くところだろ。
名前が似てるだけでNAISTの姉妹っぽい扱いされてるのが気に入らん。全然格が違うのに。
まるで電気通信大学と、大阪電気通信大学みたいだ。
いやいや、いくらなんでもこのスレは内輪すぎるだろ・・・w
既に部外者が入り込める雰囲気じゃねぇwww
いくら業界狭しといえど、ちょっと狭すぎないか
という俺は、ここに名前すら挙がってない大学の自然言語処理の研究室の人間だけどな・・・orz
>>206 大学院大学に入学資格に関して格差なんてあんの?
学部と違って、大学院に関しては好きな所に入れるイメージあるんだけど。
担当教官とさえ話が合えば・・・
まさにセクトの内ゲバだなww
>>206 どっちも同じだろw
誰でも入れる院に変なプライド持つなよ
何か関西に恨みでもあるのかよ。
200文字程度のデータを読み込んで、
その文書が英日独仏西伊のどの言語
かを判断するツール/モジュール/
ライブラリを探しています。できれば
perlで使えるものが良いですが、何か
ございますか?
Lingなんとか::なんとかっていうモジュールがCPANにあったな・・・
214 :
デフォルトの名無しさん:2007/05/30(水) 12:13:56
googleとつるんでるbasis techで売ってるよ
215 :
デフォルトの名無しさん:2007/05/31(木) 20:58:07
YO!
216 :
デフォルトの名無しさん:2007/06/03(日) 20:22:13
誰かGosen使ってみた人いる?
いたらインスト情報プリーズ。
なんか動かんorz
API周りの変更が原因っぽいが。
217 :
デフォルトの名無しさん:2007/06/04(月) 01:11:41
この分野ってさ
ノーベル賞とか、取ろうと思えば取れるような分野なの?
過去に受賞した人とか居るのかな?
チョムスキーが提唱したような、人間の脳による、正確な生成文法をキチンと科学的に解明出来れば、取れそうなもんだが
ぶっちゃけ、それもう自然言語処理の分野から外れてるような。
いやぁ、今高校2年なんだが、将来どんな分野に行くか考えてる時期で、自然言語処理に興味あるんだけど
どうせなら、ノーベル賞くらいと思ってねwww
恥ずかしい夢物語だけどw
ノーベル生理学賞取るんなら、医学系行って言語野調べたほうがよさそうな。
自然言語処理なら、ノーベル賞よか、チューリング賞じゃないか?
自分で賞を創設する
やっぱ、ここは長尾賞
221 :
デフォルトの名無しさん:2007/06/04(月) 22:24:19
長尾翔ってもうなくね?
誰かチューリング賞くらい取れよ。
日本人じゃあまだ誰も出てないだろ?
個人的にCPU開発者の嶋正利とか、TRONの坂村健とか、ちょっと格が落ちるがRubyのまつともとかは、
とってもいいくらいだと思うんだがな。
ACM会員じゃないとかがやっぱでかいんだろうか、それともアメリカの日本のコンピュータ封じか?
アジアだと、中国人が受賞してたっけ。
なんでまつもと氏が取るんだよw
matzはないw
マッツって聞くと松屋で牛丼でも食ってきたくなるんだよ
行ってくるわ
>>222 >誰かチューリング賞く
同性愛者以外は対象外?
フォートランの人がとってたから、matzにもチャンスはあるんじゃね?
>>228 つい数ヶ月前に亡くなられたのか。 黙祷。
231 :
デフォルトの名無しさん:2007/06/06(水) 15:23:54
mecabの焼き直しだっけ?
mecab->sen->gosen
mecab0.8系?
自前辞書がコンパイルできなかったから、senに戻したよ。
もうmecab-javaにしたい。
自然言語処理界のアイドルって誰?
長尾タン?
工藤ちゃん?
たつを?
長尾タンハァハァ
235 :
デフォルトの名無しさん:2007/06/06(水) 21:34:56
辻たんも黙ってないぞ
松っちゃんもいるがな
長尾バロス
239 :
デフォルトの名無しさん:2007/06/11(月) 16:08:09
AAMTアゲ
240 :
デフォルトの名無しさん:2007/06/11(月) 20:02:39
はいはいまた馴れ合い
242 :
デフォルトの名無しさん:2007/06/19(火) 06:47:41
朝は必ず私は厨房の妹に飛びかかって、すがりついてお願いして、交尾
して乳をむさぼって、ただぱんぱんぱんぱん穴の中で犯すのがあま
りに犯します凶悪で、妹は身ごもって、今しようがなくぱんぱんぱんぱん妹の友達を犯して我慢します
偶然というより
中国語の文字コード見れば氷解するんじゃないかな
244 :
デフォルトの名無しさん:2007/06/19(火) 20:50:43
うほっmoonとかも?
245 :
デフォルトの名無しさん:2007/06/19(火) 21:22:31
大量のコーパスとして学術論文データが欲しいのですが、PDF論文データを大量にGETできる方法はないでしょうか?
○○周年記念DVDとか なかったっけ?
どこの学会は忘れたが…。
247 :
デフォルトの名無しさん:2007/06/19(火) 22:03:50
変な日本語多いじゃん
yamcha-0.33.tar.gzを展開してインストールしようと思ったんだけど、
Makefileが入ってないのは仕様ですか?
249 :
デフォルトの名無しさん:2007/06/26(火) 10:03:44
しょうです
250 :
デフォルトの名無しさん:2007/06/26(火) 12:44:52
public static void main(String[] args){
int [] [] Ma=new int[Machine+1][K+1];
int [] forbid=new int [Job+1];
int [] penal=new int [Job+1];
int Obj=0;
for(int i=1;i<=Job;i++){
int mindue=10000;
int assignJob=0;
for(int i2=1;i2<=Job;i2++){
if(mindue>(duedate[i2]+forbid[i2])){
mindue=duedate[i2]+forbid[i2];
assignJob=i2;
}
}
コーパス中の任意の場所が類似しているというのを線形時間ぐらいで近似的に見つけ出すという方法を考えてるんですが、
2chでは特にそういうの(類似表現)多そうですが
助詞が入っていないとか間違ってるとか、
語尾や言い回しが微妙に違うとか、
主語、目的語が違うとか
これとこれとこれと....これが類似してる と示せます
そして、その「これ」が、先に与えられているわけではない、というやつです。
※エントリとエントリの類似度を測るのではないです。
任意のエントリ中の任意の部分文字列と
任意のエントリ中の任意の部分文字列との中から
(つまり可能な全ての部分文字列の組)
そういうのを全部見つけ出す方法考えたんですが
その、評価方法を知らないでしょうか?
見つけ出す方法は大体できてるんですが、
それがこんなに有効なんですよと、示すための(他の手法との)比較方法がわかりません。(そんな研究が存在しているのかどうか)
252 :
デフォルトの名無しさん:2007/06/28(木) 12:16:50
>そういうのを全部見つけ出す方法考えたんですが
kwsk
lcs?
コーパスの例は適当です。
@東京・臨海地区に新しく開設される警察署の名称が「東京湾岸署」となる可能性がでてきました。まだ正式決定ではないですが、
別に踊る大捜査線を意識したものではないのだそうです。.....
A警視庁が来年3月に臨海地区に開署予定の警察署の名称に「東京湾岸署」とする条例改正案を提出する方針らしい。
踊る大捜査線を意識してないと発表してるけど、.....
B「東京湾岸署」新設へ 「踊る大捜査線」意識せず
臨海副都心に新設される警察署の名称が「東京湾岸署」に決まった。......
@ [臨海地区に新しく開設される警察署の名称が「東京湾岸署」]
A [臨海地区に開署予定の警察署の名称に「東京湾岸署」]
B [臨海副都心に新設される警察署の名称が「東京湾岸署」]
が、それぞれ 似ている T
@ [踊る大捜査線を意識した]
A [踊る大捜査線を意識して]
B [踊る大捜査線」意識せず]
が、それぞれ 似ている。U
というように、(厳密一致ではなく)似てると思う部分を(線形時間ぐらいで)列挙するもちろん、@ABは便宜上書いているだけで、このように文書が分かれていなくても
類似検索などでは 「踊る大捜査線を意識」というようなクエリーを与えられてからUを返せばよいが、
そうではなく、コーパスを読み込んだときに、こういう類似パターンを「先に全て」列挙する(人間が気づいていない類似パターンがあるかもしれない)
255 :
デフォルトの名無しさん:2007/06/28(木) 17:54:14
卒論の時期なのかな
>>251 遺伝子の配列アラインメント問題関連で調査すると良いかもしれないです
ブロックソーティング
SVMでOK。
SVMと同様なクラスに分類されるアルゴリズムはいろいろあるだろ
SVMに拘る意味が不明だと思った。知ってる言葉並べただけ?
>>259 ハイパーパラメータが少ないし、libsvmなど出来合いのツールで手っ取り早くできるからじゃない?
だからブロックソートが一番早いっつーの
インデックスを作る時間を考慮しなければ最大でも線形時間ですむ
262 :
デフォルトの名無しさん:2007/07/06(金) 10:32:13
SVMというバカチョンツールが出てきたから
つまんなくなったな
カーネル法の奥は深いけどさ
SVMのおかげでベースラインには困りません
264 :
デフォルトの名無しさん:2007/07/06(金) 16:53:40
誰か僕にノンパラベイズを教えてください
つ今年のACLツートリアル
266 :
デフォルトの名無しさん:2007/07/07(土) 11:04:45
どこ?
このスレの人達にいくつか質問が.
エスペラントでは単語の後に品詞を示す接尾語がついていて,
少なくとも品詞解析のレベルまでは曖昧性なしで行けると思うんだけど,
こういう,ある程度文法が整理された人工言語をコンピュータで解析している研究とか知ってる人がいたら教えてください.
エスペラントとかを話す人はかなり少ないけど,
コンピュータによる理解が容易であるなら普及にもつながるはず…と思うんだがそこら辺はどう思う?
たとえば,ある言語Xから英語や中国語へ正確な翻訳ができるなら,Xを勉強するコストを支払うか,という質問.
269 :
デフォルトの名無しさん:2007/07/07(土) 20:51:34
そういう問題じゃねえw
>>267 エスペラント語から英語や中国語へ翻訳ができても、逆ができないなら、魅力はほぼないと思う。
こっちから何か伝えることはできても、相手の言ってることはわからないんじゃ、英語でも覚えるほうがマシ。
逆に、エスペラント語と英語や中国語との間で相互に正確な翻訳ができるなら、当然エスペラント語経由で英中・中英の正確な翻訳ができる。
この場合、エスペラント語はコンピュータが理解してれば充分で、人間は覚える必要がない。
…ってことで、その路線でも普及しないと思うよ、エスペラント語。
>>270 でも誰かに読ませるためにHTMLとかを覚える人は沢山いるでしょ.
インターネット上で何か発信したいと思ったらその言語で書けば主要な言語に翻訳されるわけだから,
読む方にとってみれば相当の省力化になると思う.
書く方にしても,マニュアルとか書く人にしてみたら一つ書けば多言語のマニュアルができあがるわけだし.
>>267 中間言語にエスペラント語を使った自動翻訳システムがあると聞いたことがある
275 :
デフォルトの名無しさん:2007/07/16(月) 13:28:35
統計翻訳っていまいちじゃね?
276 :
デフォルトの名無しさん:2007/07/19(木) 10:53:11
MeCab
277 :
デフォルトの名無しさん:2007/07/19(木) 19:38:08
ChaSen
278 :
デフォルトの名無しさん:2007/07/20(金) 11:06:59
JUMAN
KAKASI
280 :
デフォルトの名無しさん:2007/07/20(金) 15:47:43
Ukkonen's algorithmが分からん
281 :
デフォルトの名無しさん:2007/07/21(土) 02:57:43
奇遇だな。俺も今Ukkonen's algorithmを実装してる。
確かに難しい。今まで書いたプログラムの中で一番難解だ。
282 :
デフォルトの名無しさん:2007/07/21(土) 07:14:42
(・∀・)ウッコネン!
MecabやChaSenってURLを一まとめに扱ってくれないみたいですが、扱えるようにするパッチとかはありませんか?
284 :
デフォルトの名無しさん:2007/07/21(土) 13:02:31
解析結果に後処理かますのが一番簡単そう。
Win版MeCabにUTF-8を突っ込むのは無理なの?
やっぱ、EUC以外だと、./configureのオプションつけるしかないのかな?
この辺、iconvでも使って、パフォーマンスは落ちるけど、コマンドライン引数で何とかできるようにすればいいのに
>>285 そういうラッパーを自分で書けばいいだろ
287 :
デフォルトの名無しさん:2007/07/22(日) 13:57:54
win版も工藤が作ったの?
コードのセンスは良くないよね
Haskellってどうよ。
正直、MeCabとChasenは辞書を共通にしてもらえるとありがたかった・・・。
そしたら、俺の仕事が大変楽になったのに・・・。
どっちもDARTSライブラリ使いまわしで、DobleArray構成してるんだよね?
dartsのベンチって誰かとった?
他にもっと速いのないの?
Txは、dartsよりサイズが小さくなるけど、今のところまだ遅いみたいね。
Suffix Arrayは駄目なの?
はい?
ライブラリの話をしてるんだろが・・・
295 :
デフォルトの名無しさん:2007/07/24(火) 14:47:36
ライブラリ途中下車の旅
296 :
デフォルトの名無しさん:2007/07/24(火) 19:20:00
自然言語処理のゴール地点はどこだと思いますか?
297 :
デフォルトの名無しさん:2007/07/24(火) 19:22:29
コンピュータと人間で人間らしい会話ができたらかな
チューリングテスト?
それって特定の分野に絞ればもう合格してたような希ガス
ELIZAタイプは例外ルールだとよ。
300 :
デフォルトの名無しさん:2007/07/25(水) 07:56:58
昔ラクターってソフトがあってな
ねーよ
302 :
デフォルトの名無しさん:2007/07/25(水) 20:22:11
304 :
名無しさん@そうだ選挙に行こう:2007/07/29(日) 19:41:07
こうでんしゃって新卒とってるのかなー
>>303 各種ディスクドライブ
でやってみると…
「ババブーディンゴ」とか。
307 :
デフォルトの名無しさん:2007/07/31(火) 18:52:56
せきねしね
ごめん、検索エンジンを高機能化するって
いったい現状のどこが不満なのかわからん。
推論マシンみたいにしたいって事?
310 :
デフォルトの名無しさん:2007/08/01(水) 09:48:53
キーワード入れるんじゃなくて、いわゆる自然文検索ってことかしら?
今のGoogleってwikiがいつも上位に来て、ちょっと間違ってるような気がする。
最近出来たばっかりのページでも「正しい」内容を書いてあるページを
理解して、そこを上位にして欲しい。
ようするに
"日本国の総理大臣は誰ですか?"
"今流行のファッションはなんですか?"
って検索すると、答えのページが出てくるって話だろ。
Prologを実装したらよくね?w
314 :
デフォルトの名無しさん:2007/08/01(水) 13:37:55
基本語彙群を理解でき、かつ、基本語彙のみにより他の語を完全に理解できるという状況を考える。
未定義の語を基本語彙へ置き換えることで定義すれば、理解できた(定義された)文は、基本語彙のみにより記述されている。
ただし、語に複数の意味がある場合、意味で分類しなければならない。どの意味になるかは、文の理解に必要で、
人工知能が正確な意味を確認する状況も想定される。例えば、「肩車」を「肩」と「車」の
複合語として読み取った場合、「車」は一般的な「自動車」の意味なのかを確認する必要があるかもしれない。
317 :
デフォルトの名無しさん:2007/08/09(木) 21:43:03
このスレの住人って2chの過去ログを解析して関連スレを列挙するくらい朝飯前ですか?
そんな感じの処理に役立つソフトやライブラリ、アルゴリズムを教えてください。
カテゴリ分けに必要な辞書作成に、時間と労力を消費するから
個人がどうとか言うレベルの話ではないと思われ。
319 :
317:2007/08/09(木) 22:12:49
えー。でもローカルに落とした過去ログって何かもったいなくないですか?
個人利用にとどめれば2chは訴えたりしないだろうし、一種のコーパス、知識データベースとして
見ればなかなかオイシイですよ。特に質問スレ。
聞いたことあるな〜って単語があったとき、詳しく知るためにgrepしたこと数知れず……。
もしかして私だけ?( ̄〜 ̄;)
320 :
317:2007/08/09(木) 22:25:32
ローカルの過去ログ集合に対して、各ログを形態素解析
↓
平均との差分を取って、出現箇所の偏りが激しい単語を抽出
↓
それらの単語について共起確率を計算、適当にカテゴリ化
↓
カテゴリ内の距離を詳しく計算
みたいな感じで地図つくったらなんか便利そうなのよね。
321 :
デフォルトの名無しさん:2007/08/10(金) 00:08:11
A社のコーパスをNさんが機械的に処理して何らか統計情報(単語のリスト、出現数、共起確率など)を得た場合、
この統計情報は誰のものになりますか?
A社のコーパスのかわりに、B社のWEBサイトの文章を使った場合についても教えてください。
>>321 統計情報のみの提供なら、統計情報は統計情報を作った人の物。
323 :
デフォルトの名無しさん:2007/08/11(土) 09:01:35
そうなの?
だめなんじゃない?
324 :
デフォルトの名無しさん:2007/08/11(土) 09:02:23
社会保険庁の名前処理で
声かけられた人いる?
DoubleArrayとSuffixArrayを比べた場合。
SuffixArrayの利点は何かあるんでしょうか?
直感的に(実装が)分かりやすいくらい?
326 :
デフォルトの名無しさん:2007/08/11(土) 12:48:12
比べるのが間違ってる。
90年代のアルゴリズムと比べるとかありえない…
特定分野に限れば、Suffixに構築速度の点で一応分がある
あとDoubleアレイは辞書引き特化だから、全文検索に使うのは一工夫いる
>>323 Googleとか、普通に検索エンジンのデータ流用してるし、売ったりもしてるっしょ。
329 :
デフォルトの名無しさん:2007/08/12(日) 09:32:49
市販の辞書はダメでしょ?
辞書ファイルをぶっこぬいて
それを処理したら・・・
そういや、Googleのクエリサーバーのディスクスペースってどれくらいあんのかな?
そこから大量の統計データ取ってそうだけど。
クエリサーバとかディスクスペースとか、なんて前時代的な。
332 :
デフォルトの名無しさん:2007/08/15(水) 18:30:14
>>329 辞書とか確率とか、自然言語処理って圧縮操作に似てるところがあるから、
オリジナルの劣化圧縮版と見做されると危険は常にあるよね。
市販の辞書をコーパスにするのがまずいっていうのは、そういう背景があってのことでしょ?
言い換えるなら、情報の有無自体が辞書の価値だからさ。
333 :
デフォルトの名無しさん:2007/08/15(水) 18:31:20
記号論的人工知能も、自然言語処理も、
なんか時代に取り残されてる感じだよね。
統計学を熟知したスーパーハカーが趣味で書いたコードのほうが
実際には訳に立ちそうな感じ。スパムフィルタとか。
>>332 そういえば、Googleは他人のサイトのデータを勝手に使って、色んなサービス(検索エンジン自身も)をやってるわけだけど
ああいうのって、裁判起こされたりしないのかな?
335 :
デフォルトの名無しさん:2007/08/15(水) 19:43:48
>>334 Google「おいおい、俺らは利用者のためにサービスを向上させてるだけで、
それ以外のことはしてないぜ?」
Google「俺らのサービスは、利用者をオリジナルのサイトに案内することだ。
そのために要約を作ったり、統計を使ったり、辞書を作ったりする。
ついでに広告も出す」
Google「どうしても嫌ならサイトのトップディレクトリに robots.txt 置けよ。
お望みどおり、サイトが『存在しなかった』ことにしてやるからwww」
という感じ。
336 :
デフォルトの名無しさん:2007/08/16(木) 18:48:50
なんというネットマフィアw
Googleは他人のふんどしで相撲を取ってる、というイメージが付きまとって
好きになれない。
>>334 なんかグレーゾーンって著作権やってる弁護士に聞いたことある。
特にキャッシュなんかはまずいらしいけど。
しかしそのGoogleの食べ残しに群がるだけの研究の多いこと。
もうGoogleがいるから研究する気なくなりそう。
っていうか逆逆
研究やってるヤツが、Googleに引き抜かれるんだよ。
Googleそのものが研究の大部分をやってたわけじゃない。
Googleがいるから研究が出来ないとか、根本からおかしい。
あそこは所詮商業的な活動をする企業だよ。
Googleに人材引き抜かれる
→優秀な人はGoogleで研究する & Google以外は人が減る
→Googleに太刀打ちできない!
あってると思うが?
あと研究が"出来ない"とはだれも言ってない。
ホラ来た脳内妄想強弁するおかしな奴
344 :
デフォルトの名無しさん:2007/08/18(土) 19:07:24
構文解析アルゴリズムってどれがいいの?
脈絡のない単発質問は
回答しても時間の無駄なので却下
>>345 掲示板で脈絡とか痛い奴だな。
わかんねーならただROMってろよ、低脳。
347 :
age:2007/08/19(日) 13:03:15
その件は却下だそうです
349 :
デフォルトの名無しさん:2007/08/19(日) 22:18:58
>>347 なんでもいいんで研究で使ってるアルゴリズム教えてください。
350 :
デフォルトの名無しさん:2007/08/19(日) 23:29:42
>>349 わかんねーならただROMってろよ、低脳。
352 :
デフォルトの名無しさん:2007/08/20(月) 00:05:01
いつもいつものパターンとして、
唐突な単発質問に真面目に答えてやると、
どっかのバカ匿名掲示板の運用者が
それをネタにまたぞろバカビジネスを企画する
って展開もう飽き飽きだからなぁ。
真面目に答えて欲しいなら、金を出せ。以上だ
糞過疎スレの癖に一丁前に荒れててワロタ
suffix array作って、lcp求める、までコードを書いたのですが、
そこから単語出現頻度を求めるとなると、SIL,LBLという手法を使うみたいでして、
これがいまいちパッとしない感じがしてしまうのですが、
現在でも使われているのでしょうか?
357 :
デフォルトの名無しさん:2007/08/22(水) 08:58:57
>>355 ここは金を払わないとまじめに答えたくないヤツしかいないから、他にあたった方がいいよ。
つーか、このスレ何の為のスレなんだろうな。
まあ、誰も答えてくれないのは355の質問が結局何を聞きたいのか分からないからなわけだが。
>>355 Suffix ArrayのはMSRのChurchさんが昔書いたジャーナルを読んだら大体分かる筈。
現在も使われてるかという質問なら
「使う奴も居る。もうちょっと頭の良さげな方法を使ってる奴も居る」
としか答えられない。
少なくとも、ここ1・2年の発表で、研究としてSILやLBLを使ったのは見た事は無いな。
業務では使ってるかも知れないし、使ってないかも知れない。
361 :
デフォルトの名無しさん:2007/08/22(水) 20:11:31
SILとかLBLってなに?
>>359 「もうちょっと頭のよさげな方法」ってなに?
363 :
デフォルトの名無しさん:2007/08/23(木) 22:06:54
すぐ質問する人工無能が涌いてるな。
病院発見
現在でも使われているのでしょうか? っていう質問が悪かったんですかね。
suffix arrayの構築法なんかは進化がむちゃくちゃ速いようだったので、
SILとLBLがそんなん使うなよ!ってレベルのものなのか不安になりまして。(参考にしたのは2005年のものでした)
今は
ttp://project.carrot2.org/ を参考にして作ってます。SILとLBLに比べたらずいぶんわかり易いです。
NAISTの連中が身内以外に情報あげるわけないじゃんw
このスレは、NAISTの連中が、素人の質問を見ながらニタニタするスレだよ!
奴らの閉鎖性にはびっくりするよ
質問のメール出しても論文欲しいって言ってもそっけないし
どういう流れでNAISTが出て来るのだ?
NAISTのあの研究室はそんなに偉いのか??
NAIST(笑)
奈良先を批判する書き込みが増えたとたんそれらしい書き込みがなくなったのは
>>367が言ってることが正しいってことがわかるね。
・・・?
NAISTの連中って馬鹿のくせにプライドだけは一丁前だからなぁ
NAISTを知らんバカ
頭が悪いからすぐ釣れるw
お、食いつき早いな
そもそも、何故suffix arrayの話からNAISTを叩くのか分からぬのだが。
誤爆から始まったんだろう
JUMANとCHASENなんか死んでもつかわん
あんな糞ライブラリ
やっぱり工藤ちゃんだね
誰か
>>380につっこまなくて良いの?
特に奈良先や京大の人とか
全入NAIST(笑)
384 :
デフォルトの名無しさん:2007/08/25(土) 18:44:52
速度も糞
精度も糞
コスト値推定も糞
ライブラリとしても糞
mecab最強
本気で分かってなくて書いてるんだな。
工藤氏はNAIST出身
Chasenの開発もやってた人。
そのChasenを改良したのがMeCab
そのMeCabをフルスクラッチで書き直してネイティブJavaにしたものが、Sen
386 :
デフォルトの名無しさん:2007/08/25(土) 19:12:00
釣れちゃったwwwwwwwwwwwwwwwwwwwwwww
387 :
デフォルトの名無しさん:2007/08/25(土) 22:52:48
MecabはWindows版、Perl版が糞
あれなら無いほうがマシ
388 :
デフォルトの名無しさん:2007/08/26(日) 09:20:09
>>385 >MeCabをフルスクラッチで書き直してネイティブJavaにしたものが、Sen
処理速度はMeCabが圧倒的に早い?
>>388 こんな事言うとJava信者から猛バッシング食らうかも知れないけど
それは、Javaが圧倒的に遅いからだと思う。
コード的にはSenは随分綺麗になった。
Mecabはソース読んだことないからわからないが、Senのコードは結構ヘボいぞ。
391 :
デフォルトの名無しさん:2007/08/26(日) 14:55:14
今時中学生が書く程度のコードだと思った。
正直な感想です。
中学生がプログラミングなんてやらんだろ。
やっても、BASICでゲーム製作が関の山
正直な感想って、どんだけ捻くれてるんだよw
393 :
デフォルトの名無しさん:2007/08/26(日) 16:49:24
中学生がプログラミングと言うマイノリティな状況を想定してる時点で察しろ。
つーか、もしプログラミングをunder18世代が出来るとすれば、14〜16くらいの方が一般的にハイレベル。
世界的なすげぇPGやハッカーは、みんなこの年代だし。俺らみたいな頭の固いヤツよりはるかに良いコードを書くよ。
そういう意味では、中学生的コードの書き方と言うのは、絶賛と言う意味になるわけだが…
>>394 頭は柔らかいかもしれないが、一番分かりやすいのが変数・関数名のつけ方がry
Senのコードはまさにそれ。ハッカー的コードだが、教養の無さが露見
漏れもここで叩かれるぐらい有名になりてー
398 :
デフォルトの名無しさん:2007/08/27(月) 13:03:13
中学生じゃなくて
程度の低い高校生じゃなかろうか
なんか関係ないことがずっと続いてますのでそれらしい話題を。
自然言語処理を研究している人たちは計算機科学的アプローチ、認知科学的アプローチ、アルゴリズム的アプローチ、言語学的アプローチ、どのアプローチで研究してますか?
400 :
デフォルトの名無しさん:2007/08/28(火) 07:53:47
思いつきアプローチw
401 :
デフォルトの名無しさん:2007/08/28(火) 08:28:51
>>399 そういう偏ったアプローチはやりません。
403 :
デフォルトの名無しさん:2007/08/28(火) 11:04:38
統計工学的アプローチ
動けばよかろうなのだァッ!!
404 :
デフォルトの名無しさん:2007/08/28(火) 13:18:18
405 :
デフォルトの名無しさん:2007/08/28(火) 14:39:22
今時工学的な応用を考えないでいる人なんて珍しいんじゃね?
この業界って、研究用プログラムって基本的に何で動かすの?
UNIX系?それとも、最近はWindows?
いつも、Cygwinでゴリゴリコーディング&動作させながら
時代錯誤じゃないか?って思うようになってきた。
407 :
デフォルトの名無しさん:2007/09/01(土) 18:33:57
linuxでやってるんだろ
ソラリスに決まってんだろ。
最近は、コンパイラ性能は、MSのがかなり強いんだって?
gccで十分とか思ってたが、そんなに差があるものなのだろうか。
今時Solarisはねーよwww
Mac OS Xという可能性も。
というか、この分野のMac率の高さは異常。
でもまあ、大規模な実験はそれなりにリッチなハードに入ったLinuxでやるのが普通かと。
Mac OS Xが常識だろ。windowsならcygwin
412 :
デフォルトの名無しさん:2007/09/02(日) 00:25:06
mac os xのなにがいいわけ?
UNIXだから。
とか?w
ネタでしょ?本当にMacOSXなんて使ってんの?
普通は簡単な開発は、WinでCygwin
普通の実験は、Linux
大規模になると、どっかのメインフレーム間借りして24時間数ヶ月回すって感じ。
Macは流石にネタだろう・・・。
聞いた事無いぞ・・・。
Solarisは、数十年前では定番だったが、今はありえない。
Macで開発してLinuxで回すって人も結構いる。
でも、単に自然言語の研究者にMacユーザが多いからかもしれん。
個人的にはマルチバイトな言語をやるんならWin使った方が苦労が少ないと思う。
なんで Solaris がありえねーんだよ低能が。
並列処理を有効利用できない技術不足君ですか。
417 :
デフォルトの名無しさん:2007/09/02(日) 07:51:21
solarisだと並列処理がすごいの?
418 :
デフォルトの名無しさん:2007/09/02(日) 09:06:04
linuxでもwindowsでも並列処理はできるね
419 :
デフォルトの名無しさん:2007/09/02(日) 09:47:10
Cygwin使うのに何か理由あるのかな。
OSXは結構見るけど。
>>419 本番環境に合わせるためでしょ。
開発はWinの方がやりやすいし。
>>416 今時Linuxでも並列処理出来るだろ。
なんで、わざわざそんだけの為にソラリスなんだよw
Linuxのタスクスイッチが(ry
Kernel読むとわかるけど、ふつー読む気にならん位のソースなんだよなあれって
Solaris だと凄いんじゃなくて他がダメなだけ。Linux を例に挙げると安定度やスケーラビリティに問題がある。
できるとかいってるアホがいるけど、どうせまともな検証もせずに「俺の作ったのは動いたよ」レベルなんだろ?
小物データを片手で数えられるような CPU で処理してる低能にはわかんないかもね。
Solaris厨必死だwww
ぶっちゃけPOSIX互換ならどれでもいい。
それ以上のお話は他所でやってくれ
まあ、別に並列に拘らなくても新し目のCPUを幾つか積んだLinux機数台で
適当に書いたコードをきりきり回せば良いんじゃね?
商用Unixにかけるコストをハードウェアにかけた方が後々楽。
>>423 化石にも程がある。
今の時代、一体どれだけのLinuxユーザーが居ると思ってるんだ。
そんなもん、とっくに検証されて、改善されてるだろ。
>Linux を例に挙げると安定度やスケーラビリティに問題がある。
随分昔の知識か、またどうせ受け売りか、先入観だろ。
馬鹿馬鹿しい反論だな。そう言うなら、ソース出せ。
どうせ自分で検証して無いくせに。してたとしても、それは自分の実装が悪いんだろ。
今更、犬ってwww
これからLinuxでしょ。世の中は。
最近、新しく用意したマシンは、全部OpenSolaris(SXCE)にしてるよ。
Nexentaは期待してるけど、まだだね。
DTraceはべんりだよ。面倒くさいけど。
( ´_ゝ`)
>>427 ほほう。典型的な低能ですな。そんなに Linux をマンセーしたいのかい?
ユーザーが多いって、おま Linux なんて 2 コアとかせいぜい 4-8 コアの趣味人層がメインだろうが。
それ以上もいないとはいわんが、レアである事は間違いない。
> 随分昔の知識か、またどうせ受け売りか、先入観だろ。
なんか必死だな。ただ思い込みの激しいだけかもしれんけど。
こっちは検証した結果だめだったていってんだよ。他にも現行のスケジューラの問題点は指摘されてんだろ。
検証してねーのはおまえだろう。一応 CFS には期待してますよ。
うん、だから、ソース。
>>432 なんで必死なの?
大体、そんな大層ご立派な計算機環境であなたはどんなご立派な成果を出してるの?
439 :
デフォルトの名無しさん:2007/09/08(土) 07:31:03
なんだ
馴れ合い大好き奈良先のsun厨が書き込んでいたのか
ったく、これだから全入は
ま、前聞いたら、かの大学のかの研究室のメイン環境はGentooらしいけどね。
Gentooの中の人がいるらいいんで。
442 :
デフォルトの名無しさん:2007/09/08(土) 15:16:54
どうも人口無能です
440>>
全入ってなに?奈良先が全員入学できるってこと?アホな僕に愛の手を
443 :
デフォルトの名無しさん:2007/09/08(土) 15:58:55
>>441 なるほどそれで最近目立った成果がないのか。
不思議だったんだけど謎が解けた。
444 :
デフォルトの名無しさん:2007/09/08(土) 16:37:46
443>>人口無能にわかるように教えてくれぇ〜
お前は、人口無能じゃなくて、天然無能だろ。
446 :
デフォルトの名無しさん:2007/09/08(土) 22:35:15
個人的に集めたテキストデータから共起辞書を作って
閲覧するツールって、文書書いたりするときに
すごく役に立ちそうだけど、共起辞書でぐぐっても
あんまりヒットしない。
なんでこんなに知名度低いの?
もしかして検索の仕方間違えてる?
EDRを本格的に活用している最近の研究はありますか?
フィリーでないのが利用者が少ない原因ですか?
奈良先は定員割れの話を聞くな…
うちも人ごとではないが
自然言語処理と画像処理に関しては、奈良先はまだ大丈夫でしょ。
まだまだ、ブランド力はある。
ま、それも時間の問題だろうがな。
今まで他がこの分野に目を付けなかっただけの事。
他が真剣にやりだしたら奈良先のアドバンテージなど・・・
451 :
デフォルトの名無しさん:2007/09/09(日) 08:00:47
灯台、鏡台も馴れ合ってるから大丈夫だよ
googleも最近は自動でクエリ拡張するじゃない?
あれはシソーラスはどうやって作ってるんかしら。
453 :
デフォルトの名無しさん:2007/09/09(日) 21:35:13
統計の構文解析アルゴリズムのなかで、非決定的アルゴリズムある?
455 :
447:2007/09/10(月) 07:40:25
>>453 というか、WordNetは、今でも多くの
研究者が利用しているのに、日本の研究者が
EDRを積極的に利用していないような印象を
受けたので、質問してみました。
>>454 統計的なアルゴリズムはもとから非決定的なのでは?
同じデータ食わせれば同じ結果吐くんじゃ?そういうことではなくて?
wikipediaのデータは信用ならん。
嘘ばっか書かれすぎ。
と根拠も示さないお前の言い分よりもはるかに信用できる
プログラミングの世界で非決定性というのは
ひとつの問いかけに対して、複数の解がありうる場合を
いう。このWikipediaの非決定的アルゴリズムの説明は
これを完全に欠いており、
>>460 が正しい。
ほう、それで嘘はどこ?
無い
低脳すぎwww
466 :
デフォルトの名無しさん:2007/09/12(水) 00:58:32
晒しage
467 :
デフォルトの名無しさん:2007/09/12(水) 02:43:18
468 :
sage:2007/09/15(土) 21:10:57
トポロジーを用いた意味解析って??
チョムスキー大復活の悪寒
470 :
デフォルトの名無しさん:2007/09/15(土) 23:27:25
形態素の遷移を表した複雑なグラフ構造を
2Dあるいは3Dしか表示できない現代のディスプレイに
上手く表示するにはどうすれば???
グラフ理論とかそういうのが必要ですか?
471 :
デフォルトの名無しさん:2007/09/16(日) 13:20:31
画像処理スレ池
472 :
デフォルトの名無しさん:2007/09/16(日) 15:09:36
何だ、こたえられないのか
はいはい
グラフ理論とかそういうのが必要必要
474 :
デフォルトの名無しさん:2007/09/16(日) 15:21:42
ま、所詮この程度だよなw
475 :
470:2007/09/16(日) 16:29:47
助言ありがとうございます。
画像処理スレで質問してみようと思います。
476 :
デフォルトの名無しさん:2007/09/18(火) 21:27:56
Powersetって?
POwerSeT GOOGLE
478 :
デフォルトの名無しさん:2007/09/20(木) 11:01:20
力集合?
479 :
デフォルトの名無しさん:2007/09/20(木) 11:14:54
べき集合だろw
480 :
デフォルトの名無しさん:2007/09/21(金) 23:15:44
それはshould setだろ?
481 :
デフォルトの名無しさん:2007/09/21(金) 23:30:47
super set
482 :
デフォルトの名無しさん:2007/09/22(土) 13:52:00
はぁ?
483 :
デフォルトの名無しさん:2007/09/22(土) 14:36:55
ウィキペディアってネタとしてちょうどいいと思うんだけど、
HTML化するようなパーサってないのかな?
484 :
デフォルトの名無しさん:2007/09/22(土) 14:37:33
↑無かったら作ろうと思うんだけど
485 :
デフォルトの名無しさん:2007/09/22(土) 17:30:43
haa?
486 :
デフォルトの名無しさん:2007/09/22(土) 17:32:50
487 :
デフォルトの名無しさん:2007/09/22(土) 18:51:22
なぜHTMLにする?
489 :
デフォルトの名無しさん:2007/09/24(月) 05:22:47
TeXにしたほうがいいよな。
490 :
デフォルトの名無しさん:2007/09/24(月) 05:23:15
なぜtex
491 :
デフォルトの名無しさん:2007/09/24(月) 05:23:50
レスはやっ
492 :
デフォルトの名無しさん:2007/09/24(月) 08:57:38
493 :
デフォルトの名無しさん:2007/09/24(月) 09:05:14
その件はカテゴリー文法の研究を参照しるといったのに
あとは『構造の自動抽出』(ADIOS)な
wikipediaなら、XMLで持ってきて後はどうにでもなるんじゃないの?
495 :
デフォルトの名無しさん:2007/09/24(月) 12:04:54
>>494 どういう風に?
やっぱりRubyとか使うんですか?
HTMLにする理由がよくわからないってだけで、
XMLを読み込んでどうするかは、何やるか次第だからわからんけど。。
rubyが好きとか、使いたいモジュールがrubyにあるなら、rubyにするんじゃない?
俺はたぶんJavaを使う。XML関係は充実してるし、jdk1.5から入った、
concurrent周りが結構充実してるので、そういうの使って、
(無理矢理)並列化して、たくさんあるCPU/CPU coreをフル稼働するのが最高。
まあ、このスレだと、こういう低レベルな話は関係なさそうだけど…
要約すると単なる妄想
ありがとう。
>>497 確かに酷いもんだな
ゲノムやっとけゲノム。
なまばけがくじょうほうしょり。
rubyとかゲノムとかここは酷いインターネットですね
501 :
デフォルトの名無しさん:2007/09/25(火) 10:36:30
ruby最高!フォー!
502 :
デフォルトの名無しさん:2007/09/25(火) 14:06:53
まつもと乙
503 :
デフォルトの名無しさん:2007/09/25(火) 18:51:17
ruby乙
504 :
デフォルトの名無しさん:2007/09/25(火) 20:48:05
>>500 HTMLにする理由がわからない・・・XMLを読み込んで・・・
というあたりから、なにも知らないというか調べてもいないってことが分かる。
尚且つ、何やってんの馬鹿?みたいな態度で批判してる。
これらを合わせると、rubyとlinuxを使ってるかなーと。
rubyとかlinuxは実践しなくても妄想力だけで偉くなれるから。
それでrubyが出てくるわけで他意はない。
505 :
デフォルトの名無しさん:2007/09/26(水) 03:06:51
rubyを批判するのはいくないと思います
HTMLにする理由は確かにわからんなw
XMLデータ取ってきて、タグ排除して、生コーパスにして、インデキシング作成するならともかく・・・
508 :
デフォルトの名無しさん:2007/09/26(水) 16:48:50
HTML厨自重
509 :
デフォルトの名無しさん:2007/09/26(水) 19:27:43
>>505 rubyを批判してるんじゃなくて、rubyを使うやつにはなぜかカスが多いと・・・
ruby好きとバイオインフォ屋にはろくなの居ないな
511 :
デフォルトの名無しさん:2007/09/27(木) 00:19:15
かすでも何となく使えるのがrubyだから。
512 :
デフォルトの名無しさん:2007/09/27(木) 01:56:14
rubyのコンセプトは?
短小・・
515 :
デフォルトの名無しさん:2007/09/27(木) 20:17:22
もうrubyしか見えない
516 :
デフォルトの名無しさん:2007/09/27(木) 21:03:11
Javaもいい言語なのに、なぜか使ってるやつはカスばかり。
不思議だよねぇ。
517 :
デフォルトの名無しさん:2007/09/27(木) 21:05:59
> XMLデータ取ってきて、タグ排除して、生コーパスにして、インデキシング作成するならともかく・・・
馬鹿発見。
なんでも馬鹿馬鹿言えば良いものではない。
馬鹿の典型。
>>507 ちょw
それで共起取るのが俺の卒研ww
そしてその処理はCだがな。Rubyとか馬鹿言語は死んでも使わん。
<馬鹿馬鹿言うなー!
お前らより余程頭が良いわ!
と申しております。
521 :
デフォルトの名無しさん:2007/09/28(金) 09:27:26
522 :
デフォルトの名無しさん:2007/09/28(金) 10:18:21
XML意味ねえ
XMLは、単に元から提供されてるデータ構造でしょ。
わざわざXMLを選んでるんじゃなくて、元がその形式だからしょうがない。
多分、話がかみ合ってない人は、wikipediaのデータが、xml形式で提供されてるのを知らないんだろうな。
まぁ、そこからHTML化はありえないが・・・
>>519 よう俺
タグ外しは流石にperlの正規表現使ったけどな。Cって共起計算の方だよな?タグ外しまでCでやってるとかならテラアフォすw
XMLパーサー使えば、データだけ簡単に取れると思ってたら、ファイルサイズが巨大すぎてそもそもパーサーが読み込んでくれなかった罠・・・orz
525 :
デフォルトの名無しさん:2007/09/28(金) 10:40:51
rubyとかperlはCを使えないようなアホが使う言語
俺は死んでもあんなもん使わない
やりたい処理への向き不向きでプログラミング言語は使い分けるだろう。常考。
527 :
デフォルトの名無しさん:2007/09/28(金) 13:26:08
528 :
デフォルトの名無しさん:2007/09/28(金) 23:17:58
529 :
デフォルトの名無しさん:2007/09/28(金) 23:37:38
∩_
〈〈〈 ヽ
〈⊃ }
∩___∩ | |
| ノ ヽ ! !
/ ● ● | /
| ( _●_) ミ/ <こいつ最高にアホ
彡、 |∪| /
/ __ ヽノ /
(___) /
531 :
デフォルトの名無しさん:2007/09/29(土) 03:54:45
>>528 ruby = Cが使えない低脳
rubyがCで実装されていることをふまえて証明してくれ
機械言語処理を語るスレはここですか?
>531
それが何か意味のある事か?
perlを見たまえ
∩_
〈〈〈 ヽ
〈⊃ }
∩___∩ | |
| ノ ヽ ! !
/ ● ● | /
| ( _●_) ミ/ <こいつ最高に低学歴
彡、 |∪| /
/ __ ヽノ /
(___) /
535 :
デフォルトの名無しさん:2007/09/29(土) 10:57:58
∩_
〈〈〈 ヽ
〈⊃ }
∩___∩ | |
| ノ ヽ ! !
/ ● ● | /
| ( _●_) ミ/ <こいつら最高だぜ!
彡、 |∪| /
/ __ ヽノ /
(___) /
536 :
低学歴:2007/09/29(土) 14:08:52
よんだかー
技術で返せるなら付き合ってやるぞー
ちとヒマなんだ
Cで書かれたXMLパーサもしらねぇようなクズが、
自然言語そっちのけで低レベルな自作自演やってるなw
自然言語ってなに?
別に、Cじゃなくてもいいじゃん。
ソース見て思いましたが、自然言語処理って
必要なソース規模が意外に小さいですね
541 :
デフォルトの名無しさん:2007/10/01(月) 23:27:50
>>540 >必要なソース規模が意外に小さいですね
意味解析のソースのサイズはチェックした?
自然言語処理で、形態素解析とn-gramのことを指していました。
人工無脳用に自作可能か考えていました。
自然言語処理の意味解析はプログラミング言語(型や有効範囲)と比べて、
かなり複雑そうですね。
543 :
デフォルトの名無しさん:2007/10/02(火) 11:16:32
比べる対象があって小さいとか大きいと言えるんだと思うが
人間の経験則に基づく感覚だろう。
機械には真似が出来ない芸当だね!
形態素解析は1から作るとやる事が案外多いぞ。
基本的なことは簡単なんだが、前線で使われてるようなのは、かなり改良が加えられたり
新しい技術が入ってるから、それらを全て調べた上で、ベストなものを選んで取り入れるのは骨が折れる。
車輪の再開発以外の何物でもないから、自作はやめとけ。
>>545 対象を万葉集の短歌などに限定すれば、
形態素解析も良い課題だと思うが。
人口無能用っしょ?
548 :
デフォルトの名無しさん:2007/10/02(火) 17:32:03
人口無能って芸がないよな
万葉集って何?
とかすぐ聞く奴だろ?
それお前。
550 :
デフォルトの名無しさん:2007/10/02(火) 18:22:53
549ってアホ?
550は古今和歌集を知らないアホ
おーい551は人口無能だよー
ていうか無能だひょ
正解w
インサイダー情報で株式投資するか
極秘情報を横流しすれば小遣い稼ぎになるよ
犯罪
は?何でだよw
犯罪
は?何でだよw
559 :
デフォルトの名無しさん:2007/10/07(日) 18:36:33
クズめ
なんか糞スレ化してるなw
NAISTのヤツって変なヤツが多いんだな
全入だからしょうがない
学部ならともかく、大学院なんてどこも全入みたいなもんだろ
NAISTは「みたいなもの」じゃなくて本当の全入だから困る
564 :
デフォルトの名無しさん:2007/10/14(日) 18:07:54
そんなことないすと
NAISTって、妙にプライドだけ高い人増えたよね。
全入だし、人材はどんどんダメになって行ってるのに…。
Namazuの人やChasenの人の頃がピークだったが
所詮後が続かんよね。お得意のモジュール化も、出来る人材居なくて全然出てこないし。
目を付け出してそこそこ力入れだした国立大に、もはや勝ち目無い。
出来る人材は、こんな所より京大行くだろw
566 :
デフォルトの名無しさん:2007/10/17(水) 07:05:49
昔はChasenが業界標準だったけど
今はMeCabだよね〜
JUMANなんか使ってる人いるの?
昔から使ってて変えられない(周辺ツール含めて)所はあるでしょ?
ねーよw
製品に組み込まれた、とかいう話を聞かないよね>>JUMAN
パーセプトロンエンジンってどう?
571 :
デフォルトの名無しさん:2007/10/20(土) 01:52:31
どうって?
何が聞きたいの
そこの人の論文出てないよね?
573 :
デフォルトの名無しさん:2007/10/22(月) 16:35:43
そもそもパーセプトロンとか言い出してるところが
なんかアレだなあ・・・
574 :
デフォルトの名無しさん:2007/10/22(月) 20:30:01
アレって何かね
ちくび
結局誰も知らないのかw
577 :
デフォルトの名無しさん:2007/10/23(火) 16:54:14
何を?
579 :
デフォルトの名無しさん:2007/11/02(金) 10:00:20
学部生の卒論にぴったり
> パ
あそこはさぁ、近年の研究成果無視で
ただ単に商売ッ気がたっぷりあるだけだろ。
元になったエンジンは、ちょっと使い物にならないレベルだった、
ってコアな人から聞いた。
581 :
デフォルトの名無しさん:2007/11/02(金) 13:16:39
コアな割には話が抽象的すぐる
582 :
デフォルトの名無しさん:2007/11/02(金) 13:52:28
え?なになに?
パーセプトロンエンジンのこと?
>>578 あれ?工藤さんって、googleに行ったんだっけ?
ずっとyahooに行ったと思ってたんだが・・・。
584 :
デフォルトの名無しさん:2007/11/03(土) 16:17:20
F2→やほおはたつを
>>578 グーグル太っ腹と思ったら、金取るんだよな。
やだやだ。オープンソースで、データーもみんなのWebなのに、
自分が作ったデーターは金取るんだぜ。
酷くない。
586 :
デフォルトの名無しさん:2007/11/06(火) 01:01:10
うん。
酷くない。
っていうか、勝手に人のサイトのデータ収集して売って良いの?
そこから生成された統計データなら灰色だとは思うけど、n-gramって事はガチで文字がそのまま入るんでしょ?
まずい単語が入ってたりしてそう
金とるから非難て…
こんなのタダみたいなもんだろ。
>>587 文字というか形態素n-grams (頻度20以上) だけど。
入ったらまずい単語って何?
イメージできんのだが。
>>589 おまんこ、でも検索結果が出た。ちょっちビックリ。
卑猥な言葉だろうが差別用語だろうがテレビじゃないんだから別に問題ねーだろ。
固有名詞はアレだがどうせアノニマイズくらいしてるだろ。
592 :
デフォルトの名無しさん:2007/11/08(木) 20:09:23
小泉潤一郎、とかもあるかな
肖像権?の問題か?
□が□に□した
こんな風に穴抜きパターンを考えたら
入れ替わりが多いだけでパターン数は
そう多くないと思った
595 :
デフォルトの名無しさん:2007/11/10(土) 19:44:46
構文解析と何が違うんだ?
596 :
デフォルトの名無しさん:2007/11/14(水) 00:09:15
>>587 >っていうか、勝手に人のサイトのデータ収集して売って良いの?
短くても、短歌や俳句は著作権上<1作品>と認められるから、
著作権の切れていない作品を著作権者に無断で配布するのは、
有料でも無料でも違法。Googleのn-gramは、多分、使用頻度
が極端に低いものを削除しているはずなので、短歌や俳句1作品
が入ってくる可能性は極めて低いはず。
日記やブログは著作物にはならんの?
まぁ、それ言い出したらイメージ検索なんて、完全にアウトな気がするが・・・w
著作権法の引用じゃないか?引用元のURLは乗せてるから
599 :
デフォルトの名無しさん:2007/11/25(日) 21:57:43
>>597 >日記やブログは著作物にはならんの?
「今日は本当に死ぬほど暑かった。」などという、
多くの人が使用するような表現には、著作権は
ない。Googleのn-gramsは他人のWebから無断で
このような使用頻度の高い表現を抜き出して、無
断で売っているのだが、元の表現に著作権がない
からOK。
そういえば俺が初めてプログラミングに触れたのは
自然言語処理がやりたいからって理由だったんだが
このスレ見てたら何だか悲しくなってきた...
同感
俺の自然言語処理の走りは、中学時代にハマった「えんいー」
('A`)
ごめんなさい。崇高な意志の方々。
今じゃそんな事も忘れて
何かに追われるように
毎日文字列処理してる。
意味処理?俺にはムーリ。
国語出来ません。英語読めません。
文法判りません。分類出来ません。
統計判りません。根気ありません。
プログラミングだけは出来ます。
\(^o^)/オタワー
工学出身のヤツはそんなもん。
プログラマが根気無いのは普通。だから賢くやるんだろ。
統計だけはがんばっとけ。って言うか統計が判らないってのがわからん。
対象を知れば、自ずと適用すべき統計モデルはわかってくるでしょ?
統計モデルを知らんって話だったら、類似した研究の論文を読めとしか・・・。
ああ、ここで根気は必要だな。。。
>>602 >俺の自然言語処理の走りは、中学時代にハマった「えんいー」
安心しろw
俺も同じだ。っていうか人工無能系にハマって始めたやつって結構居るぞ。
人間の小さい頃の発端なんて、みんなそんなもんでしょ。
むしろ、なんか判らんけどこの道に入っちゃった人の方が哀れと言うか、計画性ナス。
なんで哀れなの?
勝ち組じゃないの?
606 :
デフォルトの名無しさん:2007/12/03(月) 13:47:46
ジャストシステムに入るくらいしかないでしょ
NTTとかIBMは?
ヤフー、マイクロソフト、グーグルあたりとか。
ミクシィみたいなベンチャーとか。
なんか判らんけど入っちゃったって人にとって
その辺は大手過ぎてハードル高いっしょ。
手ごろな企業が無い。
自分で新しいことやってやろうって漢はいないの?
質問です。
SuffixTree⇔パトリシア Trie
SuffixArray⇔PAT Array
この違いが未だにわからないんですが
同じものなんですか?
資料によって書いてる事が違ってて、
すげぇ混乱してるんですけど。
>>610 お前去年も同じ事どっかに書いてなかったか?
その2つの違いは派閥だよ。
たまにSuffixTreeの圧縮したものがパトリシアとか書かれてるのがあるが
あれは、SuffixArrayの勘違い。
結論言うと、同じ。
ちげーよ
>>613 ネットは嘘が多いからな。
本の内容も信用できない。
元論文読んで自分で理解しないとダメだな。
615 :
デフォルトの名無しさん:2007/12/05(水) 18:03:49
辻井がボケかましたってこと?
長尾タンを信じてればいいの?
北・辻井本のパトリシアTrieの説明って何ページ?
索引に出てないんだが。
p.179〜
普通にあってる。
PATトライとSuffixArrayが同じものとして書かれてるところを
読んだ人が勘違いしてるだけのような・・・。
618 :
617:2007/12/06(木) 01:41:21
間違えた。
PATトライ→PATアレイ
619 :
デフォルトの名無しさん:2007/12/06(木) 07:45:07
じゃあゆとり乙ってこと?
元論文読まずに最初に教科書で勘違いしたヤツが出る
→教科書すら読まないやつが、そいつが書いた資料を見る
→その資料をry
どうせこんな感じの魔の連鎖が発生したと思われ。
しょぼい論文でも勘違いしてるのたまに見るしな。
そもそもトライとSuffixTreeのデータ構造そのものは同じで
登録の方法が違う程度だから、トライ関連の改良の紛らわしい
サーベイ論文読んで、勘違いする人が続出なんだろう。
このスレ以外で間違えてる人見たことないけどな。
個人ブログを挙げるのはアレなんだけど
たまに見るぞ。
623 :
デフォルトの名無しさん:2007/12/06(木) 18:06:42
トライは一個で派生があるだけって感じ?
624 :
デフォルトの名無しさん:2007/12/06(木) 21:44:04
1 名前: 諸君、帰ってきたで?φ ★ Mail: 投稿日: 2007/12/06(木) 21:28:02 ID: ???0
米マイクロソフトがクリスマスシーズンの子供向けに、自動応答形式で行っていた
サンタクロースとのチャット・サービスをめぐり、「特定のメッセージを送ると、わいせつな
内容の応答が返ってくる」との指摘が寄せられ、同社は5日までに、このサービスを
停止した。
625 :
デフォルトの名無しさん:2007/12/07(金) 14:31:17
会った事は無いが先輩だな
627 :
デフォルトの名無しさん:2007/12/17(月) 13:40:18
>>112の「言語と計算 (4) 確率的言語モデル」読んでるんだけど、
9ページ10行目の「最小となるのはx1, ... , xnのうちの1つが…」ってのは
P(x1), ... P(xn)の間違いだよね?一応確認。
629 :
デフォルトの名無しさん:2007/12/31(月) 15:20:04
>>624 自動応答システムってこんなんばっか・・・
自然言語処理、全く分からないんですが、日本語の誤字を自動検出するようなプログラムって作れないでしょうか?
また、自作でなくとも公開されている何かがあって、利用できると言うのならば構いません。
現在、フリーのWEBサーバーisweb上で動く、誤字自動検出CGI、もしくはAppletのようなものが作れないかと考えております。
どなたか、よい参考書、ないし、よいツールをご存知の方がいらっしゃいましたら教えてください。
よろしくお願いいたします。
誤字?
タイポの事?それとも紙に書いた字が間違ってる方?
字が間違ってるのを判別するのは無理だけど
より出現確率の高い候補を提示するようなのは出来る。
単語の確率を漠然と見るのではなく、単語の種類(例えば品詞)が
bi-gramで見たときに、より良い品詞の遷移があるものを選べばよい。
とりあえず、難しい事考えずに結果を出したいなら
適当なニューラルネットワークのプログラムを拾ってきて
学習させればいいんじゃないか?
>>630 お前には無理。
超えるべき壁が山ほどある。
っていうかそういうプログラムあるんだから拾ってこいよ。
それすらググれないようでは、話にならん。
>>632 お前には聞いてないからw
知らないなら素直に知らないって言えよ、お馬鹿さんwww
妥当な評価だと思うがな。
まぜっかえされるのが嫌なら2chなんかで質問しないだろうし。
何を書こうがあるいは書くまいが自由。
ちなみに
>>631の前者は、大体学部の卒研レベルの話なので
素人でも頑張れば出来なくも無いが、即席を求めるなら後者をお勧め。
既に形態素解析が行える状態で、
common prefix searchとMarkovModelがわかるなら、問題ないが…。
前者を行うなら、まぁ勉強するこった。
どの道この程度の手法だと、どっちでやってもたいした結果が出ないので…。
>>631 全然話がわからない。
ちゃんとした方法はないの?
>>637 自分の能力を疑ってみることも大切だよ。
>>638 もうちょっと上手いことやらないと、釣れるものも釣れなくなっちゃうよ。
話題がないスレなんだしさじ加減を間違えなければそれなりに釣れてただろうに、惜しいことしたね。
>>636 あほかw
それすらわからなくて、もっとちゃんとした方法をとろうとしてるのか?
今のお前には、知識的に無理、計算量的に無理、(開発)時間的に無理だと思われ。
普通に一般的な方法なんだが、お前がちゃんとした方法を自分で考えれるなら
勝手にすればいいじゃん。そんな奴がここで聞くとは思えないがな。
質問するときはトリップつけたほうがいいよね
ドコモの携帯にATRで開発した音声入力の翻訳機能がつくらしいんだけど、だれか使ったことある?
TOEIC600程度ってニュースで言ってた奴?
自分でしゃべったほうがマシそうなんだが
NECとの共同研究のだよな。
あれ使い物にならんぞ・・・。
何とか形にした感じだけど、おそらく製品になっても
玩具程度だと思われ。
そもそも、音声入力自体が、全然まともに出来上がってないw
次に、分かち書きが基本的に不可能に近い。理論的には文字での方法と同じだが
現実は遠くかけ離れてる。
あと、最近のATRって確実に質堕ちてるよな?
ATRはそりゃ落ちてるだろうな、最近なんか随分出来の悪い人材が行ってる気がする。
昔は東大・京大ばっかだったのにな。
京阪奈周辺の大学の教授が自分ん所の学生送り込んでたが、優秀な人材はみんな企業行っちまうから…
NAISTの馬鹿が行ってるくらいだからなぁ
完全に人材不足だからなぁ…。
加えて、マネージメントやってるNICTが国会で槍玉に挙がったもんだから、色々絶望的だよ。
NAISTの人間ですら今じゃGoogleやYahooやNTTに行くもん。あんな所誰が行くんだよw
なんでNAISTってこんなに馬鹿にされてんの?w
そりゃあ、東大・京大と比べられたらどうしようもないんだろうけど。
全入だからでしょ
やってることのレベルで馬鹿にされてるわけじゃないと思う
馬鹿にするならせめてより優れたものを作ってからにしようや
NAISTに優れたものなんてあったっけ?
売りの辞書も、構造が随分時代遅れで、東大・京大よりレベル低いし。
NAISTにEnjuのようなものが作れるとは思えん。
知らんくせに馬鹿にしてのか
最低だな
学生のレベルが低いからなあ
nlpに限っては
山下、工藤らが在籍していた前後がピークだよね
彼らは、既存の積み重ねの成果を実装しただけで
実際に偉いのは、彼らの先輩の構築したもの。
運と時期が良かっただけ。Googleの登場時期も良かった。
言っちゃあ悪いが、単なる実装屋さんだよ。そのくせ、その辺の専門卒プログラマより質は悪いし。
ま、工学の分野は作ったものが偉いってのも確かなんだがな。
NAIST批判が多いね
批判すればそれを超えたつもりになれる患者さん達
>>656はNAISTの蓄積は評価してるように見えるが…
あとは、それを実際に世に出した、k_takuとたつをも評価してるし
案外まっとうな意見じゃないかと。
660 :
デフォルトの名無しさん:2008/01/10(木) 10:12:31
今後も蓄積だけでやっていくつもりかな
工藤がただの実装屋って…
ここの連中は論文も読めんのか
サーベイばっかだろ。
元論文読んだ事無いってオチじゃないだろうな?
やっぱり研究者は批判されて一人前ってことか。
東大・京大がすごいと言われているようだけど、
(実際凄いとは思うが)個人名は出てこないもんな。
工藤山下あたりは単なるエンジニアじゃなくてサイエンティストだろ
高林はエンジニアよりだけど
奈良先は学生が足を引っ張ってるからな、残念だ
>>664 そんなに有名な理論系の論文出してるか?
基本的に既存の理論の実装を中心にやってると思うが…。
PATアレイやら、ダブル配列やら、CRFやら、形態素解析やら。
>>665 学生がって・・・。
学生以外居ないだろ。学校なんだから。
大学院大学だから、学部生が居るわけでもあるまいし。
論文読めよ
>>666 何もやってないってのがわからないのが今のNAISTの学生。
なんか、それっぽい事してるからだまされるだけで
基本的に彼らのやってるのは、既存の実装技術の欠陥を、あまり注目されてない理論で改良してるだけ。
他の研究者の着眼点が悪いのか、それともそもそも研究者がやるべきことじゃないから目を当てないのかは知らないけどな。
NAIST叩きスレになっててワロスw
別に、そんな叩くほどの価値があるわけでもなく
何らかの理論に対しての論争をするまでも無いレベルなのに
何やってるんだ。
理論が叩かれてるとかなら、有る意味「叩かれてこそ」って言えるけど
そういうレベルの議論でもなさそうだし。馬鹿だなぁ。お前らも。
理論も持ち出さずに叩くからただの妬み嫉みにしか見えない。
NAISTがろくな研究してないっていうなら会議なり論文なりで否定して見せろよ。
だから、そういう議論をするようなレベルの学校じゃないって事でしょ。
会議や論文で叩くにも、相手が何も理論を作ってなきゃやりようがない罠
まさにその話自体が本末転倒
毎年国際会議もジャーナルも大量に出てるのに会議や論文で叩けないってどういうことだ。
NAISTの馬鹿学生が必死に書き込んでることだけはわかった
なにこのスレ
>674
また嫉妬か。みっともない。
もっとも俺はNAIST関係者じゃないが。
嫉妬する要素が一つもないw
だから、もうやめろってw
学校批判したけりゃ、お受験板にスレたてて来い。
どっちにしろ、そんなレベルの低い話しても、誰もうれしくない。
>>673 会議や論文は叩くためのものじゃないだろ・・・
事件は会議室で起こってる
・・・んじゃない。現場で起こってるんだ。
が現場が会議室だった。
/( ^o^ )\ なんてこったい
もしも現場が会議室だったら・・・
正規文法に従って設計された人工言語ってどっかない?
あればコンピューターで解析させるのに楽
それがプログラミング言語じゃねぇの?
687 :
デフォルトの名無しさん:2008/01/26(土) 08:42:19
( ´,_ゝ`)
なでしこでも使っとけ
ロジバン?
690 :
24歳:2008/01/26(土) 12:06:28
お前らって何歳くらいなの?
26歳
えっちてぃーえむるう
っていう まーくあっぷ げんご
が いいらしい よ
オブジェクト指向は、世界を表現出来ます。
エレガントにそれを取り込んだJavaに不可能はありません。
>>690-691みたいなガキばっかだったのか・・・
どーりで、話のレベルが低いと思った。
この業界って、普通30代後半からじゃないの?
え、院生とかばかりだと思ってた。
26才
45歳
ごめん、学部生だ
700 :
デフォルトの名無しさん:2008/01/28(月) 08:31:17
伊代はまだ16歳だーからー
M1です^^
B1です
助教とか准教授がこんなとこ見てたら幻滅するわ・・・
ごめん。。。
本当に助教授とか居るなら何かネタ投下してよ
最近やってる研究とか読んだ論文とか
この業界狭いから、そんな事するとすぐ特定されるだろw
>>706 年齢だけでも危ういのにそんなことできるかw
709 :
O大学:2008/01/30(水) 17:43:42
じゃあ、どこの研究室出身か名乗り上げてみようか〜♪
大阪大学
岡山大学
大阪工大
大阪府立大
などなど・・・。
多すぎるw
○大学って言う意味だったらぶっころ
いやまて
>>709は、そもそもnlp出身とも、そもそも理系出身とも言ってないぞw
712 :
B大学:2008/01/30(水) 18:26:58
MITなんてお金がなくていけませんでした
井上研究室
715 :
714:2008/01/30(水) 18:51:33
間違えた。
>>714は無し。俺NAIST出身じゃないし。
俺も違う
じゃあ俺はNAISTでいいや
じゃあおれはJAISTで
720 :
デフォルトの名無しさん:2008/01/31(木) 13:47:58
じゃあKAISTで
721 :
デフォルトの名無しさん:2008/02/02(土) 22:22:48
atrがやってるドコモの翻訳サービスってどうなの?
723 :
デフォルトの名無しさん:2008/02/03(日) 17:55:54
>>772 そんなこと聞いてなくて,実際に使ってみてどうなんだ?
あれに参加した研究者の論文を見りゃわかるだろ。
どのレベルかは・・・。
この業界に居れば、使うまでも無くわかるだろうに。
アホアンチうざいよ
>>724 精度はコーパス次第だろうけどね。
あれは一応関西の学生バイトをかき集めて人手で作ったものだから
それなりには出来るだろうね。
問題は、機械による、単語の同定どころか、発話区間の同定すら出来てない(コーパス構築は人手?)
状態で、どこまで出来るのかが問題。
まー、はっきり言ってしまえばダメだろうねw
727 :
孟宗:2008/02/04(月) 00:18:32
割と使えるものだったよ。
凄い凄い。
今この研究やれば波に乗れるって研究は何?
トレンドが読めなくなってきた。
>>728 mp3データからの歌詞トランスクリプトの生成
730 :
728:2008/02/04(月) 01:19:33
mp3データから、歌詞の子音を判断して、それに合わせてキャラに口パク(6パターン)させるプログラムなら
高校時代に趣味で作ったことがある。もちろん精度悪い。
そこから歌詞まで行くのは、色々別の過程が難しい気がしてならんw
>>730 多分、特定したw
あのゴーストの作者か…。懐かしいな
732 :
デフォルトの名無しさん:2008/02/05(火) 07:08:26
野村先生のパーティ
このスレ内輪すぎるからうんこ
そりゃ、みんなNAISTの学生だモンな
俺はNAISTじゃないぜ
NAIST出身の友達は居るが
まぁ、話の内容的に
NAIST、京大、NICT、ATRあたりの関西の機関の人間が多いのは確かだろうな。
しかも、あの辺共同研究ばっかだし人材の移動もあるので、スレの人間は殆ど身内じゃね?
俺はそのうちのどれでもない
俺は海外組。
英語処理ならそこそこ研究したが、日本語処理は正直わからん。
こんなスレあったのな。ム板住人なのに気づかなかったぜ。
俺の学部時代は、文字列(高速検索・動的処理)・統計処理(のごくごく一部)で終わった・・・orz
修士で伸ばせなかったら俺はおしまいだ・・・・。
周りのレベルがアレ(つーか論外)なので特に言われる事は無いんだが、
どう考えても大学出た後がヤバい。所詮ここはその程度の大学だし。。。
京大生の知り合いの仕事見てると、こいつには勝てないんじゃないかって
ある種の絶望を覚える・・・。
IQが20違うと
ものの見方が全然違うよ
試しに自分よりIQが20低そうな相手を考えてごらん?
IQ200とIQ180だからあんまり変わらんと思うけど
違うよ
全然
↑何でこんなアホが紛れ込んでるの?
お前には10年早いよ
>>740 自覚があるだけマシ
周りのレベルに流される奴は、外を見ないからなぁ。
>>740 プライドがあるだけたちが悪い
周りのレベルが低いとか言う奴は、自分の能力を見ないからなぁ。
どちらにせよ足りないと思ってるなら変わりないだろう。
うぬぼれているならともかく。
748 :
740:2008/02/06(水) 23:50:33
>>746 なるほどww
それは言えてるねw
でも、自分に対して低いとは言ってないよ?同じくらいかもしれないし、少し周りの方が高いかも知れない。
そもそもそんな狭いフィールドで比較なんてしてないんだからww
全体の中での自分の立ち位置を確認する為に、外を確認しただけ。それは自分の能力を把握する事ではなくて?w
俺も自分の能力をはっきりとは知らないわ。誰も知らないんじゃない?
でも他人よりは知ってるよ。
ところで、プライドとただの馬鹿の区別が付かない人が多いよね。
自覚とプライドも違う筈だよね。馬鹿馬鹿しい話だと思わないかい?
>>748 自重・・・。
若いのはわかるけど、ちょっと喧嘩売ってるというか
君は色々無駄に人生苦労してそうだ。発言には気をつけような。
明らか
>>740じゃないような。釣りなのか。
はいはいNAIST、NAIST
751 :
740:2008/02/08(金) 14:32:56
>>750 関西の大学だけじゃなく、地方も忘れんでください・・・。
え?北陸先端?徳島?静岡?北大?長岡?筑波?
北陸で学部はないだろw
ふむ
結局文系は俺だけのようだな
なんか入門書を紹介してください。高卒ですがよろしくお願いいたします。
自然言語処理です。
検索エンジン関連技術全体のごくいちぶだなぁ、自然言語処理らしい自然言語処理は。
検索エンジンって儲かりますか?
検索エンジンつっても
PowerSetのような自然言語理解の分野に手をかけたようなのもあるし。
766 :
757:2008/02/10(日) 21:18:14
なんでか偽物がでてる…。自分は日本語文章を機械的に要約してみたいんです。
ぐぐってみた結果、文を要素にバラす形態素解析というのをやったあと意味を解析するらしい事はわかりましたが、
なにぶん無学なもので体系的に勉強しておきたいのです。
MeCab で形態素にバラした後に日本語の構文知識をどう適用したらいいのか途方にくれています。
768 :
デフォルトの名無しさん:2008/02/10(日) 22:09:14
knpじゃだめなのか?
どこまでやりたいか,アプリケーションとして何をやりたいかによるなあ
応用によっては形態素解析で表層情報だけあれば十分な場合も多々あるし
>>766 とりあえず「。」で区切って文の配列をつくって、
最初の文と1/3あたりの文と2/3あたりの文と最後の文を表示する。
これだけでも結構つかえるぞ。
文の同定ってどうするんかなぁ。
前から疑問だったんだけど。
確かに自分でデータ作るときは「。」で判別してるけど
もっと、ちゃんとした方法があるはず。
ちゃんとした文じゃなくても
形態素や係り受けみたいな、コンピュータ的に扱える単位であればいいんだけど
それの文に相当するものってないよね。
>>771 コーパス用意して、bigramかtrigramで終端モデルつくればいいんじゃね?
bigram、て響きがかっこいいよな
宇宙戦隊バイグラム、とかありそうじゃん
宇宙怪獣トリグラム
宇宙戦艦エヌグラム
宇宙刑事マルコフ
宇宙刑事マルコフwww
バイファムは「銀河漂流」だけどね
俺今までビグラムって呼んでた
>>775 なんか手錠が数珠つなぎになってそうだw
780 :
横レス:2008/02/11(月) 17:02:58
>>768 それだと形態素解析もjuman限定になるしね
さすがに形態素解析にルールベースはきつい
(個人的には日本語構文解析だとルールベースのほうが結局得策な気はするけど)
>>780 ルールベースの構文解析器を紹介してください。
> さすがに形態素解析にルールベースはきつい
なんで?
783 :
デフォルトの名無しさん:2008/02/12(火) 13:15:39
780はルールベースって言いたいだけちゃうん?
どのレベルで「きつい」と言ってるかによるなあ
最長一致とかでは全然話にならないとかいうレベルなら確かにきついかも
785 :
デフォルトの名無しさん:2008/02/14(木) 18:49:17
cabochaとknp、どっちの精度がいい?
>>785 普通の係り受けと同格の区別までさせたければknpしかない
cabochaのは配布ページにも書いてあるけどあくまでも「簡易」同格判別
というか中の人のweb日記によると次バージョンではなくなってるってさ
ついでにボヤキ
しかしjuman品詞体系は癖が強くてもう嫌じゃー
誰かmecab-ipadic形態素解析使ってknpっぽいことするの作ってBSD or LGPL or GPLで公開してくれない?
787 :
デフォルトの名無しさん:2008/02/16(土) 20:51:13
許してやれよ
自分で作れ
歴史的仮名遣いの文の形態素解析やってる人居るかな?
先行研究例があったら教えてほしい
>>789 それは自然言語処理というよりむしろ計算言語学の領域と思われ
現代仮名遣の形態素解析は自然言語処理なのに
歴史的仮名遣の形態素解析は計量言語学になるん?
水谷先生あたりがやってないですかねとあてずっぽうを言ってみる。
792 :
デフォルトの名無しさん:2008/02/19(火) 13:47:15
LREC2008の航空券を調べているが、日本/モロッコ往復は、安いのが
見つからない。うちの研究室では、今回の出張は4名が限度だ。
情報理論のいい入門書知ってる人いる?
スレ違い
そこをなんとか
amazon.co.jp
レビュー少ないんだよなぁ
あんたが書けば?
無茶言うわ
読む本探してる人間に
スレ違いのほうがよほど無茶
そんなにスレ違いかねぇ
自然言語処理の基礎なんじゃないの?
情報理論がベースになっている領域もあれば、
そうでない領域もある。
さあ、適切なスレをみつけてそっち逝け。
知らないなら知らないって言えばいいのに
恥ずかしいやつ
804 :
デフォルトの名無しさん:2008/02/21(木) 07:33:21
知らないよー^^
805 :
デフォルトの名無しさん:2008/02/21(木) 07:35:09
恥ずかしい捨て台詞だなwwwwwwwww
入門書(笑)
知ってる人いる?(笑)
ここ年齢層高いんだろ?
助教とか准教授がこういうアホな煽りしてるかと思うと、涙が出てくる
809 :
デフォルトの名無しさん:2008/02/21(木) 17:59:48
はいはい、いい本が見つかるといいなw
>>807 ありがとう。
今日その本を図書館で見たら、結構出来が良かった。
買ってみる。
pdf版が落とせるから無理に買う必要ないぞ
ってか洋書じゃん
日本語版ないの?
洋書に抵抗のある研究者ってどうなのよ?
Referencesには原著のタイトルを書くからオッケーオッケー
日本人が日本語の本を好んでも別に悪くは無い。
無ければ洋書を読む。あるなら日本語を読む。
それの何が悪い。
むしろ、洋書も和書も読めないヤツが山ほど居るわけだが・・・。
彼らは自覚あるんだろうか。
>>815 学生ならともかく、研究者が原著にあたらないのは問題あると思われ。
ましてや
>>814のような行為は言語道断だろ。
いずれにしろスレ違いなスレで質問して
煽れば答えがもらえると思ってる時点でろくなもんじゃねぇ
>>815 スレ違いで粘着して情報を要求しておいて洋書だとブーたれるヤツが一人いるわけだが・・・。
彼は自覚あるんだろうか。
820 :
デフォルトの名無しさん:2008/02/22(金) 20:45:54
つゆとり
このスレのオッサンきめぇな
いい年して幼稚な煽りするなよ・・・
はいはい、ぼくちゃんはゆとりで生きていこうね。
>>822 だから自分の年考えろよ、恥ずかしくならんのか?
そいつは単なる門外漢のアホだよ
825 :
デフォルトの名無しさん:2008/02/23(土) 14:32:37
自演醜ス
(・∀・)クスクス
827 :
デフォルトの名無しさん:2008/02/23(土) 15:14:44
>>827 第1版の正誤表は凄まじいことになってたからな。
ほとんど本文と同じぐらいの分量の正誤表ってどうよ。
だから和書を出せと・・・
和訳と翻訳の違いって何?w
>>827 Martinはカンファレンスで直接会ったことあるけどいい人だよ。
マーティンってくまくましててかわいい♥
どうやらみたいなゆとり学部生はスレ違いのようですな
>>834 大丈夫
それは日本語じゃないから読めなくて当然
ジュラフスキは、学部が文科系の言語学科。
現職もスタンフォード大の(コンピュータ・
サイエンスではない)言語学科?
837 :
デフォルトの名無しさん:2008/02/24(日) 01:18:30
あーなつかしいスレ発見。
2chの対象のスレッド内の形態素集合からその板の形態素集合の平均を引いて
求めた特徴的形態素集合の上位のものを抜き出して、その形態素を含む行
およびそれにレスしている行だけを抜き出して要約を作成するとかやったなあ・・・。
うまく動いたけどすごく重かった。
疑似コードだとこんな感じ。
こんだけのことをするためにえらく苦労した思い出が・・・。
uniqueTokenMap = tokenMap(target) - TokenMapAverage(board)
uniqueTokens = sort(uniqueTokenMap)[0:20]
uniqueResList = grepRes(target, uniqueTokens)
print(uniqueResList)
それならBayesianな生成モデルたてた方が面白そうだな。
くらし安心ベイジアン
SOMで最大クラスタを抽出するのもアリだな
いやダメだろjk・・・
843 :
デフォルトの名無しさん:2008/03/06(木) 16:57:07
ho
つまんねえなそれ
NTTがそれぐらいしてるだろ
この手の検索は俺は失敗すると思うんだがな。
必ずしも自然言語で問い合わせるのが楽かと言えば、俺はNoだと思うし。
コンピュータを操作するのに、対話型にすべきとか言ってるのも、俺は正気じゃないと思う。
アプリケーションの起動に、音声認識で起動するのすら煩わしいのに、対話なんかしたら・・・。
何でも人に近づけりゃ良いってもんじゃねぇぞ。
使いどころがわかってない商売人と、研究者が組んだってこの程度しか出てこないんだろうが・・・。
>>847 漏れもそう思う
ただGUIvsCUIみたく結局はとっつきのいい方に流れていく気がしないでもない
それぐらいだったらせめて日本人がデファクトスタンダードとって大儲けして呉とも思う
自然言語検索でも、なにが知りたいかをちゃんと表現できる人は少ないだろうしなぁ。
自然言語検索にしても、より良い結果を得ようとして最適化したら
結局は人間相手に使う言葉とは別物になってしまうという罠
オントロジーって役立つの?
オントロジー(笑)
セマンティック(笑)
自然言語処理って役立つの?
FEPとかIMEは自然言語処理じゃないの?
SKKやらTUT-Codeみたいなのは知らんが。
自然言語処理(笑)
人工知能(笑)
前も言ったが俺はnaist関係者じゃないぞ
naist出身の知り合いが居るだけだ
debian関係で知ったけど、別にここに書くことでもないかと思ってた。
駒場、結構繁盛してるね
日本における自然言語処理の分野で今もっとも活発な順に並べると
どんな感じなの?
東大
京大
NAIST
阪大
徳島大
鳥取大
こんな感じ?
>>861 そんなドメな学会、あんまり参考にならないのでは。
863 :
デフォルトの名無しさん:2008/03/18(火) 22:16:14
今週東大でなんかやるみたいじゃん
>860
下3つは無い
要所の研究をやったかどうかで言えば
>>860が近いが
活発かといわれると、下2つはありえない。
それ以前に、阪大は自然言語処理の分野では大して・・・。
何故そこに阪大があるのか理解できない。
866 :
デフォルトの名無しさん:2008/03/21(金) 08:23:36
今日は東大で機械翻訳のシンポジウム〜
明日は東京女子大で社会言語科学会
プログラムをみるとATRが目立つな
最近のATRは露骨な成果稼ぎの為に
質の悪い人材・バイトを大量に引っかき集めとるからな・・・
一粒で二度おいしかったり、ね。
870 :
デフォルトの名無しさん:2008/03/22(土) 07:55:17
atrの質低下ってそんなに著しいの?
ATRの成果稼ぎってより、周辺の学生の成果稼ぎってのもあるような…。
研究を第三セクターでやろうというのがそもそも失敗だったと思う
何もかもが中途半端だよな、atr
つーか文系やら三流理系はもうお腹いっぱい
外国人留学生をもっと取り入れろ。
三流理系は「作る系」に導入し生産的な環境を拡大せよ。
それすら出来ないエセ理系は、諦めろ。
文系はトップクラスの一部だけで良い。
本当にこのままでは堕ちる一方だぞ。
別にATRに対してじゃなくて、全体に対して言ってることだけれども。
成果稼ぎとインチキ研究ばっかしてお茶濁してるんじゃねぇよ。
俺が学生の頃(7年ほど前)から、相当堕ちてしまったと”現場”で感じるようになった。
つーことは、きっと教育・育成の現場レベルではもっと酷いんだろうな。
これでは日本の機関から人材を取る気が起きない。
留学生だろうがなんだろうが玉石混交なのは何も変わらない
7年前というと、俺が学生だった頃(15年前)から見るとだいぶ落ちた後だな。
人が居ないからって、何も国内の粗悪な学生使わなくても
留学生使えばいいじゃんって話でしょ。
>>874の話は2年くらい前の研究現場に居るとかなり同意出来るんだが、
問題は、既に学生を指揮する立場の研究者の質まで落ちつつあるという事
優秀な人には相当逃げられてる。
上が悪いから、もうどうにもならん。
878 :
デフォルトの名無しさん:2008/03/23(日) 21:41:34
なんでそこで外国人留学生が出てくるのか分からん
どうせ帰るし、日本で就職したとしても奴らは日本で消費せずに本国に送金するだけだろ
教育機関じゃないのに、なんで後のことを考えるんだ?
その後国に帰ろうがどこに就職しようが知ったこったねぇ。
選択肢を増やし極力優秀な人材を使うべきだ。と言う話だろうに。
留学生に優秀な人材は少ないぞ。いないわけではないにせよ。
>>880 アメリカのように留学生にとって魅力的な大学が増えれば、
日本にいる留学生の質も上がるんだろうけどね。
あと、せっかくいい留学生が来ても、学生は英語で日常会話できないし、
教授も英語で講義できないしで、すぐに孤立してやる気をなくしてしまう。
まずは優秀な教授を育てるところから始めないと。
留学生が日本語を勉強すればいいじゃん
英語できない教授なんているの?
どこ大?
881は明らかにろくな大学行ってないw
ですよねー
885 :
881:2008/03/24(月) 19:37:54
一応宮廷ですよ。
もちろん教員は英語普通に話せるよ。
でも授業を全部英語でやるのはまた別の話。
「一応宮廷」じゃ分解能に欠けていて話にならん。どこよ。
あんまり追求しないでやれよ
最大でもたった7校しかないのに分解能に欠けているって・・・プ
授業を英語で出来ない教授なんているの?
どこ大?
やろうと思えばできるけどやらないって話だろ
日本人が大半の現状でやる意味もないけどな
なんて言ってると日本語のわからない外人が入ってこないから負のスパイラルなんだけどな
> 日本人が大半の現状でやる意味もないけどな
どこの話? その認識。いまどき珍しいというか遅れてるというか。
その場で適した言語を使うべきであって
言語が何だからどうこうなると言う話でもない。
何か、英語でやればメリットでもあるというの?
この辺はプログラミング言語にも言えることだが・・・。
>>892 学術界の共通言語は英語です。
日本人学生は英語でのディスカッションの経験が少なすぎ。
だから教授になっても対等な勝負ができない。
たまにがんばってる先生がいるかと思うと、ヨーロッパやアメリカ帰りだったりするし。
>>892 自分でその場その場で言語選択出来るほど、外国語が使えるならな。
残念ながら、英語が出来ない学生が多いので、練習の意味も込めてやるべき。
プログラミング言語だって、VBでもC♯でも、その場で適しているならば使えば良いとは思うし
Cで全てやるのが偉いわけでもないが
VBしか出来ないなら問題。
んで、やらないだけって言ってる人は
基本的に、やれないと俺は思う。
経験が足りない人間が外国語で高度なディスカッション出来るとは思えない。
少なくとも大学院の講義は英語でやった方がいいよね〜
うちの大学は3年から一部の授業や試験は英語でやってたが
うちの大学は学部1年から英語で講義をやってたけど?
ってことになるからそういう話はイクナイ
でも実際俺がいたところはそうだったw
どこ?
普段資源整理やらコーパス集めに借り出されてる人材は、そんなページに載らない。
あと、ATRつっても自然言語処理とは限らない。似た研究が結構あるからそっちかもしれん。
>>898 文系の大学だと山ほどあるなw
っていうか、
>>899のページに載っている人はみんなかなり前から
いた人達だと思うぞ。
902 :
デフォルトの名無しさん:2008/04/10(木) 20:58:25
ATRとNiCTとJSTが契約している翻訳会社の質が悪い
NAISTの自然言語関係について、学内の雰囲気知ってる人います?
工藤さんが卒業されたインパクトとか含めて、どんな感じなんでしょうか。
これまたダイレクトな質問だなwww
そろそろ新入生の研究室配属決定の時期か?
やっぱり
>>903がデリケートな質問であるような状況なのかな…
不安だ
>>906がどこへ行っても上手くやれないだろうということは分かった。
最近の雰囲気は知らないが,
工藤氏やたつを氏が在籍したのは昔のこと。
今は特に目立つ人材は居ないのでは。
彼らは辞めてから特に有名になっただけでは・・・。
在籍中も、そりゃ無名ではなかったけど、そんなに有名でもなかったし。
そもそも、形態素解析器が一般人(非研究者)にメジャーになったのが、彼らが辞めた後だからなぁ・・・。
それ以前だと、高林氏のnamazuとかkakasiで有名だったか。
何にしても、研究のレベルはともかく、
成果物を広く使えるようにしている研究室は強いな。
今自分の居る研究室が、強烈に居心地悪くなった・・・orz
うちの主力が鬱入っちゃって潰れたもんだから。。。
俺らが無能だから悪いんだがね。
よくあること。うちの職場でもそうだし。
大体1匹狼状態を作ると、ますますそいつ以外触れなくなって悪循環に陥る。
最初は、些細なきっかけなんだがな・・・
プロジェクト管理やってるやつの責任は重大だよ。
自然言語業界は頭が命だから、どうしてもごく一部のすごい人と
大多数のワナビーって構図になるよね。
by ワナビーの一人
913 :
デフォルトの名無しさん:2008/05/28(水) 01:51:20
lrec2008。金持がないと出来ない学問。
学問・・・・・・か?
>>912 ワナビー的には、どの辺が難しいというか、壁を感じて
いるんでしょう?
FSNLPと東大出版会の「確率的言語モデル」をきちんと読めば、
標準的な所はかなりすっと行くような気もするけど..。
>>915 それはお勉強。誰でもできる。問題なのは研究。これは才能がいる。
才能といい切ってしまっていいんだろうか。
912の人はどう思っているのかな。
才能というか、暗記しかしてこなかった馬鹿とは違うやつらだろ。
言い換えの為に、データ形式の類語辞書を探してるんだけど何か無い?
920 :
デフォルトの名無しさん:2008/06/08(日) 09:37:21
第2版。
Speech and Language Processing (2nd Edition) (Hardcover)by Daniel Jurafsky (Author), James H. Martin (Author)
ttp://www.amazon.com/Speech-Language-Processing-Daniel-Jurafsky/dp/0131873210 Hardcover: 1024 pages
Publisher: Prentice Hall; 2 edition (May 26, 2008)
Language: English
ISBN-10: 0131873210
ISBN-13: 978-0131873216
Product Dimensions: 9.4 x 6.9 x 1.6 inches
Shipping Weight: 3.5 pounds (View shipping rates and policies)
Average Customer Review: No customer reviews yet. Be the first.
Amazon.com Sales Rank: #22,897 in Books (See Bestsellers in Books)
Popular in these categories: (What's this?)
#2 in Books > Computers & Internet > Computer Science > Artificial Intelligence > Machine Vision
#2 in Books > Computers & Internet > Software > Voice Recognition
#2 in Books > Computers & Internet > Software > Business > Speech Processing
>>915 いや、その本頑張って読んでるけど難しすぎ…。
今EMアルゴリズムのところで詰まってます。
44ページの(2.33)なのですが、
「また、ジェンセンの不等式より、次が成り立つ。
Σ[y]P[θ](y|x[i])(log(P[θ](y|x[i])/P[θ ̄](y|x[i])) >= 0
」
とありますが、これは 8ページ、(1.20)・(1.21)の
「P(x)、Q(x) を確率分布とするとき、不等式
log(x) <= x - 1
より、次が成り立つ。
Σ[x]P(x)log(Q(x)/P(x)) <= Σ[x]P(x)((Q(x)/P(x)) - 1) = Σ[x]Q(x) - Σ[x]P(x) = 0
」
これの、log の中で Q(x) と P(x) が入れ替わって、符号が逆に→不等号が逆になった
パターンですよね。
Jensen の不等式は使ってないように見えるのですが…
私の勘違いなんでしょうか。
使っているのが Jensen の不等式だろうと、log(x) < x - 1 だろうとどっちでも
いいじゃないかと言われそうですが、気になって先に進めません。
おわかりの方いらっしゃったらよろしくお願いします。
(2.33)はKLダイバージェンスは常に正ですよ、というだけだけど、
>>921に書かれている通り、別にJensenの不等式を
使わなくても証明できるね。
無理に?使うなら、Jensenの不等式はf(x)が凸なとき
E[f(x)]≦f(E[x])ということなので、f(x)=log(x)として
-Σplog(p/q)=Σplog(q/p)=E_p[log(q/p)]
≦log(E_p[q/p])=log(Σq/p・p)=log(1)=0
よってΣplog(p/q)≧0、
でいいんじゃないかな。
確かに、そこは書き方が難しいね。
でも全部そうだってことではないので、がんがれ。
>>922 なるほどー。わかりました。
それにしても、EM アルゴリズムのあたりは難しい…。
式も補って読まないといけないし。
HMM に適用する場合について読んでいるのですが、
117ページの(4.27)は
まず素直に適用すると
Q(M, M ̄) = Σq[1, T]P(q[1, T]|o[1, T], M)log(P(o[1, T], q[1, T]| M ̄)
だけど、P(q[1, T], o[1, T]|M) = P(q[1, T]|o[1, T], M) * P(o[1, T]|M) だから
P(q[1, T]|o[1, T], M) = P(q[1, T], o[1, T]|M) / P(o[1, T]|M)
なので、(4.27)の
Q(M, M ̄) = (1 / P(o[1, T]|M)Σq[1, T]P(q[1, T], o[1, T]|M)log(P(o[1, T], q[1, T]| M ̄)
となるわけですよね。
こうやって書くといかにも当たり前のようだけど、本の中でもう1〜2行でいいから
途中の式を挟んでくれたらわかりやすいのに…と思うけど、
このへんがすらすらわかるぐらいじゃないと NLP やっていけないのだろうか…
>>924 まあ論文書こうと思ったら、それぐらい導出できないとなあ。
でも一番大事なのはEMをどう適用するかだと思うよ。
また「確率的言語モデル」からの質問です。
115ページの前向き・後ろ向きアルゴリズムのところで、
(4.21)の式の 2行目から 3行目で、分母が
P(X[t] = q[i], X[t + 1] = q[j], o[1, T] | M)
= α[t](i) * a[i, j] * b[j](o[t + 1])β[t + i](j)
となっているのはどうしてでしょうか。
α[t](i) は「モデル M が o[1, t] を生成して、時刻 t で状態 q[i] に到達する確率」(110ページ)、
β[t](i) は「状態 q[i] から始まる状態遷移によって o[t + 1, T] が生成される確率」(112ページ)
ですよね。
ということは、上の式は単純に
α[t](i) * β[t](j)
となりそうな気がするのですが。
よろしくお願いします。
926です。
もう少し考えてみたのですが、
β[t](j) には b[j](o[t + 1])、つまり t + 1 の時点で状態 q[j] がo[t + 1] を生成する
確率が入っていないですね。
でも、そう考えると 115ページ (4.21) 式の分母は
α[t](i)b[j](o[t + 1])β[t + 1](j)
となりそうです。
やはり、a[i, j] は余計な気がするのですが…。
引き続き、おわかりの方がいらっしゃったらお願いします。
ちょっと混乱してました。
最初の β[t](j) は β[t + 1](j) の間違いです。
まとめると、
β[t](i) は i から始まる状態遷移が o[t + 1, T] を生成する確率。
つまり、
α[t](i) * β[t](i)
が、状態 i を通った確率。
i から j に状態遷移した確率を求める時、β[t + 1][j] には
q[j] が o[t + 1] を生成した確率が含まれていないので、
α[t](i) * b[j](o[t + 1]) * β[t + 1](j)
になる。
これが私の考えなのですが、115ページの (4.21) と比べると a[i, j] が足りません。
よろしくお願いします。
ここは教科書質問スレではないので、細かい質問は
周りの人か、先生に聞いた方がいいと思う。
それより、書き込みを見ていて何となく感じるのですが、
日本語だからという理由で、最初に「確率的言語モデル」を頭から
読もうとしていないだろうか。
その必要はないと思う。
それより、FSNLP(これは複雑な計算はないし、個人的には熟読に値すると
思う)を読んで、
>>925の人が言っているように、何がしたいのか、次に
何を読めばいいのか、を考えるのがお薦め。
その時に、EMなりHMMなりを理解する参考書の一つとして
「確率的言語モデル」を使うのがいいんじゃないだろうか。
もし本の記述がわからなくても、検索すれば、日本語でも
もっといい説明が見つかるはず。
実際、EMについて知りたければNeal&Hinton(1998)を読んだ方がいいし、
HMMについてはRabiner(1989)の素晴らしいチュートリアルを読むべき。
どちらも、Googleで調べればわかります。
ちなみに、
>>924-928のような質問に答えてくれる人が周りに
いない場合は、ぜひNAISTへどうぞ、
とOB乙な書き込みをしてみるテスト。w
>>929さん
アドバイスありがとうございます。
FSNLP も読んでいるのですが、質問するなら日本語の本からのほうがいいかと思って
「確率的言語モデル」のほうを例に出しました。
ちなみに
>>928までの問題は自己解決しました。
なんであんな馬鹿なことを書いたのか…
「モデルが q[i] を通って o[1, t] を生成した尤度」と
「モデルが q[i], q[j] を通って o[1, t] を生成した尤度」を比べるのだから、
当然 a[i, j] は掛けないといけないですね。
HMM と EM をやっているのは、CRF・MRF(まだ到達していないので違いすら
よくわかっていませんが)による構文解析をやりたいと思っているからです。
具体的には、
http://chasen.org/~taku/publications/nl157.pdf 「部分木に基づくマルコフ確率場と言語解析への適用」を理解することを
とりあえずの目標にしています。
そのためには、形態素解析の HMM からCRF につながる流れと、
構文解析の内側・外側アルゴリズムをまずは勉強しなければと、
HMM と HMM のパラメータ推定のところをやっているわけです。
道は遠い…。
質問できる人、いないですねぇ。
NAIST はちょうど来月受けるところです。
京大と迷っているのですが…。
OB の方お勧めということでしたら心強いですね。
ですが、当面は質問できる人がいないという状況は変わらないので、
どうしてもわからないことがあったら、答えを期待せずにまた書いてみるかもしれません。
目標が決まっているなら、それに近い方の院を選んだ方が、
色々な意味でいいんじゃないかな。
少なくとも、名前で選ばない方がいいと思う。
ちなみに、工藤氏もそうですが、NAISTで機械学習的に活躍している人
の多くは京大・東大から、自分の大学の院を選ばずにNAISTに
来た人達(結果的に)、ということに注意。
個人的には、係り受け解析は重要な課題ですが、
ある意味「業界」的なテーマなので、本当に自分が興味があることは
係り受け解析なのか、もしそうだとしたら現状の何が問題なのか、を常に
考えておいて欲しいなあと思いました。
先生にも質問できないと厳しいね。
頑張って下さい。
>>930 構文解析そのものを研究課題にしたいのか、
君の研究課題で利用する技術要素として構文解析があるのか、
ちゃんと落ち着いて考えておいたほうがいいよ。
前者の世界に踏み込むのなら、
>>931の言う通り業界全体を向こうに回して勝負する覚悟がいるし、
後者の場合には自分のやりたい本当の課題のほうをしっかり説明できないと誤解されることになる。
>>932 やりたいのは中国語の構文解析です。
中国語は構文解析の前に品詞を確定してしまうとうまくいかないので、
形態素解析→構文解析ではなく、単語区切り→品詞タグ付け&構文解析という
流れでできないかと。
京大は NICT の中国語翻訳を担当しているということなので、それが志望理由になっています。
用例翻訳を中心とするようですが、よい用例翻訳のためにはよい構文解析が
必要だというのは当たり前のことですよね。
どうもこのへんはおろそかにされている感がありますが。
ところで、私は新しいことがやりたいというよりも、どちらかというと「応用」に
興味があるんですけど、これって研究の場である大学院ではどうなんでしょうね。
自然言語処理をやっていると、人による能力の違いを痛感します。
自分がいくら勉強したところでたかがしれている。
それでも、優れた人の研究成果を利用して、実地に応用するという
一段階下のことならできるかもしれない。例えば、
>>930の論文を理解して、
それを例えば中国語の形態素・構文解析に応用できれば、自分程度の人間にとっては
上出来だ、というような発想で。
>>933 研究開発としてはいいと思うよ。すごく面白いと思う。
ただ、それが学位論文に直結するかどうかは別問題。
ただシステム作りましただけじゃ学位は出ない。
自分が学術界にどんな貢献ができるのかを考えてみて、
どういう形で研究として成立するのか、何を成果とするのか、
そこが大事じゃないかな。
>>933 の後半
ずばり、そういう人のために修士課程があるんじゃないかな。
全員が世界最先端の研究をする必要はないし、専門知識をベースにして
「応用」する人も社会に必要だと思う。
研究としては、
>>934で心配されていることもありますが、
中国語に特有の事情や知識というものが必ずあるはずなので、
それをいかに洗い出して統計的にうまく扱うかで研究のセンスが問われる
というか、それで修士としては充分良い研究になると思う。
それと、上であがっている論文は特に内容が濃い方だし、
工藤氏も最初からこのレベルの論文が書けた訳ではないと
思うので、あまり恐れすぎなくてもいいのでは..という気もします。
修士なら就職した後でも、もしまた研究ができる/したいと思うことがあれば、
社会人で博士課程に入るという道もあるんじゃないでしょうか。
自然言語処理の研究者って
どうしてそろいもそろって質問のメールに答えてくれないんだろう
やっぱりなれ合いなわけ?
いや、質問のレベルが相手していられない程低いから。
質問メールの返事がこないことから「なれあい」という結論を導出してしまうような推論エンジンの持ち主は
この業界(分野)には向いていないと思われ。
ここに質問を貼り付けておけば暇な人が答えるだろうよ
面識がない奴には返事寄越さないよ
メールが来たことないって奴は
レベルが低くて当てにされてないんだけどさ
俺の知り合いでそいつが知っているであろう名前を出してメールを書くと
やっと返事を寄越す
持ち回りで年次大会優秀発表賞やら長尾賞やら貰ってるようなのばっかりだ
俺も時々見ず知らずの人から質問メールが来るけど原則全部に返信してるぞ
時々なら返しようもあろうが・・・
回答は完全にボランティアだからなぁ
俺なんかに質問来たら
1つ1つ丁寧に返してるぞ。
大物になっちゃうと・・・
やっぱ人ってそうなっちゃうんだろうなぁ・・・。
>>944 いや、物理的な制約じゃないの?
そんな立場になったことがないからわからんけど、一日に数十通も来たら手に負えないだろ。
そんな奴この分野に居るのか?
>回答は完全にボランティア
自分のライブラリや論文やら手法を広めたいと思うなら
そういう考えを持つべきでない
広めたいと思うけど対価が必要だ、と考えている奴に限って
Linuxの上でgccやGLibを使って平気な顔をしている
仲間内だけでライブラリとデータを使い回し論文を量産
他者の質問には答えない
だから馴れ合いって言ってる
ボランティアの意味を取り違えてる馬鹿が多いんだよな
> 仲間内だけでライブラリとデータを使い回し論文を量産
> 他者の質問には答えない
図星だな
今日の夜あたりは祇園祭に繰り出すんだろうなあ
>>947 こんなところで悔しがってもどうにもならないし
期待を裏切られたくらいで悪態つくような奴は相手しなくて正解だろうよ
よしっ NAIST合格!
受かったから書くけど、試験があんなんだと不安だなぁ。
OBの人のページにも受ければ受かるみたいに書いてあったし。
どうやって質を維持しているのか不思議だ。
一般社会での無名さがいい方向にフィルタとして働いてるのかな。
おめでとう
コード公開したらしたで、「うちの環境でコンパイルできん。なんとかしろ」とか
勝手にコード書き変えておきながら「論文と違う結果が出たぞ。」とか
どうでもいいメールが増えるんだよな。
こういうのにいちいち対応すると研究する時間がなくなる。
>>955 >コード公開したらしたで、「うちの環境でコンパイルできん。なんとかしろ」
コンパイルできないような欠陥ソースを公開するのが悪い
>こういうのにいちいち対応すると研究する時間がなくなる。
こんな対応のメールを書くのに何日もかからないだろ
要領悪すぎw
悔しさ爆発
>>956 わかってないなあw
どうでもいいtoyプログラムならまだしも、マジメな自然言語処理で高効率めざしていて
sparcでもx86でもalphaでも、bsdでもlinuxでもultrixでも他のunicenでも動くソース書くのが
どれだけ大変かわかるか?
門外漢のあしらい方は学んでおいたほうがいい
>>958 気にするな。
自分の環境が唯一で、皆同じだと思ってるアフォが居るのは
そのアフォ以外には良く知られた事実だ。
まぁ、どう考えても単なるバグで
こいつ本当にコンパイルできたんか?ってのもあるけどな・・・。
>>953 おめ。
俺の時は倍率4倍だったよ。
まあぶっちゃけ、玉石混淆ということかも。
一般社会にとってはわりと無名でもいいが、学部生には有名でないといかんね。
京大は最近いい噂聞かないけど、実際のところどうなん?
自分の印象としては、Juman・KNP以降それにしがみついてばかりで、
格フレームの抽出だの些細なことに汲々としているという感じだけど。
格フレームの抽出が些細だというなら
NLP自体全般的に些細なことに汲々としているという感じジャマイカ?
つーか、些細なことに汲々としていないNLPがあったら教えてほしい。
例えばJumanやKNPは些細なことじゃないってことだろ。
>>966 そりゃつくるのは大変なことさ。
でも評価論文にするためには些細なことに汲々とせざるを得ないのさ。
格フレームの抽出のどこが些細な事なのか小一時間問い詰めたい。
>>968 評価では些細な違いでしか差が出ないだろ
評価論文ってのはそういう些細な違いを針でつつくようなことをしなきゃならないんだよ。
もうすぐ次スレか
テンプレ改訂案とかあったらどうぞ
9/8のセミナーに参加しまつ
諸先輩方、手取り足取り優しく教えてください
972 :
デフォルトの名無しさん:2008/08/05(火) 09:05:03
>>970 このスレを見ている人はこんなスレも見ています。(ver 0.20)によると、
「【NAIST】電波お花畑で孤独なWinnyエロ動画 その3【NLP】」
ってことらしいけど。
個人的なことですみません。
訳あって、NAISTのM先生の研究室か、京大のK先生のところかを急いで決めなければ
ならない状況です。
NAISTの方からは、NAISTのいい点についての話を聞いたりしたことがあるのですが、
京大の内部の方の意見を聞いたことがなくて…
いいところだ、迷うならやめろ、来るな等なんでも結構ですので、意見をお伺いできれば
幸いです。
こんなところで聞かずに言って聞けばいいんじゃない。
来週はColingがあるから、今週中に。
このスレでその2つの研究室名をイニシャルで伏せる意味あるのか?www
向こうでは名前そのまま出ちゃってるしwww
>>977 雰囲気でw
2chだとイニシャルのほうがなじむかなーと。
向こうのスレの236みたいな決め方はしたくないなぁ
いいなー
このジャンルで仕事になるなんて
極楽じゃない
そんな重要な話を
しかも個人特定できるまで情報をだして
2ちゃんで聞くのが理解できん。
ほかにやりようがありそうなものだが。
取り敢えず、お前みたいな夏厨はうちの研究室に来るな
と言っておく
逆に個人特定して合格取り消しって手もあるなw
?見た限り別に出したらまずい情報ってわけでもないんじゃ?
直接研究室のスタッフなりに聞くという
手段を取っていないのは感心しないといえばしないが
>>974ですが、K先生に話を伺ってきました。
やっぱり、中国語NLPのための環境があるというのは魅力ですね。
ただ、実際に学生の立場の人からも意見が聞ければと思い書き込みました。
あぁ,なんだ.そしたら別に何も問題ないじゃん.
2年間になるか5年間になるか知らんけど悔いの無い選択ができることを祈ってます.