自然言語処理スレッド その2

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。


前スレ: 自然言語処理スレッド
http://pc11.2ch.net/test/read.cgi/tech/1011988273/l50

次スレは>>980
2デフォルトの名無しさん:2007/03/05(月) 23:35:10
3デフォルトの名無しさん:2007/03/06(火) 17:10:50
>>1
お疲れー。

4デフォルトの名無しさん:2007/03/06(火) 17:28:39

理系全般板のスレ

★自然言語処理★
http://science6.2ch.net/test/read.cgi/rikei/1020397689/
5デフォルトの名無しさん:2007/03/06(火) 17:48:49
こんな面白そうなスレがありましたか…。
いつか自然言語を解するプログラム作りたいな。
文法を解する>>2みたいのがあるなら、C#とかで比較的簡単に作れそうだ。
6デフォルトの名無しさん:2007/03/06(火) 21:11:08
>>5 冗談でしょ?
7デフォルトの名無しさん:2007/03/06(火) 22:33:08
井の中の蛙、大海を知らずと言ってだな。
86:2007/03/06(火) 23:30:16
>>5 C#が嫌いなので、つまらないコメントを書いてしまった。ごめんなさい。
でも、Jumanを使いこなすだけでも、大変なことなのですよ。
私は以下の手順でプログラム開発をしています。
1..仕様をpdfファイルでもらう。(文章か表)
2..これをtxtに変換。(文字情報を抜き取る)
3..形態素解析。
4..格判断、後置詞、接続詞などの整理、並べ直し。
5..Prologの述語として整形する。
1から3までは作業を制御するのはPrologのプログラムです。
4,5もPrologが候補を出してきますが、相当に人間の判断が必要です。
3のJumanがやはり問題です。数に関する情報が上手く処理できません。
Jumanの出してくる候補はバラバラです。これを繋ぎ合わせる必要がある
のですが、一つの名詞として繋ぐのか、部分的に独立した数値として
扱うのか、私の能力ではうまくコード化出来ないケースが多々あります。
95:2007/03/07(水) 18:15:41
>>8
気分を害したりはしていないのでご心配なく…。
自然言語を解するとなれば想像を絶する壁がたくさんあるだろうな
とは思ってますので。
10デフォルトの名無しさん:2007/03/07(水) 18:26:45
「Jumanの出してくる候補はバラバラです」というのはどういうことですか?
たとえば「1足す2は3」と入れれば、「1」「足す」「2」「は」「3」と
ちゃんと区切られているように見えますが…。
11デフォルトの名無しさん:2007/03/07(水) 19:00:56
第五世代コンピュータを第、五、世代、と区切られてしまうと、
これをプログラムで第五世代に膠着し直すのは結構難しいのです。
12デフォルトの名無しさん:2007/03/07(水) 19:14:31
なるほど。
こういうのが出てきたら特殊な処理をして結合し、Jumanに名詞として辞書
登録してもらう必要がありそうだ。
13デフォルトの名無しさん:2007/03/07(水) 19:18:18
その「特殊な処理」というのが難しいんでしょうね。

各単語同士の連続出現率を記憶しておいて、ある割合を超えたら1つの
単語だと認識してJumanに辞書登録を促す、とか…。(素人考え)

でもだとしたら、オラクルとかの大規模データベースを使って、各単語の
パラメータを記憶しておかないとダメですね。
難しいそう…。
14デフォルトの名無しさん:2007/03/08(木) 10:20:56
>>13 辞書でいいのでしょうね
Prologのプログラムでは何のオプションも付けずにjumanを使います。

?- sh('echo "第五世代コンピュータ" | juman',X).

X = [['第','(だい)','第','名詞接頭辞'],
['五','(ご)','五','数詞'],
['世','(せい)','世','名詞性名詞助数'],
['代','(だい)','代','名詞性名詞接尾'],
['コンピュータ(こんぴゅーたコンピュー','普通名詞'],
['技術','(ぎじゅつ)','技術','普通名詞']].
Prologインタプリタのトップレベルから呼ぶとこんな感じになります。これを

形態素解析(_文,_形態素ならび) :- concat_atom(['echo "',_文,'" | juman'],S),
sh(S,X),再膠着(X,_形態素ならび).

再膠着([],[]) :- !.
再膠着([[A,_,_,名詞接頭辞],[B,_,_,数詞]|R1],[C|R2]) :- concat_atom([A,B],C),
,再膠着(R1,R2).
再膠着([[A,_,_,_]|R1],[A|R2]) :- 再膠着(R1,R2).
のようなプログラム(述語)を定義しておいて(再膠着と品詞等付加情報の除去を
同時に行っている好ましくない定義です)
..., 仕様読み取り(_受信文), ... ,形態素解析(_受信文,_形態素ならび), ...
のように呼びだして処理します。要するに「本当にこれで澄むのか!」の問題ですね。
1514の訂正:2007/03/08(木) 11:40:23
澄む -> 済む
それから concat_atom([A,B],C), の後改行してまたカンマがきていますが
これは間違いです。いりません。
16デフォルトの名無しさん:2007/03/08(木) 13:06:04
そのUNIXの正規表現のような書き方はなんでしょう… (゚Д゚)ボーゼン
PROLOG言語ってPERL言語のような側面もあるのかな?

自然言語を解そうというのだから複雑なのは当然ですがこれは…
17デフォルトの名無しさん:2007/03/08(木) 13:11:49
「形態素解析」や「再膠着」とかにカッコ ( ) が付いてますが、
これは関数ということでしょうか?

…PROLOG、面白そうなのでちょっと私も勉強してみます
18デフォルトの名無しさん:2007/03/08(木) 14:17:33
>>16 >>17 疑問はリストのことですね。Prologのリスト表記は例えば、
[a,b,c] = [a|[b,c]] であり、
[a,b,c] = [a|R] だとRは英数の大文字から始まっているので変数であり
R=[b,c] になります。

再膠着([[A,_,_,名詞接頭辞],[B,_,_,数詞]|R1],[C|R2]) の部分を解説すると

再膠着という関数は2引数の関数である。最初の要素(第一引数)は
リストの形式をしており、その第一番目の要素も
またリストである、 [A,_,_,名詞接頭辞]
さらに第二番目の要素もまたリストである。 [B,_,_,数詞]
第三番目以降もリストであってその部分は変数R1で表すこととしよう。
さて、
この第一引数のリストの第一番目の要素もリストなのだが、その第一番目の
要素はAという変数である。その四番目の要素は「名詞接頭辞」である。
同様に第二番目のリストの第一番目の要素はBという変数であり、
第四番目の要素は「数詞」である。

以下省略するがこんなことが宣言されている。
このようなパターンを持った情報が第一引数に与えられて、
述語、再膠着が呼びだされた時に限り、このルールが適用されて
バラバラになったA(実は第)とB(実は五)が再膠着されるのだ。
そういうことを述べている。


再膠着という関数(述語)は
第一引数がリストでその最初の要素もリストで
その四番目の要素に名詞接頭辞がきて、
かつ、
第一引数の二番目の要素のやはり四番目の要素が数詞の時は

19ゴミが・・:2007/03/08(木) 14:20:40
済みません。最後五行、ゴミが入ってしまいました。
20デフォルトの名無しさん:2007/03/08(木) 19:04:04
>>18
  _, ._
( ゚ Д゚)

もともと難しいんだろうけど、その説明も難しい…
あと「prolog 再膠着」でググってもヒット件数0というのはどういうことでしょう?
レアモノですか?
21デフォルトの名無しさん:2007/03/08(木) 19:31:59
その検索は無理でしょう。再膠着なんて言葉聞いたことない。
多分、私の造語だと思います。説明が難しいのは、一般にリストの場合
構造体ですから仕方ない。この場合などは
構造体のなかにさらに構造体があるというケースですから尚更です。
リストのような構造データを使わずに、スカラ型データ渡し
だけで書くのが理想ですが、
1..問題が要素の前後関係などに依存する場合(>>18がこれ)
2..集約問題(sum()など)
などはリストで処理せざるを得ないですね。ここでは説明は避けますが
Prologの泣き所です。
22デフォルトの名無しさん:2007/03/08(木) 20:42:17
ここは自然言語処理のスレでプログラム言語を語る場ではないので
Prologの話はこれくらいにします。最後に、Prologと自然言語処理との
間の以下のことに触れておくべきでしょう。
Prologが普及する初期に、自然言語処理向きの言語ということが
喧伝されました。実際はそれほどでもなかった。すぐに左再帰問題の
ような基本的な難題に直面しましたし、上でもちょっと触れましたが、
Prologで深いデータ構造を扱うとPrologの良さが生きてこないという
ことにも気づきました。プログラム言語の記述力にだけ目を奪われて、
対象としている世界とのギャップに対しても、あまりに楽観的でした。
実際この分野で成果がどんどん積み上がっていくということはあり
ませんでした。期待が大きいだけ失望も大きかったのかも知れません。
結果的にこのPrologへの過度の期待はこの言語の普及、実用への展開
にはマイナスに働きました。もっと強調するべき点は他にあったのです。
Prologと自然言語処理にはそんな少々不幸な歴史があります。
23デフォルトの名無しさん:2007/03/08(木) 20:47:08
> リストのような構造データを使わずに、スカラ型データ渡し

「リストのような構造データ」と、「スカラ型データ渡し」は、
具体的な例を出すとすれば、どういう例を出せますか?
24デフォルトの名無しさん:2007/03/08(木) 20:56:04
あ、>>22とかぶってしまった。ごめん
25デフォルトの名無しさん:2007/03/08(木) 21:11:25
>>23 理想的なPrologプログラムは引数に構造体を要求しない
年令(大島,32).
年令(尾崎,58).
年令(稲葉,55). というようなものでしょう。
この定義に対して、
?- 年令(X,58). と質問する。答えは X=尾崎 となり質問は真となります。
このようなフラットな構造のデータだけで構成されるプログラムを
Prologプログラマは夢見ます。この辺りはリレーショナルデータベースの
第三正規形などの議論をご存じの方にはわかりやすいかも知れません。
これに対して
sum([],0).
sum([A|R],X) :- sum(R,Y),X is A+Y.
と云う定義はリスト構造を引数に期待しています。
?- sum([32,58,55],X). これは X=146 となり質問は真となります。
Prologの多分最大の魅力は部分要素の簡単なパターンマッチだけで
プログラムの挙動が完全に読み取れるという点なのですが、そのためには
データ構造はフラットであるほどよい。リストでさえプログラムの明快さ
に欠けるという感覚があります。それから、
>>21でちょっと触れた 1..集約問題 とは、上の 年令( ) 定義に於いて、
このクラスの年令の合計を求めるプログラムをPrologでは上手く書けない
ということを云っています。武骨にやればもちろん書けますが。
26デフォルトの名無しさん:2007/03/08(木) 21:15:41
や、や、 X=145 だ(笑)
27デフォルトの名無しさん:2007/03/09(金) 14:42:31
自然言語処理は、prologでできそうですか?

私のここまでの印象では、確かに自然言語処理らしき片鱗が見えるプログラム
を作ることができるとしても、それは日本語を部分的に解釈しているだけで
あって、たとえば知識を溜め込むとか、という部分にまで至らない感じがしま
す。
28デフォルトの名無しさん:2007/03/09(金) 16:16:58
>>27 Prologだと簡単に行くかという期待は裏切られた、というところ
でしょう。
自然言語処理の困難さに較べたら、プログラム言語の記述力の差など
小さい小さいということかも知れません。
29デフォルトの名無しさん:2007/03/09(金) 17:17:48
確かに言語うんぬんではなくどういう論理構造を作るか、なんでしょうねぇ。

ただ以前、C++やC#のオブジェクト指向というパラダイムは自然言語処理
に適切かも知れないな、と勉強してたときに思った記憶があります。

たとえば
「私は人間です」
の「私」を「人間」という基本クラスから派生した派生クラスだとすると、
「私」=「人間」という真偽判定ができてしまうんですよね。

Prologにもオブジェクト指向という考え方はあるのでしょうか?
30デフォルトの名無しさん:2007/03/09(金) 17:49:36
私も含めて、Prologプログラマはオブジェクト指向が嫌いだと思います。
「あの本は厚い」という仕様に対して、
厚い(本). がよいか
厚い(あの,本). か
厚い(あの本). が良いのかを即断する能力を磨くのがPrologプログラマです。
あの、や、本、や、厚い、は仕様を与えた人の内面には像があっても、
それには踏み込まずあくまで言語的なシンボルとしてのみ受取り、
これを述語として形式化して定義することにとどめます。
一方、オブジェクト指向プログラマは
「あの本」は「他の本」とは違うに相違ないなどと、意味に踏み込んだ、
解釈をいきなり始めようとする。オブジェクト指向プログラミングの本質は
差分プログラミングなので、どうしても立ち入って解釈をする習性が
身に付きます。これはPrologプログラマから見ると余計なことなのです。
ということで、Prologプログラマは全員が一度はオブジェクト指向Prologを
自作していると思いますが、全員がこれを捨ててしまっていると想像します。
ESPという大変立派なオブジェクト指向Prologがあったのですが、私も
含めてそのオブジェクトを生成して論理変数として述語の引数に持ち回る
仕様に陰で文句ばかり云っていました。
31デフォルトの名無しさん:2007/03/09(金) 18:09:44
>>22 >>30 読み物としては大変面白いが、すこし、話が極端なのでは
ないかな。そこまで徹していることには敬意を表するが。
32デフォルトの名無しさん:2007/03/09(金) 18:34:31
ん〜〜〜、少し誤解されているかもですw
オブジェクト指向Prologというのがよほど使い勝手が悪かったのでしょうか…。

オブジェクト指向は、どういう形式でプログラムをつくるか、ということですので
「あの本」などのようなデータの中身とは別じゃないかな、と思います。

「仕様を与えた人の内面」にしかない、
この記述が興味深いですね。

自然言語処理では、知識を蓄積した上で、相手の意図を予測するんでしょう
けど難しそうだw
33デフォルトの名無しさん:2007/03/10(土) 04:00:54
>30
> あの、や、本、や、厚い、は仕様を与えた人の内面には像があっても、
> それには踏み込まずあくまで言語的なシンボルとしてのみ受取り、
> これを述語として形式化して定義することにとどめます。

私も Prolog のこういう部分は凄いと思う。
中身を本当に「一切」定義しないことに最初は驚いた。
「厚いってどういうこと?」ということを Prolog 自体が必要としないんだよね。



ちなみに、その定義をOOP風に表すなら、単に

本 . 厚い

この場合、厚いか否かの判断は「本」に任せるって形になるね。
本が厚いか訊いた質問者はそこまで踏み込むことはない。
(深入りすることはあるけど、それはOOPの理念からはちょっとズレると思う)

まぁ、Prolog と違って最終的には「本」か、もしくは
「本」が頼んだどこかのメソッドで具体的な判断がされるけど。

> 「あの本」は「他の本」とは違うに相違ないなどと
> 意味に踏み込んだ解釈をいきなり始めようとする。

それはOOPで意識しないけどなぁ。
OOPって良くも悪くも「たらい回し」が多くなるから
「本」自体も他から「この本ね」と渡されたものである場合が多い。
34デフォルトの名無しさん:2007/03/10(土) 09:26:56
>>33 OOPに関しては大分遠ざかっているからまともなレスが書けそうにない。
私が書いてきたことは自然言語処理というより、自然言語プログラミング
ですね。この自然言語プログラミングの一番大事な処理は今のところ
人間がやってしまって、Prologに落としちゃいましょう、ということです。
そのスキルを磨いて、同時通訳くらい早く書けるようになったら、その時
にはその部分をPrologでエキスパートシステムとして記述すればよい。
そういう道筋の第一段として現在のPrologプログラミングがある。
35デフォルトの名無しさん:2007/03/10(土) 09:48:24
エキスパートシステムとして記述される段階では、実は落とすコードは
Prologである必要はありません。Prolog的なロジックをライブラリに
持つ、C++ あるいは Ruby のプログラムコードで構いません。なぜかと
いうと、その部分が機械処理された時点で人間の思考・論理とプログラムの
親和性という視点は必要なくなってしまうからです。
36デフォルトの名無しさん:2007/03/11(日) 18:16:51
age
37デフォルトの名無しさん :2007/03/11(日) 18:17:13
ここの人たちからするとレベルが低いと思いますが、
ニュー速+の記事を要約して読めるサービスを作ってみました。
http://misaki.mine.nu/chradio/s.cgi
スレの投稿速度でランキングするのは2nnのマネです。

単純に重要度でソートしてるだけなので、
似たような書き込みを除外できてませんが、
スレッドの要約というのも面白いテーマと思います。
形態素解析はMeCabを使っています。
38デフォルトの名無しさん:2007/03/11(日) 21:02:15
あーこれは面白いね。。。







・・・ってこれ要約じゃなくて単なる抽出じゃん。
相変わらず抽出と要約の区別ついてないやん。
前スレ 438-497戻って再確認汁

http://pc11.2ch.net/test/read.cgi/tech/1011988273/438-497
3937:2007/03/11(日) 22:11:53
>>38

過去ログ読みました!
GoogleNewsがやってるような似たもののグルーピングはできてません。

確かに。抽出が正しいっす(ノД`)ノ

オーム社の「テキスト自動要約」を読んで作ってます。
頻出する重要単語をより多く含む文を抽出してます。
今後、似たものをまとめる方面をやってみようと思います。
それと因果関係としてレス同士の>>の関係も利用してみます
40デフォルトの名無しさん:2007/03/12(月) 09:37:11
…前スレ 438-497 を読んだけどすごいな。
煽り合いを楽しんでいるかのようだ…。
やさしく指摘して「あ、そうかスマソ」で終わらせりゃいいのに…。
41デフォルトの名無しさん:2007/03/12(月) 12:57:53
あん時は、どっかのバカが俺の発言の陰に隠れて
「Google検索結果の引用文は『要約』の一種だ」とか主張しちゃって
誤爆の嵐でまいったさあー
42デフォルトの名無しさん:2007/03/12(月) 16:18:45
Google検索は抜粋、キーワードが該当した場所ってだけだよなぁ。
つーかあそこで出てたような要約なんてできるのかな?
日本語を解して要点をまとめる機能が必要か…。
43デフォルトの名無しさん:2007/03/12(月) 17:10:50
要約とはなにかって、この分野ではどう定義されてるのよ。
44デフォルトの名無しさん:2007/03/12(月) 17:47:47
>>43
文意を変えずに書き手の<<意図>>を抽出することだから、たんなる抽出と間違えやすいんじゃないのかな?
45デフォルトの名無しさん:2007/03/12(月) 18:25:43
「AはBに似ておりCとは違うためDと同じである」
という文章の意図は「AはDと同じ」

…こういうのを解釈して、なおかつ簡潔な文章に装飾するのが
ここで言う要約ってことでしょうか?
46デフォルトの名無しさん:2007/03/12(月) 19:16:54
>>37
そんなパクリページ作るくらいだったら
2NNに協力する方がええんじゃね?
47素人:2007/03/12(月) 21:43:44
>>37 よくわかんないんだけど、これってどうやって抽出してるの?
左側のIDの意味ってなに?レスの番号とは違うようだし・・・点数とも関係なさげだし・・・
4837:2007/03/13(火) 01:09:23
>>46
2NNは2chビュアーが無いみたいですねえ。read.cgiに直接飛ばしてるし。


>>47
簡単に説明しますと、(ちょっと長いですごめんなさい)


スレ内で、たとえば1-100のレスから、まず単語の出現回数を数えます。
数の多いものが重要語となります。


つぎに、重要語を含む数をスコアにして、重要なレスから表示しています。

左側の番号は、レス番号ではなくて、いったん文章を単文にひらいた場合の
単文番号です。

レス番号の方が分かりやすいかもしれませんが、長文レスが重要になったときに
全体が長くなるので、こうしました。

http://misaki.mine.nu/blog/tf.cgi
同じ手法で要約だけやってるページも作ってるので参考にどうぞ。
チェックを入れると、やってることがわかります。
4937:2007/03/13(火) 01:21:22
>>48
自己レスですが、

要約サイトはkakasiで形態素解析してますが、

2nnもどきはMeCab使ってます。
MeCabで工夫してるのは、品詞も使って見ました。

名詞が続くときは、名詞+名詞+名詞=名詞とまとめてます
これで未知の「国民投票法案」とかも抽出できました
あと、名詞+の+名詞=名詞もやってます。
その他、長文になってくると頻度が偏るのでlog10をとってみました。
50素人:2007/03/13(火) 02:11:20
>>37,48,49 なるほど。勉強になりました m(_ _)m

この方法はtf-idfを用いた重要文の抽出で認識あってますでしょうか?
聞きかじりなので、tf-idfも詳しくわかっていない状態です。間違っていたらすみません。
51デフォルトの名無しさん:2007/03/13(火) 09:35:44
>>37
こういうのって何言語で作るの?
52デフォルトの名無しさん:2007/03/13(火) 18:34:02
やっぱむつかしいなこういうの
5337:2007/03/14(水) 00:03:17
>>50 オーム社の本でもTF法と紹介されてるので合ってると思います。

>>51 perlで作ってます。
perlは遅いイメージがあると思いますが、ハッシュを使うと頻出語の調査は簡単に素早くできますよ

use MeCab;
use Encode;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数

sub TermFreq
{
my ($str) = @_;

my $n = $m->parseToNode($str);#形態素解析

while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語
$tf{$word}++;#単語のハッシュ変数の出現回数を1増やす
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}

とりあえず1文字とか名詞以外は除外でもいいと思います。 実際は、複合語を扱えるようにしたりとか工夫が面白いです。

ベイズ推定によるニュース分類もやってますが、単語の出現回数も同じ手法で作ってます。
5437:2007/03/14(水) 00:09:32
こんな感じでずいぶんいい感じになりました

#名詞でかつ全角で2文字以上の場合だけ有効
use MeCab;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数

sub TermFreq
{
my ($str) = @_;

my $n = $m->parseToNode($str);#形態素解析

while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語そのもの
my $hinshi = (split( /,/, $n->{feature} ))[0];#品詞
if( ($hinshi eq "名詞") and (length( $word ) >=4) )
$tf{$word}++;#単語のハッシュ変数の出現回数を1増やす
}
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}
5537:2007/03/14(水) 00:24:41
バッチで新聞社の経済記事を毎日読み込んで、単語の出現回数を数えてるのですが、
現在、2250個の文で、発表が428回、東京が369回出現となってます

過去の統計データを使えば、
与えられた「未知の記事」が経済記事であるか?を推定する確率が求められます(・∀・)/
(経済以外の記事の出現回数を、非経済記事である確率に使ってます)


2250
発表,428
東京,369
市場,351
前日,289
ドル,284
株式市場,234
株価,221
東証,188
(改行が多いと怒られたので以下略)
56デフォルトの名無しさん:2007/03/14(水) 09:19:13
パールかー。
ちょっと遅いイメージがあるけど、いまどきのマシンなら問題ないだろうし、
すぐ変更できるし使い勝手はいいだろうね。

あと、しばらくみないうちに変わったのかな。
なんかnewとかあるし…クラスまである?
オブジェクト指向!?
変数名の$は相変わらずのようで…w
57デフォルトの名無しさん:2007/03/14(水) 18:47:46
>>56
どれだけ遅れてるんだよw
10年前のPerl5からずっとOO機構はあったよw
58デフォルトの名無しさん:2007/03/14(水) 20:39:14
>>56は1999年の書き込みだとちょうどいいぐらい
5956:2007/03/14(水) 20:42:50
遅れてるっていうか、そんな使ってないしオレ…
せいぜい簡単な定期処理動かすのくらいだし…
(´・ω・`)ショボーン
60デフォルトの名無しさん:2007/03/16(金) 18:40:23
まぁでもPerl5のOOPはちょっと無理矢理だけどな
クラス設計する側がかなり疲れる仕様
61デフォルトの名無しさん:2007/03/16(金) 18:54:32
> クラス設計する側がかなり疲れる仕様

まぁ慣れの問題のような気がする。

PerlのOOは動的OOだから、
実経験で感覚掴まずに、
仕様だけ見て想像で設計しようとしたら、
まぁ大変だろうね
62デフォルトの名無しさん:2007/03/16(金) 21:56:37
言語ってOOPを取り込むと美しさが全く失われるのはなぜだろう。
自然言語処理とは何の関係もないが・・。
63デフォルトの名無しさん:2007/03/16(金) 23:11:05
ひらがなゲートウェイ
http://www.hiragana-gateway.com/

ひらがなゲートウェイとは、指定したサイトの漢字を全てひらがなで表示させるコンテンツプロキシーです。
64デフォルトの名無しさん:2007/03/16(金) 23:29:57
>>62
表現と構造の次元の違いによるギャップだろ。
自然言語、プログラム言語は一次元的表現
データ構造、オブジェクト構造は二次元以上
etc.
ところで人間の頭の中にある概念空間は・・・いったい何次元だろうね?
65デフォルトの名無しさん:2007/03/17(土) 14:04:50
同じニュースの複数記事をまとめて自動要約してくれるサイト(上)
ttp://hotwired.goo.ne.jp/news/business/story/20020404103.html

ここで紹介されてる複数記事からの自動要約サイトだけど、
ttp://www.newsblaster.com/
ここで書かれてる文章が自動要約なのかな?
かなりまともな文章のように思える。
ただ、どの複数の記事を元にして要約してあるのか分からない。

もうひとつのNewsInEssenceは死んでるみたい。
ttp://www.newsinessence.com/
66デフォルトの名無しさん:2007/03/22(木) 18:27:41
操作員A「こんにちは」 → COM「はい、こんにちは」
操作員A「今日は天気が良いですね」 → COM「そうですか」
操作員A「今日は何月何日ですか?」 → COM「今日は3月22日です」

操作員B「今日の天気はどうでしょう?」 → COM「良いという話です」

…こんなの可能でしょうか?
67デフォルトの名無しさん:2007/03/23(金) 03:55:27
人工無能でそういうふうにプログラムすれば可能だろ。
68デフォルトの名無しさん:2007/03/26(月) 08:28:39
2chのレスは全部人工無能で生成されている。
まめちしきな。
69デフォルトの名無しさん:2007/03/26(月) 19:17:36
>68
まぢで!?
俺もお前も人工無脳だったのか…
誰が!?誰が俺を作ったんだ!?
70デフォルトの名無しさん:2007/03/26(月) 20:16:25
あの晩、おとんが酔って帰ってこなければ・・・
あの時、スキンの買い置きさえあれば・・・
71デフォルトの名無しさん:2007/03/27(火) 19:02:42
俺が思うに・・・
自然言語というか人工知能はRubyとかでこつこつ作るものじゃなくて、
単純なロジックを再帰的に呼び出して形とし、
ある時点ではじめて単語になり、ある時点でやっと文章になる・・・って感じだと思う。
非常に観念的だけど・・・
たぶん、フラクタル理論を勉強して応用したほうが早いんじゃないかと。
72デフォルトの名無しさん:2007/03/27(火) 20:52:49
実際にそれを証明してみたまえ
73デフォルトの名無しさん:2007/03/27(火) 21:02:35
Infinite monkey theoremと何が違うんだ。
74デフォルトの名無しさん:2007/03/28(水) 09:53:31
すべてデータ化する前提で文法解釈ロジックを考えるべきだと思う。
単語はそれが名詞だろうと助詞だろうと動詞だろうとすべて同列なもので
ただ属性が違うだけ、という風に。
75デフォルトの名無しさん:2007/03/29(木) 03:52:18
>>72
結婚してセックルして、子供が出来て3年後ぐらいに証明できる。
76デフォルトの名無しさん:2007/04/05(木) 13:01:22
しつもんなんですが、
形態素解析ソフトを使わないで、
有る文書の中から重要な単語だけを抜き取る場合、
何か良い案はないでしょうか?
77デフォルトの名無しさん:2007/04/07(土) 22:13:12
まず重要という意味を定義しろボケ
78デフォルトの名無しさん:2007/04/08(日) 05:04:54
>>76
形態素解析ソフトを使わないなら、少なくとも自力か他力で
単語の辞書を作る必要があるよ。他力がお勧め。

辞書が出来たら、文書の中に出てくる単語の出現頻度、出現確率などから
適当に重要さを計算すればいい。
一般には他の文書にはあまり出てこないけど、その文書にだけよく出てくる単語、
というのは重要にすればいい。
79デフォルトの名無しさん:2007/04/11(水) 08:31:23
頻出頻度だけ調べたら
「の」「が」「。」が多いだろうね
80デフォルトの名無しさん:2007/04/11(水) 13:33:38
>>79
最長一致法(最も長い単語を採用する)ではダメだろうか。

81デフォルトの名無しさん:2007/04/11(水) 14:26:12
>>79
助詞を省いて、名詞と動詞だけに限定すれば良いんじゃない?
82デフォルトの名無しさん:2007/04/11(水) 14:33:35
頻度ランク100以内は無条件に削除、でもまあいける
83デフォルトの名無しさん:2007/04/14(土) 09:57:28
形態素解析せずに、
助詞を省いて名詞と動詞だけに限定できるの?
84デフォルトの名無しさん:2007/04/14(土) 11:22:23
形態素解析は使わないが、辞書は使う、ということだろう。
85デフォルトの名無しさん:2007/04/14(土) 11:25:36
トートロジー

これだから自作自演は・・・
86デフォルトの名無しさん:2007/04/16(月) 14:55:22
トトロがどうしたって?
87デフォルトの名無しさん:2007/04/17(火) 22:02:43
ACL 07 プラハ
http://ufal.mff.cuni.cz/acl2007/

LRECと同じく、世界遺産の街で学会開催。
研究発表のため旅費を支給してもらい、ついでの
観光旅行は最高。




88デフォルトの名無しさん:2007/04/17(火) 23:03:43
papersに日本人いねえ
オワタ
89デフォルトの名無しさん:2007/04/18(水) 20:11:57
下から2つめ
90デフォルトの名無しさん:2007/04/19(木) 21:54:37
4つあるじゃん.T研から2つ,K先生,あとMSのSさん.
91デフォルトの名無しさん:2007/04/20(金) 06:04:35
チェコ航空だとウィーン経由。
ウィーンで2泊しても成田・プラハ
往復運賃は同じなので、ACLから2日早く
抜け出して、ウィーン観光をする。

ACLは開催期間が長いので、出張が延ばせ、
良い季節に観光旅行ができる最高の学会だ。
92デフォルトの名無しさん:2007/04/21(土) 03:32:26
うぃ〜〜〜ん
93デフォルトの名無しさん:2007/04/22(日) 09:09:24
辻井先生は元気だな
94デフォルトの名無しさん:2007/04/22(日) 12:07:42
この分野で理論だけじゃなく実際のプログラミング言語で実装している入門書か専門書知らないですか?
95デフォルトの名無しさん:2007/04/23(月) 17:21:13
>>94
全くの見当はずれかもしれないけど答えがないよりましだから、
「LISPで学ぶ認知心理学3 言語理解」
佐伯胖監修 田中穂積 元吉文男 山梨正明 共著 東京大学出版会
1983年7月初版 3311-12233-5149
96デフォルトの名無しさん:2007/04/24(火) 08:38:00
たぶんそういうのを求めてるんじゃないと思うが

ちまたにあふれる画像処理本みたいなやつの
自然言語処理版は無いのかってことかと
97デフォルトの名無しさん:2007/04/30(月) 08:55:50
ちょっと質問しますよ

例えばです

今日は天気がいいから
外出しようかな
でも雨が降ったらいけないから
天気予報を見よう

こういう様に複数行に改行された日本語文章があります
2chのレスもそうです

今日は天気がいいから外出しようかな
でも雨が降ったらいけないから天気予報を見よう

これを一文完結してるようにつなげたいのだけどどうしたらいいんでしょう?
98デフォルトの名無しさん:2007/04/30(月) 09:04:13
文章を1文字、2文字、
3文字、4…と
区切っていき、その文字が
文末に来る文字(辞書から検索する)なら
改行する。

とかは?
99デフォルトの名無しさん:2007/04/30(月) 17:15:49
>>97
きちんとやるなら、真面目に形態素解析するしかなかろう。
尤も句点がないと完璧な判断は無理だけどね。

簡易な方法でいいなら、「文末らしい」語の辞書を持っておいて行末をチェックすればいい
100デフォルトの名無しさん:2007/04/30(月) 19:16:28
> 簡易な方法でいいなら、「文末らしい」語の辞書を持っておいて行末をチェックすればいい

簡易すぎ。
せめて次の行の頭が続きそうかどうかは見た方がいい。
101デフォルトの名無しさん:2007/05/01(火) 08:41:16
今日は天気がいいから。
外出しようかな。
でも雨が降ったらいけないから。
天気予報を見よう。

どの文も句点で終わる可能性があるよな
102デフォルトの名無しさん:2007/05/01(火) 08:56:20
>>100
「続き<そう>」これってマルコフ連鎖とかで確立的に決めちゃう方式ってこと?
103デフォルトの名無しさん:2007/05/01(火) 10:19:01
>>97
接続語でチェックすればいいんじゃね?
「から」は文頭に来ることはなさそう.
「でも」は文末に来ることはなさそう.
104デフォルトの名無しさん:2007/05/03(木) 07:23:18
>>95
あーそれ読んだことある!
確かに「LISPを」勉強するときはそのシリーズいいね。
105デフォルトの名無しさん:2007/05/06(日) 23:07:13
自然言語処理のしの字も知らない俺にオススメな本はありますか
106デフォルトの名無しさん:2007/05/06(日) 23:10:05
「テキストマイニングを使う技術/作る技術」が読みやすくていいよ
107デフォルトの名無しさん:2007/05/06(日) 23:27:08
>>105
田中穂積著 自然言語処理―基礎と応用
108デフォルトの名無しさん:2007/05/06(日) 23:44:31
http://www.amazon.co.jp/dp/0262133601/

最近新しい教科書出ないよな
109デフォルトの名無しさん:2007/05/07(月) 07:41:55
>>108
FSNLPってよく推薦されてるけど、そんなにいいか?
あんまり好きじゃないんだけど。
110デフォルトの名無しさん:2007/05/07(月) 09:06:41
すごく偏りがあるのは認める
111デフォルトの名無しさん:2007/05/07(月) 11:31:02
>>108
どっかの研究室で訳してくれないかな

奈良先あたりでさー
112デフォルトの名無しさん:2007/05/07(月) 20:04:41
>>111
http://www.amazon.co.jp/dp/4130654047
ちょっと薄いけどこれじゃだめか?
113デフォルトの名無しさん:2007/05/08(火) 00:06:01
やっぱあれだな。
一口に自然言語処理と言っても形態素解析や係り受け解析のような基礎技術から
テキストマイニングとかのアプリケーションまで幅が広すぎる。
おまけに今は機械学習の各手法を知らないと論文も読めないし、なかなか大変。

研究するって訳じゃなければそんな真剣に考えなくてもいいか。結局何が目的にかによるな。

しかし、新しめトピックもカバーしたライトで実用寄りの入門書は存在しないというのが実情では
ないだろうか。
114デフォルトの名無しさん:2007/05/08(火) 06:32:02
>>113
新しくてライトで実用的って無理じゃね?
「SVMという魔法のツールがあります」から始めるのか?
115デフォルトの名無しさん:2007/05/09(水) 07:50:37
SVMってちゃんと理解しようと思うと
甘利タンの情報幾何学まで引っ張り出さないとダメ
116デフォルトの名無しさん:2007/05/09(水) 09:02:27
文系出身の俺には無理
117デフォルトの名無しさん:2007/05/10(木) 00:08:06
文系ならなおさら言語構造に詳しいだろw
118デフォルトの名無しさん:2007/05/10(木) 05:15:00
116はSVMのことでしょ。
119デフォルトの名無しさん:2007/05/10(木) 07:50:33
自然言語処理をやっている研究室って
画像処理をやっている研究室より数が少ないよね?
120デフォルトの名無しさん:2007/05/10(木) 07:53:46
MSが日本語のNLP研究やり始めたからな…
日本オワタ
121デフォルトの名無しさん:2007/05/10(木) 08:36:52
>>120
終わんねーだろ・・・
常識的に考えて・・・
122デフォルトの名無しさん:2007/05/10(木) 10:55:18
画像処理のほうが
123デフォルトの名無しさん:2007/05/10(木) 11:49:07
世界共通言語
124デフォルトの名無しさん:2007/05/10(木) 12:53:44
英語のこと?
125デフォルトの名無しさん:2007/05/10(木) 15:38:07
エスペラント語に決まってんでしょ
126デフォルトの名無しさん:2007/05/10(木) 19:45:55
何それ?
127デフォルトの名無しさん:2007/05/10(木) 19:55:06
自然言語処理の<教科書>に登場する
(文科系?)言語学者はチョムスキー
の他は誰?
128デフォルトの名無しさん:2007/05/10(木) 20:02:36
チョムスキーが文科系って・・・
129デフォルトの名無しさん:2007/05/10(木) 21:56:22
スタンフォード大HPSGのSag?
130デフォルトの名無しさん:2007/05/12(土) 07:12:08
ロシア人?
131デフォルトの名無しさん:2007/05/12(土) 08:15:59
LFGのBresnan
132デフォルトの名無しさん:2007/05/19(土) 13:34:51
自然言語処理やったらメーカーに入れるの?
133デフォルトの名無しさん:2007/05/19(土) 14:09:12
メーカーなんて自社製品売ってなんぼだから。自然言語処理とか関係ない。
134デフォルトの名無しさん:2007/05/19(土) 14:16:41
修士卒で自然言語処理関係の仕事をやってる人なんていないよ、と教授に言われました。。。
135デフォルトの名無しさん:2007/05/19(土) 14:38:26
うちは歓迎する
136デフォルトの名無しさん:2007/05/19(土) 15:59:57
むしろ、自然言語処理で学部卒とかどうしようもないっしょ
そんな短時間で何が習得できるってんだ。
137デフォルトの名無しさん:2007/05/19(土) 16:03:14
>>135
どこ?
うちの院(マスター)は過去五年間の就職実績で関連した企業なんて、
ヤフー、ジャストシステムくらいだよ
138デフォルトの名無しさん:2007/05/19(土) 16:04:18
NTTデータとか
139デフォルトの名無しさん:2007/05/19(土) 16:20:43
NTTデータ、Google、MSR、Yahoo
この辺は、院卒前提でしょ。
140デフォルトの名無しさん:2007/05/19(土) 16:26:41
自然言語をまじで処理する仕事したけりゃ、
院卒前提だろうな
141デフォルトの名無しさん:2007/05/19(土) 17:20:44
データって関連してるの?
ただのSIかと思ってた
142デフォルトの名無しさん:2007/05/19(土) 19:39:06
うちのとこ(メーカー)は音声・言語のUI開発してるんだけど、
音声や自然言語をやってた学生には来てほしいよ
でも、いっつも、ぜんぜん違うことやってた学生ばっか来るんだよね
143デフォルトの名無しさん:2007/05/19(土) 19:42:31
カーナビとか?
144デフォルトの名無しさん:2007/05/19(土) 19:53:39
>>142
いい勘してる
145デフォルトの名無しさん:2007/05/19(土) 21:46:58
パイオニア?松下?
146デフォルトの名無しさん:2007/05/19(土) 22:33:49
Microsoft Research行きたいよー
147デフォルトの名無しさん:2007/05/19(土) 23:13:38
自然言語処理の研修室かPLDの研究室か迷ってるんだよなぁ
まぁ行くのは来年度の事だけど
148デフォルトの名無しさん:2007/05/19(土) 23:14:50
自然言語は止めといた方が良いよ
149デフォルトの名無しさん:2007/05/20(日) 19:55:01
n-gramモデルを調べようと思ったのですが、何かわかりやすい解説がされてる資料はありませんでしょうか?
完全に知識0からなので、これらがどう有用なのか、とか、どういう研究に使われてるかなどもわかれば嬉しいのですが・・・。

150デフォルトの名無しさん:2007/05/20(日) 21:04:21
ググレカス (AAry
151デフォルトの名無しさん:2007/05/20(日) 22:30:37
自然言語処理研究者の馴れ合いキモス

関西、特に奈良、京都ばっかじゃん
152デフォルトの名無しさん:2007/05/20(日) 22:32:59
>>151
研究室 特定すなww
153デフォルトの名無しさん:2007/05/20(日) 23:59:36
奈良線と京大の馴れ合いですか?
154デフォルトの名無しさん:2007/05/21(月) 00:46:39
NTT
155デフォルトの名無しさん:2007/05/21(月) 01:06:30
>>151
そういうあんたも業界人?
156デフォルトの名無しさん:2007/05/21(月) 01:40:25
名大
157デフォルトの名無しさん:2007/05/21(月) 01:51:54
京大と奈良先端の人多杉ww
関西人ばかりだということが丸わかりのスレだなwww

>>149
簡単な知識だからgoogle先生で十分
厳密さを求めるなら元論文で
158デフォルトの名無しさん:2007/05/21(月) 02:06:43
なんで関西人は自然言語処理好きなの?
159デフォルトの名無しさん:2007/05/21(月) 02:44:33
一昔前、まったく自然言語処理が注目されてなかった時に
予算がなかなか下りなかったって歴史的時代背景じゃね?

で、たまたま、やってた数少ないところが、京大だったって話かと。
奈良先端だって、比較的若い大学院大学っしょ
160デフォルトの名無しさん:2007/05/21(月) 06:46:27
鳥取大学(´・ω・`)ショボーン
161デフォルトの名無しさん:2007/05/21(月) 23:55:49
東工大は最近どうなん?
162デフォルトの名無しさん:2007/05/22(火) 00:06:11
なぜ東大がでない?
163デフォルトの名無しさん:2007/05/22(火) 00:25:17
鳥取は、京大に居たやつが始めたんだっけな。
関東勢はどうも弱いよな。
164デフォルトの名無しさん:2007/05/22(火) 00:46:25
JAIST
165デフォルトの名無しさん:2007/05/22(火) 11:09:55
徒弟制度じゃないけど、
元をたどればN尾先生の弟子だったり孫弟子だっり。
166デフォルトの名無しさん:2007/05/22(火) 11:28:03
ながおタンね
167デフォルトの名無しさん:2007/05/22(火) 12:36:19
ながおタンハァハァ
168デフォルトの名無しさん:2007/05/22(火) 17:54:15
自動翻訳機が発明されないことを祈るスレ
http://academy6.2ch.net/test/read.cgi/english/1015691364/l50

向こう100年はできないと思ってるらしいぞ
169デフォルトの名無しさん:2007/05/22(火) 18:10:22
機械翻訳の技術が向上していけば
より上質な翻訳が出来る翻訳家以外あぼーんだな
170デフォルトの名無しさん:2007/05/22(火) 20:05:45
でも、所詮今の機械翻訳って、大企業が金に物を言わせて巨大な辞書を作ってお茶を濁してる感じでしょ。
もう破綻した手法だが、だからと言って別の手段だと誤訳率が上がるんだよなぁ。
171デフォルトの名無しさん:2007/05/22(火) 20:13:40
100億文くらい例文集めても駄目か?
172デフォルトの名無しさん:2007/05/22(火) 20:58:17
英語はほとんどが比喩表現だから辞書いくら作っても無駄w
173デフォルトの名無しさん:2007/05/22(火) 21:12:39
翻訳機械が完成されるのと、脳に意味を直に送信できるようになるのではどちらが先ですか。
174デフォルトの名無しさん:2007/05/22(火) 21:21:32
>>172
>英語はほとんどが比喩表現
そこで、G. Lakoffが登場し、UC Berkeleyの自然言語
処理グループとの共同研究で巨額なNSF資金を獲得する。
175デフォルトの名無しさん:2007/05/22(火) 21:23:32
ぬおお!足りぬ・・・・足りぬぞ・・・!コーパスがッ!
176デフォルトの名無しさん:2007/05/22(火) 22:02:03
まぁ、機械翻訳なんてのは大企業に任せときなさいって
どうあがいても学術機関では敵わない。
小さなコーパスで何か画期的な事が出来るようなモデルを考えるとかじゃない限りな。

177デフォルトの名無しさん:2007/05/23(水) 06:11:12
ATRも大企業になるのか?
178デフォルトの名無しさん:2007/05/23(水) 22:16:50
国からの補助金は削減された?
179デフォルトの名無しさん:2007/05/23(水) 22:18:14
優しくてかわいい彼女が欲しい脳
頭がよければモアベター
180デフォルトの名無しさん:2007/05/23(水) 22:19:28
大規模な誤爆をしました
181デフォルトの名無しさん:2007/05/25(金) 17:00:46
>>1-178を機械翻訳した結果が>>179だぞ。

日本の自動翻訳もここまできた!
182デフォルトの名無しさん:2007/05/25(金) 20:50:27
Google翻訳よりExcite翻訳、Excite翻訳よりYahoo翻訳の方がいいな
183デフォルトの名無しさん:2007/05/25(金) 21:04:15
>>182
>Yahoo翻訳の方がいいな
私もそう感じます。理由をご存知の方はいらっしゃいますか?
184デフォルトの名無しさん:2007/05/25(金) 21:21:07
それは、そう思った理由が、そもまま理由じゃないか?
185デフォルトの名無しさん:2007/05/25(金) 21:28:27
ttp://www.google.com/intl/ja/help/faq_translation.html#google
googleのこの辺を読んでみると、
googleはパラレルコーパスで統計的に処理してるっぽい

日:おはようございます.
英:Good morning.
独:Guten tag.

みたいに各言語の対訳を大量に作ってるのかいな?
186デフォルトの名無しさん:2007/05/26(土) 02:27:55
>>183
Yahooはなぁ、"ぬるぽ"を翻訳したら「ガッ」になった事があって嗤ったっけ
187デフォルトの名無しさん:2007/05/26(土) 11:15:35
私もそう感じます。理由をご存知の方はいらっしゃいますか?

google翻訳
→I so feel. As for the person who knows the reason it is and others the [tsu] plain gauze is? 

yahoo翻訳
→I feel so it, too. Does a person knowing a reason come?

googleはしっかりしろ
検索ボットやgmailやgoogle docでテキストを只で手に入れてんだからさー

188デフォルトの名無しさん:2007/05/26(土) 15:34:45
50歩100歩のような。。。

I think so too, Does anyone know the reason?
とか、もっと自然に訳してくれるソフトはないの?
Webの無料翻訳じゃなくて、富士通のAtlasとかでも全然だめなのかな。
189デフォルトの名無しさん:2007/05/26(土) 17:04:07
【福島】男性教諭、同級生を冷やかしていた生徒を注意し頭を叩く→保護者に謝罪
http://news22.2ch.net/test/read.cgi/newsplus/1180156670/1
http://news22.2ch.net/test/read.cgi/newsplus/1180156670/2 ←

【愛知・発砲立てこもり】解決まで約29時間…「いつまで作戦考えていたのか」「仲間を長時間放置したことは許せない」 県警内からも批判の声
http://news22.2ch.net/test/read.cgi/newsplus/1180154539/1
http://news22.2ch.net/test/read.cgi/newsplus/1180154539/3 ←


その他大量多数。
語句の並び替えて文意をめちゃくちゃにするだけで、

  つ ま ら な い し 、う ざ い か ら や め ろ よ 

形態素解析覚えたての馬鹿のしわざだろう?
馬鹿ほど使って見せたがるからな。

あと君、著作権法第20条同一性保持権違反だから。

著作権法
(同一性保持権)
第20条 
著作者は、その著作物及びその題号の同一性を保持する権利を有し、
その意に反してこれらの変更、切除その他の改変を受けないものとする。
190デフォルトの名無しさん:2007/05/26(土) 17:15:39
>>187
テキストがあったって意味が分からないと知識にはならんがな。
191デフォルトの名無しさん:2007/05/26(土) 18:10:38
excite翻訳のbizlingoはatlasがベースだろ?
192デフォルトの名無しさん:2007/05/26(土) 20:50:41
オープンソースの英日機械翻訳のプロジェクトはまだないのかな。
結局、機械翻訳っつーのはコーパスをガシガシ整備しさえすりゃいいんでしょ?
ほら、同音多義語なんかは今風にタグでジャンル別に分類すればいいわけだし。
なんかそんな難しい分野じゃない気がしてきた
193デフォルトの名無しさん:2007/05/26(土) 20:55:06
( ^ω^)タダでコーパス書いてくれる人が居ればね
194デフォルトの名無しさん:2007/05/26(土) 21:06:38
オープンソース厨は(゚听)イラネ
195気まぐれアナスイ:2007/05/26(土) 21:11:04
上手く理解すれば出来ると思いますが?
196デフォルトの名無しさん:2007/05/26(土) 21:55:55
ソースを部品と見抜けない人には(オープンソースを使うのは)難しい

オープンソース思想家は去れ。
オープンソース厨と罵倒するのは簡単だ。
197デフォルトの名無しさん:2007/05/26(土) 23:33:48
日本語WordNetの構築は、なぜ行われないの
でしょうか? EDR関係者が邪魔をしているの
でしょうか?
198デフォルトの名無しさん:2007/05/27(日) 01:20:56
関西の連中が牛耳ってるからだろ?
自分とこの研究室で研究させて論文生産して
院生をATRとかNICTあたりに突っ込んで
また自分とこの研究室と一緒に研究させて論文生産して
199デフォルトの名無しさん:2007/05/27(日) 20:00:16
図星かよwww
200デフォルトの名無しさん:2007/05/27(日) 20:02:51
>>198が見えない
201デフォルトの名無しさん:2007/05/27(日) 20:05:16
内輪過ぎて大半の人がついてきてないんじゃね?w

このスレは、NISTと京大と鳥取と、ATR、NICTの提供でお送りしました。


ここム板だから、あんまり内輪すぎる話をするのもどうかと
202デフォルトの名無しさん:2007/05/27(日) 20:39:59
まったくの専門外の分野から自然言語処理をやるマもいないだろ?
203デフォルトの名無しさん:2007/05/27(日) 20:44:01
いくらでもいるだろ
204デフォルトの名無しさん:2007/05/27(日) 21:07:14
JAISTのこともときどき思い出してやってください
205デフォルトの名無しさん:2007/05/27(日) 22:57:59
[JN]AIST
206デフォルトの名無しさん:2007/05/28(月) 02:18:19
JAISTとか、能無しが行くところだろ。
名前が似てるだけでNAISTの姉妹っぽい扱いされてるのが気に入らん。全然格が違うのに。
まるで電気通信大学と、大阪電気通信大学みたいだ。
207デフォルトの名無しさん:2007/05/28(月) 02:22:56
いやいや、いくらなんでもこのスレは内輪すぎるだろ・・・w
既に部外者が入り込める雰囲気じゃねぇwww
いくら業界狭しといえど、ちょっと狭すぎないか

という俺は、ここに名前すら挙がってない大学の自然言語処理の研究室の人間だけどな・・・orz

>>206
大学院大学に入学資格に関して格差なんてあんの?
学部と違って、大学院に関しては好きな所に入れるイメージあるんだけど。
担当教官とさえ話が合えば・・・
208デフォルトの名無しさん:2007/05/28(月) 02:55:35
まさにセクトの内ゲバだなww
209デフォルトの名無しさん:2007/05/28(月) 03:45:04
>>206
どっちも同じだろw
誰でも入れる院に変なプライド持つなよ
210デフォルトの名無しさん:2007/05/28(月) 10:34:54
何か関西に恨みでもあるのかよ。
211デフォルトの名無しさん:2007/05/28(月) 20:32:28
一応はっとくね

【言語】国立国語研究所、1,000万語分の日本語コーパスを試験公開
http://news22.2ch.net/test/read.cgi/newsplus/1180351757/
212デフォルトの名無しさん:2007/05/30(水) 00:42:54
200文字程度のデータを読み込んで、
その文書が英日独仏西伊のどの言語
かを判断するツール/モジュール/
ライブラリを探しています。できれば
perlで使えるものが良いですが、何か
ございますか?
213デフォルトの名無しさん:2007/05/30(水) 00:46:09
Lingなんとか::なんとかっていうモジュールがCPANにあったな・・・
214デフォルトの名無しさん:2007/05/30(水) 12:13:56
googleとつるんでるbasis techで売ってるよ
215デフォルトの名無しさん:2007/05/31(木) 20:58:07
YO!
216デフォルトの名無しさん:2007/06/03(日) 20:22:13
誰かGosen使ってみた人いる?
いたらインスト情報プリーズ。
なんか動かんorz
API周りの変更が原因っぽいが。
217デフォルトの名無しさん:2007/06/04(月) 01:11:41
この分野ってさ
ノーベル賞とか、取ろうと思えば取れるような分野なの?
過去に受賞した人とか居るのかな?

チョムスキーが提唱したような、人間の脳による、正確な生成文法をキチンと科学的に解明出来れば、取れそうなもんだが
ぶっちゃけ、それもう自然言語処理の分野から外れてるような。


いやぁ、今高校2年なんだが、将来どんな分野に行くか考えてる時期で、自然言語処理に興味あるんだけど
どうせなら、ノーベル賞くらいと思ってねwww
恥ずかしい夢物語だけどw
218デフォルトの名無しさん:2007/06/04(月) 01:24:10
ノーベル生理学賞取るんなら、医学系行って言語野調べたほうがよさそうな。
自然言語処理なら、ノーベル賞よか、チューリング賞じゃないか?
219デフォルトの名無しさん:2007/06/04(月) 11:29:58
自分で賞を創設する
220デフォルトの名無しさん:2007/06/04(月) 22:08:28
やっぱ、ここは長尾賞
221デフォルトの名無しさん:2007/06/04(月) 22:24:19
長尾翔ってもうなくね?
222デフォルトの名無しさん:2007/06/05(火) 02:47:37
誰かチューリング賞くらい取れよ。
日本人じゃあまだ誰も出てないだろ?

個人的にCPU開発者の嶋正利とか、TRONの坂村健とか、ちょっと格が落ちるがRubyのまつともとかは、
とってもいいくらいだと思うんだがな。
ACM会員じゃないとかがやっぱでかいんだろうか、それともアメリカの日本のコンピュータ封じか?

アジアだと、中国人が受賞してたっけ。

223デフォルトの名無しさん:2007/06/05(火) 16:48:52
なんでまつもと氏が取るんだよw
224デフォルトの名無しさん:2007/06/05(火) 17:43:56
matzはないw
225デフォルトの名無しさん:2007/06/05(火) 18:34:10
マッツって聞くと松屋で牛丼でも食ってきたくなるんだよ
行ってくるわ
226デフォルトの名無しさん:2007/06/05(火) 21:34:35
>>222
>誰かチューリング賞く
同性愛者以外は対象外?
227デフォルトの名無しさん:2007/06/05(火) 23:05:38
フォートランの人がとってたから、matzにもチャンスはあるんじゃね?
228デフォルトの名無しさん:2007/06/06(水) 00:38:33
229デフォルトの名無しさん:2007/06/06(水) 08:31:01
>>228
つい数ヶ月前に亡くなられたのか。 黙祷。
230デフォルトの名無しさん:2007/06/06(水) 15:00:06
>>216
俺はできたけど、どこで詰まるの?
231デフォルトの名無しさん:2007/06/06(水) 15:23:54
mecabの焼き直しだっけ?
232デフォルトの名無しさん:2007/06/06(水) 16:23:50
mecab->sen->gosen
mecab0.8系?

自前辞書がコンパイルできなかったから、senに戻したよ。
もうmecab-javaにしたい。
233デフォルトの名無しさん:2007/06/06(水) 19:43:27
自然言語処理界のアイドルって誰?

長尾タン?
工藤ちゃん?
たつを?
234デフォルトの名無しさん:2007/06/06(水) 20:15:45
長尾タンハァハァ
235デフォルトの名無しさん:2007/06/06(水) 21:34:56
辻たんも黙ってないぞ
236デフォルトの名無しさん:2007/06/06(水) 21:36:45
松っちゃんもいるがな
237デフォルトの名無しさん:2007/06/06(水) 21:57:11
>>234
本人乙
238デフォルトの名無しさん:2007/06/06(水) 23:14:16
長尾バロス
239デフォルトの名無しさん:2007/06/11(月) 16:08:09
AAMTアゲ
240デフォルトの名無しさん:2007/06/11(月) 20:02:39
はいはいまた馴れ合い
241デフォルトの名無しさん:2007/06/15(金) 15:29:40
242デフォルトの名無しさん:2007/06/19(火) 06:47:41
excite翻訳で 

スゲиシ┐ゝ,ザァ,ユЮ. 
θイ,ゎモモモモマいデ. 
びデた,ゝС,さーモモモモデゝねг 

↑を中国語→日本語翻訳してみると・・・・ 
http://www.excite.co.jp/world/chinese/ 

こういうのってわざとやってるの?
それとも偶然なの?
243デフォルトの名無しさん:2007/06/19(火) 17:23:02
朝は必ず私は厨房の妹に飛びかかって、すがりついてお願いして、交尾
して乳をむさぼって、ただぱんぱんぱんぱん穴の中で犯すのがあま
りに犯します凶悪で、妹は身ごもって、今しようがなくぱんぱんぱんぱん妹の友達を犯して我慢します

偶然というより
中国語の文字コード見れば氷解するんじゃないかな
244デフォルトの名無しさん:2007/06/19(火) 20:50:43
うほっmoonとかも?
245デフォルトの名無しさん:2007/06/19(火) 21:22:31
大量のコーパスとして学術論文データが欲しいのですが、PDF論文データを大量にGETできる方法はないでしょうか?
246デフォルトの名無しさん:2007/06/19(火) 21:25:39
○○周年記念DVDとか なかったっけ?
どこの学会は忘れたが…。
247デフォルトの名無しさん:2007/06/19(火) 22:03:50
変な日本語多いじゃん
248デフォルトの名無しさん:2007/06/25(月) 20:04:39
yamcha-0.33.tar.gzを展開してインストールしようと思ったんだけど、
Makefileが入ってないのは仕様ですか?
249デフォルトの名無しさん:2007/06/26(火) 10:03:44
しょうです
250デフォルトの名無しさん:2007/06/26(火) 12:44:52
public static void main(String[] args){
int [] [] Ma=new int[Machine+1][K+1];
int [] forbid=new int [Job+1];
int [] penal=new int [Job+1];
int Obj=0;

for(int i=1;i<=Job;i++){
int mindue=10000;
int assignJob=0;
for(int i2=1;i2<=Job;i2++){
if(mindue>(duedate[i2]+forbid[i2])){
mindue=duedate[i2]+forbid[i2];
assignJob=i2;
}
}
251デフォルトの名無しさん:2007/06/28(木) 12:12:18
コーパス中の任意の場所が類似しているというのを線形時間ぐらいで近似的に見つけ出すという方法を考えてるんですが、

2chでは特にそういうの(類似表現)多そうですが

助詞が入っていないとか間違ってるとか、
語尾や言い回しが微妙に違うとか、
主語、目的語が違うとか

これとこれとこれと....これが類似してる と示せます
そして、その「これ」が、先に与えられているわけではない、というやつです。

※エントリとエントリの類似度を測るのではないです。
任意のエントリ中の任意の部分文字列と
任意のエントリ中の任意の部分文字列との中から
(つまり可能な全ての部分文字列の組)


そういうのを全部見つけ出す方法考えたんですが
その、評価方法を知らないでしょうか?

見つけ出す方法は大体できてるんですが、
それがこんなに有効なんですよと、示すための(他の手法との)比較方法がわかりません。(そんな研究が存在しているのかどうか)


252デフォルトの名無しさん:2007/06/28(木) 12:16:50
>そういうのを全部見つけ出す方法考えたんですが

kwsk
253デフォルトの名無しさん:2007/06/28(木) 15:03:33
lcs?
254デフォルトの名無しさん:2007/06/28(木) 16:53:14


コーパスの例は適当です。

@東京・臨海地区に新しく開設される警察署の名称が「東京湾岸署」となる可能性がでてきました。まだ正式決定ではないですが、
別に踊る大捜査線を意識したものではないのだそうです。.....

A警視庁が来年3月に臨海地区に開署予定の警察署の名称に「東京湾岸署」とする条例改正案を提出する方針らしい。
踊る大捜査線を意識してないと発表してるけど、.....

B「東京湾岸署」新設へ 「踊る大捜査線」意識せず
臨海副都心に新設される警察署の名称が「東京湾岸署」に決まった。......


@ [臨海地区に新しく開設される警察署の名称が「東京湾岸署」]
A [臨海地区に開署予定の警察署の名称に「東京湾岸署」]
B [臨海副都心に新設される警察署の名称が「東京湾岸署」]

が、それぞれ 似ている T

@ [踊る大捜査線を意識した]
A [踊る大捜査線を意識して]
B [踊る大捜査線」意識せず]

が、それぞれ 似ている。U

というように、(厳密一致ではなく)似てると思う部分を(線形時間ぐらいで)列挙するもちろん、@ABは便宜上書いているだけで、このように文書が分かれていなくても

類似検索などでは 「踊る大捜査線を意識」というようなクエリーを与えられてからUを返せばよいが、
そうではなく、コーパスを読み込んだときに、こういう類似パターンを「先に全て」列挙する(人間が気づいていない類似パターンがあるかもしれない)
255デフォルトの名無しさん:2007/06/28(木) 17:54:14
卒論の時期なのかな
256デフォルトの名無しさん:2007/06/28(木) 19:42:17
>>251
遺伝子の配列アラインメント問題関連で調査すると良いかもしれないです
257デフォルトの名無しさん:2007/06/29(金) 00:46:45
ブロックソーティング
258デフォルトの名無しさん:2007/07/03(火) 12:30:05
SVMでOK。
259おねたん:2007/07/04(水) 21:36:59
SVMと同様なクラスに分類されるアルゴリズムはいろいろあるだろ
SVMに拘る意味が不明だと思った。知ってる言葉並べただけ?
260デフォルトの名無しさん:2007/07/06(金) 06:04:01
>>259
ハイパーパラメータが少ないし、libsvmなど出来合いのツールで手っ取り早くできるからじゃない?
261デフォルトの名無しさん:2007/07/06(金) 07:16:25
だからブロックソートが一番早いっつーの
インデックスを作る時間を考慮しなければ最大でも線形時間ですむ
262デフォルトの名無しさん:2007/07/06(金) 10:32:13
SVMというバカチョンツールが出てきたから
つまんなくなったな

カーネル法の奥は深いけどさ
263デフォルトの名無しさん:2007/07/06(金) 14:42:47
SVMのおかげでベースラインには困りません
264デフォルトの名無しさん:2007/07/06(金) 16:53:40
誰か僕にノンパラベイズを教えてください
265デフォルトの名無しさん:2007/07/07(土) 10:33:32
つ今年のACLツートリアル
266デフォルトの名無しさん:2007/07/07(土) 11:04:45
どこ?
267デフォルトの名無しさん:2007/07/07(土) 19:47:06
このスレの人達にいくつか質問が.

エスペラントでは単語の後に品詞を示す接尾語がついていて,
少なくとも品詞解析のレベルまでは曖昧性なしで行けると思うんだけど,
こういう,ある程度文法が整理された人工言語をコンピュータで解析している研究とか知ってる人がいたら教えてください.

エスペラントとかを話す人はかなり少ないけど,
コンピュータによる理解が容易であるなら普及にもつながるはず…と思うんだがそこら辺はどう思う?
たとえば,ある言語Xから英語や中国語へ正確な翻訳ができるなら,Xを勉強するコストを支払うか,という質問.
268デフォルトの名無しさん:2007/07/07(土) 20:33:51
>>266
プラハ
269デフォルトの名無しさん:2007/07/07(土) 20:51:34
そういう問題じゃねえw
270デフォルトの名無しさん:2007/07/07(土) 22:16:19
>>267
エスペラント語から英語や中国語へ翻訳ができても、逆ができないなら、魅力はほぼないと思う。
こっちから何か伝えることはできても、相手の言ってることはわからないんじゃ、英語でも覚えるほうがマシ。

逆に、エスペラント語と英語や中国語との間で相互に正確な翻訳ができるなら、当然エスペラント語経由で英中・中英の正確な翻訳ができる。
この場合、エスペラント語はコンピュータが理解してれば充分で、人間は覚える必要がない。

…ってことで、その路線でも普及しないと思うよ、エスペラント語。
271デフォルトの名無しさん:2007/07/08(日) 00:18:45
>>270
でも誰かに読ませるためにHTMLとかを覚える人は沢山いるでしょ.
インターネット上で何か発信したいと思ったらその言語で書けば主要な言語に翻訳されるわけだから,
読む方にとってみれば相当の省力化になると思う.

書く方にしても,マニュアルとか書く人にしてみたら一つ書けば多言語のマニュアルができあがるわけだし.
272デフォルトの名無しさん:2007/07/08(日) 01:24:10
>>267
中間言語にエスペラント語を使った自動翻訳システムがあると聞いたことがある
273デフォルトの名無しさん:2007/07/08(日) 03:35:16
>>272
はいはい
274デフォルトの名無しさん:2007/07/09(月) 02:57:45
275デフォルトの名無しさん:2007/07/16(月) 13:28:35
統計翻訳っていまいちじゃね?
276デフォルトの名無しさん:2007/07/19(木) 10:53:11
MeCab
277デフォルトの名無しさん:2007/07/19(木) 19:38:08
ChaSen
278デフォルトの名無しさん:2007/07/20(金) 11:06:59
JUMAN
279デフォルトの名無しさん:2007/07/20(金) 14:14:31
KAKASI
280デフォルトの名無しさん:2007/07/20(金) 15:47:43
Ukkonen's algorithmが分からん
281デフォルトの名無しさん:2007/07/21(土) 02:57:43
奇遇だな。俺も今Ukkonen's algorithmを実装してる。
確かに難しい。今まで書いたプログラムの中で一番難解だ。
282デフォルトの名無しさん:2007/07/21(土) 07:14:42
(・∀・)ウッコネン!
283デフォルトの名無しさん:2007/07/21(土) 09:36:42
MecabやChaSenってURLを一まとめに扱ってくれないみたいですが、扱えるようにするパッチとかはありませんか?
284デフォルトの名無しさん:2007/07/21(土) 13:02:31
解析結果に後処理かますのが一番簡単そう。
285デフォルトの名無しさん:2007/07/22(日) 12:22:03
Win版MeCabにUTF-8を突っ込むのは無理なの?
やっぱ、EUC以外だと、./configureのオプションつけるしかないのかな?

この辺、iconvでも使って、パフォーマンスは落ちるけど、コマンドライン引数で何とかできるようにすればいいのに
286デフォルトの名無しさん:2007/07/22(日) 13:31:03
>>285
そういうラッパーを自分で書けばいいだろ
287デフォルトの名無しさん:2007/07/22(日) 13:57:54
win版も工藤が作ったの?

コードのセンスは良くないよね
288デフォルトの名無しさん:2007/07/22(日) 14:18:30
Haskellってどうよ。
289デフォルトの名無しさん:2007/07/22(日) 14:18:32
正直、MeCabとChasenは辞書を共通にしてもらえるとありがたかった・・・。
そしたら、俺の仕事が大変楽になったのに・・・。
どっちもDARTSライブラリ使いまわしで、DobleArray構成してるんだよね?

290デフォルトの名無しさん:2007/07/22(日) 14:39:45
dartsのベンチって誰かとった?
他にもっと速いのないの?
291デフォルトの名無しさん:2007/07/23(月) 06:51:06
Txは、dartsよりサイズが小さくなるけど、今のところまだ遅いみたいね。
292デフォルトの名無しさん:2007/07/23(月) 08:51:19
Suffix Arrayは駄目なの?
293デフォルトの名無しさん:2007/07/23(月) 10:08:25
はい?
294デフォルトの名無しさん:2007/07/24(火) 05:56:53
ライブラリの話をしてるんだろが・・・
295デフォルトの名無しさん:2007/07/24(火) 14:47:36
ライブラリ途中下車の旅
296デフォルトの名無しさん:2007/07/24(火) 19:20:00
自然言語処理のゴール地点はどこだと思いますか?
297デフォルトの名無しさん:2007/07/24(火) 19:22:29
コンピュータと人間で人間らしい会話ができたらかな
298デフォルトの名無しさん:2007/07/24(火) 20:19:24
チューリングテスト?
それって特定の分野に絞ればもう合格してたような希ガス
299デフォルトの名無しさん:2007/07/24(火) 22:56:11
ELIZAタイプは例外ルールだとよ。
300デフォルトの名無しさん:2007/07/25(水) 07:56:58
昔ラクターってソフトがあってな
301デフォルトの名無しさん:2007/07/25(水) 09:11:04
ねーよ
302デフォルトの名無しさん:2007/07/25(水) 20:22:11
303名無しさん@そうだ選挙に行こう:2007/07/29(日) 16:34:48
     いいか、みんな
        (゚д゚ )
        (| y |)

   ハードディスクが中国で人気が在ると言っても
                
     ハード ( ゚д゚) ディスク!
       \/| y |\/

   exciteの中国翻訳で日本語に訳してみよう。
        ( ゚д゚) ハードディスク
        (\/\/

   すごい事になりますた。
        ( ・д・)
        (| y |)
http://www.excite.co.jp/world/chinese/
304名無しさん@そうだ選挙に行こう:2007/07/29(日) 19:41:07
こうでんしゃって新卒とってるのかなー
305デフォルトの名無しさん:2007/07/30(月) 15:38:50
>>303
各種ディスクドライブ
でやってみると…
306デフォルトの名無しさん:2007/07/30(月) 23:47:39
「ババブーディンゴ」とか。
307デフォルトの名無しさん:2007/07/31(火) 18:52:56
LFG理論に基づく自然言語処理を30年近く続けてきたRon Kaplanが
Powerset社に参加し,サーチエンジンに自然言語処理を本格的に
応用する。

Kaplan, who has led the [Xerox PARC] “natural language” group for several years,
joined Powerset as chief technology officer in July.

http://72.14.235.104/search?q=cache:pw6gx1zSSC4J:venturebeat.com/2007/02/08/powersets-search-technology-scoop-may-scare-google/+Powerset+and+Natural+Language+Search+kaplan&hl=ja&ct=clnk&cd=1&gl=jp


LFGを応用すると,こんな検索が可能となるそうだ。
“Who acquired IBM?” Google will give you lots of results about companies that
IBM acquired, even though that’s not what you asked. Powerset, on the other
hand, will give results of the companies that acquired IBM units

LFGは日本語の処理も可能で,多言語対応版はXFGと呼ばれている。

ACL2007ではPowerset社COEが基調講演を行った。講演後にKaplanとともに
皆の祝福を受けていた。
308デフォルトの名無しさん:2007/07/31(火) 21:19:55
せきねしね
309デフォルトの名無しさん:2007/08/01(水) 09:45:52
ごめん、検索エンジンを高機能化するって
いったい現状のどこが不満なのかわからん。
推論マシンみたいにしたいって事?
310デフォルトの名無しさん:2007/08/01(水) 09:48:53
心を読み取る装置は本当に実在する!!

僕、実は思考盗聴されているんですけど!その3
http://life8.2ch.net/test/read.cgi/jinsei/1179663175/
311デフォルトの名無しさん:2007/08/01(水) 10:00:01
キーワード入れるんじゃなくて、いわゆる自然文検索ってことかしら?
312デフォルトの名無しさん:2007/08/01(水) 12:28:35
今のGoogleってwikiがいつも上位に来て、ちょっと間違ってるような気がする。
最近出来たばっかりのページでも「正しい」内容を書いてあるページを
理解して、そこを上位にして欲しい。
313デフォルトの名無しさん:2007/08/01(水) 13:12:05
ようするに

"日本国の総理大臣は誰ですか?"
"今流行のファッションはなんですか?"

って検索すると、答えのページが出てくるって話だろ。




Prologを実装したらよくね?w
314デフォルトの名無しさん:2007/08/01(水) 13:37:55
Powersetが14億7千5百万円を投資家から集める
Powerset gets $12.5M

http://72.14.235.104/search?q=cache:2mmdnsTfx6oJ:venturebeat.com/2006/11/05/powerset-gets-125m-at-whopper-valuation-to-go-after-search-holy-grail/+%22has+raised+%2412.5+million+%22&hl=ja&ct=clnk&cd=2&gl=jp

日本の自然言語処理も高く売れるといいね。

Powerset/PARCのLFGパーサー出力を次にどのように意味分析するかは,
企業秘密なのだろう。講演を聞いても分からなかった。同じACL2007で
元PARCの研究者がLFG+意味解釈について発表していた。彼女は,
Powersetとは関係ないが,参考になるかも。

http://www.aclweb.org/anthology/W/W07/W07-1402
315デフォルトの名無しさん:2007/08/01(水) 13:52:47
316デフォルトの名無しさん:2007/08/01(水) 14:03:14
基本語彙群を理解でき、かつ、基本語彙のみにより他の語を完全に理解できるという状況を考える。
未定義の語を基本語彙へ置き換えることで定義すれば、理解できた(定義された)文は、基本語彙のみにより記述されている。
ただし、語に複数の意味がある場合、意味で分類しなければならない。どの意味になるかは、文の理解に必要で、
人工知能が正確な意味を確認する状況も想定される。例えば、「肩車」を「肩」と「車」の
複合語として読み取った場合、「車」は一般的な「自動車」の意味なのかを確認する必要があるかもしれない。
317デフォルトの名無しさん:2007/08/09(木) 21:43:03
このスレの住人って2chの過去ログを解析して関連スレを列挙するくらい朝飯前ですか?
そんな感じの処理に役立つソフトやライブラリ、アルゴリズムを教えてください。
318デフォルトの名無しさん:2007/08/09(木) 21:55:45
カテゴリ分けに必要な辞書作成に、時間と労力を消費するから
個人がどうとか言うレベルの話ではないと思われ。
319317:2007/08/09(木) 22:12:49
えー。でもローカルに落とした過去ログって何かもったいなくないですか?
個人利用にとどめれば2chは訴えたりしないだろうし、一種のコーパス、知識データベースとして
見ればなかなかオイシイですよ。特に質問スレ。
聞いたことあるな〜って単語があったとき、詳しく知るためにgrepしたこと数知れず……。
もしかして私だけ?( ̄〜 ̄;)
320317:2007/08/09(木) 22:25:32
ローカルの過去ログ集合に対して、各ログを形態素解析

平均との差分を取って、出現箇所の偏りが激しい単語を抽出

それらの単語について共起確率を計算、適当にカテゴリ化

カテゴリ内の距離を詳しく計算

みたいな感じで地図つくったらなんか便利そうなのよね。
321デフォルトの名無しさん:2007/08/10(金) 00:08:11
A社のコーパスをNさんが機械的に処理して何らか統計情報(単語のリスト、出現数、共起確率など)を得た場合、
この統計情報は誰のものになりますか?
A社のコーパスのかわりに、B社のWEBサイトの文章を使った場合についても教えてください。
322デフォルトの名無しさん:2007/08/10(金) 07:55:01
>>321
統計情報のみの提供なら、統計情報は統計情報を作った人の物。

323デフォルトの名無しさん:2007/08/11(土) 09:01:35
そうなの?

だめなんじゃない?
324デフォルトの名無しさん:2007/08/11(土) 09:02:23
社会保険庁の名前処理で
声かけられた人いる?
325デフォルトの名無しさん:2007/08/11(土) 09:19:14
DoubleArrayとSuffixArrayを比べた場合。
SuffixArrayの利点は何かあるんでしょうか?
直感的に(実装が)分かりやすいくらい?
326デフォルトの名無しさん:2007/08/11(土) 12:48:12
比べるのが間違ってる。
327デフォルトの名無しさん:2007/08/11(土) 13:47:05
90年代のアルゴリズムと比べるとかありえない…
特定分野に限れば、Suffixに構築速度の点で一応分がある

あとDoubleアレイは辞書引き特化だから、全文検索に使うのは一工夫いる
328デフォルトの名無しさん:2007/08/12(日) 03:38:32
>>323
Googleとか、普通に検索エンジンのデータ流用してるし、売ったりもしてるっしょ。
329デフォルトの名無しさん:2007/08/12(日) 09:32:49
市販の辞書はダメでしょ?

辞書ファイルをぶっこぬいて
それを処理したら・・・
330デフォルトの名無しさん:2007/08/14(火) 18:15:10
そういや、Googleのクエリサーバーのディスクスペースってどれくらいあんのかな?
そこから大量の統計データ取ってそうだけど。
331デフォルトの名無しさん:2007/08/14(火) 21:38:33
クエリサーバとかディスクスペースとか、なんて前時代的な。
332デフォルトの名無しさん:2007/08/15(水) 18:30:14
>>329
辞書とか確率とか、自然言語処理って圧縮操作に似てるところがあるから、
オリジナルの劣化圧縮版と見做されると危険は常にあるよね。

市販の辞書をコーパスにするのがまずいっていうのは、そういう背景があってのことでしょ?
言い換えるなら、情報の有無自体が辞書の価値だからさ。
333デフォルトの名無しさん:2007/08/15(水) 18:31:20
記号論的人工知能も、自然言語処理も、
なんか時代に取り残されてる感じだよね。

統計学を熟知したスーパーハカーが趣味で書いたコードのほうが
実際には訳に立ちそうな感じ。スパムフィルタとか。
334デフォルトの名無しさん:2007/08/15(水) 19:12:48
>>332
そういえば、Googleは他人のサイトのデータを勝手に使って、色んなサービス(検索エンジン自身も)をやってるわけだけど
ああいうのって、裁判起こされたりしないのかな?
335デフォルトの名無しさん:2007/08/15(水) 19:43:48
>>334
Google「おいおい、俺らは利用者のためにサービスを向上させてるだけで、
     それ以外のことはしてないぜ?」
Google「俺らのサービスは、利用者をオリジナルのサイトに案内することだ。
     そのために要約を作ったり、統計を使ったり、辞書を作ったりする。
     ついでに広告も出す」
Google「どうしても嫌ならサイトのトップディレクトリに robots.txt 置けよ。
     お望みどおり、サイトが『存在しなかった』ことにしてやるからwww」

という感じ。
336デフォルトの名無しさん:2007/08/16(木) 18:48:50
なんというネットマフィアw
337デフォルトの名無しさん:2007/08/16(木) 20:34:24
Googleは他人のふんどしで相撲を取ってる、というイメージが付きまとって
好きになれない。
338デフォルトの名無しさん:2007/08/16(木) 21:52:42
>>334
なんかグレーゾーンって著作権やってる弁護士に聞いたことある。
特にキャッシュなんかはまずいらしいけど。
339デフォルトの名無しさん:2007/08/17(金) 18:58:12
しかしそのGoogleの食べ残しに群がるだけの研究の多いこと。
340デフォルトの名無しさん:2007/08/17(金) 22:27:14
もうGoogleがいるから研究する気なくなりそう。
341デフォルトの名無しさん:2007/08/18(土) 02:13:49
っていうか逆逆
研究やってるヤツが、Googleに引き抜かれるんだよ。
Googleそのものが研究の大部分をやってたわけじゃない。
Googleがいるから研究が出来ないとか、根本からおかしい。
あそこは所詮商業的な活動をする企業だよ。
342デフォルトの名無しさん:2007/08/18(土) 10:36:37
Googleに人材引き抜かれる
→優秀な人はGoogleで研究する & Google以外は人が減る
→Googleに太刀打ちできない!

あってると思うが?
あと研究が"出来ない"とはだれも言ってない。
343デフォルトの名無しさん:2007/08/18(土) 17:46:22
ホラ来た脳内妄想強弁するおかしな奴
344デフォルトの名無しさん:2007/08/18(土) 19:07:24
構文解析アルゴリズムってどれがいいの?
345デフォルトの名無しさん:2007/08/18(土) 19:50:57
脈絡のない単発質問は
回答しても時間の無駄なので却下
346デフォルトの名無しさん:2007/08/19(日) 03:54:03
>>345
掲示板で脈絡とか痛い奴だな。
わかんねーならただROMってろよ、低脳。
347age:2007/08/19(日) 13:03:15
>>344
ルール?確率?
348デフォルトの名無しさん:2007/08/19(日) 14:39:32
その件は却下だそうです
349デフォルトの名無しさん:2007/08/19(日) 22:18:58
>>347
なんでもいいんで研究で使ってるアルゴリズム教えてください。
350デフォルトの名無しさん:2007/08/19(日) 23:29:42
>>349
わかんねーならただROMってろよ、低脳。
351デフォルトの名無しさん:2007/08/19(日) 23:59:49
話題提供もできねぇ奴がのさばるな>>350
352デフォルトの名無しさん:2007/08/20(月) 00:05:01
いつもいつものパターンとして、
唐突な単発質問に真面目に答えてやると、
どっかのバカ匿名掲示板の運用者が
それをネタにまたぞろバカビジネスを企画する
って展開もう飽き飽きだからなぁ。
真面目に答えて欲しいなら、金を出せ。以上だ
353デフォルトの名無しさん:2007/08/20(月) 01:08:53
糞過疎スレの癖に一丁前に荒れててワロタ
354デフォルトの名無しさん:2007/08/20(月) 11:45:10
355デフォルトの名無しさん:2007/08/21(火) 14:33:53
suffix array作って、lcp求める、までコードを書いたのですが、
そこから単語出現頻度を求めるとなると、SIL,LBLという手法を使うみたいでして、
これがいまいちパッとしない感じがしてしまうのですが、
現在でも使われているのでしょうか?
356デフォルトの名無しさん:2007/08/21(火) 17:43:48
357デフォルトの名無しさん:2007/08/22(水) 08:58:57
英国辞書出版社が辞書編纂に使用してきたシステムを
一般公開。日本語の検索もできて、便利。
Adam Kilgarriffはこの世界では結構有名。
http://www.sketchengine.co.uk/
358デフォルトの名無しさん:2007/08/22(水) 10:05:26
>>355
ここは金を払わないとまじめに答えたくないヤツしかいないから、他にあたった方がいいよ。

つーか、このスレ何の為のスレなんだろうな。
359デフォルトの名無しさん:2007/08/22(水) 15:18:42
まあ、誰も答えてくれないのは355の質問が結局何を聞きたいのか分からないからなわけだが。

>>355
Suffix ArrayのはMSRのChurchさんが昔書いたジャーナルを読んだら大体分かる筈。
現在も使われてるかという質問なら
「使う奴も居る。もうちょっと頭の良さげな方法を使ってる奴も居る」
としか答えられない。
360デフォルトの名無しさん:2007/08/22(水) 17:06:45
少なくとも、ここ1・2年の発表で、研究としてSILやLBLを使ったのは見た事は無いな。
業務では使ってるかも知れないし、使ってないかも知れない。
361デフォルトの名無しさん:2007/08/22(水) 20:11:31
SILとかLBLってなに?
362デフォルトの名無しさん:2007/08/23(木) 12:29:48
>>359
「もうちょっと頭のよさげな方法」ってなに?
363デフォルトの名無しさん:2007/08/23(木) 22:06:54
すぐ質問する人工無能が涌いてるな。
364デフォルトの名無しさん:2007/08/23(木) 22:11:29
病院発見
365デフォルトの名無しさん:2007/08/23(木) 23:31:24
>>360
コイツはしったかか?
366デフォルトの名無しさん:2007/08/24(金) 00:13:50
現在でも使われているのでしょうか? っていう質問が悪かったんですかね。

suffix arrayの構築法なんかは進化がむちゃくちゃ速いようだったので、
SILとLBLがそんなん使うなよ!ってレベルのものなのか不安になりまして。(参考にしたのは2005年のものでした)

今は
ttp://project.carrot2.org/
を参考にして作ってます。SILとLBLに比べたらずいぶんわかり易いです。
367デフォルトの名無しさん:2007/08/24(金) 09:59:24
NAISTの連中が身内以外に情報あげるわけないじゃんw
このスレは、NAISTの連中が、素人の質問を見ながらニタニタするスレだよ!
368デフォルトの名無しさん:2007/08/24(金) 11:52:31
奴らの閉鎖性にはびっくりするよ
質問のメール出しても論文欲しいって言ってもそっけないし
369デフォルトの名無しさん:2007/08/24(金) 12:52:10
どういう流れでNAISTが出て来るのだ?
370デフォルトの名無しさん:2007/08/24(金) 14:04:27
NAISTのあの研究室はそんなに偉いのか??
371デフォルトの名無しさん:2007/08/24(金) 14:24:36
NAIST(笑)
372デフォルトの名無しさん:2007/08/25(土) 01:20:44
奈良先を批判する書き込みが増えたとたんそれらしい書き込みがなくなったのは>>367が言ってることが正しいってことがわかるね。
373デフォルトの名無しさん:2007/08/25(土) 02:52:30
・・・?
374デフォルトの名無しさん:2007/08/25(土) 04:12:10
NAISTの連中って馬鹿のくせにプライドだけは一丁前だからなぁ
375デフォルトの名無しさん:2007/08/25(土) 04:39:25
NAISTを知らんバカ
376デフォルトの名無しさん:2007/08/25(土) 04:40:52
頭が悪いからすぐ釣れるw
377デフォルトの名無しさん:2007/08/25(土) 04:42:19
お、食いつき早いな
378デフォルトの名無しさん:2007/08/25(土) 04:53:55
そもそも、何故suffix arrayの話からNAISTを叩くのか分からぬのだが。
379デフォルトの名無しさん:2007/08/25(土) 04:58:49
誤爆から始まったんだろう
380デフォルトの名無しさん:2007/08/25(土) 09:14:28
JUMANとCHASENなんか死んでもつかわん
あんな糞ライブラリ

やっぱり工藤ちゃんだね
381デフォルトの名無しさん:2007/08/25(土) 10:12:15
誰か>>380につっこまなくて良いの?
特に奈良先や京大の人とか
382デフォルトの名無しさん:2007/08/25(土) 14:23:37
全入NAIST(笑)
383デフォルトの名無しさん:2007/08/25(土) 15:16:36
>>380
わかってて書いてるんだろうか・・・
384デフォルトの名無しさん:2007/08/25(土) 18:44:52
速度も糞
精度も糞
コスト値推定も糞
ライブラリとしても糞

mecab最強
385デフォルトの名無しさん:2007/08/25(土) 18:55:26
本気で分かってなくて書いてるんだな。
工藤氏はNAIST出身
Chasenの開発もやってた人。
そのChasenを改良したのがMeCab
そのMeCabをフルスクラッチで書き直してネイティブJavaにしたものが、Sen
386デフォルトの名無しさん:2007/08/25(土) 19:12:00
釣れちゃったwwwwwwwwwwwwwwwwwwwwwww
387デフォルトの名無しさん:2007/08/25(土) 22:52:48
MecabはWindows版、Perl版が糞
あれなら無いほうがマシ
388デフォルトの名無しさん:2007/08/26(日) 09:20:09
>>385
>MeCabをフルスクラッチで書き直してネイティブJavaにしたものが、Sen
処理速度はMeCabが圧倒的に早い?
389デフォルトの名無しさん:2007/08/26(日) 11:19:46
>>388
こんな事言うとJava信者から猛バッシング食らうかも知れないけど
それは、Javaが圧倒的に遅いからだと思う。
コード的にはSenは随分綺麗になった。
390デフォルトの名無しさん:2007/08/26(日) 11:43:55
Mecabはソース読んだことないからわからないが、Senのコードは結構ヘボいぞ。
391デフォルトの名無しさん:2007/08/26(日) 14:55:14
今時中学生が書く程度のコードだと思った。
正直な感想です。
392デフォルトの名無しさん:2007/08/26(日) 16:06:17
中学生がプログラミングなんてやらんだろ。
やっても、BASICでゲーム製作が関の山
正直な感想って、どんだけ捻くれてるんだよw
393デフォルトの名無しさん:2007/08/26(日) 16:49:24
>>392
読めばわかるよ。
394デフォルトの名無しさん:2007/08/26(日) 17:17:24
中学生がプログラミングと言うマイノリティな状況を想定してる時点で察しろ。

つーか、もしプログラミングをunder18世代が出来るとすれば、14〜16くらいの方が一般的にハイレベル。
世界的なすげぇPGやハッカーは、みんなこの年代だし。俺らみたいな頭の固いヤツよりはるかに良いコードを書くよ。
そういう意味では、中学生的コードの書き方と言うのは、絶賛と言う意味になるわけだが…
395デフォルトの名無しさん:2007/08/26(日) 17:19:41
>>394
頭は柔らかいかもしれないが、一番分かりやすいのが変数・関数名のつけ方がry
Senのコードはまさにそれ。ハッカー的コードだが、教養の無さが露見
396デフォルトの名無しさん:2007/08/27(月) 07:49:31
漏れもここで叩かれるぐらい有名になりてー
397デフォルトの名無しさん:2007/08/27(月) 12:41:16
>>392
やりますからw
398デフォルトの名無しさん:2007/08/27(月) 13:03:13
中学生じゃなくて
程度の低い高校生じゃなかろうか
399デフォルトの名無しさん:2007/08/28(火) 02:12:27
なんか関係ないことがずっと続いてますのでそれらしい話題を。

自然言語処理を研究している人たちは計算機科学的アプローチ、認知科学的アプローチ、アルゴリズム的アプローチ、言語学的アプローチ、どのアプローチで研究してますか?
400デフォルトの名無しさん:2007/08/28(火) 07:53:47
思いつきアプローチw
401デフォルトの名無しさん:2007/08/28(火) 08:28:51
>>394
本人様ですか?
そりゃ失礼w
402デフォルトの名無しさん:2007/08/28(火) 09:54:53
>>399
そういう偏ったアプローチはやりません。
403デフォルトの名無しさん:2007/08/28(火) 11:04:38
統計工学的アプローチ

動けばよかろうなのだァッ!!
404デフォルトの名無しさん:2007/08/28(火) 13:18:18
>>403
流行だね。でもちゃんと結果でるし。
405デフォルトの名無しさん:2007/08/28(火) 14:39:22
今時工学的な応用を考えないでいる人なんて珍しいんじゃね?
406デフォルトの名無しさん:2007/09/01(土) 18:31:45
この業界って、研究用プログラムって基本的に何で動かすの?
UNIX系?それとも、最近はWindows?
いつも、Cygwinでゴリゴリコーディング&動作させながら
時代錯誤じゃないか?って思うようになってきた。
407デフォルトの名無しさん:2007/09/01(土) 18:33:57
linuxでやってるんだろ
408デフォルトの名無しさん:2007/09/01(土) 21:41:45
ソラリスに決まってんだろ。

最近は、コンパイラ性能は、MSのがかなり強いんだって?
gccで十分とか思ってたが、そんなに差があるものなのだろうか。
409デフォルトの名無しさん:2007/09/01(土) 21:44:59
今時Solarisはねーよwww
410デフォルトの名無しさん:2007/09/01(土) 22:28:57
Mac OS Xという可能性も。
というか、この分野のMac率の高さは異常。
でもまあ、大規模な実験はそれなりにリッチなハードに入ったLinuxでやるのが普通かと。
411デフォルトの名無しさん:2007/09/01(土) 23:49:12
Mac OS Xが常識だろ。windowsならcygwin
412デフォルトの名無しさん:2007/09/02(日) 00:25:06
mac os xのなにがいいわけ?
413デフォルトの名無しさん:2007/09/02(日) 00:28:17
UNIXだから。

とか?w
ネタでしょ?本当にMacOSXなんて使ってんの?
414デフォルトの名無しさん:2007/09/02(日) 00:31:03
普通は簡単な開発は、WinでCygwin
普通の実験は、Linux
大規模になると、どっかのメインフレーム間借りして24時間数ヶ月回すって感じ。

Macは流石にネタだろう・・・。
聞いた事無いぞ・・・。

Solarisは、数十年前では定番だったが、今はありえない。
415デフォルトの名無しさん:2007/09/02(日) 01:17:09
Macで開発してLinuxで回すって人も結構いる。
でも、単に自然言語の研究者にMacユーザが多いからかもしれん。
個人的にはマルチバイトな言語をやるんならWin使った方が苦労が少ないと思う。
416デフォルトの名無しさん:2007/09/02(日) 04:42:10
なんで Solaris がありえねーんだよ低能が。
並列処理を有効利用できない技術不足君ですか。
417デフォルトの名無しさん:2007/09/02(日) 07:51:21
solarisだと並列処理がすごいの?
418デフォルトの名無しさん:2007/09/02(日) 09:06:04
linuxでもwindowsでも並列処理はできるね
419デフォルトの名無しさん:2007/09/02(日) 09:47:10
Cygwin使うのに何か理由あるのかな。
420デフォルトの名無しさん:2007/09/02(日) 10:08:44
OSXは結構見るけど。
421デフォルトの名無しさん:2007/09/02(日) 21:12:48
>>419
本番環境に合わせるためでしょ。
開発はWinの方がやりやすいし。

>>416
今時Linuxでも並列処理出来るだろ。
なんで、わざわざそんだけの為にソラリスなんだよw
422デフォルトの名無しさん:2007/09/02(日) 23:46:24
Linuxのタスクスイッチが(ry
Kernel読むとわかるけど、ふつー読む気にならん位のソースなんだよなあれって
423デフォルトの名無しさん:2007/09/03(月) 00:23:26
Solaris だと凄いんじゃなくて他がダメなだけ。Linux を例に挙げると安定度やスケーラビリティに問題がある。
できるとかいってるアホがいるけど、どうせまともな検証もせずに「俺の作ったのは動いたよ」レベルなんだろ?
小物データを片手で数えられるような CPU で処理してる低能にはわかんないかもね。
424デフォルトの名無しさん:2007/09/03(月) 00:27:24
Solaris厨必死だwww
425デフォルトの名無しさん:2007/09/03(月) 00:40:08 BE:281470829-2BP(400)
ぶっちゃけPOSIX互換ならどれでもいい。
それ以上のお話は他所でやってくれ
426デフォルトの名無しさん:2007/09/03(月) 01:05:09
まあ、別に並列に拘らなくても新し目のCPUを幾つか積んだLinux機数台で
適当に書いたコードをきりきり回せば良いんじゃね?
商用Unixにかけるコストをハードウェアにかけた方が後々楽。
427デフォルトの名無しさん:2007/09/03(月) 01:16:15
>>423
化石にも程がある。
今の時代、一体どれだけのLinuxユーザーが居ると思ってるんだ。
そんなもん、とっくに検証されて、改善されてるだろ。

>Linux を例に挙げると安定度やスケーラビリティに問題がある。
随分昔の知識か、またどうせ受け売りか、先入観だろ。
馬鹿馬鹿しい反論だな。そう言うなら、ソース出せ。
どうせ自分で検証して無いくせに。してたとしても、それは自分の実装が悪いんだろ。
428デフォルトの名無しさん:2007/09/04(火) 09:44:32
今更、犬ってwww
429デフォルトの名無しさん:2007/09/04(火) 10:03:32
これからLinuxでしょ。世の中は。
430デフォルトの名無しさん:2007/09/04(火) 10:12:25
最近、新しく用意したマシンは、全部OpenSolaris(SXCE)にしてるよ。
Nexentaは期待してるけど、まだだね。

DTraceはべんりだよ。面倒くさいけど。
431デフォルトの名無しさん:2007/09/05(水) 07:13:05
( ´_ゝ`)
432デフォルトの名無しさん:2007/09/05(水) 21:02:40
>>427
ほほう。典型的な低能ですな。そんなに Linux をマンセーしたいのかい?
ユーザーが多いって、おま Linux なんて 2 コアとかせいぜい 4-8 コアの趣味人層がメインだろうが。
それ以上もいないとはいわんが、レアである事は間違いない。

> 随分昔の知識か、またどうせ受け売りか、先入観だろ。

なんか必死だな。ただ思い込みの激しいだけかもしれんけど。
こっちは検証した結果だめだったていってんだよ。他にも現行のスケジューラの問題点は指摘されてんだろ。
検証してねーのはおまえだろう。一応 CFS には期待してますよ。
433デフォルトの名無しさん:2007/09/05(水) 21:08:00
うん、だから、ソース。
434デフォルトの名無しさん:2007/09/05(水) 21:53:19
>>432
なんで必死なの?
大体、そんな大層ご立派な計算機環境であなたはどんなご立派な成果を出してるの?
435デフォルトの名無しさん:2007/09/05(水) 23:04:11
>>434
お前痛々しいよ
436デフォルトの名無しさん:2007/09/05(水) 23:10:25
>>434
煽っても無いものは出せんよ
437デフォルトの名無しさん:2007/09/07(金) 07:42:19
438デフォルトの名無しさん:2007/09/07(金) 08:00:24
439デフォルトの名無しさん:2007/09/08(土) 07:31:03
なんだ
馴れ合い大好き奈良先のsun厨が書き込んでいたのか
440デフォルトの名無しさん:2007/09/08(土) 14:41:14
ったく、これだから全入は
441デフォルトの名無しさん:2007/09/08(土) 15:07:37
ま、前聞いたら、かの大学のかの研究室のメイン環境はGentooらしいけどね。
Gentooの中の人がいるらいいんで。
442デフォルトの名無しさん:2007/09/08(土) 15:16:54
どうも人口無能です

440>>
全入ってなに?奈良先が全員入学できるってこと?アホな僕に愛の手を
443デフォルトの名無しさん:2007/09/08(土) 15:58:55
>>441
なるほどそれで最近目立った成果がないのか。
不思議だったんだけど謎が解けた。
444デフォルトの名無しさん:2007/09/08(土) 16:37:46
443>>人口無能にわかるように教えてくれぇ〜
445デフォルトの名無しさん:2007/09/08(土) 17:54:18
お前は、人口無能じゃなくて、天然無能だろ。
446デフォルトの名無しさん:2007/09/08(土) 22:35:15
個人的に集めたテキストデータから共起辞書を作って
閲覧するツールって、文書書いたりするときに
すごく役に立ちそうだけど、共起辞書でぐぐっても
あんまりヒットしない。

なんでこんなに知名度低いの?
もしかして検索の仕方間違えてる?
447デフォルトの名無しさん:2007/09/08(土) 22:45:28
EDRを本格的に活用している最近の研究はありますか?
フィリーでないのが利用者が少ない原因ですか?
448デフォルトの名無しさん:2007/09/09(日) 00:57:14
奈良先は定員割れの話を聞くな…
うちも人ごとではないが
449デフォルトの名無しさん:2007/09/09(日) 01:13:49
自然言語処理と画像処理に関しては、奈良先はまだ大丈夫でしょ。
まだまだ、ブランド力はある。

ま、それも時間の問題だろうがな。
今まで他がこの分野に目を付けなかっただけの事。
450デフォルトの名無しさん:2007/09/09(日) 01:16:32
他が真剣にやりだしたら奈良先のアドバンテージなど・・・
451デフォルトの名無しさん:2007/09/09(日) 08:00:47
灯台、鏡台も馴れ合ってるから大丈夫だよ
452デフォルトの名無しさん:2007/09/09(日) 18:20:02
googleも最近は自動でクエリ拡張するじゃない?
あれはシソーラスはどうやって作ってるんかしら。
453デフォルトの名無しさん:2007/09/09(日) 21:35:13
>>447
EDR使って何したいの?
454デフォルトの名無しさん:2007/09/10(月) 01:06:07
統計の構文解析アルゴリズムのなかで、非決定的アルゴリズムある?
455447:2007/09/10(月) 07:40:25
>>453
というか、WordNetは、今でも多くの
研究者が利用しているのに、日本の研究者が
EDRを積極的に利用していないような印象を
受けたので、質問してみました。
456デフォルトの名無しさん:2007/09/10(月) 12:23:59
>>454
統計的なアルゴリズムはもとから非決定的なのでは?
457デフォルトの名無しさん:2007/09/10(月) 12:36:09
>>456

そう?
458デフォルトの名無しさん:2007/09/11(火) 00:14:54
同じデータ食わせれば同じ結果吐くんじゃ?そういうことではなくて?
459デフォルトの名無しさん:2007/09/11(火) 00:20:37
460デフォルトの名無しさん:2007/09/11(火) 08:25:37
wikipediaのデータは信用ならん。
嘘ばっか書かれすぎ。
461デフォルトの名無しさん:2007/09/11(火) 08:39:28
と根拠も示さないお前の言い分よりもはるかに信用できる
462デフォルトの名無しさん:2007/09/11(火) 11:40:45
プログラミングの世界で非決定性というのは
ひとつの問いかけに対して、複数の解がありうる場合を
いう。このWikipediaの非決定的アルゴリズムの説明は
これを完全に欠いており、 >>460 が正しい。
463デフォルトの名無しさん:2007/09/11(火) 11:49:30
ほう、それで嘘はどこ?
464デフォルトの名無しさん:2007/09/11(火) 13:05:34
無い
465デフォルトの名無しさん:2007/09/11(火) 16:52:01
低脳すぎwww
466デフォルトの名無しさん:2007/09/12(水) 00:58:32
晒しage
467デフォルトの名無しさん:2007/09/12(水) 02:43:18
468sage:2007/09/15(土) 21:10:57
トポロジーを用いた意味解析って??
469デフォルトの名無しさん:2007/09/15(土) 21:22:13
チョムスキー大復活の悪寒
470デフォルトの名無しさん:2007/09/15(土) 23:27:25
形態素の遷移を表した複雑なグラフ構造を
2Dあるいは3Dしか表示できない現代のディスプレイに
上手く表示するにはどうすれば???

グラフ理論とかそういうのが必要ですか?
471デフォルトの名無しさん:2007/09/16(日) 13:20:31
画像処理スレ池
472デフォルトの名無しさん:2007/09/16(日) 15:09:36
何だ、こたえられないのか
473デフォルトの名無しさん:2007/09/16(日) 15:11:19
はいはい
グラフ理論とかそういうのが必要必要
474デフォルトの名無しさん:2007/09/16(日) 15:21:42
ま、所詮この程度だよなw
475470:2007/09/16(日) 16:29:47
助言ありがとうございます。
画像処理スレで質問してみようと思います。
476デフォルトの名無しさん:2007/09/18(火) 21:27:56
Powersetって?
477デフォルトの名無しさん:2007/09/18(火) 21:57:06
POwerSeT GOOGLE
478デフォルトの名無しさん:2007/09/20(木) 11:01:20
力集合?
479デフォルトの名無しさん:2007/09/20(木) 11:14:54
べき集合だろw
480デフォルトの名無しさん:2007/09/21(金) 23:15:44
それはshould setだろ?
481デフォルトの名無しさん:2007/09/21(金) 23:30:47
super set
482デフォルトの名無しさん:2007/09/22(土) 13:52:00
はぁ?
483デフォルトの名無しさん:2007/09/22(土) 14:36:55
ウィキペディアってネタとしてちょうどいいと思うんだけど、
HTML化するようなパーサってないのかな?
484デフォルトの名無しさん:2007/09/22(土) 14:37:33
↑無かったら作ろうと思うんだけど
485デフォルトの名無しさん:2007/09/22(土) 17:30:43
haa?
486デフォルトの名無しさん:2007/09/22(土) 17:32:50
>>483
日本語でおk
487デフォルトの名無しさん:2007/09/22(土) 18:51:22
>>485
>>486
お騒がせしました。
結局パーサー書きました。
488デフォルトの名無しさん:2007/09/22(土) 22:52:38
なぜHTMLにする?
489デフォルトの名無しさん:2007/09/24(月) 05:22:47
TeXにしたほうがいいよな。
490デフォルトの名無しさん:2007/09/24(月) 05:23:15
なぜtex
491デフォルトの名無しさん:2007/09/24(月) 05:23:50
レスはやっ
492デフォルトの名無しさん:2007/09/24(月) 08:57:38
>>468
芝公園の小僧、出てきたな
493デフォルトの名無しさん:2007/09/24(月) 09:05:14
その件はカテゴリー文法の研究を参照しるといったのに

あとは『構造の自動抽出』(ADIOS)な
494デフォルトの名無しさん:2007/09/24(月) 11:25:04
wikipediaなら、XMLで持ってきて後はどうにでもなるんじゃないの?
495デフォルトの名無しさん:2007/09/24(月) 12:04:54
>>494
どういう風に?
やっぱりRubyとか使うんですか?
496デフォルトの名無しさん:2007/09/24(月) 13:29:35
HTMLにする理由がよくわからないってだけで、
XMLを読み込んでどうするかは、何やるか次第だからわからんけど。。

rubyが好きとか、使いたいモジュールがrubyにあるなら、rubyにするんじゃない?
俺はたぶんJavaを使う。XML関係は充実してるし、jdk1.5から入った、
concurrent周りが結構充実してるので、そういうの使って、
(無理矢理)並列化して、たくさんあるCPU/CPU coreをフル稼働するのが最高。
まあ、このスレだと、こういう低レベルな話は関係なさそうだけど…
497デフォルトの名無しさん:2007/09/24(月) 13:51:44
要約すると単なる妄想
498デフォルトの名無しさん:2007/09/24(月) 14:33:30
ありがとう。
499デフォルトの名無しさん:2007/09/24(月) 16:49:55
>>497
確かに酷いもんだな
ゲノムやっとけゲノム。
なまばけがくじょうほうしょり。
500デフォルトの名無しさん:2007/09/25(火) 03:21:25
rubyとかゲノムとかここは酷いインターネットですね
501デフォルトの名無しさん:2007/09/25(火) 10:36:30
ruby最高!フォー!
502デフォルトの名無しさん:2007/09/25(火) 14:06:53
まつもと乙
503デフォルトの名無しさん:2007/09/25(火) 18:51:17
ruby乙
504デフォルトの名無しさん:2007/09/25(火) 20:48:05
>>500
HTMLにする理由がわからない・・・XMLを読み込んで・・・
というあたりから、なにも知らないというか調べてもいないってことが分かる。
尚且つ、何やってんの馬鹿?みたいな態度で批判してる。
これらを合わせると、rubyとlinuxを使ってるかなーと。
rubyとかlinuxは実践しなくても妄想力だけで偉くなれるから。
それでrubyが出てくるわけで他意はない。
505デフォルトの名無しさん:2007/09/26(水) 03:06:51
rubyを批判するのはいくないと思います
506デフォルトの名無しさん:2007/09/26(水) 03:58:05
  _____ 
  (すた☆らき)
   ̄ ̄\| ̄ 
http://www.freewebs.com/premiumtv/?X3/?STV=%E3%82%89%E3%81%8D+%E3%81%99%E3%81%9F
507デフォルトの名無しさん:2007/09/26(水) 12:53:18
HTMLにする理由は確かにわからんなw
XMLデータ取ってきて、タグ排除して、生コーパスにして、インデキシング作成するならともかく・・・

508デフォルトの名無しさん:2007/09/26(水) 16:48:50
HTML厨自重
509デフォルトの名無しさん:2007/09/26(水) 19:27:43
>>505
rubyを批判してるんじゃなくて、rubyを使うやつにはなぜかカスが多いと・・・
510デフォルトの名無しさん:2007/09/27(木) 00:15:09
ruby好きとバイオインフォ屋にはろくなの居ないな
511デフォルトの名無しさん:2007/09/27(木) 00:19:15
かすでも何となく使えるのがrubyだから。
512デフォルトの名無しさん:2007/09/27(木) 01:56:14
rubyのコンセプトは?
513デフォルトの名無しさん:2007/09/27(木) 09:47:32
>>512
loveとend
514デフォルトの名無しさん:2007/09/27(木) 10:39:42
短小・・
515デフォルトの名無しさん:2007/09/27(木) 20:17:22
もうrubyしか見えない
516デフォルトの名無しさん:2007/09/27(木) 21:03:11
Javaもいい言語なのに、なぜか使ってるやつはカスばかり。
不思議だよねぇ。
517デフォルトの名無しさん:2007/09/27(木) 21:05:59
> XMLデータ取ってきて、タグ排除して、生コーパスにして、インデキシング作成するならともかく・・・
馬鹿発見。
518デフォルトの名無しさん:2007/09/28(金) 03:07:06
なんでも馬鹿馬鹿言えば良いものではない。
馬鹿の典型。
519デフォルトの名無しさん:2007/09/28(金) 03:08:46
>>507
ちょw
それで共起取るのが俺の卒研ww
そしてその処理はCだがな。Rubyとか馬鹿言語は死んでも使わん。
520Ruby:2007/09/28(金) 08:27:15
<馬鹿馬鹿言うなー!
   お前らより余程頭が良いわ!

と申しております。
521デフォルトの名無しさん:2007/09/28(金) 09:27:26
>>519
ダメだこりゃ
522デフォルトの名無しさん:2007/09/28(金) 10:18:21
XML意味ねえ
523デフォルトの名無しさん:2007/09/28(金) 10:30:50
XMLは、単に元から提供されてるデータ構造でしょ。
わざわざXMLを選んでるんじゃなくて、元がその形式だからしょうがない。

多分、話がかみ合ってない人は、wikipediaのデータが、xml形式で提供されてるのを知らないんだろうな。
まぁ、そこからHTML化はありえないが・・・
524デフォルトの名無しさん:2007/09/28(金) 10:33:52
>>519
よう俺
タグ外しは流石にperlの正規表現使ったけどな。Cって共起計算の方だよな?タグ外しまでCでやってるとかならテラアフォすw
XMLパーサー使えば、データだけ簡単に取れると思ってたら、ファイルサイズが巨大すぎてそもそもパーサーが読み込んでくれなかった罠・・・orz
525デフォルトの名無しさん:2007/09/28(金) 10:40:51
rubyとかperlはCを使えないようなアホが使う言語
俺は死んでもあんなもん使わない
526デフォルトの名無しさん:2007/09/28(金) 13:13:05
やりたい処理への向き不向きでプログラミング言語は使い分けるだろう。常考。
527デフォルトの名無しさん:2007/09/28(金) 13:26:08
>>525
お前が一番アホ
528デフォルトの名無しさん:2007/09/28(金) 23:17:58
>>527
Cを使いこなせない低脳乙w
529デフォルトの名無しさん:2007/09/28(金) 23:37:38
            ∩_
           〈〈〈 ヽ
          〈⊃  }
   ∩___∩  |   |
   | ノ      ヽ !   !
  /  ●   ● |  /
  |    ( _●_)  ミ/ <こいつ最高にアホ
 彡、   |∪|  /
/ __  ヽノ /
(___)   /
530デフォルトの名無しさん:2007/09/28(金) 23:43:34
531デフォルトの名無しさん:2007/09/29(土) 03:54:45
>>528

ruby = Cが使えない低脳

rubyがCで実装されていることをふまえて証明してくれ
532デフォルトの名無しさん:2007/09/29(土) 04:36:51
機械言語処理を語るスレはここですか?
533デフォルトの名無しさん:2007/09/29(土) 06:10:36
>531
それが何か意味のある事か?
perlを見たまえ
534デフォルトの名無しさん:2007/09/29(土) 06:16:18
            ∩_
           〈〈〈 ヽ
          〈⊃  }
   ∩___∩  |   |
   | ノ      ヽ !   !
  /  ●   ● |  /
  |    ( _●_)  ミ/ <こいつ最高に低学歴
 彡、   |∪|  /
/ __  ヽノ /
(___)   /
535デフォルトの名無しさん:2007/09/29(土) 10:57:58
            ∩_
           〈〈〈 ヽ
          〈⊃  }
   ∩___∩  |   |
   | ノ      ヽ !   !
  /  ●   ● |  /
  |    ( _●_)  ミ/ <こいつら最高だぜ!
 彡、   |∪|  /
/ __  ヽノ /
(___)   /
536低学歴:2007/09/29(土) 14:08:52
よんだかー
技術で返せるなら付き合ってやるぞー
ちとヒマなんだ
537Pustejovsky:2007/09/30(日) 20:40:30
Cで書かれたXMLパーサもしらねぇようなクズが、
自然言語そっちのけで低レベルな自作自演やってるなw
538デフォルトの名無しさん:2007/10/01(月) 10:12:02
自然言語ってなに?
539デフォルトの名無しさん:2007/10/01(月) 10:23:40
別に、Cじゃなくてもいいじゃん。
540デフォルトの名無しさん:2007/10/01(月) 15:02:13
ソース見て思いましたが、自然言語処理って
必要なソース規模が意外に小さいですね
541デフォルトの名無しさん:2007/10/01(月) 23:27:50
>>540
>必要なソース規模が意外に小さいですね
意味解析のソースのサイズはチェックした?
542デフォルトの名無しさん:2007/10/02(火) 09:13:33
自然言語処理で、形態素解析とn-gramのことを指していました。
人工無脳用に自作可能か考えていました。

自然言語処理の意味解析はプログラミング言語(型や有効範囲)と比べて、
かなり複雑そうですね。
543デフォルトの名無しさん:2007/10/02(火) 11:16:32
比べる対象があって小さいとか大きいと言えるんだと思うが
544デフォルトの名無しさん:2007/10/02(火) 11:23:06
人間の経験則に基づく感覚だろう。
機械には真似が出来ない芸当だね!
545デフォルトの名無しさん:2007/10/02(火) 11:24:44
形態素解析は1から作るとやる事が案外多いぞ。
基本的なことは簡単なんだが、前線で使われてるようなのは、かなり改良が加えられたり
新しい技術が入ってるから、それらを全て調べた上で、ベストなものを選んで取り入れるのは骨が折れる。

車輪の再開発以外の何物でもないから、自作はやめとけ。
546デフォルトの名無しさん:2007/10/02(火) 11:41:58
>>545
対象を万葉集の短歌などに限定すれば、
形態素解析も良い課題だと思うが。
547デフォルトの名無しさん:2007/10/02(火) 11:45:37
人口無能用っしょ?
548デフォルトの名無しさん:2007/10/02(火) 17:32:03
人口無能って芸がないよな

万葉集って何?
とかすぐ聞く奴だろ?
549デフォルトの名無しさん:2007/10/02(火) 17:55:09
それお前。
550デフォルトの名無しさん:2007/10/02(火) 18:22:53
549ってアホ?
551デフォルトの名無しさん:2007/10/02(火) 19:07:24
550は古今和歌集を知らないアホ
552デフォルトの名無しさん:2007/10/02(火) 19:50:18
おーい551は人口無能だよー
ていうか無能だひょ
553デフォルトの名無しさん:2007/10/02(火) 22:34:01
正解w
554デフォルトの名無しさん:2007/10/06(土) 20:18:51
インサイダー情報で株式投資するか
極秘情報を横流しすれば小遣い稼ぎになるよ
555デフォルトの名無しさん:2007/10/07(日) 17:32:17
犯罪
556デフォルトの名無しさん:2007/10/07(日) 17:37:42
は?何でだよw
557デフォルトの名無しさん:2007/10/07(日) 18:08:16
犯罪
558デフォルトの名無しさん:2007/10/07(日) 18:09:24
は?何でだよw
559デフォルトの名無しさん:2007/10/07(日) 18:36:33
クズめ
560デフォルトの名無しさん:2007/10/11(木) 00:07:09
なんか糞スレ化してるなw
NAISTのヤツって変なヤツが多いんだな
561デフォルトの名無しさん:2007/10/11(木) 01:03:33
全入だからしょうがない
562デフォルトの名無しさん:2007/10/11(木) 20:04:03
学部ならともかく、大学院なんてどこも全入みたいなもんだろ
563デフォルトの名無しさん:2007/10/11(木) 23:40:50
NAISTは「みたいなもの」じゃなくて本当の全入だから困る
564デフォルトの名無しさん:2007/10/14(日) 18:07:54
そんなことないすと
565デフォルトの名無しさん:2007/10/14(日) 22:52:57
NAISTって、妙にプライドだけ高い人増えたよね。
全入だし、人材はどんどんダメになって行ってるのに…。

Namazuの人やChasenの人の頃がピークだったが
所詮後が続かんよね。お得意のモジュール化も、出来る人材居なくて全然出てこないし。
目を付け出してそこそこ力入れだした国立大に、もはや勝ち目無い。

出来る人材は、こんな所より京大行くだろw
566デフォルトの名無しさん:2007/10/17(水) 07:05:49
昔はChasenが業界標準だったけど
今はMeCabだよね〜

JUMANなんか使ってる人いるの?
567デフォルトの名無しさん:2007/10/17(水) 08:32:45
昔から使ってて変えられない(周辺ツール含めて)所はあるでしょ?
568デフォルトの名無しさん:2007/10/17(水) 09:30:33
ねーよw
569デフォルトの名無しさん:2007/10/17(水) 09:41:43
製品に組み込まれた、とかいう話を聞かないよね>>JUMAN
570デフォルトの名無しさん:2007/10/19(金) 23:08:41
パーセプトロンエンジンってどう?
571デフォルトの名無しさん:2007/10/20(土) 01:52:31
どうって?
何が聞きたいの
572デフォルトの名無しさん:2007/10/20(土) 10:31:34
そこの人の論文出てないよね?
573デフォルトの名無しさん:2007/10/22(月) 16:35:43
そもそもパーセプトロンとか言い出してるところが
なんかアレだなあ・・・
574デフォルトの名無しさん:2007/10/22(月) 20:30:01
アレって何かね
575デフォルトの名無しさん:2007/10/22(月) 21:54:40
ちくび
576デフォルトの名無しさん:2007/10/23(火) 16:16:40
結局誰も知らないのかw
577デフォルトの名無しさん:2007/10/23(火) 16:54:14
何を?
578デフォルトの名無しさん:2007/11/02(金) 09:04:14
579デフォルトの名無しさん:2007/11/02(金) 10:00:20
学部生の卒論にぴったり
580デフォルトの名無しさん:2007/11/02(金) 12:57:42
> パ

あそこはさぁ、近年の研究成果無視で
ただ単に商売ッ気がたっぷりあるだけだろ。
元になったエンジンは、ちょっと使い物にならないレベルだった、
ってコアな人から聞いた。
581デフォルトの名無しさん:2007/11/02(金) 13:16:39
コアな割には話が抽象的すぐる
582デフォルトの名無しさん:2007/11/02(金) 13:52:28
え?なになに?
パーセプトロンエンジンのこと?
583デフォルトの名無しさん:2007/11/03(土) 12:19:10
>>578
あれ?工藤さんって、googleに行ったんだっけ?
ずっとyahooに行ったと思ってたんだが・・・。
584デフォルトの名無しさん:2007/11/03(土) 16:17:20
F2→やほおはたつを
585デフォルトの名無しさん:2007/11/06(火) 00:43:32
>>578
グーグル太っ腹と思ったら、金取るんだよな。
やだやだ。オープンソースで、データーもみんなのWebなのに、
自分が作ったデーターは金取るんだぜ。

酷くない。
586デフォルトの名無しさん:2007/11/06(火) 01:01:10
うん。
酷くない。
587デフォルトの名無しさん:2007/11/06(火) 11:08:30
っていうか、勝手に人のサイトのデータ収集して売って良いの?
そこから生成された統計データなら灰色だとは思うけど、n-gramって事はガチで文字がそのまま入るんでしょ?
まずい単語が入ってたりしてそう
588デフォルトの名無しさん:2007/11/06(火) 11:50:48
金とるから非難て…
こんなのタダみたいなもんだろ。
589デフォルトの名無しさん:2007/11/06(火) 12:01:38
>>587
文字というか形態素n-grams (頻度20以上) だけど。
入ったらまずい単語って何?
イメージできんのだが。
590デフォルトの名無しさん:2007/11/06(火) 13:17:00
>>589
おまんこ、でも検索結果が出た。ちょっちビックリ。
591デフォルトの名無しさん:2007/11/06(火) 13:22:28
卑猥な言葉だろうが差別用語だろうがテレビじゃないんだから別に問題ねーだろ。
固有名詞はアレだがどうせアノニマイズくらいしてるだろ。
592デフォルトの名無しさん:2007/11/08(木) 20:09:23
小泉潤一郎、とかもあるかな
593デフォルトの名無しさん:2007/11/09(金) 18:18:15
肖像権?の問題か?
594デフォルトの名無しさん:2007/11/10(土) 16:27:29
□が□に□した

こんな風に穴抜きパターンを考えたら
入れ替わりが多いだけでパターン数は
そう多くないと思った
595デフォルトの名無しさん:2007/11/10(土) 19:44:46
構文解析と何が違うんだ?
596デフォルトの名無しさん:2007/11/14(水) 00:09:15
>>587
>っていうか、勝手に人のサイトのデータ収集して売って良いの?
短くても、短歌や俳句は著作権上<1作品>と認められるから、
著作権の切れていない作品を著作権者に無断で配布するのは、
有料でも無料でも違法。Googleのn-gramは、多分、使用頻度
が極端に低いものを削除しているはずなので、短歌や俳句1作品
が入ってくる可能性は極めて低いはず。
597デフォルトの名無しさん:2007/11/22(木) 05:41:28
日記やブログは著作物にはならんの?

まぁ、それ言い出したらイメージ検索なんて、完全にアウトな気がするが・・・w
598デフォルトの名無しさん:2007/11/24(土) 12:19:54
著作権法の引用じゃないか?引用元のURLは乗せてるから
599デフォルトの名無しさん:2007/11/25(日) 21:57:43
>>597
>日記やブログは著作物にはならんの?
「今日は本当に死ぬほど暑かった。」などという、
多くの人が使用するような表現には、著作権は
ない。Googleのn-gramsは他人のWebから無断で
このような使用頻度の高い表現を抜き出して、無
断で売っているのだが、元の表現に著作権がない
からOK。
600デフォルトの名無しさん:2007/12/02(日) 03:57:18
そういえば俺が初めてプログラミングに触れたのは
自然言語処理がやりたいからって理由だったんだが
このスレ見てたら何だか悲しくなってきた...
601デフォルトの名無しさん:2007/12/02(日) 04:14:15
同感
602デフォルトの名無しさん:2007/12/02(日) 07:03:50
俺の自然言語処理の走りは、中学時代にハマった「えんいー」
('A`)
ごめんなさい。崇高な意志の方々。

今じゃそんな事も忘れて
何かに追われるように
毎日文字列処理してる。

意味処理?俺にはムーリ。
国語出来ません。英語読めません。
文法判りません。分類出来ません。
統計判りません。根気ありません。
プログラミングだけは出来ます。

\(^o^)/オタワー
603デフォルトの名無しさん:2007/12/02(日) 08:12:55
工学出身のヤツはそんなもん。
プログラマが根気無いのは普通。だから賢くやるんだろ。

統計だけはがんばっとけ。って言うか統計が判らないってのがわからん。
対象を知れば、自ずと適用すべき統計モデルはわかってくるでしょ?
統計モデルを知らんって話だったら、類似した研究の論文を読めとしか・・・。
ああ、ここで根気は必要だな。。。
604デフォルトの名無しさん:2007/12/03(月) 04:29:08
>>602
>俺の自然言語処理の走りは、中学時代にハマった「えんいー」
安心しろw
俺も同じだ。っていうか人工無能系にハマって始めたやつって結構居るぞ。
人間の小さい頃の発端なんて、みんなそんなもんでしょ。
むしろ、なんか判らんけどこの道に入っちゃった人の方が哀れと言うか、計画性ナス。
605デフォルトの名無しさん:2007/12/03(月) 13:09:12
なんで哀れなの?
勝ち組じゃないの?
606デフォルトの名無しさん:2007/12/03(月) 13:47:46
ジャストシステムに入るくらいしかないでしょ
607デフォルトの名無しさん:2007/12/03(月) 13:55:25
NTTとかIBMは?
ヤフー、マイクロソフト、グーグルあたりとか。
ミクシィみたいなベンチャーとか。
608デフォルトの名無しさん:2007/12/03(月) 14:28:27
なんか判らんけど入っちゃったって人にとって
その辺は大手過ぎてハードル高いっしょ。
手ごろな企業が無い。
609デフォルトの名無しさん:2007/12/03(月) 18:33:18
自分で新しいことやってやろうって漢はいないの?
610デフォルトの名無しさん:2007/12/04(火) 06:33:47
質問です。
SuffixTree⇔パトリシア Trie
SuffixArray⇔PAT Array
この違いが未だにわからないんですが
同じものなんですか?
資料によって書いてる事が違ってて、
すげぇ混乱してるんですけど。
611デフォルトの名無しさん:2007/12/04(火) 08:44:49
>>610
お前去年も同じ事どっかに書いてなかったか?
その2つの違いは派閥だよ。
たまにSuffixTreeの圧縮したものがパトリシアとか書かれてるのがあるが
あれは、SuffixArrayの勘違い。
結論言うと、同じ。
612デフォルトの名無しさん:2007/12/04(火) 14:34:47
ちげーよ
613デフォルトの名無しさん:2007/12/04(火) 22:34:17
ググって見ると、サイトによって
パトリシアトライは、トライの分岐してないノードを消して
圧縮するものである。って主張と
SuffixTreeと同じものである。って主張の2つが存在するなw

多分原因は、長尾氏の
http://www.amazon.co.jp/gp/product/4000103555
この本では前者が書いてあって
北・辻井両氏の
http://www.amazon.co.jp/gp/product/4130654047
この本では、パトリシアTrieの説明で、SuffixTreeの
説明が図付きで書いてあるからだと思う。
どっちの教科書で勉強したかで、全然違う理解になってるはず。
614デフォルトの名無しさん:2007/12/05(水) 08:37:37
>>613
ネットは嘘が多いからな。
本の内容も信用できない。
元論文読んで自分で理解しないとダメだな。
615デフォルトの名無しさん:2007/12/05(水) 18:03:49
辻井がボケかましたってこと?

長尾タンを信じてればいいの?
616デフォルトの名無しさん:2007/12/05(水) 23:57:28
北・辻井本のパトリシアTrieの説明って何ページ?
索引に出てないんだが。
617デフォルトの名無しさん:2007/12/06(木) 01:40:38
p.179〜
普通にあってる。
PATトライとSuffixArrayが同じものとして書かれてるところを
読んだ人が勘違いしてるだけのような・・・。
618617:2007/12/06(木) 01:41:21
間違えた。
PATトライ→PATアレイ
619デフォルトの名無しさん:2007/12/06(木) 07:45:07
じゃあゆとり乙ってこと?
620デフォルトの名無しさん:2007/12/06(木) 09:40:53
元論文読まずに最初に教科書で勘違いしたヤツが出る
→教科書すら読まないやつが、そいつが書いた資料を見る
→その資料をry

どうせこんな感じの魔の連鎖が発生したと思われ。
しょぼい論文でも勘違いしてるのたまに見るしな。
そもそもトライとSuffixTreeのデータ構造そのものは同じで
登録の方法が違う程度だから、トライ関連の改良の紛らわしい
サーベイ論文読んで、勘違いする人が続出なんだろう。
621デフォルトの名無しさん:2007/12/06(木) 09:55:38
このスレ以外で間違えてる人見たことないけどな。
622デフォルトの名無しさん:2007/12/06(木) 10:04:49
個人ブログを挙げるのはアレなんだけど
たまに見るぞ。
623デフォルトの名無しさん:2007/12/06(木) 18:06:42
トライは一個で派生があるだけって感じ?
624デフォルトの名無しさん:2007/12/06(木) 21:44:04
1 名前: 諸君、帰ってきたで?φ ★ Mail: 投稿日: 2007/12/06(木) 21:28:02 ID: ???0
 米マイクロソフトがクリスマスシーズンの子供向けに、自動応答形式で行っていた
サンタクロースとのチャット・サービスをめぐり、「特定のメッセージを送ると、わいせつな
内容の応答が返ってくる」との指摘が寄せられ、同社は5日までに、このサービスを
停止した。
625デフォルトの名無しさん:2007/12/07(金) 14:31:17
【特許】ワープロの仮名漢字変換技術は23万円?・・発明者が東芝に対価2億6千万円請求
http://news24.2ch.net/test/read.cgi/newsplus/1196999394/l50

この人知らない
626デフォルトの名無しさん:2007/12/07(金) 21:59:37
会った事は無いが先輩だな
627デフォルトの名無しさん:2007/12/17(月) 13:40:18
>>112の「言語と計算 (4) 確率的言語モデル」読んでるんだけど、
9ページ10行目の「最小となるのはx1, ... , xnのうちの1つが…」ってのは
P(x1), ... P(xn)の間違いだよね?一応確認。
628デフォルトの名無しさん:2007/12/17(月) 14:41:13
NAIST Japanese Dictionary
ttp://sourceforge.jp/projects/naist-jdic/
形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書の公開
629デフォルトの名無しさん:2007/12/31(月) 15:20:04
>>624
自動応答システムってこんなんばっか・・・
630デフォルトの名無しさん:2008/01/04(金) 02:27:01
自然言語処理、全く分からないんですが、日本語の誤字を自動検出するようなプログラムって作れないでしょうか?
また、自作でなくとも公開されている何かがあって、利用できると言うのならば構いません。

現在、フリーのWEBサーバーisweb上で動く、誤字自動検出CGI、もしくはAppletのようなものが作れないかと考えております。
どなたか、よい参考書、ないし、よいツールをご存知の方がいらっしゃいましたら教えてください。
よろしくお願いいたします。
631デフォルトの名無しさん:2008/01/04(金) 02:46:39
誤字?
タイポの事?それとも紙に書いた字が間違ってる方?

字が間違ってるのを判別するのは無理だけど
より出現確率の高い候補を提示するようなのは出来る。

単語の確率を漠然と見るのではなく、単語の種類(例えば品詞)が
bi-gramで見たときに、より良い品詞の遷移があるものを選べばよい。

とりあえず、難しい事考えずに結果を出したいなら
適当なニューラルネットワークのプログラムを拾ってきて
学習させればいいんじゃないか?
632デフォルトの名無しさん:2008/01/04(金) 02:52:31
>>630
お前には無理。
超えるべき壁が山ほどある。
っていうかそういうプログラムあるんだから拾ってこいよ。
それすらググれないようでは、話にならん。
633デフォルトの名無しさん:2008/01/04(金) 07:41:50
>>632
お前には聞いてないからw
知らないなら素直に知らないって言えよ、お馬鹿さんwww
634デフォルトの名無しさん:2008/01/04(金) 13:08:07
妥当な評価だと思うがな。
まぜっかえされるのが嫌なら2chなんかで質問しないだろうし。
何を書こうがあるいは書くまいが自由。
635デフォルトの名無しさん:2008/01/04(金) 16:22:17
ちなみに>>631の前者は、大体学部の卒研レベルの話なので
素人でも頑張れば出来なくも無いが、即席を求めるなら後者をお勧め。
既に形態素解析が行える状態で、
common prefix searchとMarkovModelがわかるなら、問題ないが…。
前者を行うなら、まぁ勉強するこった。
どの道この程度の手法だと、どっちでやってもたいした結果が出ないので…。
636デフォルトの名無しさん:2008/01/05(土) 02:56:37
>>631
全然話がわからない。
ちゃんとした方法はないの?
637デフォルトの名無しさん:2008/01/05(土) 06:22:42
>>636
やっぱりお前には無理。
638デフォルトの名無しさん:2008/01/05(土) 13:08:48
>>637
自分の能力を疑ってみることも大切だよ。
639デフォルトの名無しさん:2008/01/05(土) 14:06:49
>>638
もうちょっと上手いことやらないと、釣れるものも釣れなくなっちゃうよ。
話題がないスレなんだしさじ加減を間違えなければそれなりに釣れてただろうに、惜しいことしたね。
640デフォルトの名無しさん:2008/01/05(土) 14:56:42
>>639
保険かけるのかっこ悪いね
641デフォルトの名無しさん:2008/01/05(土) 22:15:13
>>636
あほかw
それすらわからなくて、もっとちゃんとした方法をとろうとしてるのか?
今のお前には、知識的に無理、計算量的に無理、(開発)時間的に無理だと思われ。

普通に一般的な方法なんだが、お前がちゃんとした方法を自分で考えれるなら
勝手にすればいいじゃん。そんな奴がここで聞くとは思えないがな。
642デフォルトの名無しさん:2008/01/05(土) 22:18:42
質問するときはトリップつけたほうがいいよね
643デフォルトの名無しさん:2008/01/05(土) 23:26:55
ドコモの携帯にATRで開発した音声入力の翻訳機能がつくらしいんだけど、だれか使ったことある?
644デフォルトの名無しさん:2008/01/05(土) 23:42:56
TOEIC600程度ってニュースで言ってた奴?
自分でしゃべったほうがマシそうなんだが
645デフォルトの名無しさん:2008/01/06(日) 00:19:12
NECとの共同研究のだよな。
あれ使い物にならんぞ・・・。

何とか形にした感じだけど、おそらく製品になっても
玩具程度だと思われ。

そもそも、音声入力自体が、全然まともに出来上がってないw
次に、分かち書きが基本的に不可能に近い。理論的には文字での方法と同じだが
現実は遠くかけ離れてる。

あと、最近のATRって確実に質堕ちてるよな?
646デフォルトの名無しさん:2008/01/06(日) 03:49:14
ATRはそりゃ落ちてるだろうな、最近なんか随分出来の悪い人材が行ってる気がする。
昔は東大・京大ばっかだったのにな。
京阪奈周辺の大学の教授が自分ん所の学生送り込んでたが、優秀な人材はみんな企業行っちまうから…
647デフォルトの名無しさん:2008/01/06(日) 05:10:57
NAISTの馬鹿が行ってるくらいだからなぁ
648デフォルトの名無しさん:2008/01/06(日) 06:33:26
完全に人材不足だからなぁ…。
加えて、マネージメントやってるNICTが国会で槍玉に挙がったもんだから、色々絶望的だよ。
NAISTの人間ですら今じゃGoogleやYahooやNTTに行くもん。あんな所誰が行くんだよw
649デフォルトの名無しさん:2008/01/06(日) 08:21:15
なんでNAISTってこんなに馬鹿にされてんの?w
そりゃあ、東大・京大と比べられたらどうしようもないんだろうけど。
650デフォルトの名無しさん:2008/01/06(日) 14:46:21
全入だからでしょ
やってることのレベルで馬鹿にされてるわけじゃないと思う
651デフォルトの名無しさん:2008/01/06(日) 16:59:26
馬鹿にするならせめてより優れたものを作ってからにしようや
652デフォルトの名無しさん:2008/01/06(日) 17:20:47
NAISTに優れたものなんてあったっけ?
売りの辞書も、構造が随分時代遅れで、東大・京大よりレベル低いし。
NAISTにEnjuのようなものが作れるとは思えん。
653デフォルトの名無しさん:2008/01/06(日) 17:23:51
知らんくせに馬鹿にしてのか
最低だな
654デフォルトの名無しさん:2008/01/06(日) 17:29:32
学生のレベルが低いからなあ
655デフォルトの名無しさん:2008/01/07(月) 15:53:52
nlpに限っては
山下、工藤らが在籍していた前後がピークだよね
656デフォルトの名無しさん:2008/01/08(火) 09:29:51
彼らは、既存の積み重ねの成果を実装しただけで
実際に偉いのは、彼らの先輩の構築したもの。
運と時期が良かっただけ。Googleの登場時期も良かった。
言っちゃあ悪いが、単なる実装屋さんだよ。そのくせ、その辺の専門卒プログラマより質は悪いし。

ま、工学の分野は作ったものが偉いってのも確かなんだがな。
657デフォルトの名無しさん:2008/01/08(火) 18:00:29
NAIST批判が多いね
658デフォルトの名無しさん:2008/01/08(火) 22:27:07
批判すればそれを超えたつもりになれる患者さん達
659デフォルトの名無しさん:2008/01/09(水) 00:02:50
>>656はNAISTの蓄積は評価してるように見えるが…
あとは、それを実際に世に出した、k_takuとたつをも評価してるし
案外まっとうな意見じゃないかと。
660デフォルトの名無しさん:2008/01/10(木) 10:12:31
今後も蓄積だけでやっていくつもりかな
661デフォルトの名無しさん:2008/01/12(土) 19:13:01
工藤がただの実装屋って…
ここの連中は論文も読めんのか
662デフォルトの名無しさん:2008/01/13(日) 00:24:44
サーベイばっかだろ。
元論文読んだ事無いってオチじゃないだろうな?
663デフォルトの名無しさん:2008/01/13(日) 15:20:57
やっぱり研究者は批判されて一人前ってことか。
東大・京大がすごいと言われているようだけど、
(実際凄いとは思うが)個人名は出てこないもんな。
664デフォルトの名無しさん:2008/01/13(日) 20:25:00
工藤山下あたりは単なるエンジニアじゃなくてサイエンティストだろ
高林はエンジニアよりだけど
665デフォルトの名無しさん:2008/01/13(日) 20:43:12
奈良先は学生が足を引っ張ってるからな、残念だ
666デフォルトの名無しさん:2008/01/14(月) 05:45:29
>>664
そんなに有名な理論系の論文出してるか?
基本的に既存の理論の実装を中心にやってると思うが…。
PATアレイやら、ダブル配列やら、CRFやら、形態素解析やら。

>>665
学生がって・・・。
学生以外居ないだろ。学校なんだから。
大学院大学だから、学部生が居るわけでもあるまいし。


667デフォルトの名無しさん:2008/01/14(月) 10:00:05
論文読めよ
668デフォルトの名無しさん:2008/01/14(月) 10:30:08
>>628 ってその後どうなったのかな
↓日記が見られないから経緯が良く分からんです

http://groups.google.com/group/jlug.ml.debian.devel/browse_thread/thread/bec4b8359c116ae8
669デフォルトの名無しさん:2008/01/14(月) 10:46:18
>>666
何もやってないってのがわからないのが今のNAISTの学生。
なんか、それっぽい事してるからだまされるだけで
基本的に彼らのやってるのは、既存の実装技術の欠陥を、あまり注目されてない理論で改良してるだけ。
他の研究者の着眼点が悪いのか、それともそもそも研究者がやるべきことじゃないから目を当てないのかは知らないけどな。
670デフォルトの名無しさん:2008/01/14(月) 11:23:33
NAIST叩きスレになっててワロスw
別に、そんな叩くほどの価値があるわけでもなく
何らかの理論に対しての論争をするまでも無いレベルなのに
何やってるんだ。

理論が叩かれてるとかなら、有る意味「叩かれてこそ」って言えるけど
そういうレベルの議論でもなさそうだし。馬鹿だなぁ。お前らも。
671デフォルトの名無しさん:2008/01/14(月) 14:41:20
理論も持ち出さずに叩くからただの妬み嫉みにしか見えない。
NAISTがろくな研究してないっていうなら会議なり論文なりで否定して見せろよ。
672デフォルトの名無しさん:2008/01/14(月) 15:11:59
だから、そういう議論をするようなレベルの学校じゃないって事でしょ。
会議や論文で叩くにも、相手が何も理論を作ってなきゃやりようがない罠

まさにその話自体が本末転倒
673デフォルトの名無しさん:2008/01/14(月) 15:22:17
毎年国際会議もジャーナルも大量に出てるのに会議や論文で叩けないってどういうことだ。
674デフォルトの名無しさん:2008/01/14(月) 15:23:56
NAISTの馬鹿学生が必死に書き込んでることだけはわかった
675デフォルトの名無しさん:2008/01/14(月) 15:24:59
なにこのスレ
676デフォルトの名無しさん:2008/01/14(月) 15:30:19
>674
また嫉妬か。みっともない。
もっとも俺はNAIST関係者じゃないが。
677デフォルトの名無しさん:2008/01/14(月) 15:42:10
嫉妬する要素が一つもないw
678デフォルトの名無しさん:2008/01/14(月) 15:54:17
だから、もうやめろってw
学校批判したけりゃ、お受験板にスレたてて来い。

どっちにしろ、そんなレベルの低い話しても、誰もうれしくない。
679デフォルトの名無しさん:2008/01/15(火) 16:48:25
>>673
会議や論文は叩くためのものじゃないだろ・・・
680デフォルトの名無しさん:2008/01/18(金) 14:55:31
事件は会議室で起こってる
681デフォルトの名無しさん:2008/01/18(金) 14:57:40
・・・んじゃない。現場で起こってるんだ。
682デフォルトの名無しさん:2008/01/18(金) 20:12:11
が現場が会議室だった。
683デフォルトの名無しさん:2008/01/19(土) 05:38:42
/( ^o^ )\ なんてこったい
684デフォルトの名無しさん:2008/01/22(火) 15:43:56
もしも現場が会議室だったら・・・
685デフォルトの名無しさん:2008/01/25(金) 20:14:59
正規文法に従って設計された人工言語ってどっかない?
あればコンピューターで解析させるのに楽
686デフォルトの名無しさん:2008/01/26(土) 03:50:34
それがプログラミング言語じゃねぇの?
687デフォルトの名無しさん:2008/01/26(土) 08:42:19
( ´,_ゝ`)
688デフォルトの名無しさん:2008/01/26(土) 09:01:48
なでしこでも使っとけ
689デフォルトの名無しさん:2008/01/26(土) 10:05:40
ロジバン?
69024歳:2008/01/26(土) 12:06:28
お前らって何歳くらいなの?
691デフォルトの名無しさん:2008/01/26(土) 12:17:33
26歳
692デフォルトの名無しさん:2008/01/26(土) 19:00:44
>>685
ジャバって言語がいいらしいよ
693デフォルトの名無しさん:2008/01/26(土) 21:18:11
えっちてぃーえむるう
っていう まーくあっぷ げんご
が いいらしい よ
694デフォルトの名無しさん:2008/01/26(土) 21:19:10
オブジェクト指向は、世界を表現出来ます。
エレガントにそれを取り込んだJavaに不可能はありません。
695デフォルトの名無しさん:2008/01/27(日) 14:45:28
>>690-691みたいなガキばっかだったのか・・・
どーりで、話のレベルが低いと思った。

この業界って、普通30代後半からじゃないの?
696デフォルトの名無しさん:2008/01/27(日) 14:51:24
え、院生とかばかりだと思ってた。
697デフォルトの名無しさん:2008/01/27(日) 15:08:59
26才
698デフォルトの名無しさん:2008/01/27(日) 19:06:47
45歳
699デフォルトの名無しさん:2008/01/28(月) 06:11:25
ごめん、学部生だ
700デフォルトの名無しさん:2008/01/28(月) 08:31:17
伊代はまだ16歳だーからー
701デフォルトの名無しさん:2008/01/28(月) 09:01:43
M1です^^
702デフォルトの名無しさん:2008/01/28(月) 13:22:01
>>695>>698
やーいおっさんおっさん!
703デフォルトの名無しさん:2008/01/28(月) 13:23:46
B1です
704デフォルトの名無しさん:2008/01/29(火) 15:19:39
助教とか准教授がこんなとこ見てたら幻滅するわ・・・
705デフォルトの名無しさん:2008/01/29(火) 21:03:24
ごめん。。。
706デフォルトの名無しさん:2008/01/29(火) 21:12:11
本当に助教授とか居るなら何かネタ投下してよ
最近やってる研究とか読んだ論文とか
707デフォルトの名無しさん:2008/01/30(水) 01:30:44
この業界狭いから、そんな事するとすぐ特定されるだろw
708デフォルトの名無しさん:2008/01/30(水) 07:56:23
>>706
年齢だけでも危ういのにそんなことできるかw
709O大学:2008/01/30(水) 17:43:42
じゃあ、どこの研究室出身か名乗り上げてみようか〜♪
710デフォルトの名無しさん:2008/01/30(水) 17:47:45
大阪大学
岡山大学
大阪工大
大阪府立大
などなど・・・。

多すぎるw
○大学って言う意味だったらぶっころ
711MIT大学:2008/01/30(水) 18:20:57
いやまて
>>709は、そもそもnlp出身とも、そもそも理系出身とも言ってないぞw
712B大学:2008/01/30(水) 18:26:58
MITなんてお金がなくていけませんでした
713デフォルトの名無しさん:2008/01/30(水) 18:45:28
井上研究室
714デフォルトの名無しさん:2008/01/30(水) 18:51:00
>>714-1000
以下NAIST出身の提供でお送りいたします。
715714:2008/01/30(水) 18:51:33
間違えた。
>>714は無し。俺NAIST出身じゃないし。
716デフォルトの名無しさん:2008/01/30(水) 18:59:49
俺も違う
717デフォルトの名無しさん:2008/01/30(水) 20:35:40
>>715=NAIST出身
718デフォルトの名無しさん:2008/01/30(水) 20:43:32
じゃあ俺はNAISTでいいや
719デフォルトの名無しさん:2008/01/30(水) 23:39:17
じゃあおれはJAISTで
720デフォルトの名無しさん:2008/01/31(木) 13:47:58
じゃあKAISTで
721デフォルトの名無しさん:2008/02/02(土) 22:22:48
atrがやってるドコモの翻訳サービスってどうなの?
722デフォルトの名無しさん:2008/02/03(日) 03:04:32
723デフォルトの名無しさん:2008/02/03(日) 17:55:54
>>772
そんなこと聞いてなくて,実際に使ってみてどうなんだ?
724デフォルトの名無しさん:2008/02/03(日) 22:23:56
あれに参加した研究者の論文を見りゃわかるだろ。
どのレベルかは・・・。
この業界に居れば、使うまでも無くわかるだろうに。
725デフォルトの名無しさん:2008/02/03(日) 23:24:42
アホアンチうざいよ
726デフォルトの名無しさん:2008/02/04(月) 00:15:15
>>724
精度はコーパス次第だろうけどね。
あれは一応関西の学生バイトをかき集めて人手で作ったものだから
それなりには出来るだろうね。
問題は、機械による、単語の同定どころか、発話区間の同定すら出来てない(コーパス構築は人手?)
状態で、どこまで出来るのかが問題。
まー、はっきり言ってしまえばダメだろうねw
727孟宗:2008/02/04(月) 00:18:32
割と使えるものだったよ。
凄い凄い。
728デフォルトの名無しさん:2008/02/04(月) 00:23:23
今この研究やれば波に乗れるって研究は何?
トレンドが読めなくなってきた。
729デフォルトの名無しさん:2008/02/04(月) 00:26:44
>>728
mp3データからの歌詞トランスクリプトの生成
730728:2008/02/04(月) 01:19:33
mp3データから、歌詞の子音を判断して、それに合わせてキャラに口パク(6パターン)させるプログラムなら
高校時代に趣味で作ったことがある。もちろん精度悪い。
そこから歌詞まで行くのは、色々別の過程が難しい気がしてならんw
731デフォルトの名無しさん:2008/02/04(月) 01:36:04
>>730
多分、特定したw
あのゴーストの作者か…。懐かしいな
732デフォルトの名無しさん:2008/02/05(火) 07:08:26
野村先生のパーティ
733デフォルトの名無しさん:2008/02/06(水) 02:45:54
このスレ内輪すぎるからうんこ
734デフォルトの名無しさん:2008/02/06(水) 05:21:12
どうせ
>>730>>731>>732>>733も顔見知りなんだろ?
735デフォルトの名無しさん:2008/02/06(水) 06:03:23
そりゃ、みんなNAISTの学生だモンな
736デフォルトの名無しさん:2008/02/06(水) 06:05:26
俺はNAISTじゃないぜ
NAIST出身の友達は居るが
737デフォルトの名無しさん:2008/02/06(水) 07:54:00
まぁ、話の内容的に
NAIST、京大、NICT、ATRあたりの関西の機関の人間が多いのは確かだろうな。
しかも、あの辺共同研究ばっかだし人材の移動もあるので、スレの人間は殆ど身内じゃね?
738デフォルトの名無しさん:2008/02/06(水) 07:57:46
俺はそのうちのどれでもない
739デフォルトの名無しさん:2008/02/06(水) 08:39:11
俺は海外組。
英語処理ならそこそこ研究したが、日本語処理は正直わからん。
740デフォルトの名無しさん:2008/02/06(水) 09:31:46
こんなスレあったのな。ム板住人なのに気づかなかったぜ。

俺の学部時代は、文字列(高速検索・動的処理)・統計処理(のごくごく一部)で終わった・・・orz
修士で伸ばせなかったら俺はおしまいだ・・・・。

周りのレベルがアレ(つーか論外)なので特に言われる事は無いんだが、
どう考えても大学出た後がヤバい。所詮ここはその程度の大学だし。。。
京大生の知り合いの仕事見てると、こいつには勝てないんじゃないかって
ある種の絶望を覚える・・・。
741デフォルトの名無しさん:2008/02/06(水) 09:37:21
IQが20違うと
ものの見方が全然違うよ

試しに自分よりIQが20低そうな相手を考えてごらん?
742デフォルトの名無しさん:2008/02/06(水) 09:47:04
IQ200とIQ180だからあんまり変わらんと思うけど
743デフォルトの名無しさん:2008/02/06(水) 10:55:45
違うよ
全然
744デフォルトの名無しさん:2008/02/06(水) 16:13:47
↑何でこんなアホが紛れ込んでるの?
お前には10年早いよ
745デフォルトの名無しさん:2008/02/06(水) 18:08:22
>>740
自覚があるだけマシ
周りのレベルに流される奴は、外を見ないからなぁ。
746デフォルトの名無しさん:2008/02/06(水) 23:25:28
>>740
プライドがあるだけたちが悪い
周りのレベルが低いとか言う奴は、自分の能力を見ないからなぁ。
747デフォルトの名無しさん:2008/02/06(水) 23:34:23
どちらにせよ足りないと思ってるなら変わりないだろう。
うぬぼれているならともかく。
748740:2008/02/06(水) 23:50:33
>>746
なるほどww
それは言えてるねw
でも、自分に対して低いとは言ってないよ?同じくらいかもしれないし、少し周りの方が高いかも知れない。
そもそもそんな狭いフィールドで比較なんてしてないんだからww
全体の中での自分の立ち位置を確認する為に、外を確認しただけ。それは自分の能力を把握する事ではなくて?w
俺も自分の能力をはっきりとは知らないわ。誰も知らないんじゃない?
でも他人よりは知ってるよ。

ところで、プライドとただの馬鹿の区別が付かない人が多いよね。
自覚とプライドも違う筈だよね。馬鹿馬鹿しい話だと思わないかい?
749デフォルトの名無しさん:2008/02/07(木) 00:02:05
>>748
自重・・・。
若いのはわかるけど、ちょっと喧嘩売ってるというか
君は色々無駄に人生苦労してそうだ。発言には気をつけような。

明らか>>740じゃないような。釣りなのか。
750デフォルトの名無しさん:2008/02/07(木) 00:07:07
はいはいNAIST、NAIST
751740:2008/02/08(金) 14:32:56
>>750
関西の大学だけじゃなく、地方も忘れんでください・・・。
752デフォルトの名無しさん:2008/02/08(金) 17:37:25
え?北陸先端?徳島?静岡?北大?長岡?筑波?
753デフォルトの名無しさん:2008/02/08(金) 23:14:42
>>752

ワロタ
754デフォルトの名無しさん:2008/02/09(土) 00:07:59
北陸で学部はないだろw
755デフォルトの名無しさん:2008/02/09(土) 22:25:50
ふむ
結局文系は俺だけのようだな
756デフォルトの名無しさん:2008/02/10(日) 16:41:06
>>755 言語学系の人?
757デフォルトの名無しさん:2008/02/10(日) 18:20:34
なんか入門書を紹介してください。高卒ですがよろしくお願いいたします。
758デフォルトの名無しさん:2008/02/10(日) 18:26:59
>>757何をやりたいの?
759デフォルトの名無しさん:2008/02/10(日) 18:46:34
自然言語処理です。
760デフォルトの名無しさん:2008/02/10(日) 18:52:40
>>759
自然言語処理の何をしたいの?
761デフォルトの名無しさん:2008/02/10(日) 18:54:19
>>756
商学系ですサーセン
762デフォルトの名無しさん:2008/02/10(日) 18:54:51
>>760
検索エンジンとかです。
763デフォルトの名無しさん:2008/02/10(日) 19:31:53
検索エンジン関連技術全体のごくいちぶだなぁ、自然言語処理らしい自然言語処理は。
764デフォルトの名無しさん:2008/02/10(日) 19:33:31
検索エンジンって儲かりますか?
765デフォルトの名無しさん:2008/02/10(日) 20:02:08
検索エンジンつっても
PowerSetのような自然言語理解の分野に手をかけたようなのもあるし。
766757:2008/02/10(日) 21:18:14
なんでか偽物がでてる…。自分は日本語文章を機械的に要約してみたいんです。
ぐぐってみた結果、文を要素にバラす形態素解析というのをやったあと意味を解析するらしい事はわかりましたが、
なにぶん無学なもので体系的に勉強しておきたいのです。

MeCab で形態素にバラした後に日本語の構文知識をどう適用したらいいのか途方にくれています。
767デフォルトの名無しさん:2008/02/10(日) 21:36:46
>>766
「確率的構文解析」でググれ。
768デフォルトの名無しさん:2008/02/10(日) 22:09:14
knpじゃだめなのか?
769デフォルトの名無しさん:2008/02/10(日) 22:14:12
どこまでやりたいか,アプリケーションとして何をやりたいかによるなあ
応用によっては形態素解析で表層情報だけあれば十分な場合も多々あるし
770デフォルトの名無しさん:2008/02/10(日) 23:32:31
>>766
とりあえず「。」で区切って文の配列をつくって、
最初の文と1/3あたりの文と2/3あたりの文と最後の文を表示する。
これだけでも結構つかえるぞ。
771デフォルトの名無しさん:2008/02/11(月) 03:27:03
文の同定ってどうするんかなぁ。
前から疑問だったんだけど。
確かに自分でデータ作るときは「。」で判別してるけど
もっと、ちゃんとした方法があるはず。

ちゃんとした文じゃなくても
形態素や係り受けみたいな、コンピュータ的に扱える単位であればいいんだけど
それの文に相当するものってないよね。
772デフォルトの名無しさん:2008/02/11(月) 07:45:36
>>771
コーパス用意して、bigramかtrigramで終端モデルつくればいいんじゃね?
773デフォルトの名無しさん:2008/02/11(月) 12:34:38
bigram、て響きがかっこいいよな

宇宙戦隊バイグラム、とかありそうじゃん
774デフォルトの名無しさん:2008/02/11(月) 12:53:35
宇宙怪獣トリグラム
宇宙戦艦エヌグラム
宇宙刑事マルコフ
775デフォルトの名無しさん:2008/02/11(月) 15:25:29
宇宙刑事マルコフwww
776デフォルトの名無しさん:2008/02/11(月) 15:27:54
バイファムは「銀河漂流」だけどね
777デフォルトの名無しさん:2008/02/11(月) 15:30:30
俺今までビグラムって呼んでた
778デフォルトの名無しさん:2008/02/11(月) 16:07:38
ビグラム量産の暁には連邦など >>777オメ
779デフォルトの名無しさん:2008/02/11(月) 16:09:48
>>775
なんか手錠が数珠つなぎになってそうだw
780横レス:2008/02/11(月) 17:02:58
>>768
それだと形態素解析もjuman限定になるしね
さすがに形態素解析にルールベースはきつい
(個人的には日本語構文解析だとルールベースのほうが結局得策な気はするけど)
781デフォルトの名無しさん:2008/02/12(火) 02:37:19
>>780

ルールベースの構文解析器を紹介してください。

782デフォルトの名無しさん:2008/02/12(火) 09:12:41
> さすがに形態素解析にルールベースはきつい
なんで?
783デフォルトの名無しさん:2008/02/12(火) 13:15:39
780はルールベースって言いたいだけちゃうん?
784デフォルトの名無しさん:2008/02/12(火) 13:22:52
どのレベルで「きつい」と言ってるかによるなあ
最長一致とかでは全然話にならないとかいうレベルなら確かにきついかも
785デフォルトの名無しさん:2008/02/14(木) 18:49:17
cabochaとknp、どっちの精度がいい?
786デフォルトの名無しさん:2008/02/14(木) 21:47:34
>>785
普通の係り受けと同格の区別までさせたければknpしかない

cabochaのは配布ページにも書いてあるけどあくまでも「簡易」同格判別
というか中の人のweb日記によると次バージョンではなくなってるってさ

ついでにボヤキ
しかしjuman品詞体系は癖が強くてもう嫌じゃー
誰かmecab-ipadic形態素解析使ってknpっぽいことするの作ってBSD or LGPL or GPLで公開してくれない?
787デフォルトの名無しさん:2008/02/16(土) 20:51:13
許してやれよ
788デフォルトの名無しさん:2008/02/16(土) 21:22:23
自分で作れ
789デフォルトの名無しさん:2008/02/16(土) 21:39:07
歴史的仮名遣いの文の形態素解析やってる人居るかな?
先行研究例があったら教えてほしい
790デフォルトの名無しさん:2008/02/16(土) 21:43:28
>>789
それは自然言語処理というよりむしろ計算言語学の領域と思われ
791デフォルトの名無しさん:2008/02/17(日) 08:42:34
現代仮名遣の形態素解析は自然言語処理なのに
歴史的仮名遣の形態素解析は計量言語学になるん?

水谷先生あたりがやってないですかねとあてずっぽうを言ってみる。
792デフォルトの名無しさん:2008/02/19(火) 13:47:15
LREC2008の航空券を調べているが、日本/モロッコ往復は、安いのが
見つからない。うちの研究室では、今回の出張は4名が限度だ。
793デフォルトの名無しさん:2008/02/20(水) 21:52:33
情報理論のいい入門書知ってる人いる?
794デフォルトの名無しさん:2008/02/20(水) 22:02:38
スレ違い
795デフォルトの名無しさん:2008/02/20(水) 22:10:51
そこをなんとか
796デフォルトの名無しさん:2008/02/20(水) 22:13:43
amazon.co.jp
797デフォルトの名無しさん:2008/02/20(水) 22:18:52
レビュー少ないんだよなぁ
798デフォルトの名無しさん:2008/02/20(水) 22:19:40
あんたが書けば?
799デフォルトの名無しさん:2008/02/20(水) 22:22:53
無茶言うわ
読む本探してる人間に
800デフォルトの名無しさん:2008/02/20(水) 22:24:42
スレ違いのほうがよほど無茶
801デフォルトの名無しさん:2008/02/20(水) 22:27:37
そんなにスレ違いかねぇ
自然言語処理の基礎なんじゃないの?
802デフォルトの名無しさん:2008/02/20(水) 22:31:22
情報理論がベースになっている領域もあれば、
そうでない領域もある。

さあ、適切なスレをみつけてそっち逝け。
803デフォルトの名無しさん:2008/02/21(木) 03:22:56
知らないなら知らないって言えばいいのに
恥ずかしいやつ
804デフォルトの名無しさん:2008/02/21(木) 07:33:21
知らないよー^^
805デフォルトの名無しさん:2008/02/21(木) 07:35:09
恥ずかしい捨て台詞だなwwwwwwwww
806デフォルトの名無しさん:2008/02/21(木) 09:29:07
入門書(笑)

知ってる人いる?(笑)
807デフォルトの名無しさん:2008/02/21(木) 10:30:01
空気を読まずマジレス
http://www.inference.phy.cam.ac.uk/mackay/itila/
808デフォルトの名無しさん:2008/02/21(木) 10:38:23
ここ年齢層高いんだろ?
助教とか准教授がこういうアホな煽りしてるかと思うと、涙が出てくる
809デフォルトの名無しさん:2008/02/21(木) 17:59:48
はいはい、いい本が見つかるといいなw
810デフォルトの名無しさん:2008/02/21(木) 19:56:04
>>807
ありがとう。
今日その本を図書館で見たら、結構出来が良かった。
買ってみる。
811デフォルトの名無しさん:2008/02/21(木) 23:58:00
pdf版が落とせるから無理に買う必要ないぞ
812デフォルトの名無しさん:2008/02/22(金) 02:50:14
ってか洋書じゃん
日本語版ないの?
813デフォルトの名無しさん:2008/02/22(金) 07:28:08
洋書に抵抗のある研究者ってどうなのよ?
814デフォルトの名無しさん:2008/02/22(金) 07:37:06
Referencesには原著のタイトルを書くからオッケーオッケー
815デフォルトの名無しさん:2008/02/22(金) 10:34:12
日本人が日本語の本を好んでも別に悪くは無い。
無ければ洋書を読む。あるなら日本語を読む。
それの何が悪い。

むしろ、洋書も和書も読めないヤツが山ほど居るわけだが・・・。
彼らは自覚あるんだろうか。
816デフォルトの名無しさん:2008/02/22(金) 19:08:42
817デフォルトの名無しさん:2008/02/22(金) 19:15:54
>>815
学生ならともかく、研究者が原著にあたらないのは問題あると思われ。
ましてや>>814のような行為は言語道断だろ。
818デフォルトの名無しさん:2008/02/22(金) 19:48:38
いずれにしろスレ違いなスレで質問して
煽れば答えがもらえると思ってる時点でろくなもんじゃねぇ
819デフォルトの名無しさん:2008/02/22(金) 20:16:07
>>815
スレ違いで粘着して情報を要求しておいて洋書だとブーたれるヤツが一人いるわけだが・・・。
彼は自覚あるんだろうか。
820デフォルトの名無しさん:2008/02/22(金) 20:45:54
つゆとり
821デフォルトの名無しさん:2008/02/22(金) 23:30:37
このスレのオッサンきめぇな
いい年して幼稚な煽りするなよ・・・
822デフォルトの名無しさん:2008/02/23(土) 06:13:43
はいはい、ぼくちゃんはゆとりで生きていこうね。
823デフォルトの名無しさん:2008/02/23(土) 14:30:17
>>822
だから自分の年考えろよ、恥ずかしくならんのか?
824デフォルトの名無しさん:2008/02/23(土) 14:31:24
そいつは単なる門外漢のアホだよ
825デフォルトの名無しさん:2008/02/23(土) 14:32:37
自演醜ス
826デフォルトの名無しさん:2008/02/23(土) 14:46:23
(・∀・)クスクス
827デフォルトの名無しさん:2008/02/23(土) 15:14:44
改訂版がもうすぐ出る。

http://www.cs.colorado.edu/~martin/slp2.html
828デフォルトの名無しさん:2008/02/23(土) 15:55:53
>>827
第1版の正誤表は凄まじいことになってたからな。
ほとんど本文と同じぐらいの分量の正誤表ってどうよ。
829デフォルトの名無しさん:2008/02/23(土) 16:26:55
だから和書を出せと・・・
830デフォルトの名無しさん:2008/02/23(土) 16:51:51
和訳と翻訳の違いって何?w
831デフォルトの名無しさん:2008/02/23(土) 16:52:35
>>827
Martinはカンファレンスで直接会ったことあるけどいい人だよ。
832デフォルトの名無しさん:2008/02/23(土) 20:29:52
マーティンってくまくましててかわいい♥
833デフォルトの名無しさん:2008/02/23(土) 20:53:24
どうやらみたいなゆとり学部生はスレ違いのようですな
834デフォルトの名無しさん:2008/02/23(土) 22:42:27
>>833
日本語が読めません・・・!!!
835デフォルトの名無しさん:2008/02/23(土) 22:46:06
>>834
大丈夫
それは日本語じゃないから読めなくて当然
836デフォルトの名無しさん:2008/02/23(土) 23:15:37
ジュラフスキは、学部が文科系の言語学科。
現職もスタンフォード大の(コンピュータ・
サイエンスではない)言語学科?
837デフォルトの名無しさん:2008/02/24(日) 01:18:30
あーなつかしいスレ発見。

2chの対象のスレッド内の形態素集合からその板の形態素集合の平均を引いて
求めた特徴的形態素集合の上位のものを抜き出して、その形態素を含む行
およびそれにレスしている行だけを抜き出して要約を作成するとかやったなあ・・・。

うまく動いたけどすごく重かった。
838デフォルトの名無しさん:2008/02/24(日) 01:25:04
疑似コードだとこんな感じ。
こんだけのことをするためにえらく苦労した思い出が・・・。

uniqueTokenMap = tokenMap(target) - TokenMapAverage(board)
uniqueTokens = sort(uniqueTokenMap)[0:20]
uniqueResList = grepRes(target, uniqueTokens)
print(uniqueResList)
839デフォルトの名無しさん:2008/02/24(日) 09:32:36
それならBayesianな生成モデルたてた方が面白そうだな。
840デフォルトの名無しさん:2008/02/24(日) 18:31:18
くらし安心ベイジアン
841デフォルトの名無しさん:2008/02/24(日) 18:38:51
SOMで最大クラスタを抽出するのもアリだな
842デフォルトの名無しさん:2008/02/25(月) 10:11:20
いやダメだろjk・・・
843デフォルトの名無しさん:2008/03/06(木) 16:57:07
ho
844デフォルトの名無しさん:2008/03/07(金) 15:20:11
言語処理とセマンティックをもちいた検索だって

http://journal.mycom.co.jp/articles/2007/12/10/q-go/index.html
845デフォルトの名無しさん:2008/03/07(金) 19:46:22
つまんねえなそれ
846デフォルトの名無しさん:2008/03/08(土) 13:31:54
NTTがそれぐらいしてるだろ
847デフォルトの名無しさん:2008/03/08(土) 15:21:39
この手の検索は俺は失敗すると思うんだがな。
必ずしも自然言語で問い合わせるのが楽かと言えば、俺はNoだと思うし。

コンピュータを操作するのに、対話型にすべきとか言ってるのも、俺は正気じゃないと思う。
アプリケーションの起動に、音声認識で起動するのすら煩わしいのに、対話なんかしたら・・・。

何でも人に近づけりゃ良いってもんじゃねぇぞ。
使いどころがわかってない商売人と、研究者が組んだってこの程度しか出てこないんだろうが・・・。
848デフォルトの名無しさん:2008/03/08(土) 17:41:08
>>847
漏れもそう思う
ただGUIvsCUIみたく結局はとっつきのいい方に流れていく気がしないでもない
それぐらいだったらせめて日本人がデファクトスタンダードとって大儲けして呉とも思う
849デフォルトの名無しさん:2008/03/08(土) 18:41:50
自然言語検索でも、なにが知りたいかをちゃんと表現できる人は少ないだろうしなぁ。
850デフォルトの名無しさん:2008/03/08(土) 22:40:33
自然言語検索にしても、より良い結果を得ようとして最適化したら
結局は人間相手に使う言葉とは別物になってしまうという罠
851デフォルトの名無しさん:2008/03/13(木) 09:48:10
オントロジーって役立つの?
852デフォルトの名無しさん:2008/03/13(木) 11:36:21
オントロジー(笑)
セマンティック(笑)
853デフォルトの名無しさん:2008/03/13(木) 12:19:43
自然言語処理って役立つの?
854デフォルトの名無しさん:2008/03/13(木) 14:40:42
FEPとかIMEは自然言語処理じゃないの?
SKKやらTUT-Codeみたいなのは知らんが。
855デフォルトの名無しさん:2008/03/14(金) 09:10:09
自然言語処理(笑)
人工知能(笑)
856デフォルトの名無しさん:2008/03/17(月) 18:57:44
久しぶりに見に行ったらnaist-jdicがうpしてICOT条項外れてるね
http://sourceforge.jp/projects/naist-jdic/

このスレって実はnaist関係者いないんじゃね?
857デフォルトの名無しさん:2008/03/17(月) 19:38:18
前も言ったが俺はnaist関係者じゃないぞ
naist出身の知り合いが居るだけだ
858デフォルトの名無しさん:2008/03/17(月) 21:17:11
debian関係で知ったけど、別にここに書くことでもないかと思ってた。
859デフォルトの名無しさん:2008/03/18(火) 14:43:52
駒場、結構繁盛してるね
860デフォルトの名無しさん:2008/03/18(火) 19:10:18
日本における自然言語処理の分野で今もっとも活発な順に並べると
どんな感じなの?

東大
京大
NAIST
阪大
徳島大
鳥取大

こんな感じ?
861デフォルトの名無しさん:2008/03/18(火) 20:18:47
>860
ttp://nlp2008.anlp.jp/program.html
の著者名(所属)の所属をカウントしてみれば、多少の傾向はわかるかもしれない。
本数が多い→活発,が成り立つかは疑問だが。
明日の懇親会にでもでてみれば名無しさんにも会えて
各組織の活発さもわかるかもしれないよ・・・。
862デフォルトの名無しさん:2008/03/18(火) 21:29:09
>>861
そんなドメな学会、あんまり参考にならないのでは。
863デフォルトの名無しさん:2008/03/18(火) 22:16:14
今週東大でなんかやるみたいじゃん
864デフォルトの名無しさん:2008/03/19(水) 12:11:03
>860
下3つは無い
865デフォルトの名無しさん:2008/03/19(水) 19:39:38
要所の研究をやったかどうかで言えば>>860が近いが
活発かといわれると、下2つはありえない。

それ以前に、阪大は自然言語処理の分野では大して・・・。
何故そこに阪大があるのか理解できない。
866デフォルトの名無しさん:2008/03/21(金) 08:23:36
今日は東大で機械翻訳のシンポジウム〜
867デフォルトの名無しさん:2008/03/21(金) 22:27:21
明日は東京女子大で社会言語科学会
プログラムをみるとATRが目立つな
868デフォルトの名無しさん:2008/03/22(土) 01:37:53
最近のATRは露骨な成果稼ぎの為に
質の悪い人材・バイトを大量に引っかき集めとるからな・・・
869デフォルトの名無しさん:2008/03/22(土) 06:57:33
一粒で二度おいしかったり、ね。
870デフォルトの名無しさん:2008/03/22(土) 07:55:17
atrの質低下ってそんなに著しいの?
871デフォルトの名無しさん:2008/03/22(土) 10:03:24
ATRの成果稼ぎってより、周辺の学生の成果稼ぎってのもあるような…。
872デフォルトの名無しさん:2008/03/22(土) 12:55:58
研究を第三セクターでやろうというのがそもそも失敗だったと思う
873デフォルトの名無しさん:2008/03/22(土) 17:38:16
何もかもが中途半端だよな、atr
874デフォルトの名無しさん:2008/03/23(日) 17:35:31
つーか文系やら三流理系はもうお腹いっぱい
外国人留学生をもっと取り入れろ。
三流理系は「作る系」に導入し生産的な環境を拡大せよ。
それすら出来ないエセ理系は、諦めろ。
文系はトップクラスの一部だけで良い。
本当にこのままでは堕ちる一方だぞ。

別にATRに対してじゃなくて、全体に対して言ってることだけれども。
成果稼ぎとインチキ研究ばっかしてお茶濁してるんじゃねぇよ。

俺が学生の頃(7年ほど前)から、相当堕ちてしまったと”現場”で感じるようになった。
つーことは、きっと教育・育成の現場レベルではもっと酷いんだろうな。
これでは日本の機関から人材を取る気が起きない。
875デフォルトの名無しさん:2008/03/23(日) 17:56:14
留学生だろうがなんだろうが玉石混交なのは何も変わらない
876デフォルトの名無しさん:2008/03/23(日) 18:06:38
7年前というと、俺が学生だった頃(15年前)から見るとだいぶ落ちた後だな。
877デフォルトの名無しさん:2008/03/23(日) 20:02:04
人が居ないからって、何も国内の粗悪な学生使わなくても
留学生使えばいいじゃんって話でしょ。
>>874の話は2年くらい前の研究現場に居るとかなり同意出来るんだが、
問題は、既に学生を指揮する立場の研究者の質まで落ちつつあるという事
優秀な人には相当逃げられてる。

上が悪いから、もうどうにもならん。
878デフォルトの名無しさん:2008/03/23(日) 21:41:34
なんでそこで外国人留学生が出てくるのか分からん
どうせ帰るし、日本で就職したとしても奴らは日本で消費せずに本国に送金するだけだろ
879デフォルトの名無しさん:2008/03/24(月) 02:26:33
教育機関じゃないのに、なんで後のことを考えるんだ?
その後国に帰ろうがどこに就職しようが知ったこったねぇ。
選択肢を増やし極力優秀な人材を使うべきだ。と言う話だろうに。
880デフォルトの名無しさん:2008/03/24(月) 05:55:09
留学生に優秀な人材は少ないぞ。いないわけではないにせよ。
881デフォルトの名無しさん:2008/03/24(月) 07:20:37
>>880
アメリカのように留学生にとって魅力的な大学が増えれば、
日本にいる留学生の質も上がるんだろうけどね。

あと、せっかくいい留学生が来ても、学生は英語で日常会話できないし、
教授も英語で講義できないしで、すぐに孤立してやる気をなくしてしまう。

まずは優秀な教授を育てるところから始めないと。
882デフォルトの名無しさん:2008/03/24(月) 10:01:54
留学生が日本語を勉強すればいいじゃん

英語できない教授なんているの?
どこ大?
883デフォルトの名無しさん:2008/03/24(月) 13:19:33
881は明らかにろくな大学行ってないw
884デフォルトの名無しさん:2008/03/24(月) 15:42:21
ですよねー
885881:2008/03/24(月) 19:37:54
一応宮廷ですよ。
もちろん教員は英語普通に話せるよ。
でも授業を全部英語でやるのはまた別の話。
886デフォルトの名無しさん:2008/03/25(火) 00:14:52
「一応宮廷」じゃ分解能に欠けていて話にならん。どこよ。
887デフォルトの名無しさん:2008/03/25(火) 00:21:09
あんまり追求しないでやれよ
888デフォルトの名無しさん:2008/03/25(火) 06:06:18
最大でもたった7校しかないのに分解能に欠けているって・・・プ
889デフォルトの名無しさん:2008/03/25(火) 07:31:42
授業を英語で出来ない教授なんているの?
どこ大?
890デフォルトの名無しさん:2008/03/25(火) 08:16:57
やろうと思えばできるけどやらないって話だろ
日本人が大半の現状でやる意味もないけどな
なんて言ってると日本語のわからない外人が入ってこないから負のスパイラルなんだけどな
891デフォルトの名無しさん:2008/03/25(火) 16:06:06
> 日本人が大半の現状でやる意味もないけどな

どこの話? その認識。いまどき珍しいというか遅れてるというか。
892デフォルトの名無しさん:2008/03/25(火) 18:44:39
その場で適した言語を使うべきであって
言語が何だからどうこうなると言う話でもない。
何か、英語でやればメリットでもあるというの?

この辺はプログラミング言語にも言えることだが・・・。
893デフォルトの名無しさん:2008/03/25(火) 20:05:04
>>892
学術界の共通言語は英語です。
日本人学生は英語でのディスカッションの経験が少なすぎ。
だから教授になっても対等な勝負ができない。
たまにがんばってる先生がいるかと思うと、ヨーロッパやアメリカ帰りだったりするし。
894デフォルトの名無しさん:2008/03/25(火) 20:32:21
>>892
自分でその場その場で言語選択出来るほど、外国語が使えるならな。
残念ながら、英語が出来ない学生が多いので、練習の意味も込めてやるべき。

プログラミング言語だって、VBでもC♯でも、その場で適しているならば使えば良いとは思うし
Cで全てやるのが偉いわけでもないが
VBしか出来ないなら問題。

んで、やらないだけって言ってる人は
基本的に、やれないと俺は思う。
経験が足りない人間が外国語で高度なディスカッション出来るとは思えない。
895デフォルトの名無しさん:2008/03/25(火) 20:35:19
少なくとも大学院の講義は英語でやった方がいいよね〜
896デフォルトの名無しさん:2008/03/26(水) 01:23:37
うちの大学は3年から一部の授業や試験は英語でやってたが
897デフォルトの名無しさん:2008/03/26(水) 07:41:29
うちの大学は学部1年から英語で講義をやってたけど?


ってことになるからそういう話はイクナイ
でも実際俺がいたところはそうだったw
898デフォルトの名無しさん:2008/03/26(水) 16:08:31
どこ?
899デフォルトの名無しさん:2008/04/02(水) 09:08:06
>>868
それって http://www.slc.atr.jp/nlp/members/ のことなの?
質の悪い人材って誰?
900デフォルトの名無しさん:2008/04/02(水) 11:46:07
普段資源整理やらコーパス集めに借り出されてる人材は、そんなページに載らない。
あと、ATRつっても自然言語処理とは限らない。似た研究が結構あるからそっちかもしれん。


>>898
文系の大学だと山ほどあるなw
901デフォルトの名無しさん:2008/04/03(木) 22:27:35
っていうか、>>899のページに載っている人はみんなかなり前から
いた人達だと思うぞ。
902デフォルトの名無しさん:2008/04/10(木) 20:58:25
ATRとNiCTとJSTが契約している翻訳会社の質が悪い
903デフォルトの名無しさん:2008/04/12(土) 00:33:01
NAISTの自然言語関係について、学内の雰囲気知ってる人います?
工藤さんが卒業されたインパクトとか含めて、どんな感じなんでしょうか。
904デフォルトの名無しさん:2008/04/12(土) 02:35:43
これまたダイレクトな質問だなwww
905デフォルトの名無しさん:2008/04/12(土) 16:32:04
そろそろ新入生の研究室配属決定の時期か?
906デフォルトの名無しさん:2008/04/12(土) 18:43:36
やっぱり>>903がデリケートな質問であるような状況なのかな…
不安だ
907デフォルトの名無しさん:2008/04/12(土) 18:50:45
>>906がどこへ行っても上手くやれないだろうということは分かった。
908デフォルトの名無しさん:2008/04/12(土) 20:49:06
最近の雰囲気は知らないが,
工藤氏やたつを氏が在籍したのは昔のこと。
今は特に目立つ人材は居ないのでは。
909デフォルトの名無しさん:2008/04/12(土) 22:04:28
彼らは辞めてから特に有名になっただけでは・・・。
在籍中も、そりゃ無名ではなかったけど、そんなに有名でもなかったし。
そもそも、形態素解析器が一般人(非研究者)にメジャーになったのが、彼らが辞めた後だからなぁ・・・。

それ以前だと、高林氏のnamazuとかkakasiで有名だったか。
何にしても、研究のレベルはともかく、
成果物を広く使えるようにしている研究室は強いな。
910デフォルトの名無しさん:2008/04/30(水) 03:01:03
今自分の居る研究室が、強烈に居心地悪くなった・・・orz
うちの主力が鬱入っちゃって潰れたもんだから。。。
俺らが無能だから悪いんだがね。
911デフォルトの名無しさん:2008/04/30(水) 05:37:35
よくあること。うちの職場でもそうだし。
大体1匹狼状態を作ると、ますますそいつ以外触れなくなって悪循環に陥る。
最初は、些細なきっかけなんだがな・・・

プロジェクト管理やってるやつの責任は重大だよ。
912デフォルトの名無しさん:2008/05/25(日) 14:14:41
自然言語業界は頭が命だから、どうしてもごく一部のすごい人と
大多数のワナビーって構図になるよね。
by ワナビーの一人
913デフォルトの名無しさん:2008/05/28(水) 01:51:20
lrec2008。金持がないと出来ない学問。
914デフォルトの名無しさん:2008/05/28(水) 02:00:20
学問・・・・・・か?
915デフォルトの名無しさん:2008/05/28(水) 16:34:32
>>912
ワナビー的には、どの辺が難しいというか、壁を感じて
いるんでしょう?
FSNLPと東大出版会の「確率的言語モデル」をきちんと読めば、
標準的な所はかなりすっと行くような気もするけど..。
916デフォルトの名無しさん:2008/05/28(水) 17:00:37
>>915
それはお勉強。誰でもできる。問題なのは研究。これは才能がいる。
917デフォルトの名無しさん:2008/05/28(水) 20:57:14
才能といい切ってしまっていいんだろうか。
912の人はどう思っているのかな。
918デフォルトの名無しさん:2008/05/28(水) 21:37:23
才能というか、暗記しかしてこなかった馬鹿とは違うやつらだろ。
919デフォルトの名無しさん:2008/06/05(木) 20:10:35
言い換えの為に、データ形式の類語辞書を探してるんだけど何か無い?
920デフォルトの名無しさん:2008/06/08(日) 09:37:21
第2版。
Speech and Language Processing (2nd Edition) (Hardcover)by Daniel Jurafsky (Author), James H. Martin (Author)

ttp://www.amazon.com/Speech-Language-Processing-Daniel-Jurafsky/dp/0131873210

Hardcover: 1024 pages
Publisher: Prentice Hall; 2 edition (May 26, 2008)
Language: English
ISBN-10: 0131873210
ISBN-13: 978-0131873216
Product Dimensions: 9.4 x 6.9 x 1.6 inches
Shipping Weight: 3.5 pounds (View shipping rates and policies)
Average Customer Review: No customer reviews yet. Be the first.
Amazon.com Sales Rank: #22,897 in Books (See Bestsellers in Books)
Popular in these categories: (What's this?)
#2 in Books > Computers & Internet > Computer Science > Artificial Intelligence > Machine Vision
#2 in Books > Computers & Internet > Software > Voice Recognition
#2 in Books > Computers & Internet > Software > Business > Speech Processing
921デフォルトの名無しさん:2008/06/18(水) 23:53:19
>>915
いや、その本頑張って読んでるけど難しすぎ…。

今EMアルゴリズムのところで詰まってます。

44ページの(2.33)なのですが、
「また、ジェンセンの不等式より、次が成り立つ。
Σ[y]P[θ](y|x[i])(log(P[θ](y|x[i])/P[θ ̄](y|x[i])) >= 0

とありますが、これは 8ページ、(1.20)・(1.21)の
「P(x)、Q(x) を確率分布とするとき、不等式
log(x) <= x - 1
より、次が成り立つ。
Σ[x]P(x)log(Q(x)/P(x)) <= Σ[x]P(x)((Q(x)/P(x)) - 1) = Σ[x]Q(x) - Σ[x]P(x) = 0

これの、log の中で Q(x) と P(x) が入れ替わって、符号が逆に→不等号が逆になった
パターンですよね。
Jensen の不等式は使ってないように見えるのですが…
私の勘違いなんでしょうか。

使っているのが Jensen の不等式だろうと、log(x) < x - 1 だろうとどっちでも
いいじゃないかと言われそうですが、気になって先に進めません。
おわかりの方いらっしゃったらよろしくお願いします。
922デフォルトの名無しさん:2008/06/19(木) 02:05:32
(2.33)はKLダイバージェンスは常に正ですよ、というだけだけど、
>>921に書かれている通り、別にJensenの不等式を
使わなくても証明できるね。
無理に?使うなら、Jensenの不等式はf(x)が凸なとき
E[f(x)]≦f(E[x])ということなので、f(x)=log(x)として
-Σplog(p/q)=Σplog(q/p)=E_p[log(q/p)]
≦log(E_p[q/p])=log(Σq/p・p)=log(1)=0
よってΣplog(p/q)≧0、
でいいんじゃないかな。
923デフォルトの名無しさん:2008/06/19(木) 02:16:03
確かに、そこは書き方が難しいね。
でも全部そうだってことではないので、がんがれ。
924デフォルトの名無しさん:2008/06/19(木) 23:49:10
>>922
なるほどー。わかりました。
それにしても、EM アルゴリズムのあたりは難しい…。
式も補って読まないといけないし。

HMM に適用する場合について読んでいるのですが、
117ページの(4.27)は
まず素直に適用すると

Q(M, M ̄) = Σq[1, T]P(q[1, T]|o[1, T], M)log(P(o[1, T], q[1, T]| M ̄)

だけど、P(q[1, T], o[1, T]|M) = P(q[1, T]|o[1, T], M) * P(o[1, T]|M) だから

P(q[1, T]|o[1, T], M) = P(q[1, T], o[1, T]|M) / P(o[1, T]|M)

なので、(4.27)の

Q(M, M ̄) = (1 / P(o[1, T]|M)Σq[1, T]P(q[1, T], o[1, T]|M)log(P(o[1, T], q[1, T]| M ̄)

となるわけですよね。

こうやって書くといかにも当たり前のようだけど、本の中でもう1〜2行でいいから
途中の式を挟んでくれたらわかりやすいのに…と思うけど、
このへんがすらすらわかるぐらいじゃないと NLP やっていけないのだろうか…
925デフォルトの名無しさん:2008/06/20(金) 07:08:05
>>924
まあ論文書こうと思ったら、それぐらい導出できないとなあ。
でも一番大事なのはEMをどう適用するかだと思うよ。
926デフォルトの名無しさん:2008/06/22(日) 01:11:39
また「確率的言語モデル」からの質問です。
115ページの前向き・後ろ向きアルゴリズムのところで、
(4.21)の式の 2行目から 3行目で、分母が

P(X[t] = q[i], X[t + 1] = q[j], o[1, T] | M)

= α[t](i) * a[i, j] * b[j](o[t + 1])β[t + i](j)

となっているのはどうしてでしょうか。

α[t](i) は「モデル M が o[1, t] を生成して、時刻 t で状態 q[i] に到達する確率」(110ページ)、
β[t](i) は「状態 q[i] から始まる状態遷移によって o[t + 1, T] が生成される確率」(112ページ)
ですよね。

ということは、上の式は単純に

α[t](i) * β[t](j)

となりそうな気がするのですが。

よろしくお願いします。
927デフォルトの名無しさん:2008/06/24(火) 01:20:42
926です。
もう少し考えてみたのですが、
β[t](j) には b[j](o[t + 1])、つまり t + 1 の時点で状態 q[j] がo[t + 1] を生成する
確率が入っていないですね。
でも、そう考えると 115ページ (4.21) 式の分母は

α[t](i)b[j](o[t + 1])β[t + 1](j)

となりそうです。
やはり、a[i, j] は余計な気がするのですが…。

引き続き、おわかりの方がいらっしゃったらお願いします。
928デフォルトの名無しさん:2008/06/24(火) 01:35:17
ちょっと混乱してました。
最初の β[t](j) は β[t + 1](j) の間違いです。

まとめると、

β[t](i) は i から始まる状態遷移が o[t + 1, T] を生成する確率。
つまり、

α[t](i) * β[t](i)

が、状態 i を通った確率。

i から j に状態遷移した確率を求める時、β[t + 1][j] には
q[j] が o[t + 1] を生成した確率が含まれていないので、

α[t](i) * b[j](o[t + 1]) * β[t + 1](j)

になる。

これが私の考えなのですが、115ページの (4.21) と比べると a[i, j] が足りません。

よろしくお願いします。
929915=922:2008/06/24(火) 21:50:21
ここは教科書質問スレではないので、細かい質問は
周りの人か、先生に聞いた方がいいと思う。

それより、書き込みを見ていて何となく感じるのですが、
日本語だからという理由で、最初に「確率的言語モデル」を頭から
読もうとしていないだろうか。
その必要はないと思う。

それより、FSNLP(これは複雑な計算はないし、個人的には熟読に値すると
思う)を読んで、>>925の人が言っているように、何がしたいのか、次に
何を読めばいいのか、を考えるのがお薦め。

その時に、EMなりHMMなりを理解する参考書の一つとして
「確率的言語モデル」を使うのがいいんじゃないだろうか。
もし本の記述がわからなくても、検索すれば、日本語でも
もっといい説明が見つかるはず。
実際、EMについて知りたければNeal&Hinton(1998)を読んだ方がいいし、
HMMについてはRabiner(1989)の素晴らしいチュートリアルを読むべき。
どちらも、Googleで調べればわかります。

ちなみに、>>924-928のような質問に答えてくれる人が周りに
いない場合は、ぜひNAISTへどうぞ、
とOB乙な書き込みをしてみるテスト。w
930デフォルトの名無しさん:2008/06/25(水) 00:09:54
>>929さん
アドバイスありがとうございます。
FSNLP も読んでいるのですが、質問するなら日本語の本からのほうがいいかと思って
「確率的言語モデル」のほうを例に出しました。

ちなみに>>928までの問題は自己解決しました。
なんであんな馬鹿なことを書いたのか…
「モデルが q[i] を通って o[1, t] を生成した尤度」と
「モデルが q[i], q[j] を通って o[1, t] を生成した尤度」を比べるのだから、
当然 a[i, j] は掛けないといけないですね。

HMM と EM をやっているのは、CRF・MRF(まだ到達していないので違いすら
よくわかっていませんが)による構文解析をやりたいと思っているからです。

具体的には、
http://chasen.org/~taku/publications/nl157.pdf
「部分木に基づくマルコフ確率場と言語解析への適用」を理解することを
とりあえずの目標にしています。
そのためには、形態素解析の HMM からCRF につながる流れと、
構文解析の内側・外側アルゴリズムをまずは勉強しなければと、
HMM と HMM のパラメータ推定のところをやっているわけです。
道は遠い…。

質問できる人、いないですねぇ。
NAIST はちょうど来月受けるところです。
京大と迷っているのですが…。
OB の方お勧めということでしたら心強いですね。

ですが、当面は質問できる人がいないという状況は変わらないので、
どうしてもわからないことがあったら、答えを期待せずにまた書いてみるかもしれません。
931デフォルトの名無しさん:2008/06/28(土) 01:55:04
目標が決まっているなら、それに近い方の院を選んだ方が、
色々な意味でいいんじゃないかな。
少なくとも、名前で選ばない方がいいと思う。
ちなみに、工藤氏もそうですが、NAISTで機械学習的に活躍している人
の多くは京大・東大から、自分の大学の院を選ばずにNAISTに
来た人達(結果的に)、ということに注意。

個人的には、係り受け解析は重要な課題ですが、
ある意味「業界」的なテーマなので、本当に自分が興味があることは
係り受け解析なのか、もしそうだとしたら現状の何が問題なのか、を常に
考えておいて欲しいなあと思いました。

先生にも質問できないと厳しいね。
頑張って下さい。
932デフォルトの名無しさん:2008/06/29(日) 14:43:09
>>930
構文解析そのものを研究課題にしたいのか、
君の研究課題で利用する技術要素として構文解析があるのか、
ちゃんと落ち着いて考えておいたほうがいいよ。

前者の世界に踏み込むのなら、>>931の言う通り業界全体を向こうに回して勝負する覚悟がいるし、
後者の場合には自分のやりたい本当の課題のほうをしっかり説明できないと誤解されることになる。
933デフォルトの名無しさん:2008/06/29(日) 16:30:54
>>932
やりたいのは中国語の構文解析です。
中国語は構文解析の前に品詞を確定してしまうとうまくいかないので、
形態素解析→構文解析ではなく、単語区切り→品詞タグ付け&構文解析という
流れでできないかと。

京大は NICT の中国語翻訳を担当しているということなので、それが志望理由になっています。
用例翻訳を中心とするようですが、よい用例翻訳のためにはよい構文解析が
必要だというのは当たり前のことですよね。
どうもこのへんはおろそかにされている感がありますが。

ところで、私は新しいことがやりたいというよりも、どちらかというと「応用」に
興味があるんですけど、これって研究の場である大学院ではどうなんでしょうね。
自然言語処理をやっていると、人による能力の違いを痛感します。
自分がいくら勉強したところでたかがしれている。
それでも、優れた人の研究成果を利用して、実地に応用するという
一段階下のことならできるかもしれない。例えば、>>930の論文を理解して、
それを例えば中国語の形態素・構文解析に応用できれば、自分程度の人間にとっては
上出来だ、というような発想で。
934デフォルトの名無しさん:2008/06/29(日) 21:20:20
>>933
研究開発としてはいいと思うよ。すごく面白いと思う。
ただ、それが学位論文に直結するかどうかは別問題。
ただシステム作りましただけじゃ学位は出ない。
自分が学術界にどんな貢献ができるのかを考えてみて、
どういう形で研究として成立するのか、何を成果とするのか、
そこが大事じゃないかな。
935デフォルトの名無しさん:2008/07/01(火) 00:53:40
>>933 の後半
ずばり、そういう人のために修士課程があるんじゃないかな。
全員が世界最先端の研究をする必要はないし、専門知識をベースにして
「応用」する人も社会に必要だと思う。

研究としては、>>934で心配されていることもありますが、
中国語に特有の事情や知識というものが必ずあるはずなので、
それをいかに洗い出して統計的にうまく扱うかで研究のセンスが問われる
というか、それで修士としては充分良い研究になると思う。

それと、上であがっている論文は特に内容が濃い方だし、
工藤氏も最初からこのレベルの論文が書けた訳ではないと
思うので、あまり恐れすぎなくてもいいのでは..という気もします。
修士なら就職した後でも、もしまた研究ができる/したいと思うことがあれば、
社会人で博士課程に入るという道もあるんじゃないでしょうか。
936デフォルトの名無しさん:2008/07/16(水) 10:11:09
自然言語処理の研究者って
どうしてそろいもそろって質問のメールに答えてくれないんだろう

やっぱりなれ合いなわけ?
937デフォルトの名無しさん:2008/07/16(水) 10:31:20
いや、質問のレベルが相手していられない程低いから。
938デフォルトの名無しさん:2008/07/16(水) 11:51:49
質問メールの返事がこないことから「なれあい」という結論を導出してしまうような推論エンジンの持ち主は
この業界(分野)には向いていないと思われ。
939デフォルトの名無しさん:2008/07/16(水) 14:24:25
ここに質問を貼り付けておけば暇な人が答えるだろうよ
940デフォルトの名無しさん:2008/07/16(水) 18:12:15
面識がない奴には返事寄越さないよ

メールが来たことないって奴は
レベルが低くて当てにされてないんだけどさ

俺の知り合いでそいつが知っているであろう名前を出してメールを書くと
やっと返事を寄越す

持ち回りで年次大会優秀発表賞やら長尾賞やら貰ってるようなのばっかりだ
941デフォルトの名無しさん:2008/07/16(水) 19:39:55
俺も時々見ず知らずの人から質問メールが来るけど原則全部に返信してるぞ
942デフォルトの名無しさん:2008/07/16(水) 21:52:56
時々なら返しようもあろうが・・・
943デフォルトの名無しさん:2008/07/16(水) 22:08:45
回答は完全にボランティアだからなぁ
944デフォルトの名無しさん:2008/07/17(木) 05:59:07
俺なんかに質問来たら
1つ1つ丁寧に返してるぞ。

大物になっちゃうと・・・
やっぱ人ってそうなっちゃうんだろうなぁ・・・。
945デフォルトの名無しさん:2008/07/17(木) 09:20:54
>>944
いや、物理的な制約じゃないの?
そんな立場になったことがないからわからんけど、一日に数十通も来たら手に負えないだろ。
946デフォルトの名無しさん:2008/07/17(木) 09:24:40
そんな奴この分野に居るのか?
947デフォルトの名無しさん:2008/07/17(木) 10:21:59
>回答は完全にボランティア

自分のライブラリや論文やら手法を広めたいと思うなら
そういう考えを持つべきでない

広めたいと思うけど対価が必要だ、と考えている奴に限って
Linuxの上でgccやGLibを使って平気な顔をしている

仲間内だけでライブラリとデータを使い回し論文を量産
他者の質問には答えない

だから馴れ合いって言ってる
948デフォルトの名無しさん:2008/07/17(木) 10:39:45
>>947
いいから、宿題は自分の力で解けや。
949デフォルトの名無しさん:2008/07/17(木) 10:56:30
ボランティアの意味を取り違えてる馬鹿が多いんだよな
950デフォルトの名無しさん:2008/07/17(木) 12:02:11
> 仲間内だけでライブラリとデータを使い回し論文を量産
> 他者の質問には答えない

図星だな

951デフォルトの名無しさん:2008/07/17(木) 15:55:08
今日の夜あたりは祇園祭に繰り出すんだろうなあ
952デフォルトの名無しさん:2008/07/17(木) 16:01:02
>>947
こんなところで悔しがってもどうにもならないし
期待を裏切られたくらいで悪態つくような奴は相手しなくて正解だろうよ
953デフォルトの名無しさん:2008/07/18(金) 00:07:53
よしっ NAIST合格!

受かったから書くけど、試験があんなんだと不安だなぁ。
OBの人のページにも受ければ受かるみたいに書いてあったし。
どうやって質を維持しているのか不思議だ。
一般社会での無名さがいい方向にフィルタとして働いてるのかな。
954デフォルトの名無しさん:2008/07/18(金) 08:38:13
おめでとう
955デフォルトの名無しさん:2008/07/18(金) 08:43:07
コード公開したらしたで、「うちの環境でコンパイルできん。なんとかしろ」とか
勝手にコード書き変えておきながら「論文と違う結果が出たぞ。」とか
どうでもいいメールが増えるんだよな。

こういうのにいちいち対応すると研究する時間がなくなる。
956デフォルトの名無しさん:2008/07/18(金) 11:00:24
>>955
>コード公開したらしたで、「うちの環境でコンパイルできん。なんとかしろ」

コンパイルできないような欠陥ソースを公開するのが悪い

>こういうのにいちいち対応すると研究する時間がなくなる。

こんな対応のメールを書くのに何日もかからないだろ
要領悪すぎw
957デフォルトの名無しさん:2008/07/18(金) 11:39:29
悔しさ爆発
958デフォルトの名無しさん:2008/07/18(金) 12:29:31
>>956
わかってないなあw
どうでもいいtoyプログラムならまだしも、マジメな自然言語処理で高効率めざしていて
sparcでもx86でもalphaでも、bsdでもlinuxでもultrixでも他のunicenでも動くソース書くのが
どれだけ大変かわかるか?
959デフォルトの名無しさん:2008/07/18(金) 12:45:17
門外漢のあしらい方は学んでおいたほうがいい
960デフォルトの名無しさん:2008/07/18(金) 14:10:39
>>958
気にするな。
自分の環境が唯一で、皆同じだと思ってるアフォが居るのは
そのアフォ以外には良く知られた事実だ。
961デフォルトの名無しさん:2008/07/18(金) 16:05:27
まぁ、どう考えても単なるバグで
こいつ本当にコンパイルできたんか?ってのもあるけどな・・・。
962デフォルトの名無しさん:2008/07/18(金) 17:42:25
>>953
おめ。
俺の時は倍率4倍だったよ。
まあぶっちゃけ、玉石混淆ということかも。
一般社会にとってはわりと無名でもいいが、学部生には有名でないといかんね。
963デフォルトの名無しさん:2008/07/18(金) 23:30:49
京大は最近いい噂聞かないけど、実際のところどうなん?
自分の印象としては、Juman・KNP以降それにしがみついてばかりで、
格フレームの抽出だの些細なことに汲々としているという感じだけど。
964デフォルトの名無しさん:2008/07/18(金) 23:33:08
格フレームの抽出が些細だというなら
NLP自体全般的に些細なことに汲々としているという感じジャマイカ?
965デフォルトの名無しさん:2008/07/19(土) 08:46:09
つーか、些細なことに汲々としていないNLPがあったら教えてほしい。
966デフォルトの名無しさん:2008/07/19(土) 10:51:55
例えばJumanやKNPは些細なことじゃないってことだろ。
967デフォルトの名無しさん:2008/07/22(火) 08:08:11
>>966
そりゃつくるのは大変なことさ。
でも評価論文にするためには些細なことに汲々とせざるを得ないのさ。
968デフォルトの名無しさん:2008/07/29(火) 11:51:55
格フレームの抽出のどこが些細な事なのか小一時間問い詰めたい。
969デフォルトの名無しさん:2008/07/29(火) 11:54:40
>>968
評価では些細な違いでしか差が出ないだろ
評価論文ってのはそういう些細な違いを針でつつくようなことをしなきゃならないんだよ。
970デフォルトの名無しさん:2008/07/29(火) 13:08:16
もうすぐ次スレか
テンプレ改訂案とかあったらどうぞ
971デフォルトの名無しさん:2008/08/01(金) 11:37:58
9/8のセミナーに参加しまつ
諸先輩方、手取り足取り優しく教えてください
972デフォルトの名無しさん:2008/08/05(火) 09:05:03
>>970
このスレを見ている人はこんなスレも見ています。(ver 0.20)によると、

「【NAIST】電波お花畑で孤独なWinnyエロ動画 その3【NLP】」

ってことらしいけど。
973デフォルトの名無しさん:2008/08/05(火) 12:45:19
>>971
去年よりは面白そう。
974デフォルトの名無しさん:2008/08/13(水) 22:24:50
個人的なことですみません。
訳あって、NAISTのM先生の研究室か、京大のK先生のところかを急いで決めなければ
ならない状況です。

NAISTの方からは、NAISTのいい点についての話を聞いたりしたことがあるのですが、
京大の内部の方の意見を聞いたことがなくて…

いいところだ、迷うならやめろ、来るな等なんでも結構ですので、意見をお伺いできれば
幸いです。
975デフォルトの名無しさん:2008/08/13(水) 22:39:34
ちなみに訳とはこういう事情です
http://science6.2ch.net/test/read.cgi/informatics/1156308669/231-233
976デフォルトの名無しさん:2008/08/14(木) 08:04:15
こんなところで聞かずに言って聞けばいいんじゃない。
来週はColingがあるから、今週中に。
977デフォルトの名無しさん:2008/08/14(木) 10:21:51
このスレでその2つの研究室名をイニシャルで伏せる意味あるのか?www
向こうでは名前そのまま出ちゃってるしwww
978デフォルトの名無しさん:2008/08/14(木) 12:38:29
>>977
雰囲気でw
2chだとイニシャルのほうがなじむかなーと。

向こうのスレの236みたいな決め方はしたくないなぁ
979デフォルトの名無しさん:2008/08/14(木) 12:42:19
いいなー
このジャンルで仕事になるなんて
極楽じゃない
980デフォルトの名無しさん:2008/08/15(金) 00:07:28
そんな重要な話を
しかも個人特定できるまで情報をだして
2ちゃんで聞くのが理解できん。
ほかにやりようがありそうなものだが。
981デフォルトの名無しさん:2008/08/15(金) 00:18:42
取り敢えず、お前みたいな夏厨はうちの研究室に来るな
と言っておく
982デフォルトの名無しさん:2008/08/15(金) 00:19:32
逆に個人特定して合格取り消しって手もあるなw
983デフォルトの名無しさん:2008/08/15(金) 00:41:41
?見た限り別に出したらまずい情報ってわけでもないんじゃ?

直接研究室のスタッフなりに聞くという
手段を取っていないのは感心しないといえばしないが
984デフォルトの名無しさん:2008/08/15(金) 00:46:55
>>974ですが、K先生に話を伺ってきました。
やっぱり、中国語NLPのための環境があるというのは魅力ですね。

ただ、実際に学生の立場の人からも意見が聞ければと思い書き込みました。
985デフォルトの名無しさん
あぁ,なんだ.そしたら別に何も問題ないじゃん.
2年間になるか5年間になるか知らんけど悔いの無い選択ができることを祈ってます.