自然言語処理スレッド

このエントリーをはてなブックマークに追加
1 ◆kNLPS0eo
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点を
おきたいので、学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

形態素解析
- Juman: http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/juman.html
- ChaSen: http://chasen.aist-nara.ac.jp/

依存構造解析
- KNP: http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/knp.html

Namazu
- namazu: http://www.namazu.org/
22get:02/01/26 04:55
2get
3デフォルトの名無しさん:02/01/26 05:27
いいスレになるといいね
深夜は叩きがいないね。
深夜は叩きがい・ないね。
深夜は叩きが・いないね。
どっち?
6 ◆kNLPS0eo :02/01/26 06:27
自然言語処理技術を使ったアプリケーションは、
大きく分けて 3つあると思います。

 1. 自然言語データそのものを扱うもの
  (情報検索や機械翻訳、文書整理など)
 2. ナビゲーションとして自然言語を使うもの
  (対話的データベース検索、チケット予約など)
 3. 1.と2. の混合
  (検索エンジンで日本語で質問を入力できる等)
7 ◆kNLPS0eo :02/01/26 06:30
たとえば 1. の例としては「2ちゃんねるについて批判的な」webページを
捜す、などの非常に柔軟な条件が指定できる検索エンジンなどが
あります。現在の情報検索では、このような検索には Query Expansion という
技術を用いるのが主流です (まだ実用段階ではありませんし、これでは
不十分だと考える人も多いですが)。

たとえば「2ちゃんねるについて批判的」という条件をもつ文書は
「2ちゃんねる + 引きこもり + 非常識 + クズ」などのキーワードが
使われているであろうと推測できるので、自動的にこれらのキーワードを
追加して検索すればよい、というような技術です。

また、ある文書の集合を与えると、似たような帰結を述べている
文章を全部まとめてくれる、というソフトウエアもあれば便利でしょう。

あと盛んに研究されているのは、要約ですかね。
たとえばメーリングリストの議論を追って、ダイジェストを
まとめてくれるソフトウエアなども研究されています。

いずれも実用までにはまだ長い道のりがありますが、特定の分野だけに
限れば「それなりに使えるかもしれない」レベルのものはできそうです。
8 ◆kNLPS0eo :02/01/26 06:44
2. の例は「本来は人工言語のコマンドラインでもいいが、
初心者が使いやすくするために自然言語を受けつける」というものですね。
簡単な例としては IBM ViaVoice についてくるボイスコマンドがありますが、
これは単語をただ受けつけているだけで、文章を理解することはできません。
現在の「声で制御できる」大部分の電子機器は、まだこの段階です。

たとえば SQL はもともと自然言語に近い形で検索ができるように
設計されたものですが、まだ完全ではありません。日本語では使えないし
文脈をくみとることもできません。もし自然言語での要求を受けつける
データベースができたとしたら (実験段階ではすでにいくつか作られていますが)、
理想的にはたとえば次のような対話が望まれます:

ユーザ「エコノミーを取りたいんだけど、来月頭にロスへ、安いやつ」
システム「ユナイテッド航空で 6万8千円の席があります」
ユーザ「もっと安いのない?」
システム「4万2千円というのがありますが、2月初頭では 3日と6日しか空いていません」
ユーザ「もしかして関空発とかじゃないよね?」
システム「羽田発です」


また、ロボットなどに自然言語によって指令する、という
応用も考えられます。ただしロボットは制御の問題があるため、
多彩な動きができて、なおかついいかげんな指令でも壊れないような
高性能かつ堅牢なロボットをつくるのはまだ難しいでしょう。
9 ◆kNLPS0eo :02/01/26 06:52
いずれにせよ、現在の技術では「いかにして構造をもった
文章を理解するか」という最初の段階から、まだまだ苦労が多いです。
たとえば >>1 にあげた Juman や ChaSen などは、
新聞記事に対してはチューニングされているので
ある程度まともな結果を出しますが、2ちゃんねるの文章を解析させても
間違いだらけでしょう。形態素解析ひとつとってみても、
これですから、その先の構文解析となるとさらに大変なのが想像できます。

また、原理的には可能だが、実際に実用的なソフトウエアを
つくるとなると複雑すぎ、あるいは必要なデータが多すぎて
金がかかりすぎるというものもあります。
(たとえば莫大な予算を投入して何百人もの人を雇い、
完全な日本語の連想辞書のようなものを作れば、さきほどの
Query Expansion のような技術はかなりうまくいくかもしれませんが、
そんな資金はふつうありません)。
10 ◆kNLPS0eo :02/01/26 07:03
また、文章の意味をどのようにとらえるかに対しては、
現在のところアプリケーションごとにその場しのぎのやり方で
解決している状況です。たとえばデータベース検索の
ソフトウエアなら、人間の言語をまずいったん SQL に
変換するような仕組みをつくり、それを実行するわけですね。
これだと当然 SQL で表現できないような日本語 (たとえば
「もっと安いやつ」という文。これは前の状態を参照する
変数のようなものがないとたぶん表現できないでしょう) は
受けつけないことになります。けれどもこれを一般的にしようと
しすぎると、ぜんぜんデータ構造が定まんなくてワケわかんない
ことになります (自然言語の意味を一般的に表現できるような
形式的な枠組みはまだないし、あってもそんなものを
プログラミングするのは大変でしょう)。

もうひとつ。人間の多様な語彙を理解するためには、ソフトウエア側が
なんらかの「辞書」のようなものを持っている必要があります。
この形式に関しても議論百出ですから、現在はアプリケーションごとに
こしらえているのでしょう。こういったものはとにかく作るのに手間がかかり、
人件費もかかるので、いまでは人様がデータ入力をしなくても
コンピュータが web なんかから勝手に「学習」するようにしよう、
というアプローチがさかんに研究されています。けれども、
どれもノイズが多くてあまり使えません。また最近は
学習データの著作権問題をクリアーするのが非常に難しくなっています。
11 ◆kNLPS0eo :02/01/26 07:06
そういえばこれを忘れていた。

音声認識
- Julius: http://winnie.kuis.kyoto-u.ac.jp/pub/julius/

これも含む >>1 で挙げたソフトはすべてフリーでダウンロードできます。
(ちなみにぼくは関係者じゃありません)
>>1
なんで自然言語処理に興味を持つようになった?
13 ◆kNLPS0eo :02/01/26 07:18
さて、まず形態素解析・構文解析の段階で問題になるのは、
日本語をふくむ自然言語のパーザは決定的ではないことです。
だから yacc などの、いわゆる人工言語用のパーザをそのまま
使って日本語を解析することは、不可能とはいいませんがその表現は
非常に限られたものになります。

一般的な文脈自由言語の解析は、たしか文の長さ n の 3乗だかに
比例していたと思いますが、正解がたくさん出力されすぎて、
これをいかに減らすかがとても重要です。たとえば >>4-5
いい例を出してくれましたが、このように単純な規則を使っただけでは
ふるいきれないたくさんの正解候補が出てしまうわけですね
(通常、新聞記事レベルだと何億通りもある)。

そしてこのような場合、>>4 の文章をどのように解釈すべきかというと、
それはもう言語の知識ではなくて、一般常識や 2ちゃんねるでこれまで
厨房を観察してきた個人的データを使って推論するしかないわけです。

結局、自然言語処理でいちばん厄介なのが、このように
いろんな知識をあらかじめソフトウエアに入れておかないと
文章の解析すらできない、という問題です。いろいろ確率的な
手法を用いてこれを解決しよう、という試みもありますが、
まだ決め手となるものはありません。そういう意味でも、
アプリケーションが扱える分野をあらかじめ厳密に狭めておくことは
重要ですね。
14 ◆kNLPS0eo :02/01/26 07:19
とりあえずイントロ的なことを書いてみました。

寝ます。
>>14
お疲れ&オヤスミ
sage
自然言語処理のプログラムをすると、
すっごく日本語の勉強になるよ(^−^)
19デフォルトの名無しさん:02/01/27 01:02
口語を解析できるような文法ってどっかにないの?
う言語があれば、ほかは何も要りません。
21デフォルトの名無しさん:02/01/27 16:25
自分も自然言語処理やってるので期待上げ
(日曜は頭が働かない…)
22Seisei_Yamaguchi:02/01/27 22:04
英語 : 1パス系
日本語 : 複数 ( 累乗? ) パス系
23デフォルトの名無しさん:02/01/30 19:39
誰かKNP
http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/knp.html
のソースを解説してくれ。わけわからん。

文法解析は普通何でやるもの?一般化NR法がよさそうな気がするが。
24 ◆kNLPS0eo :02/01/31 09:36
> 誰かKNP
> http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/knp.html
> のソースを解説してくれ。わけわからん。

ぼくもわかりません。あれって結構まだバグがあるような気がする。
ときどき Segmentation Fault で落ちるし。
ああいうものを全部 C で書かれるときついですね。
STL を使えばかなりましになると思うんですが。

> 一般化NR法がよさそうな気がするが。

一般化 LR 法のことですか?
どうでしょうね。個人的には、日本語なら KNP の
ようなやり方のほうがいいんじゃないかと思います。
文脈自由文法でやるなら、ぼくはチャート法がいちばん
(実装が)楽で好きですが、LR のほうがロバストネスな解析に
対応しやすいかもしれないとは思います。LR パーザは数がすくないし。
25デフォルトの名無しさん:02/02/07 02:13
やはりこのスレは落ちやすいな。残念
興味があるから盛り上がってほしい。

自分はほとんど門外漢だから適当なことを書くけど…
自然言語処理で構文解析ができたとしても、それだけでは「単語の意味」と
いうものに対して無力だと思うのですよ。
例えば、「写真をとった」「ビデオをとった」というときの「とる」と、
「しょうゆをとった」「本をとった」の「とる」は判然と違うけれど、この区別ができない。
2625:02/02/07 02:20
そこで考えたのだけど、
自然言語には、

名詞(主格、目的格、…)->動詞、
副詞->動詞、
程度副詞->副詞|形容詞、
形容詞->名詞、
名詞->名詞

のような修飾関係があるけれど、文法解析を行って、意味上の紛れのないもの
については、この修飾関係を記録していく。つまり、「カメラマンが写真を撮影した」と
いう文を解析した後、「写真」(目的格)->「撮影する」、「カメラマンが」->「撮影する」
という修飾関係が成り立ったというデータを記録しておく。
2725:02/02/07 02:31
そうすると、それぞれの関係においてどの単語とどの単語が組み合わされたかの
表が得られるので、このデータを統計的に処理して、数次元程度の
位置情報として持っておく。
距離が近ければ、その関係に不自然さがないということ。

それで、意味が複数ある単語(同音異義語含む)の場合は、それぞれの
単語に、「組み合わされ方が近いと思われる」単語(複数可)を登録しておく。
例えば「写真をとった」の「とる」には「撮影する」「撮る」など、
「しょうゆをとった」の「とる」には「つかむ」「取る」などを登録して、
それらの単語の位置によって、それぞれの単語の位置を暫定的に
定めておく、というような。

あー、なんか考えまとまらない。めちゃくちゃなこと言ってるかも。
主人「ええか? ええのんか?」
めいどろぼっと「はい。ご主人様のご随意に...あっ...」
なんてことが漏れの生きているうちに実現するといいな。

...ってクソレスだけじゃなんなので...
"写真|映画"⇔"撮る" とか "(生き物)"⇔"飼う" のような使い分けの共起辞書をつくる手もあるけど、
「ボクが『うちでも動物を飼おうよ』と言ったので、パパはハムスターを‘かい’ました」
なんていう文の‘かい’が‘買い’だろうと判定するのは骨が折れるよね。
29デフォルトの名無しさん:02/02/07 05:53
このまま沈下かと思ったら上がってた。

> 例えば、「写真をとった」「ビデオをとった」というときの「とる」と、
> 「しょうゆをとった」「本をとった」の「とる」は判然と違うけれど、この区別ができない。

語義の曖昧性解消というやつですね。
すこし前まではよく研究されていましたが、最近あまり聞かないような。

よくあるやり方としては、>>28 がいうように共起辞書を用いて
ウインドウの前後数単語をみて構文解析せずに判断するというのがあります。
格まで解析するなら、よくしらないんだけど IPAL 動詞辞書が有名かな。
http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html
30デフォルトの名無しさん:02/02/07 06:03
>>29
そういうものなら文脈(前後の語彙の関係)から推測できそうだけど、
>>4-5のような例は意味を一意に決めることができないような
気がするけどどう?素人考えだけどさ。

やっぱちゃんとした本読まないとだめだなw。
31デフォルトの名無しさん:02/02/07 06:12
> やっぱちゃんとした本読まないとだめだなw。

そもそも >>4-5 のような状況をまじめに理解しようとすると、
「相手の考えを読む」という作業が必要になり、これはもはや
自然言語処理の範囲を超えている。

たぶん「ちゃんとした本」を読んでもそのへんのことは
ほとんど書いてなくて、ただ単に「こういう問題はむずかしい」と
書かれてあるだけだと思います。

ひじょうに限られたドメインであればそこそこ手はあるかもしれないけど、
一般的にはアプローチすら見当もつかない段階でしょう。
32  :02/02/07 15:17
物を移す。
紙に写す。
鏡に映す。
そもそも同じ音なのはよくにた動作だからなのでしょう。
33     :02/02/07 16:09
>>4 のような例はもともと人間でも完全な理解は無理。

「深夜は2chへの書き込みが少ない」とか「深夜は煽りを入れる奴が寝ている」
といった高度な知識ベースがあって初めて解析できる。
それは自然言語処理とは直接関係ないね。
34 :02/02/07 16:24
>>33
関係ないとは言い切れないのでは?
「自然言語処理」とは字面だけを見て形態素解析することではないでしょう。
35     :02/02/07 19:46
>>34
「直接」関係ないってことね。
俺のまわりだと自然言語処理とそうした知識処理とは違うもんだから。

>>33 で書いた「深夜は〜」っていう情報(知識)は自然言語処理の結果じゃ
ないでしょ?
そこまで含めて自然言語処理と括るのには違和感あるんだけど?
36デフォルトの名無しさん:02/02/07 20:28
commonsenseも必要。心理学も。
数学的では自然言語は解析できない。
談話処理は音声認識(イントネーション)も絡んでくる。
「きれいな私の姉さん」
きれいな 私の姉さん(姉さんがきれい)
きれいな私の 姉さん(私がきれい)
>>35
意味論も含めるとそういうコンテキスト情報も処理することになる。
とはいっても構文論にも語用論や意味論が関係せざるを得ないが…
38デフォルトの名無しさん:02/02/08 07:11
>>32
そういうのってたぶん言語学で研究されてると思う。
「とる」の例でもそうだけど、無理矢理 disambiguation しようとするから
無理が生じるのであって、意味としては何か共通の認知的枠組みが
あると思うんですよ。

個人的にはそういった枠組みを形式的に扱うという試みに
すごく興味がある。認知言語学ってどうなんだろう?

NLP の分野では、Schank の Conceptual Dependency とか昔有名だったけど、
いまもってそういう研究をやっている人はどれくらいいるのかね。
39デフォルトの名無しさん:02/02/08 07:18
>>34
> 「自然言語処理」とは字面だけを見て形態素解析することではないでしょう。

理想的にはそうですが、実際には今はほとんど「字面だけ」しか
みていないような気がします。。
いや、それがいいといってるわけじゃありませんけど。
誰かグーグルのコンテストに応募する?
考えある人はいいチャンスかもよ。
というかGoogleは速度が命みたいだから
どんなに高度なものでもある一定のレベルを
満たせないとダメか。。厳しいな。
http://pc.2ch.net/test/read.cgi/tech/1013088625/
41     :02/02/08 20:09
>>32
それは違う。そもそも大和言葉には漢字なんて存在しなかった。
全て「ウツス」という概念だった訳。
そこに漢語が入って来て、より概念が細分化されたの。
そういう意味で日本語はかつて曖昧だった。
日本語用のフリーのシソーラスってないのかなあ。
英語にはWordNetがありますが。
43デフォルトの名無しさん:02/02/09 16:26
>>42
「分類語彙表」ってタダではないけど、3〜4千円で手に入る...はず。
検索してみたら品切ればっかりのようだ。
FDで頒布がフツーだった時代に作って、それきり増産してないのかもね。
44デフォルトの名無しさん:02/02/10 06:39
EDRもシソーラス作ってなかったっけ。
あれもタダじゃなかったけど。
45デフォルトの名無しさん:02/02/10 06:42
前に超整理法読んだときに、
日本語のまともなシソーラスがないとか
書いてあったけど、今はどうなの?
英語には確かに役にたつのが沢山あるけど。
46デフォルトの名無しさん:02/02/10 06:52
そうか!
英語のシソーラスを和訳して使えばいいんだ!
やっぱ実際にネタというか、
叩き台的システムがないと盛り上がらんですね。
48デフォルトの名無しさん:02/02/18 07:47
日本語の文章解析するのに、一度英訳してから、解析させてる研究者も
いるしなぁ(あ、心理でだけど)age
49デフォルトの名無しさん:02/02/19 23:59
本気で開発してる人いる?
学生可。
開発?
文字列置換プログラムならうちの会社で作ってるよ。
51デフォルトの名無しさん:02/03/02 16:36
なんでこの話題はいまいち盛り上がらないのだろうか。

ところで、語彙の意味マップ作成に、SOMと多変量解析があるけど、どっちが
いいと思う?

2次元で、人間にわかりやすいように視覚化するという目的ならSOMなんだろうけど、
自分の考えてる目的は、単語間の組み合わせのコストを決めること。

多変量解析で10次元ぐらいまで取っても、累積寄与率はせいぜい30何%ぐらいまで
しか行かないらしい。論文の受け売りだが。その論文では、累積寄与率が7-80%以上
でないと、データを正しく縮約できないとか書いてあったけど…

ただ、2次元以上のSOMってのはあまり聞かない。あくまで視覚化が目的で、
その位置情報に基づいてなにかを判断するのにはあまり向いていないのか?

詳しい人教えて。
5251:02/03/02 16:36
× 2次元以上
○ 2次元より上
53デフォルトの名無しさん:02/03/02 16:41
いまいち盛り上がらないのは、実質的で
目新しいトピックスがなにもない業界だからだと思われ
>>53
どゆこと?
55 :02/03/02 17:41
>>53
日本語の自然言語の処理は、ある意味来るところまで来てしまった。
でも実用化レベルには達していないし、達しそうでもない。

ってことが言いたいのではないかと思う。

ジャストシステムのコンセプトベース
http://www.justsystem.co.jp/km/cb/index.html
56デフォルトの名無しさん:02/03/03 18:24
日本語の不自由な上司の日本語の構文解析をしたいのですが
どうすればいいでしょうか。
>>56
上司に直子の代筆でもインストールすれ!
58ろてぃれる:02/03/05 01:19
>>56
その上司から得られる出力由来のタグ付きコーパスを自動生成するロジックを
開発できればノーベル賞も夢ではありません。
何はともあれ、頻出単語の切り出しからはじめてみては?

そのためには、切り出し用ロジックのたたき台にするコーパスを作成して。
(↑無限ループ)

……そんな無茶なモンが完成したとして。
応用編で「スレに適切じゃない発言」を自動的に sage る bbs.cgi なんてのも
実現可能!?
「自分好みじゃない発言」を透明あぼーんする 2ch ブラウザとかもね。

結局、自然言語処理ってそーゆーもんだと思ってる私は間違ってますか?
59煽りの自然言語処理:02/03/05 10:41
>>58
まずはあなた自身の自然言語処理能力を、
厨房レベルから引き上げることをお勧めします。
60ろてぃれる:02/03/05 13:44
>>59
そーですね……肝に銘じておきます... m(__)m

ところで、ここにいる皆さんは、どういう経緯で「自然言語処理」に興味を
もたれたんですか?
私の場合、人工無能チャットの精度向上というのが主目的だったんですが(爆
>>60
昔から語学とコンピュータが好きだった。
珍しい組み合わせなのだろうか。

いつか、人間と同等に近い性能を持った翻訳プログラムが作りたい。
「ゲーデル・エッシャー・バッハ」を読んだせい。
63煽りの自然言語処理:02/03/06 07:27
>>62
自然言語処理と関係ありませんな。
言語にとって美とは何か、を読んだせい
65ろてぃれる:02/03/06 12:21
人間ドラマだなぁ……。
飯の種にしてる人も多そうだ。

さて、そろそろ決算期ということで。
「予算取りのための『成果物』なんか作っといて(笑)」とか
抜かすウチの所長みたいなヒト、他でもいるのでしょうか?
ウチだけ特殊だと祈りたい今日この頃。
という訳で、いい加減なモノ作ってるんですが(爆

ソース忘れたんですが、圧縮技術の研究中に(たぶんハフマン木あたり)、
「そのファイルが何語で書かれているか」がテキトーなサンプルと
マッチングさせるだけで、比較的高精度に判別できるという話が
あったじゃないですか。

アレのバリエーションで、その人が言いたいことが文章のどの辺に書かれているか、
という情報から誰が書いたッぽいか判別するのを作りかけていますが、
こういうアプローチって既出でしょうか?
※ビジネス文書だと「結論が先」というパターンが多すぎてうまくいきません。
 改良の必要あり。

昔何かで読んだ気もするし……。
66デフォルトの名無しさん:02/03/06 23:15
>>65
TDT (Topic Detection and Tracking) あたりが近いのではないかと。
もっともこれは作者ではなく、話題の判別ですが。

音声認識では、話者認識は非常に重要な問題ですね。
67ろてぃれる:02/03/07 00:35
>>66
ありがとうございます。

・…●

話者認識といえば、FFT 通して、ある話者の声によく出てくる周波数帯から
ちょっとシフトしたところで声の特徴をつかむ、みたい研究やってるヤツも
いた気がする。同じ建家の中に(謎
現行の電話程度の音質でも使えるモノを目指しているんだそーな。

>>61
シリーズモノの邦訳版で、全8巻が8巻とも訳者がバラバラで、ある巻では
一人称が「わし」だったのが突然「俺」に変わってて萎えた過去アリ。
そういうのがなくなるだけでも、ちょっとハッピーかも?

ヒトと同レベルの翻訳が民生用まで降りてきたら……。
一昔前だったら、「ペリー・ローダンシリーズを毎週読みたい」とか
言ってたんだろうけど、最近慢性的にアレなので……。
歳、喰ったみたいです。(←なぜかショック)
脱線御免

「エコの翻訳論」って本に、
ウンベルト・エーコのバラの名前を各国語に訳した訳者の言葉が載ってる。
その中でもハンガリー語への訳者の言葉が揮ってる(笑

「イタリア語から、英語、ドイツ語、フランス語といったような "普通の言語"へ
翻訳することは、その論理がまさしくハンガリー語のそれのように絶望的な
までにひどく異なる言語へ翻訳する人の仕事に比べれば、実につまらぬことなのだ。」
Time flies like an arrow.
70デフォルトの名無しさん:02/03/10 23:17
>>69
自然言語処理の難しいところだね。
文法だけでは処理できない。
蓋然性のようなものを導入しないとね。
71ろてぃれる:02/03/11 23:46
>>69
複数求められる解の中で、どこまでが正解で、どこからが間違いなのか。
数値的に厳密な境界が設定できないところがこの手の分野の面白いところ
ですねぇ。
苦しいところでもあるんですが。(←言うまでもない)

やりたいことはいろいろあるけれども、マシンパワーとの兼ね合いで、職人
芸的な「さじ加減(謎)」がシステムの完成度を左右してしまう辺り、
楽しいやら情けないやら、……。

例の慣用句にしても、「この部分は慣用表現である」と認識させるだけでも
まだまだ満足にはいかないし。
ある程度は出来ますが、辞書にない言葉をどっかからアドリブで学習してきて
サクッと解決するなんて、「インスピレーション」を実装できたら、なんて。

自然言語処理を「I/F に利用するための道具」と規定すると、相手がどういう
意味でその言葉を使っているのか、という解析が必要になって、言葉の意味を
追いかけるのに精一杯な現状では遠い夢……はふぅ……。

※どこからどこまでって、得られる解(らしきもの)に順位を付けるのも
 おぼつかないのが現状ですが。
>>71
解が特定できないことが、真の解。
そもそも人間の言語処理がなぜ速いかというと、
「適当に聞き流している」か、あるいは
「相手の言わんとしていることが最初から想像ついてる」からであって、
言葉だけをいじって何かしようとしてもできることは限られてると思うよ。
>>73
うちの両親の場合を思いだした。
父「おい!」
母「はい」
たったこれだけで母はそのときそのときの父のリクエストに正確に応える。
あるときは新聞、あるときは手拭き、そしてまたあるときは醤油…。

あなた、と呼べ〜ばぁ〜♪
>>74
母は強いね。赤ん坊が何で泣いてるかも分かるしね。
76デフォルトの名無しさん:02/03/18 04:37
>>74
発話行為 (speech act) の認識というやつですね。

相手の発話行為を認識するということは、その行動プランを
推測しているということでもあり、これは
古典的人工知能の研究テーマにもなっている。
♪あなぁ〜た
♪なぁ〜んだいっ
♪あ〜と〜はいえ〜ない〜 ふたりは若〜い〜
>>74 のようなのって「自然言語処理」なのかな?

俺の認識だと、自然言語処理というのは日本語とか英語とかの「自然言語」を
「処理」に適した中間言語に翻訳する作業。
例えば >>74 のような例は日本語だけを完全に読み書きすることができても
処理(対応)することができない。

こうした例は、「自然言語処理」が完全にできてからの話だと思うんだけど。
適切な言葉を知らんのだが、例えば「知識情報処理」とか、そういう違う
分野の話だと考えてる。
歌うな!
と言いたい。
言語学のイロハぐらいは知ってからじゃないと手も足も出ないな
>>79
でも、人間は知識情報処理があることを前堤に自然言語処理をしてるんだろ?
だからこそ、それが原因で話が通じないなんてことも起こるわけで。

人間にもできるかどうかわからない「完全な自然言語処理」とやらが、
機械にできるかどうかは怪しい。
解析的な手法では、所詮プログラム通りにしか動かないわけだからな。

ここの人は理論を組み立てたいのか、
処理系を作りたいのかはっきりしないな。
84ろてぃれる:02/03/20 17:09
>>83
夢を語りたいんですよ(謎

ではなく。
理論的な精度向上も目指しつつ、実用的な(速度で動作しそこそこの結果を
出す)処理系も作りたいというところでは?
てゆうか理論らしい理論ってほとんどないからなあ。
86ろてぃれる:02/03/21 02:35
>>85
業界全体で手探り状態。それが楽しいともいえ……るぞ、ムリすれば(死

いわゆる「実験室レベルで動くモノ(理論を検証するためのやっつけの
処理系)」は目の前にありますが、社会学やら心理学、あと事実上手つかずの
悪夢の素「一般常識」などで補正してやらないと、結局単なる自己満足で
終わるぞ、とウチの主幹がうめいておりました。

訂正:手探り状態というか、どっち向いて歩けばいいのかも判ってないし。


ところで、ウチの主幹の最終目標は、「俳句のコンテキストを実用的な速度で
解析できる」モノを創ることらしいんですが、ねぇ。
87デフォルトの名無しさん :02/03/24 03:14
Eurolang
http://www.vision25.demon.co.uk/eurolang.htm
こういったもので解析作業は楽になるのかな?
正規表現の本は必読ですか?
>>88
イレギュラーエクスプレッションが必要です。
90ろてぃれる:02/04/10 02:13
>>88
正規表現が使える言語を1つ以上使えるようにしておくと、
なんか思いついたときにささっとコード書いて、そのままデータ突っ込んで
動きを見られるので、その点ではよいかも知れません。
出力されたデータを分析するときにも使えますし。

ともあれ、大量のデータを使ってなにかをするときには、
使えた方がラクですね。
その作業が手間かかってしょうがないタイプのもののときは特に(謎
911年生:02/04/10 02:40
茶筅でも使ってみたらどうよ?
921年生:02/04/10 02:45
字間違えた・・・茶釜ですな・・・
93デフォルトの名無しさん:02/04/11 19:41
レスごとの単語の共起関係を調べると、面白い図ができあがるかもしれない。
おにぎりとワッショイは相性が良い…とかw

ってのはどうでも良くて、たとえば製品のスレとかだと、その製品や企業に対する企業イメージを
図の形で抽出できたりとか。

問題は2ちゃん語は乱れすぎてて茶筅とかで分解できそーにないことだw
94デフォルトの名無しさん:02/04/11 21:26
茶筅はもう限界っぽい
95デフォルトの名無しさん:02/04/11 21:37
質問!LANG LABてもう古い?
東京工大の奴だけど もうないか?

age
97デフォルトの名無しさん:02/04/26 23:20
knpのオプションなどを詳しく説明してほすぃい。
bnst?
うちは knp -tab。
99デフォルトの名無しさん:02/05/02 23:49
>>18
ビーフジャーキー(・∀・)イイ!
たっぷり60g!
100デフォルトの名無しさん:02/05/15 11:19
KNPあげ
やっぱり見た目にいいのは-treeでしょ。
101デフォルトの名無しさん:02/05/15 17:05
自然言語の世界でちゃんと言葉の意味を忠実に
とりだすことのできる理論ってあるんですか?

ちなみに私のところは確率論でやっております。
っていうか、日付めちゃくちゃとんでるじゃん。
こんな沸いてないスレあげるなよ。
103デフォルトの名無しさん:02/05/15 18:05
今から参加するか・・・

最近の自然言語解析をするプログラムは
入力の一部をデータとして蓄積していると思いますが、
どのようなデータを蓄積するのでしょうか?
104ヽ(´ー`) ◆Upk7HurI :02/05/15 18:40
自然言語処理って
形態素解析→構文解析→意味解析→文脈解析
を基本としてそこから
機械翻訳、対話モデルetcなどに応用する物だと思ってるが…

現在のところ形態素、構文解析はそこそこまでいってるけど意味解析〜はまだだめっぽく
俺もまだ勉強初めてあまりたってないから詳しくは知らんので間違ってたらスマソ

ところで、なんで自然言語処理関係のソフトってUNIX系の奴が多いんだろ
LISPとかでつくられてるから?
105デフォルトの名無しさん:02/05/15 18:41
>>104
prologもつかわれてるぞ。
述語論理の考え方をつかっているからな。
106ヽ(´ー`) ◆Upk7HurI :02/05/15 19:02
>105
なるほど、サンクス

卒論で意味解析を格フレーム使って表すプログラムを引継ぎでやったが(LISP)、茶筅で形態素解析した文を
ほとんどそのまま処理してたから複文とかに対応してない罠w
KNPで構文解析したのを使ったら少しはマシになったがKNP自体使いこなせてない罠(;´Д`)

ブラウザからの入力で処理できるようにするため現在移植を検討中
何を目的にするんだか自分でもわからん…
日本語だと、あんまり構文解析っていうほど独立したフェーズは
ないんじゃないかい。ほとんどが格フレームとのマッチング処理に
なるかと。それでも、助詞の代替、態による助詞シフトあたりが面倒か。
難しいのは、むしろ、複文・重文の係りの解析。
> 日本語だと、あんまり構文解析っていうほど独立したフェーズは
> ないんじゃないかい。ほとんどが格フレームとのマッチング処理に

そんなこたーない。

> なるかと。それでも、助詞の代替、態による助詞シフトあたりが面倒か。
> 難しいのは、むしろ、複文・重文の係りの解析。

依存解析も構文解析の範疇に入ると思うが。
109デフォルトの名無しさん:02/05/27 19:39
類似スレッド

WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/
110デフォルトの名無しさん:02/06/03 18:27
KNPって分類語彙表とEDR辞書がないと動かないの?
>>104
研究室での開発は盛んだけど商品としては未熟だから。
112110:02/06/06 00:44
>>110
自己レスですが、無くても大丈夫みたい
>>111
その「研究室での開発」が、なぜWindows + Visual C++などではなくて
Unixプラットホームなのか?という質問だと思うが
なんででしょうね。

ちなみに研究室=Unixは必ずしも真ではありません
画像関連の分野ではWindowsも沢山使われていますね。
X Window Systemがヘタレだからかな
114デフォルトの名無しさん:02/06/26 16:31
突然せすが、ChaSenは音声認識の補正に役立つと思う人??
無理じゃない?ひらがな入力だときちんと解析できないし・・・
115デフォルトの名無しさん:02/06/26 22:53
XML
116デフォルトの名無しさん:02/06/27 02:48
114の文章を解析できませんぬ
117ろてぃれる:02/06/28 20:43
>>116
話の流れを中断して申し訳ございませんが、形態素解析システム「茶筅」を
用いて音声認識の精度を上げることが出来ると思われる方は、こちらに
いらっしゃいますでしょうか?
単なる「音の解析」ではカバーしきれない肉声特有の発音の揺らぎを、
より意味のある文章として通用するよう補正することで、音声認識の実質的な
精度を上げることが出来ると思うのですが、「音声→母音・子音の組み合わせ
→かな(?)」の一連の処理の結果得られる「読み仮名」の羅列を茶筅に
与えて適切なフィードバックを得ることが出来るかどうか判らないのです。
茶筅に与えるデータは幾通りも存在し、またその中に正解が必ず存在するとは
限らないという条件の中で、このアプローチは果たして有効といえるので
しょうか。コストに見合う性能改善が見られるのでしょうか。
他に考えられる問題点なども合わせて、こちらにいらっしゃる皆様と意見
交換を……とか、解読している夢を見た……疲れているらしい……。

でも、個人的にはこういうネタ好き(謎
皆さん、どう思われますか?

http://www.justsystem.co.jp/voice/atok14/vtot.html
民生用ではこのあたりが限界だと思いますが、これが劇的に改善される
ようなら……夢ですねぇ。

http://ai2you.com/ocr/product/koko8s1.asp
ところで、OCRとかでも同様のアプローチを取っているようですが、こちらは
もともと「漢字かな交じり文」が対象になっているわけでして、事情が
異なる、と。
118デフォルトの名無しさん:02/06/29 01:21
> 話の流れを中断して申し訳ございませんが、形態素解析システム「茶筅」を
> 用いて音声認識の精度を上げることが出来ると思われる方は、こちらに
> いらっしゃいますでしょうか?

ここにいるかどうか知りませんが、
それに似た試みはもうずっと前からみんなやってますよ。
音声認識は専門外だからよく知らないが論文も山ほど出てるはず。
形態素レベルなんかじゃなく、もっと「グローバルな」制約を入れる
ということもやってる人がいるが、たいした成果は出ていない模様。
さんざ計算して、1パーセントやそこら精度が上がったって面白くもない。

> 「音声→母音・子音の組み合わせ→かな(?)」の一連の処理の結果得られる

こんなことやってる音声認識システムは今どき存在しないと思いますが。
latticeからいきなり単語を出すでしょ?
119ろてぃれる:02/06/29 02:25
……反論の余地もございません。
今回のケースでは、形態素解析に突っ込むデータを用意する部分と、
解析結果を料理する部分こそが肝といえるのですが……というか。
「形態素解析にかけられるデータをしっかり用意できてしまったら、
その後わざわざ形態素解析にかける意味が消失する」という矛盾があったり。

こんなまだるっこしいことをやるなら、まだ「音程のぶれ幅」やら
「抑揚の上下」の解析に気合いを入れる方が面白そうな気もしないでもなく。
※PCレベルの市販ソフトでも、エンロール機能が搭載されて久しい……。

カクテルパーティ現象の実装(?)とか、「今までの話題の流れ」を
考慮するなどできるお利口さんな処理系ができてはじめて「劇的な改善」を
実感するんだろうなぁ……普通のヒトは……。

――訂正。
それではじめてスタートラインだ。きっと。
つうか、電波っぽくて意味がわからないです。
なんか独白っぽいんだよな。
他人に何かを伝えようとする文章ではない。
122デフォルトの名無しさん:02/07/01 19:53
>>106
> 卒論で意味解析を格フレーム使って表すプログラムを引継ぎでやったが
「格フレーム」とは,1960年代のフィルモアの理論ですか?

自然言語処理では,それ以降の理論言語学の研究成果は取り入れては
いないのでしょうか?
スレ伸びないね…
板違いなのか自然言語処理がマイナーなのかw
124デフォルトの名無しさん:02/07/16 03:23
age
>>123
前提とする知識が多すぎて頓挫するのだろう。
形態素解析できたからって、そこから先へ繋げないといけないし。
文法木が複数出来あがったとしても、どれが真に正しいかは意味解析
しないといけないし、意味解析はまた別の分野。
ゴールをはっきりと定めないと、終わりが無い。
126デフォルトの名無しさん:02/07/24 19:45
agege
うーん。対象をある特定の言語とするか。あるいは任意の言語にするか、
によっても 相当変わってくるですよね。

あとは 文法を意識せずに既存媒体から吸い上げる方向にするか、
トップダウンに ある言語学の成果を適用する形にするか。

もしくは 何でもやを目指さず、システムに解釈しやすい
簡易言語を想定して作る、ってのも ありですよね。
#音声認識はここかな。

要は、単語ひとつとっても、知識体系としてスカスカで、
つまりその概念が出てくる頻度が とっても少ないけど、
基本的な概念。っていうのがあるわけです。
つまりその単語の意味が分からんと文の意味がさっぱり、
っていう。
そういうのを ぜーんぶ網羅しなければいけない時点で
かなり萎えてしまうものです。

文化系は使えねーからなぁ。
129デフォルトの名無しさん:02/08/18 04:02
ある程度までいかないと、
応用が効きにくい分野だな。
130逝って良しの1:02/08/18 04:13
「文系」は文化系の略じゃなく人文系の略じゃ
>狭義には、社会科学に対し、文化科学の意。歴史、文芸、言語などに限定される。じんもんかがく。

>>130
文科系の略です。
133名無しさん@お腹いっぱい。:02/09/15 23:56
>>118

音声認識だけで会話するスレ
http://pc3.2ch.net/test/read.cgi/software/1025941449/l50
134nobodyさん:02/09/17 14:11
<age>
言語学板の意味論のスレッドは門外漢にとっては難しいね。
136136:02/09/23 14:46
自分は自動要約の研究を行っておりますが,非常に評価が難しいです.
唯一の正解要約なんてないっつーの.このような悩みを持っておられる
方はいますか?
評価の方法は自然言語処理にとってもっとも深刻な悩みのひとつです。

評価するのにめちゃくちゃコストがかかったりして、
そのくせまともな評価方法なんてあるわけないし、
といいつつ、なんとかして定量評価しないと学問として進歩しないし。
138ろてぃれる:02/09/24 00:31
関連で(ある意味)最も普及しているインスタント要約技術。
ttp://www.searchdesk.com/view/vptc323.htm


形容詞が多く係る名詞・動詞を重み付けするとか。
話の流れが変わる場面で良く出る言葉の前後を考慮してみたり。
いろいろやってはみたモノの、冗談半分で作った「漢字とカタカナ以外の
文字を薄めの色にして流し読みする」ツールの方が使えてしまった過去あり。

これの応用で、重要っぽい単語だけゆっくり目に読み上げる音声ブラウザ、
というのも作りかけたけど、諸事情でなかったことになっています。

# どこの人間か、ばれるかも?
139 ◆99fK0tjR.Y :02/10/04 21:58
定期あげ
140デフォルトの名無しさん:02/10/04 23:04
形態素解析って
辞書がダメだと
ダメなの?
>>140
辞書がダメなら
ダメだろ。
HSP 最高!
日本語はへf何ができるの亜
↑たった今、言語障害の方が紛れ込みました。
意味をとってレスしてあげましょう。
話は変わるけど、WWLの翻訳ってうまくいきそうなんですか?
146デフォルトの名無しさん:02/11/02 18:55
C 以外は糞
>>147
それ書いたの何回目だ?w
自然言語処理よりも自然言語のセオリーの方が楽しくなってしまう罠。
言語学って面白いのね。ってまだ入門書読んでる程度だけど。
150ろてぃれる:02/11/25 16:10
>>149
杓子定規の決まりなんて初めから無い、得体の知れないものに法則を見つけていく
という遊び、ですから。(←いいすぎ)
ちょっと昔にブームになった「複雑系」と(略
151デフォルトの名無しさん:02/11/26 13:50
形態素解析、構文解析、意味解析等を実装する上で、参考となるWEBページを教えて下さい。
まだ右も左もわからない状態なので、詳しい入門ページがあればいいのですが・・・
↓は見ました。けど、情報少なすぎ・・・
ttp://www.unixuser.org/~euske/doc/nlpintro/
152デフォルトの名無しさん:02/11/27 07:38
>>151
本買ったほうが絶対早い。
153ろてぃれる:02/11/27 15:35
>>151
>>1
あとは本。
それか、それっぽいのをやっている会社に無理矢理入り込むか。
……いえ、私がそうだとは言ってませんよ?
154デフォルトの名無しさん:02/11/27 20:30
どこの会社でやってんの?

ジャストシステムのconcept baseとか?
ああいったもの作ってるところに入るのがいいだろうね。
156デフォルトの名無しさん :02/11/28 03:02
>>38
めちゃくちゃ遅レスですが、こんなのありますよ。
http://www.cs.brandeis.edu/~jamesp/books/mit-gl.html
現行の辞書みたいに、ちょっと違う意味を全部バカ正直に列挙するんじゃなくて、
アナロジー的なものをうまく構造化して辞書にするにはどうすればいいか…
という話(だと思う)。
157デフォルトの名無しさん:02/11/28 15:04
>>122
一応、LFGとか実装してる人はいるみたいだけど、
理論言語学の理論って実はあんまり役にたたないというのが
ここ10年くらいの自然言語処理の流れかな。
(そろそろ変わってくるかもしれんけど。)

言語屋が「人間が解析するに値する特殊な(おもしろい)言語現象」
を好むのに対して、計算機屋が「機械で解析できる&機械で
解析する必要のある『大量の平凡な言語現象』」を対象にしてるから、
あまりかみあわない。



1581222:02/11/28 15:08
>>157
うるせー馬鹿
まえにNHKスペシャルでGoogleなんかといっしょに、
語用論データベースみたいなの作ってる企業紹介してたけど
どうなったんだろう?ITバブルといっしょにどっかに飛んじゃったかな?w
viaVoiceとか音声認識ソフトって使ってる人いる?
ちゃんと実用になってるのかな。
あれって形態素片への分解とか関係あるよね。
保守
携帯から記念カキコ(>.<)ナノ
>>584
イオナズン
>>124
ご苦労様です
>>157
裁判上不利になるから、大きいところではもう無理だろうな。
だから2ちゃんでいい、という帰結もまたおかしいけれども。

これからは、IPが裁判で提出されるのが常識になりつつ、
それ以外の局面でどうIPが守られているか、とか
どれだけシステム上の信頼性があるか、とかが掲示板の人気に影響しそう。
167デフォルトの名無しさん:03/01/09 16:19
http://research.microsoft.com/users/takakoa/
この人、有名な人なの?
======2==C==H======================================================

         2ちゃんねるのお勧めな話題と
     ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数: 138720人 発行日:2003/1/9

年末年始ボケがそろそろ収まり始めた今日このごろのひろゆきです。

そんなわけで、年末に予告したIP記録ですが実験を開始しています。

「2ちゃんねる20030107」
こんな感じで各掲示板の最下部に日付が入ってるんですが、
20030107以降になってるところはログ記録実験中ですー。

んじゃ!

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────
>>775
それもコピペ荒らし
2003年1月9日より 計2731票

匿名性に絡む問題なので反対 27% 763 票
サイトのためになるから賛成 54% 1489 票
利用しないから関係ない 8% 242 票
2ちゃんねるってなに? 4% 122 票
アクセスログってなに? 4% 115 票

みんないい香具師がおおいのか?
>内容証明が届いて、すぐに削除したら、賠償はしなくていい気が。

それはそのとおりでしょうねぇ。

・内容証明が届いて、名誉毀損の書き込みがあることを知りえた
・その日から起算してン日間書き込みを消さなかった
・その間のン日間は名誉が毀損されたことによって被害が発生した
ということを「裁判所が認めれば」負けちゃうんじゃないかなぁ、、

>んだったら、IP取ってない板で、自分で自分を中傷して、
>すぐに裁判すれば賠償金が取れるってことになっちゃう、、

そのとおりじゃないすかねぇ、、
掲示板の持ち主がけんすうさんだという前提でいうと、
その中傷発言が自作自演かどうか、けんすうさんにも判断できないん
だったら、けんすうさんが責任を負わないといけないという判決ですよね。
しかし個人の中傷発言だったら最初から消せばいいのでは。。
>内容証明が届いて、すぐに削除したら、賠償はしなくていい気が。

それはそのとおりでしょうねぇ。

・内容証明が届いて、名誉毀損の書き込みがあることを知りえた
・その日から起算してン日間書き込みを消さなかった
・その間のン日間は名誉が毀損されたことによって被害が発生した
ということを「裁判所が認めれば」負けちゃうんじゃないかなぁ、、

>んだったら、IP取ってない板で、自分で自分を中傷して、
>すぐに裁判すれば賠償金が取れるってことになっちゃう、、

そのとおりじゃないすかねぇ、、
掲示板の持ち主がけんすうさんだという前提でいうと、
その中傷発言が自作自演かどうか、けんすうさんにも判断できないん
だったら、けんすうさんが責任を負わないといけないという判決ですよね。
しかし個人の中傷発言だったら最初から消せばいいのでは。。
え、だからどの時点の話?>けんすう


ISP責任法施行後は削除依頼以後7日間の猶予で消せばOKだから
裁判までにならないと思うんだけど
ますます管理が難しくなるな。でかくなればなる程。
その具体的な理由として社長は、こう話す。
「2ちゃんねるはボランティアの削除人が書き込みをチェックして、
好ましくない書き込みを一所懸命削除している、
ということになっているが、あれはウソ。
削除人には給料が支払われ、その給料の原資となっているのが、
まずいことを書き込まれた企業が削除要求とともに渡す裏金。
これはまさに、総会屋の構図そのものだ。
これまで裁判になっているのは金額で折り合えなかったり、
裏金を出さない強い態度の企業とだけだ」

http://memo2ch.tripod.co.jp/article.html
鯖に負担をかけてみるテスト。
 ̄ ̄∨ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  ∩15∩
 (´ ・ー・ `)
殺人予告でもせん限りIP取られてどうなるもんでもねぇだろ。
あけおめなのです。フフフ
>今は匿名掲示板の悪い面ばかり目立っているが

あなたの意見には大体賛成なのさ。大体ね。
俺は↑が今の問題なんだと思うけど。2ちゃんもシャレにならない位
巨大化してきてるわけだし、ただの掲示板ではなくなりつつあるわけだし
IP抜かれながら、法に触れない程度の書き込みをして遊ぶ、
それでいいんじゃねいの?
>>650
ま、チャンスといえばチャンスだからな。大変なんでしょう。
421 名前:三毛 ◆MowPntKTsQ 投稿日:03/01/10 00:18 ID:McoZGeeY
普通、ノートンが反応するような代物をむざむざ開く莫迦はいないだろ。
では、君のお薦めのソフト教えてよ。

あ、それと、そんなもの貼った意図も併せてね。

423 名前:g056137.ppp.asahi-net.or.jp 投稿日:03/01/10 00:20 ID:6BZCtvnU
これ
http://pc.2ch.net/test/read.cgi/sec/1036482812/

意図。
風に吹かれて、かな。

今ちょっと色々試してる。
具体的に
今後はどんな
書き込みをしてるとまずいんでしょうか?
さっき、名誉毀損についてググりました。

それによると、事実を指摘するだけでも、名誉毀損になるとありました。

解説によれば、誰でも少しくらいの嘘で名誉を維持してるから、
例え事実であっても、名誉を下げるような事はまずい、っと言うような
ニュアンス。

もちろん、本当に犯罪行為なら別でしょうけど、事実でも言っては
ならないことがある、ということなんですね、納得。
確かに、本当に馬鹿でも、馬鹿とは言われたくないですね。
======2==C==H======================================================

         2ちゃんねるのお勧めな話題と
     ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数: 139038人 発行日:2003/1/10

なにやら、連日メルマガだしてるひろゆきです。

そんなわけで、ログ記録実験ですが、いちいちサーバ指定するのが面倒なので、
全部のサーバに入れてみました。

重くなって落ちたりしてもご愛嬌ってことで。。。

んじゃ!

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────
似非リーさん、縦読みですよ。
あんたやっぱりかわいいな。

しかし、正直「まだ取ってなかったのか」ってのが俺の感想。
いいんでねーの?どうせ運営にしか接続元なんてわからねえんだから。

その運営側がキモイわけだが。
実名も顔写真も載せているのでNGです。
先日やっとウザいストーカーを抹殺したばかりなのでこれ以上近寄る人が
増えるのはイヤです。
IP取られても表示されなきゃとりあえず漏れは気楽なんだよな。。。
掲示板で管理人がIP公開する危険性と、匿名掲示板で実は管理人がIP取ってる危険性は
同じようなもんだし。

そっか。スレ保持人にも匿名性をもたせるのかな。
で、スレ本体がキー並に流通して持続可能性を持ち始める、と。
そこまで逝けばカナーリアングラな代物の完成ですね。

っていうか、怖いな。
407 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:32 ID:jWxHxvti
>各板のTOPに一定期間、お知らせみたいに貼ってたら?
テストの結果次第でこのまま運用が続いたら書くかもです。

415 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:33 ID:jWxHxvti
羽田タートルは、仮処分の裁判を3回やってます。
つきあいきれません。

414 名前:心得をよく読みましょう 投稿日:03/01/10 20:33 ID:zU0biOqb
荒らしの追い込みはやらないですか?
以前、マァブがひろゆきにOK貰ったら追い込みたいといっていたけど

420 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:34 ID:jWxHxvti
追いこみ、めんどくさいんだよねー。
いまだにネットの匿名性を信じてる馬鹿が多すぎ、、、、。
ハッカーでも警察につかまんのに、普通にネットにつないで
IPをネット上にばらまいてる奴なんて、本気でそいつの
住所や名前を調べようと思えばすぐばれます。
当然含まれるかと思われ。
凄ぇ………OSはNT系ですよね………?
あなたがわたしにくれたものー 便所に似ている掲示板
 ペン字講座
2002年2ちゃんねるアニメランキング1位のアニメに・・・・

モナーが出演決定!!!!!!!!!!!!!!!!!!!!!

<<放送時間>>
1/12
大阪 テレビ大阪 (日)9:30〜10:00
東京 テレビ東京 (日)9:30〜10:00
名古屋 テレビ愛知 (日)9:30〜10:00
福岡 TVQ九州放送 (日)9:30〜10:00
札幌 テレビ北海道 (日)9:30〜10:00
岡山・高松 テレビせとうち (日)9:30〜10:00 
コピペ荒らし一覧わろた
そう!ひろとしは偉い!!
IP取得開始前の過去ログが晒されたら、またその時点で侵害行為発生じゃん。
で、書き込み者が特定できないから云々・・となると思うが・・・。
嘘はついていないんだろうけど…。(;^ ^
199山崎渉:03/01/13 18:58
(^^)
4nd・・(ププッ
201山崎渉:03/01/15 18:12
(^^)
202デフォルトの名無しさん:03/01/17 20:31
ここは自然言語処理のスレッド…


だよな?
俺今大学4年で今年ずーっと人工知能の開発ってテーマで一人
頑張って研究してました。所属した研究室が自律分散システムの場所だったんで
最初なんかエージェント作ってとか言われたけど、無理言ってこのテーマに。

って当然完成しませんでしたけど。開発はWindows2000とVB6.0を使ってやりました。
データベース(これはAccess形式のファイル使いました)に単語をとにかくぶち込みます。
それで何か解析したい文章を与えるんです。
与えられた文章はデータベースにある単語全てを使って総当りに検索していきます。
この時点でダメプログラムと思うんですけど、良い方法が思いつかなかった。
なんでかって言うと未知の単語(or文)も抽出したかったから。
見つかった単語があると、単語の次にある語を次は修飾関係がどうなってるか
これまた検索(これは総当りでも大した量じゃないから速い)。
その結果を主語、動詞、等にわけて簡単な解析を終わり・・・って時点で終わってもた。

難しい文章でなければ構文解析はなんとかなりそうなんだが、コンピュータから
の返答文を作るのが全然アイデアが思いつかなかった。
人間で性格っぽいのを作るべきなのかなってのは分かってきたが、いざソースを
書くとするとどこから手をつければいいのか全く分からず・・・。

あと音声入出力はViaVoice使えば良さそうだったけど試せなかった。
204デフォルトの名無しさん:03/01/18 09:19
自律分散システムってもしかしてM研?
ま、それはいいんだけど、既存の形態素解析・構文解析の方法を
すこしは知っといて損はなかったと思う。未知語に関してはいっぱい研究されてる。
基本的なアイデアはどれも大したことないが。
カタカナ語とかは「読みとばし」でもたいていうまくいく。
でも実際には構文が解析できれば終わりってわけじゃないんだ。
意味表現としては、古典的な手法だと一階述語論理もどきのものを生成させる。

んで、コンピュータからの返答も述語論理を使うわけだ。
つまりエージェントとのインターフェイスはすべて述語論理でやって、
自然言語はそれの翻訳、という解釈にするわけよ。
そうすると返答文の生成なんかもわりとすんなり設計できる。
いくつかの層に分けて表層を生成し、それを自然に見えるよう
最適化すればよい。適度に省略させたり、代名詞を使わせたり。
しかし自然に見せるには結構難しいんだな、これが。
そのへんも研究はかなりされてるはずだが鳴かずとばすだね。

ちなみに人間の性格っぽいというのが何を示しているかは不明。
人間っぽさを出すためには文脈解析とかまた別の戦略が必要になる。
音声が入ると、構文解析はずっと大変になるだろう。
人間は流暢に喋らないからね。喋ってる途中で文を変えたりするし。
自然言語処理についてのおすすめの本とかありますか?

>>66
TDTについて詳しく知りたいんですが、どういった物なんでしょう?
>>206
http://www.nist.gov/speech/tests/tdt/
http://www.ldc.upenn.edu/Projects/TDT/

あとは Charles Wayne の論文みれ。それでだいたいわかる。
もうすこしレスしときますが、この手法は日本語でもかなり使えます。
安直な方法なら perl で 100行ぐらいで実装可能です。
209山崎渉:03/01/23 20:02
(^^)
英語苦手だが がんばってみるか…
ttp://www.aiful.co.jp/cgi-bin/requeste.cgi

なかなかやるねー。
>>211
??
211は簡単な形態素解析をやってるかもしれないね。
試しに色んな文章入力してみたけど、複数の単語を扱える人工無能っぽい。
214baka desu:03/01/29 23:56
俺には100行で実装なんて無理ぽ
どこの会社でやってんの?
>>211 確かに実用的レベルだな。
>>212 211のリンクで見えんとほざく前に
http://www.aiful.co.jp/
でねえちゃんに聞いてみるといいぞ。
>>211 ひまつぶしにいいな。冴子センセよりもセンスいいぞ。
入力:チワフルに会いたい
答え:ごめんなさい。デートはできませんが、
「さやかのさわやか相談室」へメールを送って頂ければ、
さやかが親身にお答えします。
>>205
わすも、入門書教えて欲しい。
っていうか、「最低これくらい読んでねぇと話かみあわないじゃん」の本。
Windowsで言うと「ファーストステップガイド」だな。
連続カキコ&遅レスすまぬ。
>>141
>辞書がダメなら
>ダメだろ。
形態素解析に限らず、辞書作成にかかる人手を軽減するための研究はどこかでやってる?
今時ならWeb上の掲示板の巡回とか、ViaVoiceにNHKのニュースを聞かせるとかするだけで
結構なネタは集められると思うが、人手をかけるにはカネと時間がかかりすぎるよな?
googleだって、ヒットしなかった検索ワードをじゃんじゃん溜め込んでるんJARO?
ガイシュツだったらスマヌ。
220デフォルトの名無しさん:03/02/08 05:39
>>218
James Allen の "Natural Language Understanding" をおすすめします。
自然言語のほとんどの研究はこれと Manning, Schuetze の
"Foundation of Statistical NLP" でカヴァーできる。たいていの研究者・学生は
これで学習。日本語のは探すだけ無駄。FSNLP はいま読んでますが、いいですよ。
あとは最近はやりの SVM 関連をおさえておけば完璧ってとこじゃないかな。

>>219
> 形態素解析に限らず、辞書作成にかかる人手を軽減するための研究はどこかでやってる?

そんなのどこでもやってるよ。辞書の自動構築にしろ、シソーラスの自動構築にしろ
すでに何百と論文が出てるし、おまけに毎年増加中。LRECなんかほとんどそればっかりなんじゃないの。
もう単一の言語での研究はほぼ飽和状態になってて、いまは多言語に対応した
辞書やシソーラスにテーマが移りつつある。あと、スラブ諸国のマイナー言語をどうするかとか。

> 今時ならWeb上の掲示板の巡回とか、ViaVoiceにNHKのニュースを聞かせるとかするだけで
> 結構なネタは集められると思うが、人手をかけるにはカネと時間がかかりすぎるよな?

これはね、みんなやりたくて仕方ないの。
だけど権利関係がとにかくうるさいんだよ。そうやって作った辞書があっても
公開できない。学術研究目的でもダメ。
NHK はニュース関係の音声をがっちりガードしてて他に使わせないことで有名。
新聞関係もかなり固い (朝日とかね)。かといって、2ちゃんねるみたいなところを
巡回しても大量のゴミが集まるばかり。

いまの自然言語処理でネックなのは、技術よりそういうしがらみ関係で
十分なリソースが使えないこと。だから、権利フリーのテキストとかあると
みんなすぐ飛びつく。でも、数が圧倒的に少ないうえに品質ばらばら。
Google は…あれはたぶんいつか訴えられるんじゃないの? とオレは思っているが
あのぐらい大企業になればいい弁護士がいるんだろう。結局はカネだよ。
>>220
ベリーthnx。英語は読めるから、読んでみまつ
でもNatural Language Understandingはamazo.co.jpで蛙が、
http://www.amazon.co.jp/exec/obidos/ASIN/0805303340/qid=1044653066/sr=1-5/ref=sr_1_0_5/250-4326909-7909800
FSNLPは見つからんな。ISBN教えてくれたら、ウィッシュリスト出しとくけど?
SVMは他でもつぶしが効きそうだからチェック済み
>そんなのどこでもやってるよ。
WO〜。そうかい。安心した。その割に漏れみたいな素人が辞書を手に入れられないのは、
>だけど権利関係がとにかくうるさいんだよ。
ちゅうことだな。NHKの件はコイズミのジュンちゃんにメール出しとくよ。
赤いブスだかなんだかに金使ってる場合カヨってな。
NHKよ、まずお前らがJASRACにカネ払え。話はそれからだ。・・・払ってたらスマヌ
222デフォルトの名無しさん:03/02/08 10:18
>>221
題名を省略して書いてました。スマソ。Amazon での検索結果は以下のとおり。
これで $70 はお買得だと思う(used なら $50 ぐらいで買える)。

Foundations of Statistical Natural Language Processing
by Christopher D. Manning, Hinrich Schutze

List Price: $70.00

Product Details

* Hardcover: 620 pages ; Dimensions (in inches): 1.80 x 9.31 x 8.15
* Publisher: MIT Press; ; 1st edition (June 18, 1999)
* ISBN: 0262133601
* Average Customer Review: 4.7 out of 5 stars Based on 9 reviews. Write a review.
* Amazon.com Sales Rank: 32,938

> その割に漏れみたいな素人が辞書を手に入れられないのは、

カネがあれば素人でも買えますぜ。
もっともアカデミック利用でウン十万円という代物ですぜ (商利用だとさらに1ケタ増)。
http://www.ldc.upenn.edu/http://www.iijnet.or.jp/edr/ みれ。
権利がからんでて表に出せないのもあれば、単にケチなだけのところもある。
ところでフリーの IPAL や ICOT 辞書 や WordNet はとーぜん知ってるんだよね?
たしか Juman は ICOT、Chasen は IPAL を使ってるんだっけか。

あと、まともな辞書ができないのはメーカーや大学が自分達のをカコって表に出さない、
という理由もあります。それほど辞書は重要だということです。
>>222 (・・・Manning, Schutze て姓名でなくて共著かよ・・・)
たすかったなりよ。usedは.comだな。

>ところでフリーの IPAL や ICOT 辞書 や WordNet はとーぜん知ってるんだよね?
不治痛のbreakfastに付属くらいしかしらぬ。どっかで毎日新聞を元にしたやつの値段みてあきらめた。
ので、素直にthnx。
しかしIPALの
http://www.ipa.go.jp/STC/NIHONGO/IPAL/nyuushuhou.html
は配布してるフリだけで確か死んでたぞナ。前に調べたときがっくりきた。
ツテがあったら、言っといてちょんまげ。
まぁ処理系実装にまで手が出せんねぇ。メカブが熟成されるまで待つとしよう。ガンガレ、めかぶ!
224デフォルトの名無しさん:03/02/08 21:58
去年のCOLINGでチュートリアルを担当していた、D. Jurafsky
も自然言語処理の本を出しています。

Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (Prentice Hall Series in Artificial Intelligence)
Dan Jurafsky (著), James H. Martin (著), Andrew Kehler (著), Keith Vander Linden (著), Nigel Ward (著)

U.K. 定価: £35.99
価格:¥7,066

------------------------------------------------------------------------
この本を買った人はこんな本も買っています

*Foundations of Statistical Natural Language Processing Christopher D. Manning (著), Hinrich Schutze (著)
*Natural Language Understanding James Allen (著)
*Spoken Language Processing: A Guide to Theory, Algorithm, and System Development Xuedong Huang (著), その他
*Statistical Language Learning (Language, Speech and Communication Series) Eugene Charniak (著)
*Statistical Methods for Speech Recognition (Language, Speech, and Communication) Frederick Jelinek (著)
225デフォルトの名無しさん:03/02/08 22:42
>>224 書籍紹介まいどおおきに
せっかくやけど、そんなにたくさん買えまへん。えらすんまへん。
226デフォルトの名無しさん:03/02/11 17:47
>>220
とりあえずJames Allen の "Natural Language Understanding"
だけ注文しといた。英語は読めても専門用語の訳語がわからんと困った君なので、
http://www-tsujii.is.s.u-tokyo.ac.jp/~mitsuisi/nlp_links.html
↑ここの用語集で済ますことにする。
227デフォルトの名無しさん:03/02/12 09:23
>>220
> NHK はニュース関係の音声をがっちりガードしてて他に使わせないことで有名。
> 新聞関係もかなり固い (朝日とかね)。かといって、2ちゃんねるみたいなところを
>>221
> ちゅうことだな。NHKの件はコイズミのジュンちゃんにメール出しとくよ。

官邸からは型にはまった返事が来たゾ。たぶん自動返信ダナ。
NHKからの回答はまだだ。もうちょっとマテクレ。
新聞関係は
http://www.pressnet.or.jp/info/kenk19971100b.htm
↑にもあるように、著作権法にすがってるな。ミッキーマウスと同類だな。プッ。
報道機関が官権にすがるとはな!
228デフォルトの名無しさん:03/02/12 13:10
ただ著作権といってもどのへんまでが侵害になるのかは
実はあいまいで、よくわからない。

辞書を作るとかだと、もとの記事の内容がわからなければ
著作権侵害ではないという見方もある。よくわからん。
あえて日本語の本を挙げときます.そんなに悪くないと思いますけど.
長尾 真(編)「自然言語処理」岩波ソフトウェア科学

私は >>220 さんが挙げていた本は読んだことありませんけれども.
また SVM (Support Vector Machine?) は自然言語処理でそれほどまで中心的な
話題なんでしょうか.
> また SVM (Support Vector Machine?) は自然言語処理でそれほどまで中心的な

いいえ。ただ一部で流行ってるというだけです。
いま学会に論文だすとウケるという程度。
>>228
著作権云々はスレ違いだから、この辺しとくよ。
googleなお検索エンジンはrobots.txtが規定されて以降は、
「勝手に登録」「勝手にキャッシュ」されたくない権利を保証できているという
コンセンサスに達して、あまり問題にされていないようだ。
逆言えば、robots.txtを無視して巡回することが「紳士的でない」と見なされる。
http://www.math.tohoku.ac.jp/~kuroki/keijiban/Robots.html
http://www.robotstxt.org/wc/norobots.html
「勝手にリンク」についてはまだくすぶっていてグレーだが、
リンクされるのがいやならネットに公開しない自由が既にあるので、
そのうち収束するだろう。
http://www.sal.tohoku.ac.jp/~gothit/gothitj.html
↓こういうわけの分からん団体の行動は却って追い風になるだろう。
http://www.zdnet.co.jp/news/0203/23/b_0322_09.html

あとは漏れの勝手な妄想&デムパ。
Webの情報はrobots.txtさえ見て紳士的に巡回すれば、著作権法の言う「引用」までは
自由に可能。「引用」の範囲はウルサイJASRACに無関係な分野なら、全くのグレー。
っていうか、テレビで新聞記事解説するやつはクロじゃねぇのかよ。あれのどこが「引用」だ?
辞書を作るという「主」があれば「従」としてのWeb情報蓄積は充分シロだ。

報道機関・放送団体も食っていかねばならんので権利を主張するのは理解できるが、
それならば、自ら進んで学術目的の研究にカネを出して呉。
っていうか、連中は「自動要約」とかに興味ないんだろうか。
膨大なテキストを煮るなり焼くなりすればカネにできるのに、
「あなたの生まれた年の新聞プレゼント」とかやってる場合じゃないっしょ。
カネにできる知恵が無いならみやげでも持って借りに逝けと。

で、sage進行?
>>229
素直に、すぐそこthnx。でも、注文する前に逝ってクレー。
ちなみに、
岩波講座ソフトウェア科学 (15)長尾 真 (編さん)
ISBN: 4000103555
これのこと?
233229:03/02/13 18:31
>> 232
> でも、注文する前に逝ってクレー。
スレを見つけたばかりだったので,許してクレー.
本はそれです.「講座」が抜けてた.

>> 230
なるほど.ありがとです.
パターン認識の基礎的な研究がされると,それを利用した研究があちこちでされるのですね.
YPSを語るスレはここですか?
ipal動詞辞書のDIVって意味素性は、なんの略なんでしょか?
>>235
diverseかな?
>>226
やっと届いたにょ。これから詠む。
ぱらぱら眺めた感じだと、プログラミング言語のコンパイラ関係の本に似た感じの印象を受けた。
当然と言えば当然か。
オントロジーとかセマンティックネットワークとかやってる人いる?
DAML+OILって何がいいの?
オントロジーって誰が結局作るの?
あれを自動生成するような方法なんてあるの?
242デフォルトの名無しさん:03/03/16 17:41
こさかな先生がいつの間にか復活していた、age
243デフォルトの名無しさん:03/03/16 17:46
http://www.pink-angel.jp/betu/linkvp2/linkvp.html
★その目で確認すべし!!★超おすすめ★
>>241
分野ごとにクラスタリングされたコーパスから自動生成できないかな?
要は、概念間の関係を抽出できればいい、のかな?
245デフォルトの名無しさん:03/04/03 20:05
隠れマルコフモデルってどうなの?
南瓜の話って出てきませんね。
247山崎渉:03/04/17 15:45
(^^)
248デフォルトの名無しさん:03/04/18 16:40
形態素に切り分けるのにすら
意味論が入ってきちゃってる自然言語ってどうやって
切り分けるの?
統計を使う。
>>248
人間の知恵と知識も使う。
251山崎渉:03/04/20 03:06
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
252山崎渉:03/04/20 03:42
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
ある程度の自然言語処理をサーバができれば山崎渉も阻止できるんだろうけどねぇ。
いや、自然AA処理もできるようにならんと、AAが全部蹴られかねない。

ム板ではAA蹴りもアリでいいんじゃ?ってのはいいとして。
その辺は画像処理とパターン認識の方向だよね。
あ、台詞なんかついてるのはあれか。
256デフォルトの名無しさん:03/04/22 03:11
別分野の研究者なのですが、
自然言語処理の世界でのおおまかな動向を把握したいと思っています。
見ておくべき雑誌等あれば教えていただけないでしょうか?
国内の研究会報告は NL, NLC, SLP くらいをざざっと見ています。
国内はどこもたいしたことないです。
せいぜい、日本語のように単語区切りのない言語の処理が、やや得意かな、というレベル。
ま、それでも十分なんだろうけれどね。
259256:03/04/22 22:54
もちろん洋雑誌で構いませんので教えていただけないでしょうか。
260デフォルトの名無しさん:03/04/23 00:02
雑誌ならComputational Linguistics.
といっても、雑誌よりはProceedingsのほうがいいのでは?
ACLとかCOLINGとか。
261256:03/04/23 00:30
どうもありがとうございます。
幸い Computational Linguistics も ACl, COLING の proceedings も
近くにあるようなので良かったです。
262デフォルトの名無しさん:03/04/27 12:38
> ACLとかCOLINGとか。
ACLは、7月に札幌で大会があるね。
自然言語処理するロボットってあるの?
264デフォルトの名無しさん:03/05/15 22:17
[PDF]ソフトウエアロボットの行動を制御する ...
ファイルタイプ: PDF/Adobe Acrobat - HTMLバージョン
... 行きすぎ」 * 本研究であつかう言語現象 ? 省略 (elipsis)「 (馬は ... 進行中の
ゴールに関する情報を保持する ? ユーザの発話をうけて作成・修正する *
本システムで使用する意味表現 ? 格フレーム構造 [Fillmore, 75] [Ringland, 88 ...
tanaka-www.cs.titech.ac.jp/~euske/ study/thesis00/shuron000208.pdf - 関連ページ
>>264
ありがとう.でもソフトウェアエージェントの制御か...
実ロボットで言語を理解する(ふりをする)ものは無いものかな.

tanaka-www.cs.titech.ac.jp/pub/kairai/index-j.html
>「傀儡 (かいらい)」とは、自然言語によって仮想空間上のソフトウエア
> ロボットを制御するシステムです。
266山崎渉:03/05/28 13:01
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉
保守
モキュ
269デフォルトの名無しさん:03/06/30 23:04
ドイツ語だと
ich habe
du hast
er hat
wir haben
ihr habt
sie haben
こういう格変化を語根辞書と変化表だけから
認識して形態素解析するのはどうします?
>>265
大阪大の白井良明先生のところで実ロボット使ってやってるみたいだよ。
後は早稲田の小林研とか。
このスレを読んでる人にとって勉強になるような2chの板とかスレッドはありますか?
学問・文系の言語学板
273デフォルトの名無しさん:03/07/11 23:32
札幌で開催されているACL2003に行った。
この分野の学会では、相変わらずMacユーザー
が多い。Nancy IdeのPowerBook G4 17 inch
を使っていた。参加者に渡されるバッグも
PowerBook G4 17 inchがちょうど入るサイズ。

>>232
長尾学長とお呼び下さい。
275山崎 渉:03/07/15 09:55

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄
276  :03/07/17 09:07
保守
277_:03/07/17 09:16
どうして自然言語処理に関する研究に携わってる人は
自然言語処理に対して悲観的なのですか?
理由は大体分かるけどさ
279デフォルトの名無しさん:03/07/17 15:07
悲観的?んなこたぁない。

>>278
おれは悲観的じゃないよ。
ただ、言語って知識であり、人格なのよね。
これを取り除くとプログラミング言語と変わらないのだと僕は思う。
日常というプロトコルを実装するだけの言語でしかなくなる。

そういうわけで俺は旅に出た。 
281デムパ:03/07/20 17:09
はじめに言葉があった
言葉は神とともにあった
言葉は神であった

神のコンテクストを分析してください
282山崎 渉:03/08/02 02:36
(^^)
283山崎 渉:03/08/15 17:12
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン
age
age
286デフォルトの名無しさん:03/10/28 02:48
JUMANの由来ってなんだろう
ちゃせんならわかるんだけど。
287デフォルトの名無しさん:03/12/02 17:57
「フィラー」はどういう綴りですか?
あー,んー?
えーっと,多分"filler"じゃないかなー.
あーどうだろう・・んー.
>>288
filler のようですね。
サンクスコ
290デフォルトの名無しさん:03/12/16 01:41
これ読んだひといますか?モンタギューに関する本ってなにがいいのか分からないです。
The Mathematics of Language
http://www.svt-ebs.co.jp/subjects/SV-leaf/3-11-017620-3.HTM
>>290
¥19,010かぁ・・・
292デフォルトの名無しさん:04/01/11 00:32
もうすぐ研究室に所属して、研究を始める予定の者です。
指導教官とは話をしていないのですが
自分は
2ちゃんねるから流行語を発見するアルゴリズム
の研究をしたいと考えています。
ウマーとか、乙カレー
みたいな一般にはないような言葉で、
なおかつ、流行っている言葉を
抽出できたらいいかと考えています。

なにかアドバイス等ありましたらお願いします。
それだけならすぐ出来ちゃうのであまり面白くないような。
何をするか決めるのが研究の半分のようなものなので、せいぜい悩んでください。
294デフォルトの名無しさん:04/01/11 13:02
>>293
簡単に出来ないだろ。
まず、2chのデータを形態素解析する事が難しい。
抽出だけじゃなくて、意味が推定できた方が面白いような
>>292
むしろ流行語の発生から拡散の経緯を発見するアルゴリズムを作ったら。
297デフォルトの名無しさん:04/01/11 17:44
まずは抽出ができないと
意味も拡散もわからない。
日本語は形態素片にするだけで一苦労する。
LISPで言うとS式をreadで読みこむ段階。
>>4-5の様に、文脈で切り出し方も変わる。
ここでいつ始められるとも限らない意味解析まで
決定を保留する必要が出てくる。
保留が無意味なら統計で適当にぶった切るしかない。
苦労の割に報われない仕事だ。
全角カタカナ・平仮名、漢字、アルファベット、数字、半角カタカナ、句点・読点、
記号、URL で分けるだけでも >>292 みたいな事出来ないかな。
あとは 2ch 自体の分析で。

-- レスの解析
記号が連続する場合は AA
文字数が多い場合は長文コピペか縦読み
>>1 が入るレスは罵倒系か、乙か

-- スレの解析
スレ内リンクが多い場合は議論系のスレ
一行レスが多い場合はネタ系のスレ

-- 対象の拡大
同じ単語がスレ内の複数のレスで反復されていたり、半角かな文字の部分は何らか
のキーワードである確率が高い。それを板内、カテゴリ内、2ch 全体、2ch 以外
(Google とか、Yahoo! 掲示板とか)でも頻度統計を出して、、、みたいな。

まぁ自然言語処理の範疇なのかは分からないけど。Google 等の検索エンジンの
検索結果を使うってのは面白いかも。真面目な Google Whack みたいな。
301デフォルトの名無しさん:04/01/12 15:37
質問です。
英語文書をmecabなどで特定単語の出現頻度などを
しらべ、文書の特徴を計測する事を行いたいのですが、
英語特有のtoとかtheなどの文書の特徴を表現するのに
あまり関係ない単語をフィルタすることを行うツール
ってないでしょうか?
mecabやchasenにデフォルトでついてます?
単語切り出しを形態素解析に頼るしか知らない294のいるスレはここですか?
頭古すぎ。
>>301
??自分でフィルタすればいいんじゃないの?
304デフォルトの名無しさん:04/01/12 17:05
>>302
単語切り出し(word segmentの抽出)の事を形態素解析と呼ぶんだよ。

まあ、言いたい事はわかるけど
具体的に説明できるようになってから偉そうな事は言おうねw
305デフォルトの名無しさん:04/01/12 17:06
クソレスフィルター欲しいな
日本語の場合、ベイジアンフィルタ作るにしても形態素解析にかけてから
じゃないと、あんまり効果は見込めないんじゃないか?

>>304
>>302の言いたいことは、
「単語切り出しを、
(単語辞書を使って解析する、一般的な意味での)形態素解析に
頼ることしか知らない…」ってことでOKかな?

で、具体的に2chの新語を取り出す方法としてはどんなのが
考えられる?
シソーラスにないものを拾えば。
辞書に載ってないものは解析しづらいよ・・・
構文解析まで踏み込まないと。
310デフォルトの名無しさん:04/01/12 20:32
ちなみに単語辞書を使わない形態素解析はない

結局は2chをリソースにして、辞書を生成して
一般的な辞書との差分が2ch語であると断定し
その中でもっとも使用頻度の高い物を探してくるという
方法が普通でありかつ、もっとも有功なんだと思うけど。

という事で、2chをリソースにした辞書生成法を研究しなさい。
http://nlp.nagaokaut.ac.jp/NLP/book.html
おまえらこのリストの本読め。
レベル低すぎ。
>>309
でも辞書に載っているものは新語ではないような・・・
313デフォルトの名無しさん:04/05/05 00:12
今大学B4で研究テーマを自然言語処理、知識情報処理にしようかとおもってるんだが、
言語資源(辞書やらコーパスやら)の著作権や値段が敷居高い気がして萎える。

Webから大量の文書舐めてエージェントに概念形成とか言語獲得みたいなことをさせたい。
著作権ってこの場合どうなの?別に辞書やらコーパスを構築しようってわけじゃないので。

Webから収集できないようならテーマ変えようかな・・・。
>>313
未踏のblogマイニングをやってる奥村研の人たちに
メールで聞いてみるとか。
http://naoya.dyndns.org/~naoya/mt/archives/001038.html

個人的には対外発表しない卒研レベルの研究なら
勝手にやっても特に問題ないと思うんだがなぁ。
構文解析とかの話ばかりみたいだけど、事例ベースの話とかはスレ違いなの?
よく知らんのだけど、翻訳とか人工無能とかはルールベースよりも事例ベースが
使われているって聞くんだけど
漏れもそのへん知りたい。
age
318デフォルトの名無しさん:04/05/15 21:49
質問があります。
JUMANをサーバーモードで起動して
クライアントを自分で作成したいのですが
プロトコルはどうなっていますか?
ご存じの方教えてください。
このスレの人は生成 vs 認知言語学ってのどう見てるの?
工学的な視点で見ればどっちも絵に書いた餅なのは一緒っぽそうだけど。
320デフォルトの名無しさん:04/05/27 13:53
hage
321デフォルトの名無しさん:04/06/02 13:32
茶せんで解析をしようとしたら
「エラーが発生しました75」
とか言う変なエラーが出ます

どうすればいいですか?
新刊ですが

自然言語処理ことはじめ―言葉を覚え会話のできるコンピュータ
http://www.amazon.co.jp/exec/obidos/ASIN/4627828519/

これ読んだ人います?
323デフォルトの名無しさん:04/06/17 15:33
SDR-4Xが人間と会話してるの見てビビった
>>322
この本を買った人はこんな本も買っていますにワラタ
325デフォルトの名無しさん:04/06/19 01:39
┌┐
│↓
│入力
│↓
│解析
│↓
│新規保存 or 既知補完
││
└┘
こんなアプリ作って、ネットで適当に採取したテキストを大量にドロップしてやったら、
ある程度かしこい辞書ができないかな。
>>325
ゴミが多すぎ。
>>325
そのアイディアは新しいアイディアなの?
超ありきたりな仕組みに見えるぞ
良くあるのは『ネットで適当に』ではなくて、『新聞データ』から
入力する方法だね。
コーパス収集は、目的によって対象を変えるほうがいいけど、大量に電子化されてるのは新聞だね。
だから口語には弱い辞書が多い。
2chでコーパス拾ったら、アホな辞書ができていいね。
問題はAAの排除か。
こんなのは、325ががんがって解析プログラム作るとして。
ttp://aa4.2ch.net/test/read.cgi/kao/1084637688/
人口無脳でそういうの無かったっけ?
330325:04/06/19 03:31
┌┐
│↓
│テキスト入力
│↓
│パターン解析
│↓
│対応パターンで返答
│↓
│記憶
││
└┘
これで会話は成り立たないかな

入力パターン例 : 『名詞』+ 'の' +『動詞』+'ですか'
   ↓
出力テキスト例 : 『動詞』+'です'

どういうパターンのときどういうパターンで、どういう品詞のときどういう品詞が当てはまるか統計をとって、
もっとも適した品詞を当てはめれば会話っぽくなりそう
無い知恵絞ってもしょうがない。
332test:04/07/07 14:24
クリアクリア名詞-サ変接続
をを助詞-格助詞-一般
押し押す動詞-自立五段・サ行連用形
てて助詞-接続助詞
からから助詞-格助詞-一般
文文名詞-一般
をを助詞-格助詞-一般
入力入力名詞-サ変接続
しする動詞-自立サ変・スル連用形
てて助詞-接続助詞
くださいくださる動詞-非自立五段・ラ行特殊命令i
。。記号-句点
333KILROY:04/07/20 10:01
 いま実装ネタを中心にこっち↓でやってるんだが、

自然言語処理 掲示板
http://free1.principle.jp/cbbs/nlp/cbbs.cgi

誰か顔出してくれんか?
334KILROY:04/07/20 10:14
>>9
> また、原理的には可能だが、実際に実用的なソフトウエアを
> つくるとなると複雑すぎ、あるいは必要なデータが多すぎて
> 金がかかりすぎるというものもあります。
> (たとえば莫大な予算を投入して何百人もの人を雇い、
> 完全な日本語の連想辞書のようなものを作れば、さきほどの
> Query Expansion のような技術はかなりうまくいくかもしれませんが、
> そんな資金はふつうありません)。
 長尾先生の調査によれば、日本語の構文パターンは
少数のパターンの組合せでほとんど解決できてしまうので、
形態素解析さえちゃんとできていて、対象とするジャンルが絞れていれば、
個人レベルでもけっこう実用的なシステムが組めそうに思う。
 問題はむしろ形態素解析の精度が低すぎて、
統語レベルの処理(構文解析)までたどりつかないことではなかろうか。
335KILROY:04/07/20 10:26
>>10
> 自然言語の意味を一般的に表現できるような
> 形式的な枠組みはまだないし、あってもそんなものを
> プログラミングするのは大変でしょう

 「自然言語の意味」を認知の構造と考えれば確かにそうなんだが、
言語表現という形式的な構造にまで抽象化されているのだから、
単に「言語的な意味」を取り上げて形式的な操作の対象とするだけで、
データベース理論だとか様相論理だとか
プロダクション・システムだとかいったありものの道具の組合せで、
そこそこ実用的なシステムが組める程度の意味表現は
できそうに思う。
 もちろん人間の認知の枠組みとは乖離があるから
「コンピュータと話すとイライラする」というユーザは出てくるだろうけれど、
人間にもそれほど違和感なく共有できる程度の
「単純化された認知の枠組み」ではあるだろうし、
そういうものだと思えば腹も立つまいと思う。
336KILROY:04/07/20 10:37
>>10
> いまでは人様がデータ入力をしなくても
> コンピュータが web なんかから勝手に「学習」するようにしよう、
> というアプローチがさかんに研究されています。けれども、
> どれもノイズが多くてあまり使えません。

 ノイズが多い原因は、不規則かつ出現頻度が高い表現を網羅した、
核になる辞書の品質が低いせい。
 基本辞書のチューニングを十分に行なえば、ノイズは減る。
と、希望をもってみるわけだな。
ノイズの原因が辞書のユラギじゃないから、辞書のチューニングでは無理なんだけどね。
338KILROY:04/07/21 09:19
>> 337
重箱読みとか湯桶読みとかはおおむね歴史的なものなので、
少なくともコーパスで拾いきれなかった新語に関しちゃ「造語」が多い。
数が多い漢語系の造語に関していえば、
ほぼ機械的に品詞と読みは取れるので、
今のところ満足しているが。
339山田の中の一本足の名無し:04/07/21 12:58
どんな語が欲しいか限定しないと議論する意味がないと思うが。
340KILROY:04/07/21 17:29
用言はそんなに数が多くないし、
和語(やまとことば)系の名詞は基礎語彙寄りの語が多いので
それほどの数があるわけでなし、
やっぱり厄介なのはカタカナ語ですか。
原綴りを推定するロジックは欲しいですな。
341デフォルトの名無しさん:04/07/27 14:55
だいたい辞書って何語ぐらい必要なんだ?
342デフォルトの名無しさん:04/07/27 15:05
>>333
字が小さくて読みにくい。
343KILROY:04/07/27 21:06
 分かった。とりあえず山本さんには伝えとく(そういう問題じゃないかも知れんが。文字サイズを固定で指定してあるのが問題なんだよな)。
 自然言語処理の分野に関わる人間というと、やっぱり視覚障害者とかに配慮せんと立場上もいかんし。
344KILROY:04/08/05 12:45
形態素解析用・用言辞書(英語による訳語つき)公開中。

http://homepage.mac.com/jane_doe/data/edictx.txt

語数は1685語しかないが、カバー率はかなり高いはず。
ルビ振り用の読みデータつき。
なお、訳語はEDICTから借用してきたものに、一部手を加えてある。
詳細は掲示板 >>333 にて。
だれか単純で完全に文法規則が把握できる人造言語つくってくれ
エスペラントは違うの? 全然知らないんだけどさ。
>>346
エスペラントは駄目だろなぁ。 コンピュータで処理するには記号つきのアルファベットを使わねば成らんし、
いろいろとへんてこりんな手あかも付きまくってる。
外国語板でエスペラント検索して適当に眺めるとこりゃだめだってわかるぞ(w
348私の名前は名無しです:04/09/03 09:55
ありものの自然言語、
それも死語化・共通語・学術語・宗教語したやつの文法を制限して、
サブセット版を作るってのはどうだ?
佛典語のパーリ語に佛教後のサンスクリット語、
中世ヨーロッパの学問上の共通語だったラテン語、
教会語の古典ギリシャ語、
ユダヤ教徒の共通語であるイディッシュ語、
ほとんど人工言語に近いインドネシア語、
アラブの共通語フスハ、
日本の漢文と、これくらいあれば一つくらいモノになりそうな気はするが。
>>348
系統とか似てる言語であれば意外とアリな気はするね。
印欧語メタランゲージとかってどっか真面目に研究してたんじゃなかったっけかな?
というか幻の印欧語のオリジンを構成してみたいなんて妄想がかった挑戦だったと思った。

世界言語学なんたらって本が恐らく図書館の語学書のコーナーにあると思うのだが(辞書の三省堂あたりが出してるやつ)
そこにあらかたの言語の系統のようなものが書いてある。
英語とフランス語の距離は何年とかそういうのを突き詰めて行く雰囲気だね。

大雑把に見るとパーリ、サンスクリットとラテン語、ギリシア語を引っ付けるのはいいかもしれん、
でもそこに系統が違うアラビア語だの日本語をくっつけようとすると最後は分け判らん所に落ちる気はするなぁ(w

同じ印欧語でも進化の過程で特徴が恐ろしく違ってたりするしなぁ。
350私の名前は名無しです:04/09/06 10:08
> 印欧語メタランゲージとかってどっか真面目に研究してたんじゃなかったっけかな?
筋からいうと関係ない話だが、NATOが全軍共通の英語モドキ言語を作ってはず。

江戸時代に参勤交代で江戸に出てきた薩摩武士と津軽藩士が出遭ったときに揉め事が起きて、
どっちも訛がきつくて会話が成立せず一触即発というときに、
能楽の心得のある侍が謡曲を擬して相手に呼びかけたら、
相手方にも心得のある人間がいてコミュニケーションが成立して丸く収まった、とかいう話をどっか(能楽関係の本)で読んだことがある。
つーことはいわゆる擬古文調(江戸時代の文芸で使われた、平安時代の文体を擬した文語文)や候文(手紙の文体)なんつーのは
メタランゲージとして機能しとったということか。

思うに、軍隊とか政府とかいった機能集団をコントロールするとかいった明確な目標がないと、
メタランゲージは成立しにくい(つーか言語としての形態を維持しにくい)気がする。
NATO軍内の新英語だとどちらかというとピジン・クレオールになるのかな?とか思って見たり。

能楽方面の話って例えば18〜19世紀位にイタリア軍とフランス軍が言葉が通じねぇで一触即発の所にラテン語を習った香具師
同士でとかってのに置き換えが出来そうだね。


でも何にせよ共通言語とかは難しそうだよな。そもそも自然言語の構造自体が揺らいでるわけだし。
>>351
> でも何にせよ共通言語とかは難しそうだよな。そもそも自然言語の構造自体が揺らいでるわけだし。

そこでエスペラントですよ!
すべての言語の元になった韓国語で全て解決。
それにしても、世界の自然言語処理研究のために共通の人造言語があると便利だよね
>>354
英語でいいんじゃないかと。
>>354
> 共通の人造言語

>>352
357351:04/09/06 18:22
>>352
 で、エスペラントは>>347も書いてる通りコンピュータで扱うには厳しい仕様の上に、これも既に揺らぎが生じている。
 ので使えない。
もちろん>>353のようなのはネタ以上の何者にも成らない。

 とすると結局の所>>355の言う英語でいいんじゃないか?という気はする。とはいえ、今流通している英語や、米語という
物ではなくて英語を元に非英語圏で話されるピジン・クレオールと言った文法の簡略化されたやつね。あくまでも人工の共通
語という事では。
 でも自然言語処理のためのメタ言語なり翻訳用中間言語を想定すると英単語に品詞とか格とか時勢のメタタグを付けたような物が一番現実的だろな。
 個人的にはラテン語(古典黄金期の一応固まった文法の物)あたりでやらかしてしまうというのも面白いとは思うけど(w
 実際時勢とか格による語の変化があるわけだからそれなりに翻訳の中間言語として使えるんじゃないか?という気はする。
 
358デフォルトの名無しさん:04/09/06 19:46
単語間の意味的な距離を視覚化すると何次元になりますか?
初心者でスイマセン。
latino sine flexione
>>357
記号つきのアルファベット?
単にcoding systemの問題じゃねーの?
>>358
何次元でもお好きなように。
っていうか、距離なんていうスカラー値に次元なんて・・・
>>358
SVM on NLP的な論文でも読んでみたら?
あとLSA/LSIなんかも参考になると思われ。
(´-`).。oO(LSI・・・)

Σ( ゚д゚).。oO(大規模集積回路っ!)
365363:04/09/07 06:00
>>364
LSI = Latent Semantic Indexing
366デフォルトの名無しさん:04/09/07 06:58
>>362
そういわれると思ったんですけど、うまい表現が出来ませんでした。
これでも意味通じるかなーって。
367デフォルトの名無しさん:04/09/07 06:59
>>363
英語ですか!!
>>366
それじゃやりたいことがわかんねーよ。
ある単語を基準に近いもの順に並べるだけなら1次元だ。
位置関係なら、いくらでも軸がとれる。
多次元尺度構成法でもどうぞ。
369デフォルトの名無しさん:04/09/07 09:15
>>368
わかってください・・・
わかってくれないと困るんです・・・
370私の名前は名無しです:04/09/07 09:32
>>357
> 個人的にはラテン語(古典黄金期の一応固まった文法の物)あたりで
> やらかしてしまうというのも面白いとは思うけど(w
ラテン語のいいところ。
1)名詞の性がない。
2)発音が簡単。
3)省略がやり放題。語順も自在。

英語のツラいところは(2)と(3)。
日本人には発音も面倒なら、
ghotiと書いてフィッシュと読む
(enoughのgh、womenのo、nationのti)
つーくらい綴りと音の対応が厄介。
(3)の代償として格変化を覚えるのが面倒、
つーのは確かにあるが。
371私の名前は名無しです:04/09/07 09:40
失礼。
×1)名詞の性がない。
○1)名詞の性は幹母音でほぼ一意に決まる。
この点では英語とエスペラントに一票。
>>369
勝手に困ってろ。
373私の名前は名無しです:04/09/07 11:55
>>358
> 単語間の意味的な距離を視覚化すると何次元になりますか?
「数値化」じゃなくて「視覚化」っつーことだから、
なんか「見てパッと分かる」ことを期待するんだろうと思う。
この場合、四次元以上のものを「視覚化」した状態は想像つかんし、
ちょっと理解もできないように思う。
三次元だとホログラムかステレオグラムか、
でなきゃ動画にでもするんだろうが、
あんまり分かりやすくはないだろう。
定跡としちゃあ >>368 の多次元尺度構成法で二次元表示じゃないか?
別に空間そのものは何次元だろうが張れる。
デバイスの都合上視覚化するには必然的に二次元に射影するだけで。
375私の名前は名無しです:04/09/07 13:36
> 別に空間そのものは何次元だろうが張れる。
> デバイスの都合上視覚化するには必然的に二次元に射影するだけで。
確かにデータっつーレベルだと、「サンプル数−1」次元だけの自由度はあるわけだし、
一般的な表示デバイスってえとほぼ必然的に二次元になっちゃうわけだが、
実験心理学のデータを多次元尺度構成法にかけたりなんかする場合でいうと、
三次元以上の空間にマッピングされたものを眺めても、
そこに「意味」っつーか、解釈というものが見出しにくいわけですよ。
これはたぶん把握する側の能力っつーのも影響してて、
データが三次元以上の空間に分布していたりすると、
そこに意味があっても、概念として直感的に把握できないんだト。
仮に仮想空間に三次元の模型かなんか作って、
その中を実際に歩き回れるとかいった仕掛を作ったとしても、
おそらくは全体像を把握することが難しいんじゃないかト。
だから、平面的な「地図」という形にブレークダウンして提示してくれト。
それが親切っちゅーもんだト。そういうこと。
そこでクラスター分析ですよ。
談話において、発話の種類をいくつかに分類し、例えば過去何発話かが
A,B,B,A,D,Eであり(A〜は発話の種類、例えば同意とか質問とか)、
次の発話がZであった時、各発話の種類が発話Zの生起にどの程度影響したか、
AはZの生起に大きく影響した。Bの影響は小さいのでBがいっぱいあってもZは生起しにくい。
とか、そういうのを調べたいのですが、どうすればいいのでしょうか?

単にA,B→ZとかA,A→Zとかならn-gramを使って生起確立を調べるのだと思うのですが、
A→ZやA,A,A→Zが混在(左辺の要素数の上限はあらかじめ決める)、
A,B→ZとB,A→Zは区別しない
という条件があるので、n-gramは使えないと思うのです。
どなたかアドバイス頂けるとありがたいです。よろしくお願いします。
379私の名前は名無しです:04/09/08 09:53
>>378
それってむしろ交流分析とかの問題じゃないか?
エリック・バーン著/南博訳
『人生ゲーム入門―人間関係の心理学』(河出書房新社)
とかでも読んでから、もう一回検討してみたら。
>>378
すでにn-gramが得られているのなら、あとはそれを足し合わせたりするだけでできないか?
381デフォルトの名無しさん:04/09/08 12:53
もう疲れました・・・・
もしかすると、自然言語処理とはミジンコに言葉を理解させるようなものかもしれない・・・
>>381
> もしかすると、自然言語処理とはミジンコに言葉を理解させるようなものかもしれない・・・

実際そんなもんだろ。
いや、自然言語処理とはミジンコに言葉を理解した「ふりをさせる」ことだ
と思う。
>>379
交流分析という単語は聞いたことが無いです…。
読んでみます。

>>380
例えば左辺の要素数の上限が3で、左辺にAを含む場合が
A→Z、A,A→Z、A,A,A→Zのみで、それぞれの場合のZの生起確率がp1、p2、p3
の時なら、AのZの生起に対する影響力は pa = p1 + p2/2 + p3/3 となると思うのですが、
これにA,B→Z p4という場合を加えると、p4てのはBの影響も含んだ確率なわけですから
そこからAの影響力のみを抽出するにはどうやったら良いかがわからないのです。
Aの影響力とBの影響力が等しいとは限らないので、2で割るわけにもいきませんし…。

あれ?でも生起確率を要素で割って、p2/2とかp3/3とかやっていいのかしら?
pa = p1 + p2 + p3 が正しい?
>>384
P(A, x - > Z) = P(A, A -> Z) + P(A, B -> Z) + P(A, C -> Z) + ....
P(x, A -> Z) = P(A, A -> Z) + P(B, A -> Z) + P(C, A -> Z) + ...
P = P(A, x -> Z) + P(x, A -> Z) - P(A, A)

じゃダメなん?
386835:04/09/09 11:52
>>384
すまん、Zの生起確率ということなら、

P(A, *, Z) = P(A, A, Z) + P(A, B, Z) + P(A, C, Z) + ....
P(*, A, Z) = P(A, A, Z) + P(B, A, Z) + P(C, A, Z) + ...
Pa = ( P(A, *, Z) + P(*, A, Z) - P(A, A, Z) ) / 適当な母数

じゃだめなのか?
387無名子(=379):04/09/09 13:47
待て待て、そもそもこれって談話の一部だろ?
そうすると話者をi・jとして、
AiZjとかAjBiZjとかBjAiZjとかいった発話があるわけだ。
するってぇと、AZとABZって、
前者は相手の発話がAなんであり、
後者は自分の発話Aによって相手がBと応答したわけだから、
そもそも意味合いが異なってこないか?
相手が自分と全く同じ応答特性を持ってたとしても、
AZとABZの生起確率を同列に論じるのは変だろう。
もちろんAZとBAZなら、
相手のA以前の自分の発話が影響してるわけだから、
不自然じゃないんだが。
>>386
ええと、それでいい
のか…な…?(;´д`)

>>387
談話なのでn人が順不同、i,j,i,jとは限らずi,i,j,k,k,j,iとか発話して良いという条件に
なるというかそういう条件を最終的には取り扱いたいので…。
話を簡単にするために二者が交互に発話する対話をまず取り上げるというのなら良いのですが。
ので、そういう観点から二者が交互に発話する対話という風に制限したとして、
左辺のA,B〜をiさんの発話、それによってjさんのZという発話が生起すると考えて、
つまりAi→Xj→Bi→ZjやAi→Xj→Ai→Zjから
A,B→Z、A,A→Z、A→Z、B→Zという場合が考えられる(上限2とした場合)
と持って行けば不自然では無いでしょうか?
また、そこから左辺の各要素、例えばAのZの生起に対する影響度を表すには、
>>386のようにすればオッケーなのでしょうか?
389無名子:04/09/10 06:48
>>388
するってぇとマルコフ過程とかいった話になるのかな。
信頼性工学でFTA(故障木の解析)っつー手法があって、
それが使えるかも知れん。
つまり、「Zが発話された」っつー事象が一つ前の事象から生起されたと考え、
次にその一つ前の事象が生起された原因を、さらに前の事象に求めるという。
だから、
P*(Z)=P(Z)+P*(A→Z)+P*(B→Z)+P*(C→Z)+…
みたいな仮定を置いて、
P*(A)、P*(B)、P*(C)…
を求めるという。
「生起行列」とでもいうのかな?
計量経済学(厳密にいうと、マトリクス経済学)とかで使うやつ。
排他的な事象A〜Zに空事象をプラスして、それを埋めりゃいい。
390デフォルトの名無しさん:04/09/28 11:20:39
保守
391デフォルトの名無しさん:04/10/08 00:14:45
ほしゅ
392デフォルトの名無しさん:04/10/20 09:01:18
ほし
393デフォルトの名無しさん:04/10/28 02:56:09
単語をカテゴリーごとに分けてある辞書を探してるんですが
例えば、警官でサーチすれば人物、どらやきでサーチすれば食べ物、車でサーチすれば乗り物。
といった感じの、極簡単なカテゴリーでわけられてるものでいいのですが。
394デフォルトの名無しさん:04/10/28 03:24:54
EDR?
395デフォルトの名無しさん:04/10/30 23:39:12
>>393
分類語彙表というのもあるけど、利用条件が厳しくてのう。
396デフォルトの名無しさん:04/10/31 00:52:20
wordnetの日本語版をどこかが作ってなかったかな?
397393:04/11/01 15:40:15
EDRの概念体系辞書で
人間、飲食物などの上位概念から下位概念を洗いざらいピックアップして
別ファイルにまとめて、入力単語と照らし合わせるようにしてみました。
ピックアップ作業は人間などの大きな概念だと7時間くらいかかってしまって、
現在もプログラムを走らせています…。
EDRや分類語彙表などは大学の研究室単位でつかっているので知ってはいました。
もうすこし簡単にカテゴリーがわけられてるものはないかなぁと思ったのですが。
分類語彙表もみましたが、単語数が明らかに少ないような感じでした。
バージョンが古いせいもありますが。
398395:04/11/01 21:33:33
>>397
分類語彙表は新しいバージョンが出てるよ。
399デフォルトの名無しさん:04/11/07 08:19:48
それ構文解析して自動的に収集できないの?
400デフォルトの名無しさん:04/11/07 08:27:01
>>399
普通は逆だアフォ
401デフォルトの名無しさん:04/11/07 08:49:19
構文解析するためにそういう情報がいるんだ
構文解析の原理よく知らないけど
構文解析が主目的じゃないんでしょ?
結局手入力したデータ使うんだったら、最初から構文解析いらないね
つまり構文解析って統計でなんとかなるものかと思ってた
でないと新語、造語、文法崩しには一生対応できない
自然言語処理ってのは力技のことですか?
402デフォルトの名無しさん:04/11/07 10:16:55
>>401
計算機よりまずお前が日本語を理解しろ。
計算機の話はその後だ。
403395:04/11/07 16:39:45
>>399
共起関係などを使えば、大まかな分類語彙は作れると思う。CSLかどっかが研究してたかな? 勘違いかも。
404M.B.:04/11/19 22:27:24
支援age
405デフォルトの名無しさん:04/11/22 13:58:12
404 :M.B. :04/11/19 22:27:24
支援age
406デフォルトの名無しさん:04/11/23 17:13:05
がんばれ
407デフォルトの名無しさん:04/12/10 00:51:05
たたき台無いの?
408デフォルトの名無しさん:04/12/22 11:32:31
ICOT辞書のsrc/dictdataにある辞書ファイルの品詞分類ってどこかでわかりませんか?
doc以下に在るtexファイルでは3桁の数字になっていたんですけど、
辞書ファイルでは4桁になっていて良くわかりませんでした。
409デフォルトの名無しさん:05/01/10 04:17:00
相変わらず人いねー.
悲しい.
410デフォルトの名無しさん:05/01/10 14:45:26
賑わうスレは厨房だらけという罠。
411デフォルトの名無しさん:05/01/10 15:24:10
厨房もスレの賑わい
412デフォルトの名無しさん:05/01/11 22:59:17
TinySVMのPerlモジュールをインストールしようと思ってmakeしたら
↓のようなエラーがでてしまいますた。

#make
c++ -c -I/usr/local/include -D_REENTRANT -D_GNU_SOURCE
-DTHREADS_HAVE_PIDS -DDEBIAN -fno-strict-aliasing -I/usr/local/include
-D_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64 -O2 -DVERSION=\"\"
-DXS_VERSION=\"\" -fPIC "-I/usr/lib/perl/5.8/CORE" TinySVM_wrap.c
TinySVM_wrap.c: In function `void _swig_create_magic(SV*, const char*, int (*)(SV*, MAGIC*), int (*)(SV*, MAGIC*))':
TinySVM_wrap.c:335: error: invalid conversion from `int (*)(SV*, MAGIC*)' to `int (*)(PerlInterpreter*, SV*, MAGIC*)'
TinySVM_wrap.c:336: error: invalid conversion from `int (*)(SV*, MAGIC*)' to `int (*)(PerlInterpreter*, SV*, MAGIC*)'
TinySVM_wrap.c: In function `void boot_TinySVM(PerlInterpreter*, CV*)':
TinySVM_wrap.c:1504: error: declaration of C function `void boot_TinySVM(PerlInterpreter*, CV*)' conflicts with
TinySVM_wrap.c:369: error: previous declaration `void boot_TinySVM(CV*)' here

perlのバージョンは5.8でつ。
別のマシンでperl5.0だとすんなりできたのに、なぜだ・・・_| ̄|○
原因わかる人解説キボーン。
413デフォルトの名無しさん:05/01/15 12:37:45
>>412
なんかのヘッダファイルがないような気がする。
414デフォルトの名無しさん:05/01/18 17:36:31
"-I/usr/lib/perl/5.8/CORE"なので、
/usr/lib/perl/5.8/COREにあるヘッダと
成功したやつの同等の場所(/usr/lib/perl/5.0/COREかなあ)
を比べてみればよいかも。
415412:05/01/21 15:52:38
レスthx。
もうちょっとがんばってみまつ。
416デフォルトの名無しさん:05/01/25 23:00:23
417デフォルトの名無しさん:05/01/26 06:45:13
五年後に
・チャットに入ると人工無能と対話
・日記を書いてるのはプログラム

っていうサイト作りたいなぁ
漏れがやるのはメンテのみ、みたいな
どうせ自鯖だから辞書GB単位にしてうずらなんか目じゃないってくらいのを…
418デフォルトの名無しさん:05/01/27 21:54:36
yomiusaなんかはblogも書いているね
419デフォルトの名無しさん:05/01/28 12:34:50
>>417
なんかフツーのイライザ
420デフォルトの名無しさん:05/01/29 20:05:07
juman4.0をFreeBSD5系でコンパイルできてるやつ居る
421デフォルトの名無しさん:05/01/31 22:56:26
GENIAコーパスってクソだな。
422デフォルトの名無しさん:05/02/01 21:47:16
>>421
>GENIAコーパス
批判は小学生でもできる。それよりも優れたコーパスをどう
作るかが大切。
423デフォルトの名無しさん:05/02/01 22:21:26
わざわざageて書き込むほどのことじゃあるまい。関係者?
424デフォルトの名無しさん :05/03/03 22:31:06
保守age
425デフォルトの名無しさん:05/03/05 23:42:05
426デフォルトの名無しさん:2005/04/28(木) 14:56:26
文字成分表方式による自然言語検索について分からない事があるので教えてください。
1)文字成分表から文書ID(各文字の有無を0と1で記録したビット列)を作っておく。
2)検索文字全てについて文字成分表で何ビット目の文字かを調べる。
3)文書IDから2)で調べたビット位置のビットを切り出して1と比較する。
ここで3)はシーケンシャルに行うわけではないと思うんですが
どんなインデックス方法があるんでしょうか?
427426:2005/04/28(木) 15:50:03
つけたし。
格納されている文書IDを使ってtreeを作ると、部分検索が出来なくなるような気がします。
428426:2005/04/28(木) 18:15:31
この分野の知識があまり無いので初歩的な質問かもしれませんが、
http://www.atmarkit.co.jp/icd/root/64/5784264.html
ここに「インデックスファイルからその単語が含まれている文書を探せばよい。」とありますが、
その為のインデックスの構造とは例えばどのようなものなのですか?
各単語に、その単語が出現する文書のプライマリキーを所属させる形にして、
(こうすると一つの単語に複数の文書が属す場合が出てくる)
複数の検索単語が入力された場合はそれぞれの単語に属す全ての文書キーを求めて、
すべての集合で重なる部分のみを求める、等で実現するのでしょうか?
この方法はやや粗い気がしますが、集合の重なる部分を高速に求める方法があるのでしょうか?
429デフォルトの名無しさん:2005/04/30(土) 17:35:19
質問なのですが、自然言語処理ではプログラミング言語は何を使うのがベストですか?
個人的にRubyを使いたいのですが、Rubyでやってる方いますか?
430デフォルトの名無しさん:2005/04/30(土) 17:41:45
>>429
別にいいんじゃない
431429:2005/04/30(土) 18:05:13
>>430
そうですか。ほっとしました。Perlでやらなくて済むんですね…

自然言語処理の研究ではどんな場面・用途でプログラミングするのかまだよくわからないんですが、
PerlやRubyのようなインタプリタのほうがいいんですか?
432デフォルトの名無しさん:2005/04/30(土) 18:16:58
>>431
> PerlやRubyのようなインタプリタのほうがいいんですか?
べつにそんなことはない。
433429:2005/04/30(土) 18:34:33
>>432
> べつにそんなことはない。
うーん。その場その場で必要性は変わるとか、どれ使うかは好みの問題とか、
そういうことなのでしょうか?

研究室の全員が習得しておくべきプログラミング言語というのはありますか?

うちの研究室今年できたばかりで、新任の教授もプログラムについては
ポカーンて状態に近いので、どうかご教授ください…
434デフォルトの名無しさん:2005/04/30(土) 19:21:08
なんでそれでそんな研究室ができるんだよ……。
やることもはっきりしてないなら、まずは本を買って輪講しろ。
435429:2005/04/30(土) 20:10:53
>>434
そうですね。
手を動かす前に知らなきゃならないことがありますね。
今は右も左もわからないんで、そうします。
ご意見感謝します。
436デフォルトの名無しさん:2005/05/01(日) 03:48:05
>>433 なにそれって大学の研究室?
437デフォルトの名無しさん:2005/05/01(日) 04:17:45
>>433
それは先生からの「自分で考えろ」という教えなんだよ。
438デフォルトの名無しさん:2005/05/06(金) 15:48:16
4年生になり、そろそろ研究テーマを決めなければならない時期の者です。
自然言語処理を主とした研究室に配属になりました。
情報検索や情報抽出に興味があり、まず知識を深めるために入門書を読みました。
しかし、担当の教授にも言われたのですが、それではなかなかテーマが決まりません。(基礎を学んだだけでは何がやれるのか、まではさすがに分からない)
研究テーマを決めるとき、みなさんはどのようにしたのでしょうか?
自分は、興味あることを調べる→誰か研究していないか調べる→すでに研究されている→orz
というパターンが多いです。というか、初心者が考える事なんて大抵もう誰かやってる・・・
こんな私に何かアドバイスをお願いします・・
439デフォルトの名無しさん:2005/05/06(金) 16:59:05
すでに研究されている→orz

が間違い。
まだ未解決の問題は沢山ある。
卒論に間に合うくらいの手頃な問題になるかは知らんけど。
でなきゃ今頃はgoogleが全知全能でなんでも教えてくれるハズ。
440デフォルトの名無しさん:2005/05/11(水) 19:43:05
言語情報処理はテーマとしてかなり枯れてる感じがするんですけど。
まだまだホットな領域はありますか?
441デフォルトの名無しさん:2005/05/11(水) 20:10:52
>>440
> まだまだホットな領域はありますか?

自然言語処理でホットじゃない領域があるか?
442デフォルトの名無しさん:2005/05/11(水) 20:34:33
いまお仕事(≠研究)的にホットなのは、
やっぱGoogle応用サービスじゃないかな。
自然言語処理応用でしかないけどw
443デフォルトの名無しさん:2005/05/12(木) 00:37:42
>>442
Googleは自然言語処理的にはあまり大したことしてない。
むしろHypermedia方向でがんばってる。
444デフォルトの名無しさん:2005/05/12(木) 00:39:44
>>443
自動要約とか。
445デフォルトの名無しさん:2005/05/12(木) 03:28:29
>>443
Hypermediaとは、随分古い用語を使う方ですね。
Googleの事業内容と、Hypermediaとやらが
どのように絡むのか、説明きぼん
446デフォルトの名無しさん:2005/05/12(木) 03:33:13
http://directory.google.com/Top/Computers/Data_Formats/Document/Hypermedia/
Google Directory的に、
Hypermediaのカテゴリ下は
 HTML, NetHelp, WinHel, HTMLHelp, SMIL, XHTML, JavaHelp

・・・Hypermediaって今更ナニ言ってんだ・・・
447デフォルトの名無しさん:2005/05/12(木) 09:21:59
>>444
グーグルに自動要約なんてあったか?
448443じゃないが:2005/05/12(木) 09:22:48
>>445
google mapとか典型的なハイパーメディアだと思うけど。
449デフォルトの名無しさん:2005/05/12(木) 11:27:59
>>447
だから、googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える。
しかし、現在のは単なる部分的切りだしであって、必要な情報を要約して分かりやすく表示できればもっといいでしょ?
研究の余地はまだまだある。
450443じゃないが:2005/05/12(木) 13:03:28
>>449
> だから、googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える。

あれはマッチしたキーワードの周辺を切り出してるだけで、「要約」とは全然違うじゃん。
451デフォルトの名無しさん:2005/05/12(木) 13:28:56
・「Aという分野で研究テーマはないか?」
 といいなりふり構わない質問をして、

・「まぁまぁ(笑。Bという分野も面白いよ。Aの応用分野も関連するし」
 と受け流すと、

・「Bの本流はAではない」
・「BはAとは違う」
 という議論をえんえん続ける、
 それが2ちゃんクオリティー
452デフォルトの名無しさん:2005/05/12(木) 13:32:43
>>451
ググルと要約に関する話はAとBという2つの分野の関連性の話ではなく、
Bという特定のウェブサイトがAという技術を用いているかどうかという話だろ。
この区別がつかないのなら、学術に関する話はしないほうがいい。
453デフォルトの名無しさん:2005/05/12(木) 13:42:43
つうかさぁ、本当に学術やってる人なら、
資料のポインタとか示しておしまいだろ。
こんな所で、つまんないネタに執着して
素人じみた議論を延々やるセンスが、そもそも論外。
454デフォルトの名無しさん:2005/05/12(木) 14:08:55
>>453
> 資料のポインタとか示しておしまいだろ。

それ以前の問題じゃん(クスクス
455デフォルトの名無しさん:2005/05/12(木) 14:27:48
おこちゃまうざー。
バカみてぇ
456デフォルトの名無しさん:2005/05/12(木) 14:28:24
学部生ガンバ!!!
457デフォルトの名無しさん:2005/05/12(木) 14:30:38
amazon.com で使われている SIP。
amazon.co.jpにはないので、面白いと思った。
458デフォルトの名無しさん:2005/05/12(木) 16:30:47
こんにちは。さっきからウザがられてる超エリート中学生です。
一線の研究者である皆様、俺様にいろいろ教えてください。お願いします。
これからは、質問には正確に答えてくださいね。
459デフォルトの名無しさん:2005/05/12(木) 16:51:18
>>458
正確な答えを期待するなら、正確な質問をしなくちゃ。
460デフォルトの名無しさん:2005/05/12(木) 16:53:30
>>443-444を読むと、
444はあたかもグーグルが自動要約でがんばってるかのような発言をしているのだが
実際のところ要約らしきことはしていないということでFA?
461443:2005/05/12(木) 17:50:43
>>444は、思い込みか勘違いでしょ。

462デフォルトの名無しさん:2005/05/12(木) 17:58:57
ここは素人の集まりのようですね。
来て損しました。
463461=442:2005/05/12(木) 18:20:22
↑は間違い。アフォの相手すると調子が狂っていけねぇな

>>444=>>447は、Googleがまだ提供していない「文書要約」に取り組んではどうか、
と提案してるんだけだろ。

大元の質問>>438の「研究テーマをどうやって決めるか?」には、
まだちゃんとした回答がついていない・・・
464デフォルトの名無しさん:2005/05/12(木) 18:40:33
>>463
> >>444=>>447は、Googleがまだ提供していない「文書要約」に取り組んではどうか、
> と提案してるんだけだろ。

だとしたら>>449
> だから、googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える。

が謎になるぞ。

つーかさ、正直に認めりゃいいじゃん、
「ググルの検索結果は自動要約だと思ってました」
って。
465デフォルトの名無しさん:2005/05/12(木) 18:45:36
>>464
 >>447 googleの検索結果一覧でテキストの一部が表示されるが、それは一種の要約文とも言える

というあたりが思い込み臭いな。
どーでもいい話だ。
これが2ちゃんクオリティか。



誰か、>438に答えてやれ
466デフォルトの名無しさん:2005/05/12(木) 18:46:29
>>464
> が謎になるぞ。
googleの検索結果一覧は一種の要約文です。これは正しい。
467デフォルトの名無しさん:2005/05/12(木) 18:47:32






   誰か、>438の元質問(研究テーマをどうやって決めるか)に答えてやれ






468デフォルトの名無しさん:2005/05/12(木) 18:50:21
>>466
> googleの検索結果一覧は一種の要約文です。これは正しい。

だとすると、>>463
> >>444=>>447は、Googleがまだ提供していない「文書要約」に取り組んではどうか、
> と提案してるんだけだろ。
は事実誤認ということになるなあ(藁
469デフォルトの名無しさん:2005/05/12(木) 18:53:09
>>438
とりあえず、citeseerでもACM Digital Libraryでもいいから
NLP関係の論文を20本ぐらいダウソして読んでみな。
その中から面白いと思った論文を5本ぐらい選んで、
その5本に関連して自分に何が出来るか考えてみ。
470デフォルトの名無しさん:2005/05/12(木) 19:01:00
>>449
>>443 自然言語処理的にはあまり大したことしてない
に対する具体的な意見で、たしかに、
>>463 > Googleがまだ提供していない
の部分はおかしいが、「Googleがまだ提供していない高度な」に置き換えればつじつまが合う。
ところで、より良い方向で物を考えないと知的生産は難しいよ。
471デフォルトの名無しさん:2005/05/12(木) 20:04:21
>>470
> ところで、より良い方向で物を考えないと知的生産は難しいよ。

それよりもまず自分の間違いを素直に認めることをしないと
知的生産は難しいよ。
472デフォルトの名無しさん:2005/05/12(木) 20:08:31
>>471
>>470!=>>463
ですが。
ところで、無意味な言い合いは止めよう。これが2ちゃんねるクオリティてやつか?
473デフォルトの名無しさん:2005/05/12(木) 20:23:39
>>472
> >>470!=>>463
> ですが。

で、それと>>471とどういう関係が?
474デフォルトの名無しさん:2005/05/12(木) 20:36:41
>>473
間違えたのが俺ではないということだ。
ところで、無意味な言い合いは止めよう。これが2ちゃんねるクオリティてやつか?
475デフォルトの名無しさん:2005/05/12(木) 20:42:54
>>466
> googleの検索結果一覧は一種の要約文です。これは正しい。

正しくないよ。要約であるからには論旨を表現する必要があるが、
ググルのは単に検索キーの出現箇所の周辺を切り出してるだけ。
以下に「要約」の国語辞典による定義を示すが、
一般に自然言語処理においてもおよそこれに準じた用いられかたをする。

岩波国語辞典
ようやく【要約】
〔名・ス他〕 論旨などを、まとめて短く言い現わすこと。また、そう言い表したもの。
476デフォルトの名無しさん:2005/05/12(木) 20:51:49
サルでも日本語しゃべれるんだな
477デフォルトの名無しさん:2005/05/12(木) 20:53:20
>>476
そうか、君が日本語をしゃべれるサルか。ふーん。
478デフォルトの名無しさん:2005/05/12(木) 20:57:23
サル降臨中
       (霊長類研)
479デフォルトの名無しさん:2005/05/12(木) 20:59:46
>>475
機械が行うことについて人間的な言葉の深い意味付けの議論に意味があるのだろうか?
単語にマッチした部分の必要な部分箇所を抜き出すことは、知的ではないが広義的に要約と言っても良いのでは無いか。
480デフォルトの名無しさん:2005/05/12(木) 23:49:12
じゃぁテクストのすべての文が要約になるのか?
しかも、googleは文の切れ端だろ。しかもさらに
あなたの検索語は、枝葉末節にマッチしてるかも
知れないだろ。いい加減にgoogleの検索結果が要
約だなんていう妄想を捨てろ。
481デフォルトの名無しさん:2005/05/12(木) 23:53:13
>>480
消極的だなぁ。
482デフォルトの名無しさん:2005/05/12(木) 23:54:24
久しぶりにスレがもりあがってるじゃんと思ったら

(´・c_,・`)
483デフォルトの名無しさん:2005/05/12(木) 23:56:11
>>482
急にスレが延びたら絶対にくだらないことなんだから。
484デフォルトの名無しさん:2005/05/13(金) 04:38:09
>>479
> 機械が行うことについて人間的な言葉の深い意味付けの議論に意味があるのだろうか?

はあ?人間がやることの代行だから「自動」要約なわけだが?

> 単語にマッチした部分の必要な部分箇所を抜き出すことは、知的ではないが広義的に要約と言っても良いのでは無いか。

普通はそういうのは「抜粋」というのであって、「要約」ではない。
馬鹿も休み休みに言うべきだと思う。
485デフォルトの名無しさん:2005/05/13(金) 07:53:21
〜(論破された俺様定義)は、広義には…と言ってもいいのではないか、って
よく見るけど、何かマニュアルでもあるんかね。
486デフォルトの名無しさん:2005/05/13(金) 08:22:31
>>479
> 単語にマッチした部分の必要な部分箇所を抜き出すことは、知的ではないが広義的に要約と言っても良いのでは無いか。

絶対によくないよ。部分箇所を抜き出したものは要約ではない。
要約というのは、要約文の著作権が要約者に帰属することからもわかるように、
要約する人が自分の言葉で書くものだ。

抜粋、要約、批評、それぐらいの言葉の区別はちゃんとつけろ。
それぞれ全く別のものだ。
(たまに批評と評して実はただの要約というのもあるけどな)
487デフォルトの名無しさん:2005/05/13(金) 15:21:47
>>438
「文章中に含まれる単語を多変量解析して、
 文章が扱っている概念体系を自動抽出」
つうネタが、個人的にはおもろいと思う。

488デフォルトの名無しさん:2005/05/13(金) 19:57:53
大量のオンライン・ニュースや文献をクラスタ分析して自動分類する、というのはよくあるけど、
単一の文書中でやるのは難しいんじゃないかなぁ。
489デフォルトの名無しさん:2005/05/13(金) 22:13:52
>>488
Google Newsはこれをやっているんだろうね。 複数のソースからのニュースを1つのニュースとして
まとめるってことしているからね。
490デフォルトの名無しさん:2005/05/13(金) 22:31:35
>>487
オントロジー・モデリング厨 乙
491デフォルトの名無しさん:2005/05/30(月) 21:20:52
C|NET Japan Column「ついに明かされるGoogle Newsの秘密」 林信行 (2005/05/25 17:47)
http://japan.cnet.com/column/cjic2005/story/0,2000053016,20083841,00.htm
492デフォルトの名無しさん:2005/05/30(月) 22:41:02
大体いまどき、CMUCL移植までして動かすアプリって何なんだろ?
当時は 制約ベースのGUIツールキットとか、音楽関係で動かしたいアプリがあったと思うけど
493デフォルトの名無しさん:2005/05/30(月) 22:42:22
>>492
誤爆してまっせ
494438:2005/06/02(木) 01:54:11
>>438の者です。
電子図書館を眺め、タイトルが「お、面白そうだ」と思ったものを適当にいくつか読んでみました。
正直知識がないので、読んでもなかなか理解できない点が多かったのですが、未知語の推定(これは色々な手法が提案されているようですね)に多少興味を引かれました。かなり難しそうですけど・・・
他には、少し変わったものとして文章のレベル判断。
手紙や電子メールや話し言葉、その対象、場面などを考慮して、その文章が適しているのかどうか?という判定や校正、その他に利用できる・・・といった感じでしょうか。

初めのうちは情報検索をやろうかと思っていたのですが、なかなか良いテーマが思い浮かばず、要約なら多少出来ることもあるかなぁと思ってる次第です。
495デフォルトの名無しさん:2005/06/02(木) 12:07:29
>>494
あまり難しすぎる所に迷い込まず、まずは入口のところで肩ならしのつもりで
簡単なテーマをしっかりやるのがよいと思う。

卒論で求められるのは研究の内容そのものよりも、研究のやり方と論文の構成。
ただプログラム開発しました、アルゴリズムつくりました、じゃなくて、
ちゃんと仮説を立てて、実験で実証して、評価する、という流れがちゃんと
できていて、それが論文の体裁を成している卒論にちゃんと書けていることが大切。
496デフォルトの名無しさん:2005/06/04(土) 23:00:42
自分の事言われてるみたいだ。
論文はそうやって書くのか・・・(メモメモ
497デフォルトの名無しさん:2005/06/04(土) 23:11:43
>ちゃんと仮説を立てて、

卒論生が仮説立てて破綻しないわけ無いだろ?ふつー
498デフォルトの名無しさん:2005/06/19(日) 19:55:53
自然言語処理「NP」→「DET」って可能?
検索してみると「NP」→「N」、「DET」って
のがあるが、「DET」だけは不可能か?

また、他に「DET」だけ出す文法ってある??
499デフォルトの名無しさん:2005/06/20(月) 05:31:12
>>498
まずは、何語の話なのか、そこから始めようか…
500デフォルトの名無しさん:2005/06/25(土) 17:28:16
500!
501デフォルトの名無しさん:2005/07/12(火) 21:25:23
>>499
多分自然言語だと思う。。。
・・・今日ようやく学習したばかり(藁

http://bach.istc.kobe-u.ac.jp/prolog/intro/lang.html
> s は文, np は名詞句, vp は動詞句, pp は前置詞句, n は名詞, v は動詞, adj は形容詞, det は冠詞, prep は前置詞を表します.
>
> 文 → 名詞句 動詞句
> 文 → 動詞句
> 名詞句 → 名詞
> 名詞句 → 形容詞 名詞
> 名詞句 → 冠詞 名詞
> 動詞句 → 動詞
> 動詞句 → 動詞 名詞句
> 動詞句 → 動詞 前置詞句
> 動詞句 → 動詞 名詞句 前置詞句
> 前置詞句 → 前置詞 名詞句

NP → DET N
(名詞句 → 冠詞 名詞)
なら判るけど、
冠詞だけで名詞句になる用法ってあったっけ?
口語なら、
  "The Who" is great hard-rock band.
  Nothing to say, I like the (who).
みたく名詞を省略しちまう例を見た事があるような気が
502デフォルトの名無しさん:2005/07/12(火) 22:17:02
いや、この場合のtheは、itの言い換えもしくは言い間違いか。
503デフォルトの名無しさん:2005/07/12(火) 22:17:49
itじゃなくてthem
504デフォルトの名無しさん:2005/07/13(水) 02:37:43
つーか、>>498は本当に英語の文法の話なのか?
505デフォルトの名無しさん:2005/07/13(水) 07:12:33
別に英語に限らないけど、冠詞がある自然言語なのは確かだねえ(藁
つかリンク先読んでミソ
506デフォルトの名無しさん:2005/07/14(木) 00:20:16
>>505
> つかリンク先読んでミソ

>>501のリンク先は普通の生成文法の話だが、
これはあくまで>>501が持ち出した話で、
元の質問者である>>498が何を想定した質問なのかは謎。
507デフォルトの名無しさん:2005/07/14(木) 23:26:29
なんでそこまで妄想できるのか謎。
つか単刀直入に言ってバカ?学生時分に居たな、そーゆー開き直りして顰蹙買うバカ
508デフォルトの名無しさん:2005/07/15(金) 03:31:50
498読んで英語の話だと断定できるのは498本人以外には考えられないね。
だってドイツ語だとしても何の矛盾もないから。
509デフォルトの名無しさん:2005/07/15(金) 06:23:31
じゃ英語以外でも名詞句=冠詞となる用法があるかどうか語れ
510デフォルトの名無しさん:2005/07/15(金) 11:51:56
>>509
はあ?いつ冠詞の話になった?
ちなみにノルウェー語ではdetは代名詞だ。

そもそも英文法としてもDETは冠詞じゃないし(藁藁藁
511デフォルトの名無しさん:2005/07/15(金) 18:46:51
お花畑の住人は気楽でいいな。

こっちはコンサル辞めて(?)新しい仕事開始したつもりだったんだが、
結局やる事は、今まで手がけた他のサイエンス分野と一緒と気付いて、鬱入ってる。
つか、観測データから内部パラメータ推定とかやる限り、処理が同じなのは当たり前か
512Mb:2005/07/17(日) 22:57:41
>>511
> お花畑の住人は気楽でいいな。
OCR の候補選択やら、固有名詞(人名・地名・企業名)の
辞書順整列やら、全件検索による辞書引きやら、
業務系システムでも実用レベルの自然言語処理が
要求される場面はけっこうあるぞ。
愚痴は実用システムの二三本も書いてから吐いたほうが
カッコよさそうに思うが?
513デフォルトの名無しさん:2005/07/17(日) 23:15:54
>>512
えぇーとね、俺これまでソフト以外にコアな領域をもつサイエンス〜エンジニアを三つほどやってきたんだけど、
どこ行っても結局、多変量解析でパラメータ推定の仕事なんだわ。
今回、ようやく新しい仕事に取り組めると思ったら、また同じ話が出てきた。。。
そーゆー陳腐な話はそれしか出来ないのに任せて、俺はもっと新しいことがやりたいと最近悩んでいる。

やっぱ当分の目標は、Palmでベンチャ成功して脳科学の研究所始めた彼かな。
まあ、俺は脳科学には当分戻らないつもりだけど。
514デフォルトの名無しさん:2005/07/17(日) 23:17:27
↑訂正。脳科学周辺の話加えたら、4つのサイエンス〜エンジニアリング分野だ
515デフォルトの名無しさん:2005/07/18(月) 10:54:06
へー、すげんだな。
陰ながら応援してるよ。
516Mb:2005/07/18(月) 15:01:29
>>513
> どこ行っても結局、多変量解析でパラメータ推定の仕事なんだわ。
なんつっても、適当に仮説を立てると大概それらしい結果が出るからな。
補助金貰うにはお手軽なアプローチなので、安易に適用する奴が多い。
> やっぱ当面の目標は、Palmでベンチャ成功して脳科学の研究所始めた彼かな。
特に名を秘す某苫※地クン(仮名)の言語理論はほとんど思いつきの域を
出とらんぞ。彼はルネ・トムの『ことばのカタストロフィー』あたりを
読んでから出直したほうがいいと思う。
517デフォルトの名無しさん:2005/07/18(月) 15:11:01
お。詳しそうな人が出てキタ────(・∀・)────!!!!
一昨年某所で彼の事が話題に上りまして、ちょっと情緒不安定という話聞きました。
実際のところ、どーなの?いや怖いもの見たさ「だけ」で興味本位の話題ですが。
518デフォルトの名無しさん:2005/07/18(月) 15:23:18
ありゃりゃ、もしかして俺何度もゴチになってる方ですか?>>Mb様

形態と構造―カタストロフの理論
ルネ トム (著), E.C. ジーマン (著), Ren´e Thom (原著), E.C. Zeeman (原著), 宇敷 重広 (翻訳), 佐和 隆光 (翻訳)
単行本: 280 p ; サイズ(cm): 19 x 13
出版社: みすず書房 ; ISBN: 4622016249 ; 新装版 版 (1995/10)

レビュー
内容(「MARC」データベースより)
ルネ・トムのカタストロフ理論は数学だけでなく経済学や生物学の分野から注目をうけた。この理論の本質を明確に提示し、新しい「自然哲学」の構築という壮大な可能性を展望する。新装版。

目次
 第1章 カタストロフの構造
 第2章 質的現象の解析学
 第3章 カタストロフと社会
 第4章 数量的な世界観を超えて
 第5章 形態形成の力学理論
 第6章 カタストロフ理論
 第7章 カタストロフ理論の認識論的規範

同じテーマの本を探す
 ブラウズ(ジャンル)
  ジャンル別 > 科学・テクノロジー > 科学・テクノロジー 全般

 テーマ別に本を検索する
  位相幾何学[トポロジー]
  位相数学
  数学
  超関数論.一般関数論

519Mb:2005/07/18(月) 19:49:17
>>518
> ありゃりゃ、もしかして俺何度もゴチになってる方ですか?
いや、たぶん別人だと思う。知ってたらこっち↓を挙げるはずだ。

『カタストロフィの理論―その本質と全貌』
野口 広(著)
単行本: 292 p ; サイズ(cm): 19 x 13
出版社: 講談社 ; ISBN: 406118293 ; 初版第八刷 (1982/08)

目次
 はじめに
 1.カタストロフィーの戦略
 2.次元の呪い
 3.トポロジー
 4.七つのカタストロフィー
 5.おもちゃから国防まで
 6.生命のデザイン
 7.カタストロフィーの思考
 あとがき
 付録―ことばのカタストロフィー
520デフォルトの名無しさん:2005/07/18(月) 22:36:18
はぁ。そーですか。今度探してみます。

ところで上記で出てきた「ことばのカタストロフィ」のリファレンス、お教えいただけませんでしょうか?
本日簡単に調べた範囲では、リファレンスは見つからず、
今年2、3月に言語情報処理ポータル掲示板で話題が出たのが確認できただけでした。
521デフォルトの名無しさん:2005/07/18(月) 22:38:01
>>519
もしかしてMb様は、とても高名な数学者様でわ??!
なぜにこのスレにご降臨されるのか??!
今後もよろしくお願い致します。
522Mb:2005/07/19(火) 08:09:11
>>522
> 今年2、3月に言語情報処理ポータル掲示板で
> 話題が出たのが確認できただけでした。
あ、あのサイトに出没してるのはうちの関係者(うちの蔵書に
ある)。図書館と古本屋で探して見つからなければ国会図書館。
なんならメールを寄越せば必要な部分だけスキャンして画像で
送ったげる。
523Mb:2005/07/19(火) 08:14:49
>>521
> もしかしてMb様は、とても高名な数学者様でわ??!
自然言語処理や数式処理のような人工知能関係の分野には
「高名な数学者様」はいないと思う。応用数学(特に数理工学)は
いわゆる「数学」とは別分野(「数理“工学”」という別名が
あるくらいだし)だし。雰囲気的には物理学にむしろ近いんじゃ
ないだろうかないだろうかないだろうか。

「数学の女神は清純である。だから子を産まない」
 ―アルバート・アインシュタイン
「物理学と数学の関係は、セックスとマスターベーションの関係に
等しい」
 ―リチャード・ファインマン
524Mb:2005/07/19(火) 08:22:56
「チーム2ちゃんねる」の皆様に配慮して言っておくと、
(あとはポール・エルデーシュ大先生に配慮して言っておくと)
有限組合せ数学はいちおう(暗号化技術なんかと同じく)
「純粋数学」分野に入れられると思うけど、実際の組合せを
求める計算の部分は工学に近いし、「数学の有用性」としては
例外的なものだと思います。
525デフォルトの名無しさん:2005/07/21(木) 06:04:44
問題文生成システムを作りたいんだけど。。
熟語辞書から語彙を拾ってきて、その語彙を含む問題文をコーパスから生成するシステムなんだけど、rubyでどうやって作ればいいのかなぁ。
実際の(rubyが良いかな)プログラム例がないとちょっと手がつかない。。
526デフォルトの名無しさん:2005/07/21(木) 10:41:09
>>525
コーパスから「生成」? ひょっとして釣り?
527デフォルトの名無しさん:2005/07/22(金) 13:32:40
KNP Ver.2.0b6のインストールをしようと思って
Makefileを書き換え、make allしたのですが、エラーを吐いてコンパイルできません。
エラーはregexp.cのl.294,l368で「pointers are not permitted as case values」ということなのですが、
他の方もこのエラーって出てますか?
528Mb:2005/07/23(土) 21:45:42
>>527
自然言語処理のポータルの掲示板行って訊いたほうがたぶん早いぞ。
529デフォルトの名無しさん:2005/07/31(日) 04:33:09
>Mb
こんなところで油売ってないでJavaの方の再開を…
530デフォルトの名無しさん:2005/07/31(日) 06:37:13
Senの人?
531デフォルトの名無しさん:2005/08/09(火) 22:27:51
なんだか秋風が吹いてきた。立秋という奴か
まあややこしい状況もあと?ヶ月でクリアになるだろう、仕事的にも個人的にも
532デフォルトの名無しさん:2005/08/18(木) 02:29:15
あ゛ぁ゛ーもう飽きた。
やっぱ若い子は若い子なりの、思い込みと割り切りでしか仕事できないのね。
その思い込みが、bestではないまでもbetterな結果をもたらす事もあるのだろう。
しかし。それに馬鹿丁寧に付き合えるほど、俺のキャパシティって広かったっけ?
つか、外のコミュニティと交流しないと、もう窒息しそうだぜ。
533デフォルトの名無しさん:2005/08/18(木) 02:36:36
>>523
俺の師匠はこんな類のテーマやってました。

  「日経サイエンス」 やっぱり神はサイコロを振らない?
  http://www.nikkei-bookdirect.com/science/page/magazine/0412/sp_07.html

こっちの領域の人は、数学はやっぱ概念を検討し示すための工学的道具だと思ってるみたいですがw

534532:2005/08/21(日) 01:35:03
実を言うと俺のキャパ自体はかなり広いのだが(ワラ、
思い込みが強い人間と付き合うのは苦手、つか時間が無駄になるのがツライ。

535デフォルトの名無しさん:2005/08/21(日) 02:17:43
誰かの言うことについて思い込みが強いように見えるのは、
実は自分が思い込みが強くて根拠や発展性を狭めていたから、
ということもよくあるよね。
536デフォルトの名無しさん:2005/08/21(日) 10:29:15
まぁ正直言うと、思い込み強くて説明下手糞な人の話を必死に聞いてあげた挙句に、
じゃ分担入れ替えしてこちらの説をリファレンス込みで紹介しはじめると、
途端に退屈そうな顔したり、はたまた「おまいは思い込みが強い」とか言い出すのは、
対応困る。

・・・こっちはこれだけお付き合いしているのだがら、
人の話もちゃんと聞くのがマナーだろ?
20代だと、そのあたりのマナーを勘違いしてるのが多いんだよな。
あと、おまえは○×をやりたいと言っていたから、それをやらせてあげるんだ、
とか大声で主張するヤシ。。。嫌われてるだろお前
537デフォルトの名無しさん:2005/08/21(日) 10:50:12
あとアライアンス相手やクライアントさん、はたまた権利関係やってる事務所の人の質問には、
ちゃんと誠実に答えた方がいい。
ちゃんとした回答をせず、自分がしゃべりたい事を一方的にまくし立てるのは、
回答能力がないという印象を相手に与え、先行きが暗い。

もし、現段階では回答しようがないこと、回答したくないこと、を聞かれ、回答をはぐらかしたいのであれば、
いきなり不適切なしゃべりを始めるのではなく、相手の質問を聞き返し、自分が回答しやすい質問へ誘導する
というのも良いだろう。相手だって良く知らない分野について専門家に話を伺っているわけだがら、
相手なりに理解しやすいポイントを探しているはずだしね。
Q&Aでは「知らない人 vs 知っている人」というヒエラルキーを守ろうとして知ったかぶりをするのではなく、
お互いは自分が知らない事を知っているのだ、というスタンスで、「共通理解(共感)」のポイントを探すのが、
いいだろうね。

よく「人間は感情とコミュニケーションの動物だ」なんていわれるが、
俺は現時点では、その本質は「共感」にあると思う。
オブジェクト指向〜EAの観点で言うと「View(観点)」の理解かな。

チーターが草食動物を捕まえるには、やみくもに追いかければいいってわけじゃなくて、
草食動物の行動や持久力をリサーチする必要がある。リサーチの最も手っ取り早い方法は、
相手の立場に立って考える事。そして、同情しすぎず、食える時にガブっと食う事(ワラ
538デフォルトの名無しさん:2005/08/21(日) 10:59:41
× リサーチの最も手っ取り早い方法は、 相手の立場に立って考える事。
○ リサーチの最も手っ取り早い方法は、 リサーチ対象の立場に立って考える事。
539535:2005/08/21(日) 11:12:06
>>536
> 嫌われてるだろお前

ほら、やっぱ思い込みが激しいのは君なんだよ。

俺はどっちかっつーと、思い込みが激しい人の相手をする時に535に書いた
ことを自分に言い聞かせてできるだけ柔軟に聞こうとしているのだがな。
君は、君が嫌っている思い込みの激しい(と君が思っている)奴が
535みたいなことを言っているとでも思ったんだろ?
540デフォルトの名無しさん:2005/08/21(日) 12:14:47
必死だな(プゲラ

バカは返事しなくていいから
541デフォルトの名無しさん:2005/08/21(日) 12:19:14
コミュニケーションに飢えてるバカが、バカであることがばれないように必死になる様は笑える。
人間として一番貧しいのは、意味のある話題には目もくれず、
下らない話題に必死に食い下がる>>539のような行為だ。

って頭悪くなきゃ、それくらいわかるよな?
542デフォルトの名無しさん:2005/08/21(日) 12:23:17
>>539を読んで、
「テレビドラマの俳優って、たかが演技、現実ではないのに何であんな必死なんだろうな(プゲラ」
とか言ってた、ウチのボケじいちゃんを思い出した。
543デフォルトの名無しさん:2005/08/21(日) 17:09:01
すげー火病だゲラ
544デフォルトの名無しさん:2005/08/21(日) 22:55:20
「アンジョンファン」と「アン・ジョンファン」が非常に近い単語であることを計算するにはどうすればよいですか?
545デフォルトの名無しさん:2005/08/22(月) 09:57:18
edit distance
546デフォルトの名無しさん:2005/08/22(月) 19:28:00
外来語の表記の揺れをルール化し、
目的に応じて距離を定義する。

中黒(・)の有無を距離として数値化したいのは、どんな場合だろうね?
547デフォルトの名無しさん:2005/08/30(火) 14:03:49
ガキの暴走に呆れますた。
やっぱガキの相手は疲れるな。
548デフォルトの名無しさん:2005/08/31(水) 00:05:00
話が合わない時、相手の発言が理不尽だと思える時には、
相手だけではなく自分も理不尽な考え方をしているものです。
549デフォルトの名無しさん:2005/08/31(水) 12:51:03
>>548
リア厨?
550デフォルトの名無しさん:2005/08/31(水) 13:01:39
>>544 >>546

英単語のミススペリングを発見して正しい単語に修正するアルゴリズム。
詳しくは忘れたけれども、それを使うことが出来るんじゃないのかな。
いや、俺は>>544なんだけど。
551デフォルトの名無しさん:2005/08/31(水) 22:46:50
>>550
edit distance。編集距離。
552デフォルトの名無しさん:2005/09/01(木) 04:53:22
>>544は、韓国語固有名詞のカタカナ表記の問題を提起しているのに、
それに対してアルファベット表記の外国語のミススペル修正アルゴリズムを答えるあたり、
なかなか興味深いね。

こんなマーフィーの法則を思い出した。
  世の中の大抵の学者は、その素晴らしい能力を、一般人が期待するような形では発揮できない。
  つまり、経済学者はほとんどいつも金儲けが下手だし、
  物理学者は時空間を議論するばかりで全然タイムマシーンを作ってくれないし、
  そして言語学者はいつも意味不明の事を口走っている

553デフォルトの名無しさん:2005/09/01(木) 04:56:58
編集距離
2つの文字列が与えられたとき、片方の文字列からもう片方の文字列にするために必要な「削除・挿入・置換の回数」をその距離とする手法。

主にタイプミスや誤字の検出に使われる。

P.Sellers, The theory and computation of evolutionary distance: pattern recognition, Journal of Algorithms, 6:132-137(1980)

http://www.jaist.ac.jp/~watatani/distance.ppt

554545:2005/09/03(土) 13:40:53
>>552
> >>544は、韓国語固有名詞のカタカナ表記の問題を提起しているのに、
> それに対してアルファベット表記の外国語のミススペル修正アルゴリズムを答えるあたり、
> なかなか興味深いね。

いつからedit distanceはroman alphabet専用になってしまったんだろう(苦笑
555デフォルトの名無しさん:2005/09/03(土) 22:36:43
用語だけ書いて解説もせずに煽りとはめでてぇな。
自然言語処理業界で、そーゆー重箱の隅を突っついて喜ぶ人間は、
ごくごく例外的である事を切に希望する。

なーんちて。京大学長始め精鋭揃いの業界で、そんな自己満レスつけてるのは
よっぽど下っ端なんだろうな。カワウソw
556デフォルトの名無しさん:2005/09/04(日) 01:22:03
edit distanceという用語を出してもらえば、あとは自分でググるなりすればいいのに、
自然言語処理業界で、そーゆー親切を仇で返して重箱の隅を突っついて喜ぶ人間は、
ごくごく例外的である事を切に希望する。
557デフォルトの名無しさん:2005/09/04(日) 07:12:13
深夜に鸚鵡返しとは、また例の掲示板常駐のアフォか。相手して損した
558デフォルトの名無しさん:2005/09/04(日) 11:21:46
>>557
どこがどう鸚鵡返しなんだか・・・
反論に窮して、妄想を根拠にした人格攻撃に逃げますか。
ほんと情けない馬鹿だな。
559デフォルトの名無しさん:2005/09/05(月) 07:40:59
あいかわらずネチっこいなぁ。
 >親切を仇で返して重箱の隅を突っついて喜ぶ
被害妄想汁ダラダラ垂れてるし(ぷげら

じゃさ、オマエが業界人だと主張するなら、
それをテストする意味で別の問題を出してあげよう。


「親切」と「仇」と「重箱」と「隅」の違い/類似性を計算するにはどうしたらいいだろう?
考えられる方法を全て列挙せよ
560デフォルトの名無しさん:2005/09/05(月) 07:45:14
いや、これじゃ答えが違っちゃうな。訂正訂正

「親切」と「仇」と「重箱」と「隅」の距離や関係を計算するにはどうしたらいいだろう?
単語の意味的な側面を考慮して、考えられる方法を全て列挙せよ
561デフォルトの名無しさん:2005/09/05(月) 08:37:40
おまえら、俺が質問したアンジョンファンネタで
キモイ叩きあいやめなさいよなに?自然言語ギョーカイ?気持ち悪いですねー。
562デフォルトの名無しさん:2005/09/05(月) 19:29:01
>>560
コーパス言語学様のお力を借りますかね。共起確率を計算してどうこう。
563562:2005/09/05(月) 19:29:56
あ、俺このスレへの書き込みは初めてね。
入門テストみたいな感じで出題してたのを読んでなかった。ごめん。
564デフォルトの名無しさん:2005/09/06(火) 20:49:09
共起という言葉ですべて片付けるとは、
例のアレ並みに発想とボキャブラリと説明努力が貧困な人だなぁ。
どう思います?Mbさん
565Mr. Bean:2005/09/06(火) 21:10:55
頭出せコノヤロ
566デフォルトの名無しさん:2005/09/06(火) 21:26:13
またコミュニケーションに飢えてる餓鬼か。
こどもjはおねんねの時間だよ。さっさといね
567デフォルトの名無しさん:2005/09/07(水) 04:05:03
Mecab 0.9 の開発ってどうなってます?

http://mecab.sourceforge.jp/

ここをみると5月中となっていますが、なかでどのくらい進んでいるのかサッパリ見えてこなくて、、、
568デフォルトの名無しさん:2005/09/07(水) 20:11:05
Mecab>JUMAN≒Chasenて感じ?
569デフォルトの名無しさん:2005/09/08(木) 00:58:22
あれ?
MeCab = Chasen Next Generation (without learning)って主張してる人が居たけど?

570デフォルトの名無しさん:2005/09/12(月) 21:34:44
相変わらず相変わらずだな。
ハッタリきついのって、どうして相手が自分と同レベルだと思い込むんだろうね。
ミーティングで噛み合った議論の一つもできないのが虚勢を張っても、痛々しいだけなんだよ。
571デフォルトの名無しさん:2005/09/13(火) 08:11:20
そんなの、一回話してみりゃ、すぐに判る事だろ。コミュニケーションに問題抱えているとか、他人の話を聴かないとか、そんなレベルの事柄は。

問題は、同じ分野の人達とちゃんと関係を築けているか、そして一貫した言動を通じてビジョンを実現した実績があるかどうかだ。

いい歳してそこらへんがいい加減なのは、どうせ姿勢を正すのは無理、きっと一生そのままだから、妙な期待などしないほうがいい。
572Mb:2005/09/20(火) 00:12:44
>>565
遅ればせながら出したぞ(w
>>564
共起確率っていうのは、本来形態素解析と知識ベースが揃った上で
有効に働くものであって、単独で持ってきても、形態素解析単独の
解析精度の(とりあえずの)向上を考えたときには実用的には有効かも
知れないが、上位の処理まで考えた場合、意味はない。
あるいは、とりあえずの結果は出たりするから研究費集めには効果的
かも知れないが、そういう安直な研究ばっかりやってると脳が腐るから、
禁じ手にしたほうが社会のためという気はする。
573デフォルトの名無しさん:2005/09/21(水) 07:30:25
えぇーとぉ、
長尾先生の例の分厚い本(ISBN 4-00-010355-5)の
5章(p201, p204-224)、6章(p232-243)、7章(p267-227)
あたりのネタ振りを期待してましたが・・・。
ちょっと専門分野が違う方のようだ
574Mb:2005/09/21(水) 08:45:05
> ちょっと専門分野が違う方のようだ
自然言語処理っていうより形態素解析なんだよ、専門は。
「記述文法の精度が低い→形態素解析の精度が低い」っていう
現状を放ったらかしておいて、共起確率とかに逃げるのは
もうやめようぜ、というのが漏れの主張。他に頼れる情報が
ない場合、共起確率で順位付けをするのが有効、というのは
認めてもいいですけどね。
長尾先生の例の分厚い本は漏れも持ってるんだが……引っ越しの
ときにしまいこんじゃって出てこない。探してみる。
575デフォルトの名無しさん:2005/09/21(水) 09:08:30
Mb様のご専門は形態素解析ですか。
お仕事は音声認識処理関係でしょうか?
>>573で失礼な言い方をしてしまった点を、
お詫びいたします。

実は>>573は、>>559-560の解答例なのですが、
もしかして他の解がいろいろ出てこないかと期待していたもので、
あんな書き方になってしまいました。
576追伸:2005/09/21(水) 09:24:54
>>574
Mb様のお話、非常に興味があります。
特に、「記述文法の精度の低さ」の件。

辻井先生の解説によれば、言語研究には
(1)コーパス言語学: データから帰納的にルールを導く
(2)理論言語学:    文法という系を中心に演繹的な研究を行う
(3)計算言語学:    計算機の膨大な記憶/処理能力を使う
があるそうです。((3)は、多くの場合(1)、稀に(2)の応用だと思います)

Mb様がおっしゃる「記述文法の精度の低さ」の件は、
上記(1)〜(3)のどの範疇で問題解決すべきだとお考えでしょうか?
ご教授頂けますと幸いです。




577Mb:2005/09/21(水) 17:20:11
> Mb様がおっしゃる「記述文法の精度の低さ」の件は、
> 上記(1)〜(3)のどの範疇で問題解決すべきだとお考えでしょうか?
いや、すでに「データから帰納的にルールを導く」というアプローチで
問題解決されちゃってるのだ。
つまり、あるプログラムが存在して、そこに日本語の文章を食わせたとき、
1)係り受けとかの関係がこんがらがってる場合は除いても、“文法的に”
正しい文のように見える。
2)通らなかった文は、確かに(入力ミスやワープロの誤変換などで)
“文法的に間違っている”ように見える。
という結果が得られているのである。
てなワケで、「赤・青・白・黒が、日本語における四原色である」
(名詞にも形容詞にもなる)とか、「言う」(云う・謂う)や
「行く」(往く・逝く)も本質は不規則活用動詞であるとかいった
記述文法上非常にマニアックな(かな漢字変換システムや
機械翻訳システムでも開発していなければまったく意識しないで
あろうはずの)もろもろのことが、そのプログラムによって確認されて
いるのである。
で、各地の方言だとか口語的に崩れた形だとかは、不規則であるように
見えて、じつは上代語・文語などと同じ文法的な性質を持っており、
人間は(言い間違いを除いて)「間違った言葉遣い」をすることが
本能的に不可能で、むしろ「過剰に文法的な物言い」をする結果、
言葉のゆらぎが発生するため、言語表現のバリエーションがいくら
広がったとしても、記述文法からはみ出すことは経験上ありえない、
というのが結論なのである。
578デフォルトの名無しさん:2005/09/21(水) 23:10:18
Mb様がおっしゃる「記述文法の精度の低さを共起確率以外の方法で克服した形態素解析ブログラム」は、
Chasen,Mecab,Jumanと同様に、実用レベルで一般に供給されているのでしょうか?
あるいは研究レベルで実証が済んだものでしょうか?
私はどうも不勉強らしく、それらしいプログラムの存在を確認できませんでした。

誠にお手数ではありますが、リファレンスならびに使用されている学習アルゴリズムを御教え頂けないでしょうか?
よろしくお願い致します。
579デフォルトの名無しさん:2005/09/22(木) 08:01:18
Mecabでできるんだよ、って言ってるじゃん
580デフォルトの名無しさん:2005/09/22(木) 08:13:35
またデタラメか。
581デフォルトの名無しさん:2005/09/22(木) 21:22:38
勉強不足だね
582携帯書き子:2005/09/22(木) 22:42:48
たしかに。
この分野をやっている人の中には(稀に?)、
私が知っている自然言語処理とは大きく異なる用語遣いや概念体系を持っている方がいて、
その様な方と会話すと著しいコミュニケーション困難性を感じる。

例えばMb氏が上で「形態素解析の精度」と「共起辞書」と「係り受け」を同列に論じているが、
彼の言う「形態素解析」は一体どこからどこまでの処理を指し、
そして「共起辞書」とはどんなレベルの要素間の共起確率を指すのだろう?
583携帯書き子:2005/09/22(木) 23:18:47
ちなみに私の知っている形態素解析とは、
入力文を形態素に分け品詞を付ける処理を指し、
処理に必要な外部データとして

・単語辞書(読み,活用,品詞情報付き)
・連接可能性辞書(連接可能な二つの単語,品詞,活用形等を与える辞書)
・人手によるコスト表

または

・確率的モデルに基づいたコーパス学習データ(品詞付け用,コスト調整用,等)

を使います。

また私の認識では、構文解析の主要処理として係り受け解析があり、そこで初めて共起辞書を使います。
584携帯書き子:2005/09/23(金) 00:15:01
なお上記はあくまで説明のための処理フェーズ区分であり、
実装上必ずしも排他的に順次実行すべきとは限らず、
むしろ速度や精度の向上のために、複数のフェーズをマージして処理する事もあるでしょう。

たとえばMb氏が、形態素解析の話題に、いきなり係り受けの話を持ち出したのも、
実は連接可能辞書だけでは複雑な係り受けを含む文を正しく形態素解析できない、
と言う話かもしれません。(要確認)
同様に係り受け解析の精度向上のために、格フレーム解析を同時に行う、単一化文法類似の試みもあります。
585携帯書き子:2005/09/23(金) 00:24:46
↑(1997 KO大の方の試み)

ってMbさん、ここまで面倒な解説が必要になるような、舌足らずな御発言は勘弁願えませんか?

話の枠組みや前提条件、用語定義を明確にしながら話さないと、
読んでる人に意図を伝えるのは難しいんじゃないかなぁ
586デフォルトの名無しさん:2005/09/23(金) 00:36:36
携帯からなんで、乱筆乱文はゆるしてね☆チュッ
587デフォルトの名無しさん:2005/09/23(金) 09:18:02
この分野で「言語」という概念は一般的にどう定義されてるのでしょうか?
言語と言語でないものを区別する基準は何でしょう?
588デフォルトの名無しさん:2005/09/23(金) 09:56:30
ところで、形態素解析と係り受け解析を同列に語るのは
一体どこの流派なのだろう?

もしかして一部研究者の間では
形態素解析処理に構文解析や意味解析の結果をフィードバックして形態素解析の精度を高める
という手法が暗黙の了解事項になっているのだろうか?

というような仮定を置かないと、Mb氏の話は解釈しにくい。

#嗚呼、自然言語処理研究分野には、なんて不思議なコミュニケーション断絶が存在するのだろう?
#学生時代に振られた、量子力学の確率論的描像にまつわるトリックの検証よりも対応が難しい
589デフォルトの名無しさん:2005/09/23(金) 10:26:46
結局自然言語処理は、情報処理の中でも最も人文寄りな分野の一つだからな。

研究対象の描像の不確定性(ブレ)は、
その分野の研究者の見解の相違の分散(ズレ具合)と
その分野のまともな研究者の存在確率の不確定性(神のみぞ知る)
の積に比例するという、
例の不確定性原理が働いている。。。
590デフォルトの名無しさん:2005/09/23(金) 10:41:57
その不確定性原理、
「神はサイコロを振らない」と言ってた例のベロ出し老人なら、
一体どういう表現をするだろうね?!
591デフォルトの名無しさん:2005/09/23(金) 10:49:35
言語屋のくせにずいぶんでたらめな比喩を使うんだな。
592デフォルトの名無しさん:2005/09/23(金) 11:03:48
また頭悪いのが一行レスか
593デフォルトの名無しさん:2005/09/23(金) 11:25:08
やっぱ不確定性ジョークは、数学的イメージをちゃんと持ってる奴にしか通じないみたいだな。

自然言語処理で確率扱っている人達にも、まるきり通じてなかったりして(ワラ
594デフォルトの名無しさん:2005/09/23(金) 11:27:30
自然科学への劣等感をこんなところで吐露するなってこった。
それともただの似非科学オカルト本大好き野郎か?
595物理専攻出身者:2005/09/23(金) 13:06:53
>>594
お前がバカなのはよく判った。
596デフォルトの名無しさん:2005/09/23(金) 13:45:48
>>595
高校で物理やりましたってんだろw
せいぜい本当に似非科学扱いされないように頑張んな。
597デフォルトの名無しさん:2005/09/23(金) 18:00:42
Mb説明しろよ
598デフォルトの名無しさん:2005/09/23(金) 20:03:21
599デフォルトの名無しさん:2005/09/23(金) 20:06:29
Aransk?
600デフォルトの名無しさん:2005/09/23(金) 20:08:12
>>588
つ 研究補償説
601デフォルトの名無しさん:2005/09/24(土) 00:36:22
てへ、例の会社辞めて、帰り道にギター買っちった。
夢は秋葉AIST前でシュレディンガー音頭&隠れマルコフ・サンバの弾き語り。
・・・いつかきっと・・・
602デフォルトの名無しさん:2005/09/24(土) 02:33:32
日記はチラシの裏へ
603デフォルトの名無しさん:2005/09/24(土) 03:02:39
だからさぁ、
キミは何でまるきり空気読めてない癖に
陳腐な書き込みしてくるの?

だいたいキミは仕事で自然言語処理したこともない素人だろ?なんで素人がスレを仕切ろうとするんだ?
オマエの態度はちゃんちゃらおかしいぞ。

博之、この馬鹿なんとかしろ。コミュニケーションの邪魔だぞここの馬鹿
604デフォルトの名無しさん:2005/09/24(土) 08:31:58
言語工学研、ジャストシス、アンテナハウ
605デフォルトの名無しさん:2005/09/24(土) 11:02:31
>>604
 >>603を100回読み直せバカ
606デフォルトの名無しさん:2005/09/24(土) 13:10:16
自然言語処理てperlで十分やん
607デフォルトの名無しさん:2005/09/24(土) 13:20:31
>>606
>自然言語処理てperlで十分やん
研究者個人が使用するツールとしては、JavaやC
よりもperlで開発した方速いような気がする。

テラバイトのテキスト処理をする場合には、perlでは
遅いかもしれないが。
608デフォルトの名無しさん:2005/09/25(日) 00:41:04
え、perlでナニ書くの?
609デフォルトの名無しさん:2005/09/25(日) 08:50:54
Mb様、御回答をお待ちしております。
よろしくお願いします。

610609:2005/09/25(日) 09:07:37
追伸

Mb様にはまず>>588あたりをちゃんと説明してほしいです。

>>606-608は言語処理をなにか他の分野と勘違いしている(根拠:テラバイトのデータ、perlで処理、等)、おかしな人の書き込みですので
スルーで良いでしょう。

611デフォルトの名無しさん:2005/09/25(日) 13:04:32
>>610
辻井先生によれば...

>>576
>辻井先生の解説によれば、言語研究には
>(1)コーパス言語学: データから帰納的にルールを導く
>(2)理論言語学:    文法という系を中心に演繹的な研究を行う
>(3)計算言語学:    計算機の膨大な記憶/処理能力を使う

「計算機の膨大な記憶」と「コーパス言語学」は、「テラバイトのデータ、
perlで処理」と無関係ではない?
612デフォルトの名無しさん:2005/09/25(日) 14:02:29
テラバイト・オーダーのテキスト・データをperlで解析(?!)というと、DNAの相同性解析などのbio infomatic分野のネタ、
テラバイト・オーダーのテキスト・コーパスというと、インターネット検索などの情報検索アルゴリズム分野等のネタ。

後者ではマイナーな所や研究開発領域で自然言語解析技術を応用している所もあるが
本質的に規模&速度命の世界だからなぁ。Perlで処理なんてチョー受けるよ(ワラ

そんなにperl好きなら、bio infomaticか、北大病院のメンテでもやったらぁ?
613追伸:2005/09/25(日) 14:13:16
もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
同じ著者の新しい本を読んでみたらどうよ?

こないだ某所で著者お会いしたら、もう言語モデルはおやめになって、今は検索技術に集中されているそうだ。
614デフォルトの名無しさん:2005/09/25(日) 16:20:08
この辻井っていのは、新しい本を書いてるのか?
amazonで調べても、1999年のしか見つからんが。
1999年の東大出版の2冊は読んだが、中身はたい
したことない。

615デフォルトの名無しさん:2005/09/25(日) 22:16:18
ていうかcで言語処理部分をゴリゴリ書く奴はマゾか?
616デフォルトの名無しさん:2005/09/25(日) 22:34:55
>>613
>もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
1999年の東大出版の2冊のどちらかで、読んだ記憶がある。
2冊とも、たいしたことないので、ゴミ箱に捨てたが。

>同じ著者の新しい本を読んでみたらどうよ?
新しい本は、お前の脳内出版会から出ているのか?
辻井も、お前のような馬鹿ばかりが弟子だと思うと、
多少、哀れに感じる。
617デフォルトの名無しさん:2005/09/26(月) 00:05:22
>>614>>616 晒し上げ

つくづく恥ずかしい奴だな
618デフォルトの名無しさん:2005/09/26(月) 00:29:21
>>617
自己申告されてもらうと、
>>614>>616 = >>611 = >>607

どこの脳内出版会だ?
>同じ著者の新しい本を読んでみたらどうよ?
619デフォルトの名無しさん:2005/09/26(月) 00:48:33
>>606
>>607

Compare Perl to Java | The Computer Language Shootout Benchmarks
http://shootout.alioth.debian.org/benchmark.php?test=all&lang=perl&lang2=java&sort=fullcpu

Compare Perl to C gcc | The Computer Language Shootout Benchmarks
http://shootout.alioth.debian.org/benchmark.php?test=all&lang=perl&lang2=gcc&sort=fullcpu
620デフォルトの名無しさん:2005/09/26(月) 07:58:58
馬鹿スルー
621デフォルトの名無しさん:2005/09/26(月) 09:15:32
Speech and Language Processing: An Introduction to Natural
Language Processing, Computational Linguistics and Speech
Recognition (Hardcover)
by Daniel Jurafsky, James H. Martin

著者のDaniel Jurafskyは、スタンフォード大学で言語学科とcomputer science
学部のテニュア準教授。2002年にマッカーサー賞(別名"genius awards")を受賞
している。(北米大学のランキングにノーベル賞とともにマッカーサー賞
の受賞者の数が使用される。)

ttp://64.233.167.104/search?q=cache:pw61sQUsMg4J:www.infoslurp.com/information/MacArthur_fellowship+Daniel+Jurafsky

日本には、Jurafskyのように自然言語処理と言語学の両方が
分かる研究者はいない。日本の「自然言語処理」屋は、言語学が
ほとんど分かっていない。

>こないだ某所で著者お会いしたら、もう言語モデルはおやめになって、今は検索技術
>に集中されているそうだ。
そうは言っても、東大にはGoogleの研究所がない。Googleの研究所があるのは
UCバークリー。UCバークリーは、Jurafsky(学部は言語学科、院はcomputer science )
とラリー・ウォール(院が言語学科)の母校。Jurafskyは、perlを使っているよ。
622sage:2005/09/26(月) 12:26:29
>>613
>もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
捨てたと思っていたが、学生用に1冊残っていた。北研二『確率的言語モデル』
(1999年,東大出版会)のp.205にこのオッサンの文章が載っている。

>同じ著者の新しい本を読んでみたらどうよ?
学生用に1冊買うから、早く「新しい本」にタイトル/出版社を教えてくれ。
623デフォルトの名無しさん:2005/09/26(月) 14:30:10
ペラペラよく喋るがやっぱバカはバカ。

・外国人で初めてマンチェスター大の計算言語学センター長を務めた人物を知らないのは、ハッタリが厚かましいオマエだけだ(ぷげら
・その人物が、情報検索アルゴリズムの本書いたと思い込んでるのもオマエだけだ(ぶげらっちょ

オマエは人に議論ふっかける権利などないバカだから、もうレスしなくていいよ(マジ
624sage:2005/09/26(月) 14:58:38
>>623
>その人物が、情報検索アルゴリズムの本書いたと思い込んでるのもオマエだけだ(ぶげらっちょ
『情報検索と言語処理』(1999年、東大出版会)でも、編者として名前が載ってゾ!

>同じ著者の新しい本を読んでみたらどうよ?
じらさないで、早く教えてくれ。
625デフォルトの名無しさん:2005/09/26(月) 15:20:16
>>623
大筋同意。

掲示板に変な書き込みするのが居るという噂は学生から聞いていたが、
実際に、辻井先生の名前を知らず、東大出版会のつづりも満足に書けないのを見て、呆れ返った。

この人物はきっと、あちこちで荒唐無稽な主張をして皆に叩かれるのが唯一の社会生活であるような
悲惨な暮らしを送っているのだろう。

あるいは、万が一この人物が自然言語処理研究者を詐称して、官公庁や大学関係者、民間人を欺き続けているとしたら。
賢明な皆さんは、そんな手合への対処方法をもうご存じの事だろう
626sage:2005/09/26(月) 20:38:02
>>625
>東大出版会のつづりも満足に書けないのを見て、呆れ返った。
脳内出版会の「脳内」というのは、2チャンネ用語で、発言者の
(狂った?)頭の中でしか存在しないものを揶揄して使用する
表現です。偉い先生は、知らないのかな?

辻井先生の「新しい本」 >>613 がamzonの検索でも探せない
ため、発言者の「脳内」だけに存在する書籍かと思い、皮肉り
ました。
627デフォルトの名無しさん:2005/09/27(火) 07:01:24
↑リアル異常者は放置の方向で。

あと、自称Mb氏はさっさと釈明をするように。
628Mb:2005/09/27(火) 09:18:13
>> 597
> Mb説明しろよ
済まぬ。サーバが規制喰らってて書き込みが不能だったのだ。
> たとえばMb氏が、形態素解析の話題に、いきなり係り受けの話を
> 持ち出したのも、 実は連接可能辞書だけでは複雑な係り受けを
> 含む文を正しく形態素解析できない、 と言う話かもしれません。
> (要確認)
日本語は「連体修飾節の後の体言が頻繁に省略される」こと、
「格の指定が語順によらず格助詞による」こと、
「述語の連体形の後にくる格の推定は、格の一意性によるしかない」
ことなど、いろいろややこしい問題があるので、係り受け関係が
複雑になってくると、連接可能辞書“だけ”で形態素解析を
押し通すのにはちょいと無理があるのだ。
てなワケで、曖昧性の排除には「非交差則の利用」とか「動詞ごとの
要求する格のリスト」「出現頻度情報」などの情報が必要になってくる。
まあ、「入れない」がハイレナイかイレナイか、「出入り」がデイリか
デハイリか、なんていうのはどーにもなんないワケだが。
629Mb:2005/09/27(火) 09:29:37
> ところで、形態素解析と係り受け解析を同列に語るのは
> 一体どこの流派なのだろう?
Prolog 使ってる一派、かな。「ホーン節とユニフィケーションと
バックトラック」以外に制御の方法が実質的にないので、形態素
解析も構文解析も基本的に同じ手法で解決するしかないから。
漏れは、形態素解析に使われている既存の手法(たとえば
接続テーブル法)があまりに泥臭いので、構文解析で一般的な手法と
されているチャート法で構文解析システムを実現し、形態素解析と
構文解析の垣根を取っぱらった……つもりだったが、「格の一意性」
や「明示的に格が示されない体言の格の推定」をどう盛り込むかで、
けっきょく詰まっているのだ。

630Mb:2005/09/27(火) 09:46:48
>>578
> 「記述文法の精度の低さを共起確率以外の方法で克服した形態素解析
> プログラム」は、(中略)実用レベルで一般に供給されているので
> しょうか?
製品としてはrStone-JE という辞書引きソフトに使われていたし、
C で書いた奴はアスキーの出版技術部(日本語TEXを開発していたところ)で
編集用のツールとして使われていた。「紅玉(Ruby)」という名前で
文法(スクリプト形式)・辞書(バイナリではなく原テキスト)・
プログラム(C のソース)を含めてフリーで配っていたこともある。
現在は Java に移植して動いていて、フリー&オープンソースで配布も
していたが、Java を覚えたての頃に書いたプログラムだったので
ダサダサであり、このままだと収拾がつかなくなりそうなので現在改定中。
631Mb:2005/09/27(火) 10:05:33
追伸)
自然言語処理システムを開発・導入する前に、動詞の活用を
処理する簡単なプログラムを書き、文語動詞・現代語の動詞の活用が
それぞれ正しく処理されることを確認しつつ、自分用の動詞辞書
(せいぜい二百語あればいい)を作成し、辞書管理のコツを掴むこと。
末尾音が母音(i,e)→一段活用・二段活用、末尾が子音→四段活用
という規則が文語にはあったが、現代語だと「いわゆる五段ワ行」が
「末尾音が母音(a,o,u)なのに活用は五段」というワケわからんことに
なっているので、ここんところをしっかり頭に入れておかないと、
用言辞書の管理で破綻する。文語の要素は方言や敬語などの形で、
かなり現代語に入っているので、ここをちゃんとやっとかんと
解析精度が上がらん。
632デフォルトの名無しさん:2005/09/27(火) 12:15:58
Mb氏はさらに詳しく説明を続けるように。
633デフォルトの名無しさん:2005/09/27(火) 12:38:38
言語から完璧な規則を人間が手動で作るなんて無理なのでは?
634デフォルトの名無しさん:2005/09/27(火) 12:51:40
635Mb:2005/09/27(火) 15:20:32
【用言辞書作成時の注意】
旧四段活用ハ行音末尾動詞のうち、現在五段活用ワ行音とされている
a音末尾動詞は、「笑う」「買う」「歌う」のような「語幹が漢字表記の
動詞」と「からかう」のような「ひらがな表記の動詞」を分けて管理
したほうがいい。でないと「笑(わら)った/笑(わろ)うた」
「買(か)った/買(こ)うた」「歌(うた)った/歌(うと)うた」
のようなウ音便の処理が厄介。
同じことが「早い」「赤い」「高い」のようなa音末尾の形容詞にも
言える。
636Mb:2005/09/27(火) 23:30:05
>>529
> こんなところで油売ってないでJavaの方の再開を…
m(_ _)m→http://pc8.2ch.net/test/read.cgi/tech/1123639475/
猛暑で身体壊したり人多杉でアクセスできなかったりアクセス規制
喰らったりもう大変だったのでスマソ。
637デフォルトの名無しさん:2005/09/28(水) 10:20:07
日本語正規表現が分かりません。例えば、以下のjukugo.txtから
---------------------------------
言葉 ことば
葉脈 ヨウミャク
言語 ゲンゴ
脈絡 ミャクラク
語学 ゴガク
---------------------------------
各行において、[言]という語を含んだ熟語のみを抽出して、一行ごとtmp.txtに書き込みというやり方なのですが。。例えば、
moji = "言"
pattern = Regexp(str)
というやり方ではできませんでした。オプションをつければ良いらしいということは本に書いてあったのですが、できません。。
638デフォルトの名無しさん:2005/09/28(水) 10:26:12
>>637
日本語の文字コードはチェックした?
>>624 『情報検索と言語処理』(1999年、東大出版会)でも、 * 編 者 * として名前が載ってゾ!
 >>623
 > > その人物が、情報検索アルゴリズムの本 * 書 い た * と思い込んでるのもオマエだけ

>>624 じらさないで、早く教えてくれ。
 >>623
 > > * 同 じ 著 者 * の新しい本
 > > 情 報 検 索 ア ル ゴ リ ズ ム
640デフォルトの名無しさん:2005/09/28(水) 13:06:31
Mb様、御説明をどうもありがとうございました。
相変わらずおかしなのが礼儀知らずな合いの手を入れてますが、
どうぞお気を悪くなさらずまたこのスレにおいで下さいませ。

新しいJava版プログラムの開発、期待しております。私はこの研究開発分野ではまだ若輩者に過ぎませんが、もし御力になれる事がありましたらご連絡下さいませ
641デフォルトの名無しさん:2005/09/28(水) 14:03:23
>>613
>もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
>同じ著者の新しい本を読んでみたらどうよ?

613は、「情報検索アルゴリズム」の本とは、言っていない。

>>622
>学生用に1冊買うから、早く「新しい本」にタイトル/出版社を教えてくれ。
622は、「情報検索アルゴリズム」の本とは、言っていない。

単に、辻井先生の「新しい本」(分野は問わない)を読んでみたいの。(荒れないでね)
642デフォルトの名無しさん:2005/09/28(水) 14:08:05
もうおじいちゃんだから新しい発想は産まれなさそう。。。

40代の研究者でおもしろい人の本がいいな
643デフォルトの名無しさん:2005/09/28(水) 14:34:04
あり得ない無知さ加減と思い込みを指摘すると
今度は開き直りか。
つくづくおめでてぇなぁ。


だから最初から、

辻井先生が解説を書いた本
(この時点で辻井先生の著作ではない事が明確になっている)

の著作者の新しい本
と言っているだろう?

貴方の御専門がナニか存じないが、とりあえず
1.日本語の読解力を付ける事
2.見苦しい言い訳を重ねて周囲の失笑を買わないようにする事
をお勧めする。

あまりオイタが過ぎるようだと、そのうち数学者高山センセの日記ネタにされちまうかも
644デフォルトの名無しさん:2005/09/28(水) 14:42:03
>>643
>辻井先生が解説を書いた本
>(この時点で辻井先生の著作ではない事が明確になっている)
どの時点だか、発言番号と該当箇所を教えてくれ。
(荒れないでね。)
645デフォルトの名無しさん:2005/09/28(水) 14:52:17
>もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
>同じ著者の新しい本を読んでみたらどうよ?
なるほど、「同じ著者」が「辻井センセ」を指し示すのではないのね?

自然言語処理で、上の文の「同じ著者」の解釈を行う場合、「俺」、「オマエ」、
「辻井センセ」の3つを候補にして、最終的に「辻井センセ」を選択する
ように作り込むはずだが、その標準的な手法が使えない訳ね?


「出所」には、その「出所」の著者がいるから、それの著者も候補に入れて、
最適な解釈を行う、ということか? 機械処理では難しいかな?
646デフォルトの名無しさん:2005/09/28(水) 15:07:33
馬鹿スルー

さてと。
そろそろ駒場大数理科学研究科論博(自称)が書いたと称する学位論文が手元に届く頃合か。
実物よりも論文の中の人のほうが賢かったらどうしよう?(極めてありがち)
647デフォルトの名無しさん:2005/09/28(水) 15:10:34
論博論文の中に複数の人が居ることもありがち
648デフォルトの名無しさん:2005/09/28(水) 15:23:54
論博で不正をする人など居るわけないでしょ。

アレは、来日した目下の国家元首を叙勲するのと一緒で、
うるさくて聞き分けのないおっきなお友達を黙らせるために、教授会が投げ与える臣下の印みたいなもんだ、
どうみても無理のある論博の多くは。
>>645
長尾先生が10年近く前に出された分厚い本の7.1章、7.2章あたりの話題だな。

でも結局、一般常識や、対象領域に関する前提知識、はたまた正常な推論機能が欠落していると、
人間でも正しい照応をとれない。というサンプルが>>645なわけだ。

あり得ない照応に固執して、正しい答えを見逃すとは、
とんだ天然無能だな。

話が判ったら、もう二度と大人の会話に口出しするのは止めて、
さっさと巣にカエレ(藁
650デフォルトの名無しさん:2005/09/28(水) 16:13:51
いやむしろ、
いくら文章生成能力があっても、
対象領域に関する知識ベースや専門用語辞書が空っぽなまま横柄な口を利き続ける人工無能は、
まともな学習データにも教師信号にもありつけず
しょうがないから教師無し自己組織化で妄想ワールドを作り上げる

というサンプルだろ>>645は。
651デフォルトの名無しさん:2005/09/28(水) 17:16:08
どれが誰だか分からんからコテハンつけろ。
652デフォルトの名無しさん:2005/09/28(水) 17:25:45
安心しる。

おまい以外誰もそんな事気にして無いから、必要ねぇよ(ケラケラケラ
653デフォルトの名無しさん:2005/09/28(水) 17:53:45
人口無能が混ざっているみたいだけど
2chでチューリングテスト禁止。
654デフォルトの名無しさん:2005/09/28(水) 19:16:18
天然無能の書き込みはスルーで
655デフォルトの名無しさん:2005/09/28(水) 20:15:31
>>613
>もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
>同じ著者の新しい本を読んでみたらどうよ?
興味深い日本語なので、SENSEVALの日本語サンプルとして利用して
みてはいかがですか?

ttp://www.itri.brighton.ac.uk/events/senseval/
656デフォルトの名無しさん:2005/09/28(水) 21:45:38
ウルセェなぁー(笑

物理屋や数学屋、あと計算機屋ってぇのは伝統的に、
対象を正確かつ直感的に語るためには、自然言語の慣習を破る事も辞さないもんなんだよ。

嘘だと思うなら「御冗談でしょう?ファインマンさん」シリーズの原書を調べてみろ。
657デフォルトの名無しさん:2005/09/28(水) 22:21:38
出た「俺の根拠はお前が調べろ」
658デフォルトの名無しさん:2005/09/28(水) 22:38:57
>>649
>あり得ない照応に固執して、正しい答えを見逃すとは、
>とんだ天然無能だな。

Amazonのデータによると:
http://www.amazon.co.jp/exec/obidos/ASIN/4130654047/qid=1127913926/sr=1-2/ref=sr_1_10_2/250-3022624-7155455#product-details
言語と計算 (4) 確率的言語モデル 言語と計算
辻井 潤一 (著), 北 研二 (編集)

と、著者が「辻井 潤一 」となっていた。お前らの相手をさせていた俺が作った
人工無能のElizaは、Amazonのデータを利用して、613の文の「同じ著者」の照
応関係を処理している。

>>613
>もし万が一(笑)、上に俺が書いたのをオマエが引用した、辻井センセの解説の出所がわかるようなら(笑)、
>同じ著者の新しい本を読んでみたらどうよ?

人工無能Elizaが「同じ著者」を「北 研二」と解釈できなかったのは、Elizaのバグではなく、
Amazonのデータが間違っていたのが原因だった。
659デフォルトの名無しさん:2005/09/28(水) 22:39:26
馬鹿スルー
660デフォルトの名無しさん:2005/09/28(水) 22:50:02
>>656

おぃおぃ、異常者にエサを与えるな。
そいつ学歴と知能指数と専門知識に異常なコンプレックスを燃やす、
2ちゃんでも有名な嫌われ者の精薄なんだよ。
とにかく一切構わず相手にすんな。
661デフォルトの名無しさん:2005/09/28(水) 22:55:32
なんつーか、口調が物凄く頭悪そう。
人とコミュニケーション取る気ないのかね。
662デフォルトの名無しさん:2005/09/28(水) 23:16:03
なるほど。

公的機関から助成金受けながら「できませんでした」で逃げて会社を畳み、
懲りずにまた別のネタで金集めして他人に迷惑掛けまくる(予定の)香具師は、
2ちゃんでの言動も香ばしい事よのう。
663デフォルトの名無しさん:2005/09/28(水) 23:17:24
間違ってるのを言い訳し続けるのはありがちでかっこ悪いけど、
正しい事実を態度悪く書くだけで同レベルになってしまう不思議。

あんまり人目を気にしないのかな?
664デフォルトの名無しさん:2005/09/28(水) 23:19:56
それは誰の事だろう?

漏れは放送文化事業団の助成金など貰った事ないし。
665Mb:2005/09/28(水) 23:22:27
>>640
> 新しいJava版プログラムの開発、期待しております。私はこの研究開発
> 分野ではまだ若輩者に過ぎませんが、もし御力になれる事がありましたら
> ご連絡下さいませ
この分野(記述文法)では、七十・八十で現役の先生方がぞろぞろおられる
ので、漏れも「おしめも取れてない」とか「尻が青い」とか言われていい
年代だ。「若輩者」とかいって遠慮してると「腰が引けてる」とかいって
どつかれるので、漏れを見習ってでかい面をするように。
ついでながら連絡しようとしたらハネられたので、本気でその気がある
なら連絡するように。
666デフォルトの名無しさん:2005/09/28(水) 23:26:52
あと、情報量0でぐちぐち議論をかき回してる構ってチャンも、完全スルーな。

オマエと話してもナニも得る所が無いんだよ。平日昼間っから2ちゃんに入り浸りのゴミクズ風情が。
667Mb:2005/09/28(水) 23:34:51
> 平日昼間っから2ちゃんに入り浸りのゴミクズ風情が。
スマソm(_ _)m。それ言われると漏れもゴミクズだ。
記述文法の世界というのは日本国内に研究者が二十人いるかいないかという
程度にむちゃくちゃ狭いので、2ちゃんで愚痴るくらいしかストレスの
捌け口がないのだ。
自然言語処理スレに真面目に顔出しているような輩はおおむね「知人の知人」
程度の仲であり、どーせクズは全く眼中にないので放っといてやれ。
メアド晒しても喧嘩売ってくる度胸もない連中だし。
668デフォルトの名無しさん:2005/09/28(水) 23:54:57
>>662
>公的機関から助成金受けながら「できませんでした」で逃げて会社を畳み、
>懲りずにまた別のネタで金集めして他人に迷惑掛けまくる(予定の)香具師は、
巨額な研究費を使ったのに、研究成果が得られなかった元ICOTの研究者
を批判しているのでしょうか?
669Mb:2005/09/29(木) 00:00:56
> 巨額な研究費を使ったのに、研究成果が得られなかった元ICOTの
> 研究者を批判しているのでしょうか?
Tuned by 『青春時代』
1)期限以内の 十年で 答えを出すと 言うけれど
知能の果たした 役割を 何で測れば いいのだろう
*第五世代が 夢なんて 世間は勝手に 言うけれど
第五世代の 真ん中は 何も解らぬ 事ばかり

2)論理はすでに 美しい 時代を過ぎて しまったか
私は堅気(かたぎ)の 職を捨て AI(あい)に苦しむ 人となる
*(繰り返し)
670デフォルトの名無しさん:2005/09/29(木) 00:15:11
自然言語処理の分野の人って言うのは、なんか変な人多くないですか?

このスレも自然に荒れてるし。

671Mb:2005/09/29(木) 00:29:19
> 自然言語処理の分野の人って言うのは、なんか変な人多くないですか?
そもそも自然言語処理のベースになる「文法」っつーのは、言語の
使用者にとって“自明”であって、考察の対象にならないのが普通なんだよ。
機械翻訳や文語文法の専門家を除けば、文法というものは、本来意識され
ないものなんだ。
まして、我々の日常語である現代口語日本語の記述文法なんてものに
興味を持つ人間というのは、「変な人」以外ではありえないんだ。
自然言語処理の分野で実質的な成果を上げた人の九割は、
「言語」というものを客体として捉えることに長けた、
高機能広汎性発達障害だと漏れは断言する。
672デフォルトの名無しさん:2005/09/29(木) 06:49:43
変な人であることに執着し続けているさまが「私は他の人とは違うのよ!」的な主張が見え隠れしてキモイ

自然言語だけが特別なんじゃない
研究者はみなそんなもんだ
673デフォルトの名無しさん:2005/09/29(木) 07:22:29
視野が限定的過ぎて、他人と真っ当に会話できないのは研究者もオタクも一緒だな
674デフォルトの名無しさん:2005/09/29(木) 10:05:25
いや、とりあえず一緒に仕事する研究者なり開発者なり営業と話が通じればおっけなわけで。

#それすら通じないのが居るという事実は伏せておく方向で。
675デフォルトの名無しさん:2005/09/29(木) 10:51:25
で。
メールを送ったわけだがw
676デフォルトの名無しさん:2005/09/29(木) 20:15:36
>>646
ホレっ

 東京大学学位論文データベース
 ttp://gakui.dl.itc.u-tokyo.ac.jp/cgi/BookMain.cgi?CHK_FILE=BOOK_DTL_SEARCH.htm

 他研究科・他大学等の学位論文データベース (慶應義塾大学 理工学メディアセンター)
 ttp://www.scitech.lib.keio.ac.jp/etd/etdlink.html

 日本の大学の学位論文を探すサイト[工事中] (名古屋大学)
 ttp://www.gsid.nagoya-u.ac.jp/service/library/guide/dis.html

 博士論文書誌データベース (国立国会図書館・国立情報学研究所)
 ttp://dbr.nii.ac.jp/infolib/meta/CsvDefault.exe?DEF_XSL=default&IS_TYPE=csv&IS_STYLE=default&DB_ID=G0000016GAKUI&GRP_ID=G0000016

 NDL-OPAC (国立国会図書館提供。1984年以降受入分)
 ttps://opac.ndl.go.jp/Process
677デフォルトの名無しさん:2005/09/30(金) 20:02:36
高山先生、自然言語処理を語る

 ttp://www.ritsumei.ac.jp/se/~takayama/MathEssays/natlan.html
678デフォルトの名無しさん:2005/09/30(金) 20:11:42
ちらしの裏だな
>>678
 >>603
 
680デフォルトの名無しさん:2005/09/30(金) 20:16:32
高山ってオッサン、もう9年も論文出てないし有名じゃないのに
どうしてここで引用されるのか

本人か?w
681デフォルトの名無しさん:2005/09/30(金) 21:29:07
へぇ〜。やっぱ就業もせず2ちゃんに張り付いている馬鹿は風評を信じるんだねw

俺の聞いた話では、9年前にComputer Scientistは止めてMathematicianになったから、
一部の馬鹿が勘違いして騒ぎ立てているだけだと聞くけど。

またこの馬鹿は一分で即レスしてくるのかな(うひょひょ
682デフォルトの名無しさん:2005/09/30(金) 21:31:56
> どうしてここで引用されるのか

その理由は、彼は構成的論理プログラミングの経験があり、
なおかつ確率的言語モデルに一言持っている有名人だからですw
683デフォルトの名無しさん:2005/10/01(土) 08:26:39
無名だよ
684デフォルトの名無しさん:2005/10/01(土) 08:45:58
>>683
やめなって。
こういうタイプは自分の価値観が世界標準だと思ってるんだから。
685デフォルトの名無しさん:2005/10/01(土) 10:33:04
自然言語処理スレッドでせっかく確率言語モデルの話題振ってるのに、
徹底して低レベルなレスつけてる馬鹿が居るな。
そーゆー人生送っていておまえおもしろいのか?
686デフォルトの名無しさん:2005/10/01(土) 11:46:10
高山先生って、「駆け出し数学者ドイツに行く」って本を書いた人でしょ。
海外留学に関心がある人の間では、そこそこ有名人なんじゃないかな
687デフォルトの名無しさん:2005/10/01(土) 13:25:28
ベイシステクノロジーのライブラリを使ったことある人いる?
精度はどれくらいかな?
688デフォルトの名無しさん:2005/10/01(土) 17:05:34
それにしても、最近では極めて精度の高い機械翻 訳がリアルタイムでできる所まで
技術が進歩しているようである。私が機械翻訳をかじった頃から思えば夢のようなこと
である。法則の存在し得ない所で何年も頑張り、数理科学的に見ればアドホックで
強引なやり方で問題をねじ伏せるというのは、工学者の偉いところである。こういう
世界に入っていけるかどうかが、数学出身の計算機科学者が「ひと皮むける」かどうか
の試金石のひとつではないかと思う。この「ひと皮むける」ことを、「数学を忘れて堕落
する」と言い替えて良いものかどうか、私は知らない。
689デフォルトの名無しさん:2005/10/01(土) 19:46:28
自己の研究で、EDRを利用されている方は
いらっしゃいますか? どのような用途で
利用されていますか?
690デフォルトの名無しさん:2005/10/01(土) 22:36:09
現在のEDR辞書の配布元は、旧通総研(今の名前忘れた)と聞いているが、
入手には一体幾ら掛かるのだろう?
つか、今は実費程度と考えていいのかな?(詳しい方よろしく。)

あと、EDRを使った人の話はあまり聞いた事がないし(ニヤニヤ)、
長尾先生の本にも問題が多少あるような事が書かれているし(キッパリ)、
漏れはあまり食指が動かんな。
(本気で普及努力しているように見えない・・・何かマズイ事でもあるのか(笑、)
691デフォルトの名無しさん:2005/10/01(土) 22:55:30
結局あーゆーのは、奈良先端とか京大東大とか自然言語処理プログラムをオプソで公開してる所にきちんと売り込めていないと、
技術的にも信頼性の点でも、一般の開発者には普及しずらいと思う。

ところでアレの開発には幾ら掛かって、費用は誰が出していて、一体誰が儲けたのでしょうね?そして、本流の研究者/開発者はアレをどんな目で見ているのでしょうね?
・・・そこらへんのキナ臭さ、胡散臭さは、ICOTよりもシグマプロジェクトや再雇用促進事業団に近いような印象がないでも・・・あっナニをする、やめろー、俺は仮定の話を
692デフォルトの名無しさん:2005/10/01(土) 23:10:40
>>691
>ところでアレの開発には幾ら掛かって、
もしかすると、米国のWordNetよりも多くの予算がつぎ込まれて
いるかもしれない。米WNは、オープンソースで、欧州諸言語版の
一部は、有料のようだ。

日本語を対象としたWordNetっていうのは、無いのかな? 多言語
のオントロジーが利用できるので、便利だと思うが。
693デフォルトの名無しさん:2005/10/01(土) 23:13:53
元関係者だが、一部は国が援助してる
694デフォルトの名無しさん:2005/10/01(土) 23:16:58
EDRには、150億円以上の予算が使われた、と聞いたこと
(読んだこと?)がある。
695デフォルトの名無しさん:2005/10/01(土) 23:20:19
研究者へのばら撒きは歓迎だね
696デフォルトの名無しさん:2005/10/02(日) 00:11:46
>>691
なるほど。
つまり、アレのお役所側関係者にしてみれば、
 ・アレが、研究や実用とは乖離した無駄な投資として
  会計検査院に指摘されるような事はない、
  非常に実用に密着した、実用ニーズのある代物だ
と証明する必要に迫られていて、

そのためには
 ・アレを使った実用例を示す
か、あるいは
 ・アレを実用で使おうと努力したアリバイを残す
必要に迫られているわけね。(妄想100%)

だからアレとアレがあれしてこれしてあーなっているのか。納豆食ぅー。(妄想120%全壊)
697デフォルトの名無しさん:2005/10/02(日) 00:13:08
>>692
・セマンティック・ウェブ業界でとみに有名な、
 kanzaki.comの神埼さんが、WordNetを和英辞書で翻訳するという実験を過去にしていた。
 まぁ、和英辞書がWordNetを正確にマッピングするに足りる精度を持っているのかどうか、とか、
 そもそも日本語が英語と同じ語彙体系を持っているわけではないだろう、とか、
 いろいろツッコミどころがある話だが。ちなみに神崎さんは、コンサートホール関係が本業らしいです。
 (研究会か何かで一緒だった人の情報)

    日本語ウェブ・オントロジーの試み http://www.kanzaki.com/docs/sw/jwebont.html
    ちょっとしたメモ - WordNetと日本語シソーラス http://www.kanzaki.com/memo/2004/04/09-1

あとはオントロジー関係者かな。
溝口先生は、ウィノグラードの積み木の世界直系の「タスク・オントロジー」(タスク達成のためのオントロジー)とか。
698デフォルトの名無しさん:2005/10/02(日) 00:32:05
>>688
高山先生エッセイのコピペ乙。

前提条件抜きですべての場合に通用する万能な数学モデルというのが、
言語に関してホントに存在すると思っているとしたら、高山せんせは随分ナイーブな方だ。

言語のように、音と文字という二種類の表現を持ち、
人間の思考活動や社会文化活動の時間的変遷の上に成り立っている体系では、
それらバックグラウンドの影響を丁寧にときほぐして、法則の有効範囲を限定しないと、
そもそも法則など成り立たない、という事を「アドホック」と貶めているだけに見える。
699デフォルトの名無しさん:2005/10/02(日) 00:37:21
>>698
いや、高山センセは、自分はそーゆー仕事に向いていないが、
そーゆーアドホックに見える作業を続ける言語情報処理研究者に一定の尊敬の念を示しているのだろう。

>>696
果たしてそんなに簡単な話なのか。
憶測で人を悪く言うのは簡単だ。
だが、必ず道が開けると信じてEDR辞書を作り、
そしてその努力が決して無駄ではなかった、
自分達は決して無駄な作業をして怠けていたわけではないと、
あがき続ける姿にこそ、真の工学者の姿があるのではないだろうか。
700デフォルトの名無しさん:2005/10/02(日) 00:39:12
ネタにマジレス乙
701デフォルトの名無しさん:2005/10/02(日) 00:42:30
まぁ一連の関係者には、
産業創生大学院を設立している浜松ホトニクスの社長の爪の垢でも煎じて飲んで欲しいと思う。
社会の為の研究?それはyour own riskでやりなさい。それが資本主義というものだ。

  浜松ホトニクスが大学院大学を設立
  http://slashdot.jp/article.pl?sid=04/11/25/2157252
702デフォルトの名無しさん:2005/10/02(日) 07:03:19
■EDR辞書の開発/配布元

  元 開発元:    (株)日本電子化辞書研究所 (EDR)    http://web.archive.org/web/*/http://www.iijnet.or.jp/edr/J_index.html
      ↓
  (2002年3月31日解散)                       http://www.iijnet.or.jp/edr/J_index.html

  現 移管先:    情報通信研究機構(NICT)          http://www2.nict.go.jp/kk/e416/EDR/J_index.html

  現 問合せ窓口: (株)日本システムアプリケーション (JSA) http://www.jsa.co.jp/LANG

■EDR辞書の入手方法

  http://www2.nict.go.jp/kk/e416/EDR/JPN/Guide/Guide1.html
  ・利用許諾契約の締結が必要
   (1)基本的利用権 研究開発の権利。改変、編集可
   (2)個別利用権   製品販売の権利。
  ・利用料金は四系統ある。
   (1)研究利用料: 1)一括払い120マソ/1辞書、2)ランニングロイヤリティ方式20マソ/1辞書
   (2)商用利用料: 1)一括払い120マソ/1辞書、2)ランニングロイヤリティ方式売上金の10%/1辞書 (※)
   ※: 商用利用には、基本利用権と個別利用権の二つの契約が必要になる。
     詳細は上記URLを詳しく確認のこと。

■その他製品

  JSA(監/編)、「日本語動詞の結合価」(CDROM付き)、三省堂 (¥50,400)
           内容は、係り受け解析で使用される「格フレーム」=「名詞-格助詞-動詞」の組
           に冠する統計資料。
           元データとしてEDR共起辞書およびEDRコーパスが使用されている。

  過去に「共起辞書、共起辞書!」と見苦しく騒ぎ立てている人が居たが、
  彼は未だにこれを入手していないのではないか?基礎資料としての購入を何度も薦めたんだけどw
703デフォルトの名無しさん:2005/10/02(日) 07:17:33
元データがEDR辞書っつうのが泣けるな。

もっとも、これ相当のデータを○人月 (○は限りなく1に近い)で作れ!!!とか言い出して、
「三省堂の『日本語動詞の結合価』買えばぁ?」と返したら切れまくったアフォに比べりゃ、
随分まともに見えるけど
704デフォルトの名無しさん:2005/10/02(日) 07:28:58
>>689
結局、過去に利用された遺物と考えるのが妥当ではないか?
実際、NICTにあるEDR関連論文リストを見ても、
1999年以降は一部の研究者しか論文発表してないし。

  http://www2.nict.go.jp/kk/e416/EDR/JPN/Txt/Paper.txt
705Mb:2005/10/02(日) 07:52:38
EDRの発表はたしか青山の東京ガスかなんかのホールで行なわれて、
「この金額じゃ個人や零細の研究者にゃ手は出んな」と思って
ガックリ来た記憶がある。
会場に『新漢英辞典』の著者で日本一輪車協会の会長、春遍雀来
(はるぺんじゃっく)さんが来てたのが印象的だった。
706デフォルトの名無しさん:2005/10/02(日) 09:05:35
そーゆー公的投資が行われた資料の購入には、助成金を活用するのが一番だと思う。(還流経済っぽくてナンセンスだけど)
707デフォルトの名無しさん:2005/10/02(日) 10:59:20
>>698
>前提条件抜きですべての場合に通用する万能な数学モデル

確率モデルを生成する方法はすべての場合に通用するけど、
その確率モデルの精度が実用レベルかどうか、現状よりも優れたモデルをどのようにして作るか、
というのは今後も課題だろうね

バイオインフォマティクスあたりのパターン認識の連中が
超巨大なデータを効率的にモデル化しようとする試みが
自然言語処理にも還元されると面白いかなーと
708デフォルトの名無しさん:2005/10/02(日) 11:50:54
大学院で統計物理やったオイラの見解。

そもそも素過程(統計対象となる個々の事象)に関してある程度厳密なモデルが成立しないと、
正しい確率モデルってのは成立しないんじゃないかと思う。

統計物理の場合で言えば、それまで統計的現象として観察されていた熱物理や材料工学を、
粒子間相互作用の統計的描像として再構築し、あるいは統計から素過程を推測する筋道を確立した事が、重要だった。
もちろんまだ統計物理でうまく扱えていない対象もあるが。(例えば超伝導)

ひるがえって自然言語の確率モデルはどうだろう。
・隠れマルコフモデル: 日本語のような膠着語かつ依存文法の言語であっても、
               形態素の並びには一定の法則性(品詞/活用形/例外的な形態素)が見られる筈だ。
・格フレームモデル:  係り受け解析では、名詞の格を決める格助詞や、名詞、動詞の概念的関係が重要
               なので、それを辞書データとして半自動もしくは人手で作成する。
・接続詞と文間関係:  (略)
etc, etc.
最初の一個を除いて、とても確率的モデルとは言えないような代物だ。
むしろ、統計的手法を駆使して、統計的に言語文法を再構築する試み、と言い切ってしまった方が良いのではないか。


バイオインフォマティックスのパターン認識だとか超巨大データだとか言い出してるのは、
相変わらず頓珍漢だからスルー。
709デフォルトの名無しさん:2005/10/02(日) 12:01:17
>>707
 >>603
 議論の流れも理解できずにテキトーなクチバシつっこむな屑
710デフォルトの名無しさん:2005/10/02(日) 12:17:30
>>705
新漢英辞典って初めて聞きました。
 http://www.kanji.org/kanji/dictionaries/njecd/njecd.htm
どんな目的で使われるものなのでしょうか
711デフォルトの名無しさん:2005/10/02(日) 16:00:29
http://ibis2005.bayesnet.org/
これに出る人いる?
712デフォルトの名無しさん:2005/10/02(日) 16:04:01
隠れマルコフモデルよりも上位のモデルといえば確率文脈自由文法
http://watanabe-www.pi.titech.ac.jp/~zaki23/MSF/MSFindex.html
713デフォルトの名無しさん:2005/10/02(日) 16:16:52
( ゚Д゚)ポカーン

このスレ、不勉強な人が多すぎね

バイオ自然言語処理への期待
http://itpro.nikkeibp.co.jp/free/NIP/NIPCOLUMN/20050224/156656/
714デフォルトの名無しさん:2005/10/02(日) 16:26:30
得意そうにgoogleの検索結果をひけらかす前に、
まず長尾先生の分厚い本を購入する事をオススめする。

よくいるんだよなぁ、
形式文法(辻井先生の分類の(2))と、
自然言語解析(同(1))の区別も付かないのに
シャシャリ出てくるスカポンタンが
715デフォルトの名無しさん:2005/10/02(日) 17:22:00
>>713
なんだバイオ/医学文献のテキストマイニングの話題か。
その分野なら随分前から話題に上っているな。
人ゲノム解析関連分野の報告が毎月膨大な分量にのぼっちまって最早、
人間技では研究の最先端状況が把握出来なくなっているという(笑。
たしか国内メーカ系SIerでNLP撤退とかいってたアソコや、財閥系SIerでこの分野の基本特許出願したアソコも、bio業界向けNLPをやってたと思う。

テラバイト単位とかPerlでとかいうのは素人妄想だと思うが(爆笑
716Mb:2005/10/02(日) 19:14:59
>>710
> 新漢英字典って初めて聞きました。
> どんな目的で使われるものなのでしょうか
「在日外国人が日本の漢字の意味を知るため」です。
ハルペン・ジャックさんはクロード・チアリさんや
ツルネン・マルテイさんやピーター・フランクルさんと
同じく、ぶっちゃけそこいらの日本人より日本人な
(つーか国籍が日本だから、まんま日本人なんですが)ヒトです。
717デフォルトの名無しさん:2005/10/03(月) 14:05:34
>>715
>なんだバイオ/医学文献のテキストマイニングの話題か。
「生成語彙」(1995)で有名なPustejovskyは、LREC2002での
特別講演で「バイオ/医学文献のテキストマイニング」の話を
していたね。「生成語彙」が「テキストマイニング」とどう関係
しているのかが、俺にはよく理解できなかったが。

日本語でGenerative Lexiconの枠組みの研究を進めているグループは
ありますか?
718デフォルトの名無しさん:2005/10/03(月) 15:46:37
うわ、ようやく新しいお勉強ネタが出てきたな。
なんか似たことをやってる気がするんだけど、どこに質的な違いがあるのかよくわからんw

Pustejovskyの本、八重洲ブックセンターにあるかな。
いやその前に、「院生/実務者にも判る生成語彙」みたいな日本語の解説書見つけなきゃな。

>>717 漏れはハッタリとか不得意で、正直ベースで対応しますが、なにとぞよろしく。
719デフォルトの名無しさん:2005/10/03(月) 15:54:14
最近の座右の銘は「爽やか系逝け面」だったりするw
720デフォルトの名無しさん:2005/10/03(月) 15:54:19
>>718
>うわ、ようやく新しいお勉強ネタが出てきたな。
最近だとこれ:
http://www.issco.unige.ch/gl2005.html

日本人が一人、Program Committeeに入っている。
Hitoshi Isahara (National Institute of Information and Communications Technology, Kyoto)

この研究機関が、日本でのGLの中心か?
721デフォルトの名無しさん:2005/10/03(月) 16:24:03
NII指して「この研究機関」はないでしょ、「この研究機関」わ。
やっぱり・・・
722デフォルトの名無しさん:2005/10/03(月) 16:25:50
やっぱ図書館から八重洲に走るのは取りやめ・・・た方がよさそうな気配が
723デフォルトの名無しさん:2005/10/03(月) 16:30:00
>>721
NIIは 〜 of Informatics
そもそもNIIの所在地は千代田区一ツ橋。
724デフォルトの名無しさん:2005/10/03(月) 17:14:45
>>721
>NII指して「この研究機関」はないでしょ、「この研究機関」わ。
このページの下にあるSponsorsでは、NIIとは表記せずに、NICTとなっていた

http://www.issco.unige.ch/gl2005.html
>National Institute of Information and Communication technology (NICT), Japan

>>721
>NIIは 〜 of Informatics
NIIとNICTとは別の研究機関ではないか?
(InformaticsとInformationもちがう。所在地も違う。)
725デフォルトの名無しさん:2005/10/03(月) 17:33:58
Googleの検索結果

0件:NICT +”National Institute of informatics and Communication technology”
143件:NICT +”National Institute of information and Communication technology”

AmazonとGoogleのデータを利用している人工無能ElizaのQA機能は、
NICTの"I"は"information"の頭文字だと判断した。
726デフォルトの名無しさん:2005/10/03(月) 18:03:30
馬鹿スルー。

頭おかしいのが平日昼間っから
google検索結果を必死で書き込んでくる展開はもうたくさん。

上の方でEDRの移管先説明したばっかだというのに
この馬鹿は何をトンチンカンな事くどくどと言い続けてるんだ
727デフォルトの名無しさん:2005/10/03(月) 18:12:44
NICTをNIIと混同する方もバカだが
それを指摘したレスをそうと読み取れない奴もすげーバカ。
728デフォルトの名無しさん:2005/10/03(月) 18:55:30
馬鹿スルー。

スレ汚すな浮浪者
729デフォルトの名無しさん:2005/10/03(月) 19:09:11
浮浪者って2chできるの?
730デフォルトの名無しさん:2005/10/03(月) 19:59:38
>>727
>NICTをNIIと混同する方もバカだが

>>721, 723
731デフォルトの名無しさん:2005/10/03(月) 20:02:40
>>730は何が言いたいのだろうか
732デフォルトの名無しさん:2005/10/03(月) 21:08:58
馬鹿スルー。

NICT=情報通信研究機構=旧郵政省通信技術総合研究所

NII=旧文部省国立情報学研究所

前者は衛星関係やってた時に、センサを分担したり、研究者の移動があった先だから、
多少は知ってる。
後者は、職場の上司が一緒に仕事してた研究者が移籍した先だから、やっぱ多少知っている。

所詮知ってるだけで、直接一緒に仕事した事はないがw
733デフォルトの名無しさん:2005/10/03(月) 21:13:19
馬鹿スルーばっか繰り返す馬鹿スルーw
734 :2005/10/03(月) 23:46:54
 
 
 
 
 
 
 
 
 
 
735デフォルトの名無しさん:2005/10/03(月) 23:59:12
>>717
私が欲していたキーワードを挙げて頂きまして、誠にどうもありがとうございます。

本日早速、Pustejovsky, "Generative Lexicon", MIT Prs. 1995 を注文し、
日本語解説文書として郡司隆男 他, 「岩波講座 言語の科学(4) 意味」, 岩波書店 1994 を購入致しました。
(くろしお出版の本は、本日は見送りました。言語学の本を探すのに三つのフロアーを探すのが面倒でだったもので)
岩波講座の本は、第四章をNAISTの松本先生が執筆しており、4.3(b)節に生成語彙の解説が載っていたので即買いでした。

で、自分なりの生成語彙の解釈は・・・。恥ずかしいからもうちょっと寝かせてから語る事にします(ポッ、顔真っ赤。
やっぱ八重洲ブックセンターはいいなぁ。お姉さん親切だし、近所には同類おねえたんがイパーイうろちょろしてるし。

業務連絡:チビッ子チームの彼、この本に目を通しておいた方がイイよ。お兄さんは言語の科学シリーズをコンプリートする予定だ
736735:2005/10/04(火) 00:01:39
誤植訂正。

1. 「意味」の発行年度は2004。
2. このスレ的に漏れはお姉たんでした。スマンコ
737デフォルトの名無しさん:2005/10/04(火) 00:18:02
ルネ・トムの「ことばのカタストロフィ」教えてくれたMb氏といい、
Pustejovskyの「生成語彙」教えてくれた>>717氏といい、
このスレはすごくいい人が多いですね。

・・・まさか2ちゃんがこれほど役立つとは思ってもみませんでした。
諸先輩の皆様、どうかこの私を調教すると思って、
イロイロ教えてください。お願い☆チュ
738デフォルトの名無しさん:2005/10/04(火) 00:54:15
にこーり、うずうず。きゃはははは
739デフォルトの名無しさん:2005/10/04(火) 13:45:18
上の方で、平日昼間っから検索エンジンの結果を必死で書き込んでた匿名の彼、
昨晩は静かだと思ってたら、影であたしのメアドに迷惑メールを14通も送ってた(こわ
まあ全部、某社のベイズ・フィルターが却下してくれたけどね(ていのー

熱烈ラブコールありがとぅね。でもあたしはサルと付き合うつもりないの。残念ね(きゃはははは
740デフォルトの名無しさん:2005/10/04(火) 16:04:08










741デフォルトの名無しさん:2005/10/04(火) 21:19:03
主催:東北大学21世紀COEプログラム(言語認知総合科学)
第5回「言語・脳・認知」国際学術フォーラム
計算機科学と脳科学から見た自然言語: 統合的視野を求めて
http://www.lbc21.jp/TEMP/forum5j.htm

これだけのプログラムで、参加費無料はすごい!
742Mb:2005/10/04(火) 21:58:29
> ……まさか2ちゃんがこれほど役立つとは思ってもみませんでした。
つーか「公開型の BBS」が、だろうな。
雑音を除いてみれば、メディアとしての独自性・有効性はかなり高いと
(草の根BBS出身の漏れとしては)前々から思っているのだよ。
もはや絶版になって久しいと思うが、どっかの古本屋で
アーサー・C・クラーク先生とピーター・ハイアムズ監督の
『オデッセイ・ファイル』(書籍だ)を見つけたら手に取ってみてくれ。
“電子掲示板”も“電子メール”も一般的でなかった時代に、
コンピュータというメディアに我々がどんな希望を抱いていたか、
解ってもらえると思うから。
743デフォルトの名無しさん:2005/10/04(火) 22:08:55
うん。
漏れも某大手BBS運用元で
サイボウズと同時期にライバル商品企画したり、
はたまたhotmailと同時期にAjax風Webメール開発してた当時から、
BBSってスゴイと思ってた。
つか、冷戦&終末観&反戦ピースの時代に
インターネット企画した人って凄いと思う。

優しい心は、きっといつか、人を動かすんだね
744デフォルトの名無しさん:2005/10/05(水) 03:17:49
EDR辞書め、税金垂れ流しで使っときながら、個人じゃ買えない
値段で売るとは何事だ!即刻フリーにしろ!
って誰も言わないのはなぜ?ここ関係者多いの?
> アーサー・C・クラーク先生とピーター・ハイアムズ監督の
> 『オデッセイ・ファイル』(書籍だ)を見つけたら手に取ってみてくれ。
> “電子掲示板”も“電子メール”も一般的でなかった時代に、
> コンピュータというメディアに我々がどんな希望を抱いていたか、
> 解ってもらえると思うから。

アーサー・C・クラークは初期のパソ通のユーザだったようですね。
機会があったら探して読んでみます。

工学社「ハッカーズ」に出てくる「コミュニティ・メモリ」もなかなか良いお話です。
「コミュニティ・メモリ」とは、1970年代初頭にサンフランシスコのレコード店に設置された、
おそらく世界最初のフリーBBS(掲示板)です。
746デフォルトの名無しさん:2005/10/07(金) 20:04:52
Generative Lexicon キタ―
747デフォルトの名無しさん:2005/10/08(土) 11:53:45
読みやすそう?
748デフォルトの名無しさん:2005/10/08(土) 14:39:30
>>717
どうもこのスレは人が少ないようなんで、
そちらのスレに移ることにします。
あっ、、、という間に脳科学関連の話題に突入かぁ。ヤレヤレ
749デフォルトの名無しさん:2005/10/08(土) 18:40:58
> 位相幾何を使うっていうのはどうやって使うっていうことなのかな
> ルネ・トムとかって言うなら、たとえばマルコフ連鎖を力学系として見て
> そのカオス的振舞いが、とかそんな感じなのかなあ

とりあえず、ルネ・トムの「ことばのカタストロフィー」は、
言語モデル面では「格フレーム」もしくは「概念依存 (Conceptual Dependency)」に相当するアイデア
を提供していると理解しました。
もっとも、時空間プロセスのカタストロフィー理論的性質が、人間の時空間認識に大きな影響を与え、
最終的に「動詞と、動詞に付属する名詞の型」を類型化する、という説は飛躍があるような気がしました。
複雑系の話は興味深いのだけど、本当に言語理論と関係あるのかなぁ?


> シソーラスの話とからめてくるなら、単語と単語の間の距離みたいのを算出する
> (近い概念は距離が小さくて遠い概念は距離が大きい)とかってのを見たことが
> あるけど、それは距離位相を入れてることになるけどそうじゃなくて一般の位相を
> たとえば一つの型に属する単語全体が開集合、とかってして定義すれば
> 位相数学が展開できるような気はしないでもない

この件、現在悩まされている&これから悩まされる予定の人が居るような気が・・・。
工学的な見通しをよくするために、閉世界仮説に対応して閉集合の話になってるような気が・・・。
あと、型理論抜きで、展開できる話なのかなぁ?って直感的に思ってしまいます。
位相幾何に疎い私には、なんの事やらよくわかりませんが。

もし可能なら、もうちょっと詳しい説明を頂けると幸いです。
750デフォルトの名無しさん:2005/10/08(土) 18:47:05
>>749
誤爆でっせ。

あえて横レスするなら、
「型理論」と「位相幾何」という異なるアプローチを取ってはいるが、
扱っている対象はほとんど同じで、表現が違うだけなのではないか?
というきがする
751デフォルトの名無しさん:2005/10/10(月) 17:32:25
最近停滞気味だけど、このスレって見てる?

生成文法総合スレ <16>
http://academy4.2ch.net/test/read.cgi/gengo/1116891922/
752デフォルトの名無しさん:2005/10/10(月) 17:56:16
相変わらずオマエのネタは
検索結果ばっかだなぁ(苦笑

普通人が休みの日に他人の書き込みに一々粘着してて、愉しいのかい?
このストーカー野郎
753デフォルトの名無しさん:2005/10/10(月) 20:50:06
五十歩百歩にしか見えん
754デフォルトの名無しさん:2005/10/10(月) 21:20:07











                              相変わらず必死な人だなぁ。









755デフォルトの名無しさん:2005/10/10(月) 22:10:37
>>751
>生成文法
Chomskyの現在の理論を自然言語処理に応用している研究者は
いますか? HPSGなどは、日本語にも応用されているし、LFG
はドイツ語、英語、日本語の自然言語処理に応用されている。

これ以外の言語理論が使われている例はありますか?
756751:2005/10/11(火) 14:15:52
漏れ自身はその辺フォローしてないので直接生成スレで聞いてみて。
757デフォルトの名無しさん:2005/10/11(火) 16:47:15
長尾先生の『自然言語処理』(1996年、岩波)に出てくる理論言語学者
は、生成文法のチョムスキー。HPSG, LFGはp.169で紹介されているが、
それそれの言語理論を提唱した言語学者の名前が出てこない。
758デフォルトの名無しさん:2005/10/11(火) 20:30:23
生成スレはあんまり読みたくないなあ。けど興味あるから、結果返ってきたら
ここにも教えてね。

ボクの感じだと、LCS が結構使えそうってことになってる気がする。OT はコ
ンピュータに載せることも考えた割には実用が遠そう。MP はえーと生成スレ
の結果待ちってことで。生成意味論の生き残りの Seuren が吠えてるのは徒花
なんだろうな。
759デフォルトの名無しさん:2005/10/11(火) 21:12:13
日本語関係の文法理論で、自然言語処理に利用されているもの。

LFG: 富士ゼロックス
http://72.14.203.104/search?q=cache:vTvXJRnN2U8J:www.fujixerox.co.jp/research/category/ii/document/01details.html+LFG+日本 alto&hl=ja

辻井研究室の助手さん:
http://72.14.203.104/search?q=cache:1IPclrSupQ0J:www.is.s.u-tokyo.ac.jp/~vu/96/lab/tsujii/torisawa.html+HPSG+辻井&hl=ja

LCSなどは、日本語自然処理で使われているか?


760752:2005/10/12(水) 00:28:31
>>755
 外国語の構文解析の話題ですか。
 確かに興味深い話題ではありますね。

 興味深い話題ではありますが・・・
 上の>>712, >>751と同様、>>1を丸きり無視されるのは、
 無作法な振る舞いと感じます。

 自然言語解析の現状として、
 言語毎に使用する手法に乖離がある事を踏まえると、
 別スレで議論を行っていただくのが筋と考えます。
 反論も別スレでよろ
 
761752:2005/10/12(水) 00:32:34
>>759
 >>603
 >>654
 >>752
 を参照のこと
762デフォルトの名無しさん:2005/10/12(水) 00:36:31
>>755-759
なんだ、確率的言語モデルもタイプ理論もわからないから、
スレ違いのネタをグーグルから拾ってきて議論妨害かよ
このキチガイは。

本当に痛い奴だな
763デフォルトの名無しさん:2005/10/12(水) 01:34:10
>>762 複数の人を一人と思って煽る痛い芸風はもうあきた。

>>759 LCS は日本語の辞書もできてきたし、係り受けで実用に
つなげられそうなプロトタイプはいろいろと。
764デフォルトの名無しさん:2005/10/12(水) 01:54:18






765デフォルトの名無しさん:2005/10/12(水) 12:00:30
>>715
おお、それと似た状況、酸化物高温超伝導フィーバーで見た事がある。
当時はインターネットもろくに普及していなくて、
「研究室にインターネット入れてもいいけど、本当に研究の役に立つんかよ。
 せめてBullettIn(最新成果の要約)ぐらいネットで入手できんのか」
って実験系のセンセがこぼしてた。
当時すでに素論分野では研究活用されてたけどね。
766デフォルトの名無しさん:2005/10/12(水) 12:15:16
>>758, >>769
語彙概念構造(LCS)とはなかなか興味深い話題ですね。
より詳しい解説を是非お願い致します。

ちょっとググった範囲では(笑、LCSとは
 ・構文解析→意味解析で必要となる、
  単語間の関係 (統語規則、意味規則) を網羅的に体系化したもの
 ・LCSの一種として、GL (Generative Lexicon)、FramNet 等がある
といった感じでよろしいでしょうか(笑

もし研究分野の本流でこれが実用化に近いとおっしゃるなら、
これを傍流でほそぼそやってるあそこの村は、もう長いことないな
767デフォルトの名無しさん:2005/10/12(水) 22:17:31
ごめん、今日疲れはててて、どこまでマジでどこまでボケか考える気力
ないから、つっこんであげられない。とりあえず日本語で読める入門なら、
語彙構成構造(LCS)なら影山太郎先生、生成語彙論なら小野尚之先生で
さがしてみて。それから元にもどってみると分かりやすいと思うんで。
768デフォルトの名無しさん:2005/10/12(水) 22:58:45
日本語の語彙概念構造辞書も公開されていた。

ttp://cl.it.okayama-u.ac.jp/rsc/lcs/index.html


1262語の語彙が登録されている。

語彙概念構造辞書は、GL (Generative Lexicon)というよりも、
Ray Jackendoffの言語理論を採用しているような感じだ。
769デフォルトの名無しさん:2005/10/13(木) 08:36:01
相変わらずコアの説明は避けて通り、
amazon情報とgoogle情報だけ

というあたりにどうしようもない素人臭さを感じた
770デフォルトの名無しさん:2005/10/13(木) 08:37:37










771業務連絡:2005/10/13(木) 09:37:26
チビっ子チームの彼、>>768に目を通しておいた方がイイよ。これがお兄さんにできる精一杯の誠意って奴なんだ
772デフォルトの名無しさん:2005/10/13(木) 20:17:59
Result of JUMAN

Input: チビっ子チームの彼、768に目を通しておいた方がイイよ。

チビ チビ チビ 未定義語 カタカナ - - NIL
っ子 っこ っ子 接尾辞 名詞性名詞接尾辞 - - NIL
チーム ちーむ チーム 名詞 普通名詞 - - "代表表記:チーム"
の の の 助詞 接続助詞 - - NIL
彼 かれ 彼 名詞 普通名詞 - - "漢字読み:訓 代表表記:彼"
、 、 、 特殊 読点 - - NIL
768 768 768 未定義語 その他 - - NIL
に に に 助詞 格助詞 - - NIL
目 め 目 名詞 普通名詞 - - "漢字読み:訓 代表表記:目"
を を を 助詞 格助詞 - - NIL
通して とおして 通す 動詞 - 子音動詞サ行 タ系連用テ形 "付属動詞候補(基本) 代表表記:通す"
おいた おいた おく 接尾辞 動詞性接尾辞 子音動詞カ行 タ形 NIL
方 ほう 方 名詞 副詞的名詞 - - NIL
が が が 助詞 格助詞 - - NIL
イイ イイ イイ 未定義語 その他 - - NIL
よ よ よ 助詞 終助詞 - - NIL
。 。 。 特殊 句点 - - NIL


773デフォルトの名無しさん:2005/10/13(木) 20:18:46
Result of JUMAN

Input: これがお兄さんにできる精一杯の誠意って奴なんだ

これ これ これ 指示詞 名詞形態指示詞 - - NIL
が が が 助詞 格助詞 - - NIL
お お お 接頭辞 名詞接頭辞 - - "代表表記:御"
兄さん にいさん 兄さん 名詞 普通名詞 - - "代表表記:兄さん"
に に に 助詞 格助詞 - - NIL
できる できる できる 動詞 - 母音動詞 基本形 "代表表記:出来る"
精一杯 せいいっぱい 精一杯 副詞 - - - "代表表記:精一杯"
の の の 助詞 接続助詞 - - NIL
誠意 せいい 誠意 名詞 普通名詞 - - "代表表記:誠意"
って って って 助詞 副助詞 - - NIL
奴 やつ 奴 名詞 普通名詞 - - "代表表記:奴"
な な だ 判定詞 - 判定詞 ダ列基本連体形 NIL
んだ んだ んだ 助動詞 - ナ形容詞 基本形 NIL
\ \ \ 特殊 空白 - - NIL


774デフォルトの名無しさん:2005/10/13(木) 20:22:12
wincha

チビチビ未知語
っ子っ子名詞-接尾-一般
チームチーム名詞-一般
のの助詞-連体化
彼彼名詞-代名詞-一般
、、記号-読点
768768未知語
にに助詞-格助詞-一般
目目名詞-一般
をを助詞-格助詞-一般
通し通す動詞-自立
てて助詞-接続助詞
おいおく動詞-非自立
たた助動詞
方方名詞-非自立-一般
がが助詞-格助詞-一般
イイイイ未知語
よよ助詞-終助詞
。。記号-句点
EOS
775デフォルトの名無しさん:2005/10/13(木) 20:22:49
wincha

これこれ名詞-代名詞-一般
がが助詞-格助詞-一般
おお接頭詞-名詞接続
兄さん兄さん名詞-一般
にに助詞-格助詞-一般
できるできる動詞-自立
精一杯精一杯名詞-副詞可能
のの助詞-連体化
誠意誠意名詞-一般
ってって助詞-格助詞-連語
奴奴名詞-代名詞-一般
なんなる動詞-自立
だだ助動詞
EOS
776デフォルトの名無しさん:2005/10/13(木) 21:05:37
で、さぁ(ワラ
新入社員の彼ら、保険の手続きまだ終わってないみたいだけど。
本当にあんな所に人生かけちゃって大丈夫なの?
777デフォルトの名無しさん:2005/10/13(木) 21:07:32
メーカの棒流子飼社からの遺跡だから、大差ないでしょ。
二、三年後、元の下位社なくなってるかもしれないし(禿ワラ
778デフォルトの名無しさん:2005/10/13(木) 21:09:33
>>767-768
誰でもgoogleやamazonで拾える情報はもうイイからさぁ、
そろそろLCSの講釈始めて頂けませんか?

ってgoogleとamazonしか情報源の無いひとに言っても無駄か
779デフォルトの名無しさん:2005/10/13(木) 21:21:58
自然言語処理の分野の研究は、論文等をWebで公開するのが
普通。Googleで拾えない情報は少ない。
780デフォルトの名無しさん:2005/10/13(木) 21:50:27
>>778
教えて君のくせにえらく態度でかいな。w
781デフォルトの名無しさん:2005/10/13(木) 22:32:40
はぁ?態度でかい?

てめぇが話題振ってくるから、しょうがなし付き合ってやってるんだろうがクズ
782デフォルトの名無しさん:2005/10/13(木) 22:35:27
>>781
無理言うなって。

所詮 >>779程度の認識なんだから、
相手するだけ時間の無駄無駄
783デフォルトの名無しさん:2005/10/13(木) 22:54:25
>>767
> 今日疲れはててて、どこまでマジでどこまでボケか考える気力
> ないから、つっこんであげられない。

なんだ。もしかして
 ボケが入っている
とでも思い込んでるのか。
とんだド素人だな。

大体 >>766書いた当人だって突っ込みどころが判ってるのに、
> 今日疲れはててて
はぁ?もしかして普段は自然言語解析なんて全然やってなくて、
突っ込みどころがわかってないんじゃねぇの(ぷげら

ちなみに、突っ込みどころはすでにこの板の別スレに書いた。
784デフォルトの名無しさん:2005/10/13(木) 23:26:40
>>781
別につきあってくれなくていいんだよ、このハゲ!
785デフォルトの名無しさん:2005/10/14(金) 11:43:29
なんだ、やっぱり口先野郎だったんかい。
786デフォルトの名無しさん:2005/10/14(金) 11:58:43
北研二『確率的言語モデル』(東京大学出版会、1999年)

「言語モデル」となっているが、形態素解析、構文解析の中心で、
構文から意味構造へのマッピングの説明がない。語義の曖昧性
解消(WSD)に関しては、短い説明だけ(pp.198-199)

意味構造へのマッピングは、どうなっているのだ?! 30年前の
「格フレーム」から進歩していないのか?

787デフォルトの名無しさん:2005/10/14(金) 12:26:49
その先生、もう言語モデルから引いてるから。
788デフォルトの名無しさん:2005/10/14(金) 12:46:47
>>786
あなたはどうせ毛嫌いしているのでしょうが、
単一化文法から派生した手法、たとえばHPSGでは、
「素性構造」という形で意味構造へのマッピングしてると思うけど。

あれは見なかった事にして、ひたすら確率的言語モデルにすがるのですか?
789デフォルトの名無しさん:2005/10/14(金) 12:49:36
あと、曖昧性解消、格フレームつう古い話題wや、、概念辞書に関しては、
上の方で話題になっている「生成語彙(Generative Lexicon)」周辺の動きが興味深いですよ。

井の中に居た時は気付かなかったけど、
結局あなたが言っている事柄の数歩先の研究が進んでいるってこと。
790デフォルトの名無しさん:2005/10/14(金) 12:53:13
>>767
> 語彙構成構造

これ、英語でなんて書くの?
なかなか興味深い単語だな
791デフォルトの名無しさん:2005/10/14(金) 13:02:45
>>788
>単一化文法から派生した手法、たとえばHPSGでは、
この研究だと、ICOTの時代から、郡司 隆男さんが有名だが、
あれから20年たって、現在、日本語のHPSGを実装したシステム
は稼働しているのでしょうか?
792デフォルトの名無しさん:2005/10/14(金) 13:12:14
>>791
はぁ?なんでそんな古い話題にばかり固執するの?

妙なハッタリ飛ばして人に迷惑かける前に、
過去の研究動向をちゃんと自分で調べたほうがいいんじゃない?
そんなこと匿名掲示板で聞く前に。
793≠791:2005/10/14(金) 16:05:32
なんか一人息巻いてるヤシがいるよな。
別に専門家限定スレでもあるまいに。
794デフォルトの名無しさん:2005/10/14(金) 17:42:01
↑↑↑
795デフォルトの名無しさん:2005/10/14(金) 17:52:01










796デフォルトの名無しさん:2005/10/14(金) 18:13:31
>>792
>そんなこと匿名掲示板で聞く前に
匿名掲示板でないと、気軽に馬鹿な質問はできない。

日本語の自然言語処理関連の署名入り掲示板では、
活発に議論がされているか? このスレのレスを見ると
自然言語処理の人間は興奮しやすいようなので、
署名入り掲示板でも荒れそうだ...
797デフォルトの名無しさん:2005/10/14(金) 18:44:06
90年代に大学で自然言語研究していた研究者崩れが
昔の知識で語っているスレはここですか?
798馬鹿スルー:2005/10/14(金) 18:45:06
おまえこのスレに何しに来てんの?
799デフォルトの名無しさん:2005/10/14(金) 18:52:58
Result of JUMAN
Input: おまえこのスレに何しに来てんの?
おまえ おまえ おまえ 名詞 普通名詞 - - "代表表記:御前"
この この この 指示詞 連体詞形態指示詞 - - NIL
スレ スレ スレ 未定義語 カタカナ - - NIL
に に に 助詞 格助詞 - - NIL
何 なに 何 感動詞 - - - "代表表記:何"
しに しに しぬ 動詞 - 子音動詞ナ行 基本連用形 "代表表記:死ぬ"
来 らい 来 接頭辞 名詞接頭辞 - - NIL
てん てん てん 名詞 普通名詞 - - "漢字読み:音 代表表記:典"
の の の 助詞 格助詞 - - NIL
? ? ? 特殊 記号 - - NIL
\ \ \ 特殊 空白 - - NIL


しに、の解析に失敗
800デフォルトの名無しさん:2005/10/14(金) 19:17:32
>>786
君は自称数学屋(?)という立場にあぐらをかいて、いつまでも30年前の理論に拘泥するんじゃなくて、
もっと最近の他所の研究動向に目を向けた方がいいと思うよ。

例えば岩波「言葉の科学(4)意味」イントロに、意味論研究の系譜が載っており、これがなかなか興味深い。
立場はいろいろあれど、これ読んだ人なら、君がいつもやっているような荒唐無稽な主張には耳を貸さないんじゃないかな。
801デフォルトの名無しさん:2005/10/14(金) 19:21:09
>>797
その話、さっぱり裏が取れないんで、
もっと詳しく(w
802デフォルトの名無しさん:2005/10/14(金) 20:09:55
>>800
>例えば岩波「言葉の科学(4)意味」
著者には、郡司 隆男さん名前が出ており、 >>792
「なんでそんな古い話題にばかり固執するの?」と
絡まれそうなので、読んでいいものか...

「岩波講座 言語の科学〈4〉意味」
著者:郡司 隆男 (著), 白井 賢一郎 (著), 松本 裕治 (著), 阿部 泰明 (著), 坂原 茂 (著)

他の著者も、理論言語学者が多そうなので、実装出来ないような
言語学者の<お遊び>理論が多いと、読みたくはないが、興味は
あるので、もう少し情報をいただけますでしょうか?
803デフォルトの名無しさん:2005/10/14(金) 20:37:53
まずは自己紹介するのがマナーかと。
804デフォルトの名無しさん:2005/10/14(金) 21:17:20
名前はエライザ。perlによるパターンマッチングで、
レスに自動返答する。情報検索はamazonとgoogle
を利用して、もっともらしいURLをコピペするので
人間と勘違いされることがある。
805Mb:2005/10/14(金) 23:06:54
>>802
ぶっちゃけ白井賢一郎先生は実システムの開発(つまりは自然言語処理)には
なんら寄与しておらんように思う。
「可能世界仮説」とか言われても、インプリメントのしようがない……
806デフォルトの名無しさん:2005/10/15(土) 00:37:47
>>802

> 理論言語学者

バカ?
807デフォルトの名無しさん:2005/10/15(土) 02:22:22
>>802 名前: デフォルトの名無しさん [sage] 投稿日: 2005/10/14(金) 20:09:55
> >>800
> >例えば岩波「言葉の科学(4)意味」
> 著者には、郡司 隆男さん名前が出ており、 >>792
> 「なんでそんな古い話題にばかり固執するの?」と
> 絡まれそうなので、読んでいいものか...
>
> 「岩波講座 言語の科学〈4〉意味」
> 著者:郡司 隆男 (著), 白井 賢一郎 (著), 松本 裕治 (著), 阿部 泰明 (著), 坂原 茂 (著)
>
> 他の著者も、理論言語学者が多そうなので、実装出来ないような

>>802を見て、こいつ自然言語解析の仕事してないし、
それどころか2ちゃん煽り師としても三流の下だと確信した
808デフォルトの名無しさん:2005/10/15(土) 06:36:01
郡司 隆男は理論言語学者
白井はよく分からない

工学的な視点をもっている人とそうじゃない人がこのスレには混在しているような気がする

809Mb:2005/10/15(土) 08:59:14
>>808
まあ、「とにかく動くプログラムを組む」という点で「工学的な視点」が
必要であるという意見は置いておくにせよ、ソフトウェアは必要悪
(事務処理経費の軽減)と不必要善(エンタテイメント)から
なる部分があって、前者の立場からすると「工学的な視点」は重要だが、
後者の立場からすると、「どれだけ面白い(or馬鹿馬鹿しい)プログラムを
書いたか」も重要な気がする。
後者の観点だと、認知心理学・哲学・数学基礎論なんかの分野の人が
けっこう面白い仕事をしていたりする。
810デフォルトの名無しさん:2005/10/15(土) 10:25:08
このスレのトップ >>1 には、「形態素解析」、「依存構造解析」、
Namazuまでのリンクはあるが、意味構造解析が欠けている。
日本語では、実用レベルの意味構造解析プログラムが公開されて
いないのか?!
811デフォルトの名無しさん:2005/10/15(土) 10:28:47
>>809 Mbさん、キター!!!!

Mbさん、>>808, >>810は、
以前送ってもらったルネ・トムの話に強い関心と利害関係を持っている人だと思いますよ。
いろいろ詳しいお話をされたら、面白いんじゃないかなぁ
812デフォルトの名無しさん:2005/10/15(土) 10:32:10
>>805
> 「可能世界仮説」とか言われても、インプリメントのしようがない……

言語解析〜意味解析で「可能世界仮説」といったら、
形態素のラティス構造 (とりえる分かち書き候補のネットワーク)と同様に、
とりうる意味解釈の候補、ってなるんではないですか?
813Mb:2005/10/15(土) 16:24:23
>>812
……ごめん。正確には『「“可能世界”解釈」仮説』だな。
「四角い玉子と女郎の誠 あれば晦日(みそか)に月が出る」
みたいなもんで、ある言明(“命題”よりも意味的には広い)が
正しいかどうかは、「その言明が正しい場合の可能世界」と
「その言明が正しくない場合の可能世界」の存在可能性
(フィジビリティっつーのかな)において判断されるべきものである、
とか言ってると、手間がかかりすぎて実効的な推論ができんのだ。
困ったことに、太陽暦である現在は、晦日に月が出る……
814デフォルトの名無しさん:2005/10/15(土) 18:30:11
フレーゲ論理とかクリプケ・フレームの話かな。
プログラム意味論や数理論理学でちょこっと紹介された・・・
上記分野とか、アスペクト指向プログラミング(AOP/AOSD)の「アスペクト」って、言語解析〜AI分野ではよく援用される概念のようですね。

自然言語理解における「可能世界解釈仮説」ですが、
談話解析とか文間解析で、他の文に前提条件とか制約が書いてあったら確定、
無かったら解釈の仕方が何通りもある、ということでよろしいのではないですか。
それ以上を求めるなら、一般常識とか専門知識に関する知識ベースを用意する、と。(と言葉で言うのは簡単ですが・・・(わ
815デフォルトの名無しさん:2005/10/15(土) 18:31:38
フレーゲ論理とかクリプケ・フレームの話かな。
プログラム意味論や数理論理学でちょこっと紹介された・・・
上記分野とか、アスペクト指向プログラミング(AOP/AOSD)の「アスペクト」って、言語解析〜AI分野ではよく援用される概念のようですね。

自然言語理解における「可能世界解釈仮説」ですが、
談話解析とか文間解析で、他の文に前提条件とか制約が書いてあったら確定、
無かったら解釈の仕方が何通りもある、ということでよろしいのではないですか。
それ以上を求めるなら、一般常識とか専門知識に関する知識ベースを用意する、と。(と言葉で言うのは簡単ですが・・・(わ
816デフォルトの名無しさん:2005/10/15(土) 18:41:55
つまり、現在デフォの太陽暦と仮定してよいのか、
あるいは太陰暦や他のこよみを仮定すべき文脈なのか、
ヒントを探す必要がある・・・

時代考証や地理的考証なら範囲が限定されてるし、どうせ人間(非専門家)もよく間違えるし・・・
817デフォルトの名無しさん:2005/10/15(土) 19:10:54
>>815
>それ以上を求めるなら、一般常識とか専門知識に関する
>知識ベースを用意する、と。(と言葉で言うのは簡単ですが・・・
「知識ベース」は、ドメインを限定しても、難しいよ
うな気がする。1960年代後半の格文法は、日本語の
自然言語処理で利用されてきた。EDR, WordNetなど
のオントロジー辞書も、とにもかくにも、利用できる
レベルである。次のステージでは、どんな意味分析
が可能なのか。

>>799 を入力すると、簡単な意味構造を出力するような
システムが、とりあえず欲しい。科研費などで研究している
グループはないのか。
818デフォルトの名無しさん:2005/10/15(土) 20:10:39
長尾先生の10年前の本に解説が載っているくらいだから、
研究ベースではそれ以上前に扱われている、と理解すべき話だろ。いま手元にリファレンス一覧がないけど。

前京大総長やってた長尾先生が、
キミみたく裏付けのない妄想を書き連ねるとは理解しがたいし、
もしキミがそういう電波を発信したいなら、自分でホームページ立ててそこでやったら?
819デフォルトの名無しさん:2005/10/15(土) 21:16:55
>>818
学部卒相手になにムキになってんだよw
820デフォルトの名無しさん:2005/10/15(土) 22:10:01
ちんたらちんたら、未だにアレができていない、これはどうなっているのか、
と自分でナニも確認せずに質問を繰り返し、
解答なり反論があると、それを受けずにまた次の質問を繰り出す・・・テラ頭弱杉
821デフォルトの名無しさん:2005/10/15(土) 22:11:05
>>820
2ちゃんの煽り業務従事者にはそーゆーのが多いけど、
リアルでそれやったら一発で「おはなしにならないひと」のブラックリスト入りだよなw
822Mb:2005/10/16(日) 09:09:17
> 2ちゃんの煽り業務従事者にはそーゆーのが多いけど、
そもそもが自己愛性人格障害の典型的症状に近いので、
プライドは高いために自分の無能さに目を向けることができずに、
他者を批判することでフラストレーションを解消しようとしている
だけと思われ。
まとまった業績のひとつも上げれば頭も冷えるのだが、
焦りがあるので長期的な取組みができず、目先の目新しそうなもの
(で、ちょっとよさげなもの)につい飛びついてしまう。
そういう香具師は、トイ・プログラムでもいいから、自然言語処理
システムを一本インプリメントしてみて、プチ達成感でも味わうのが
よろしいかと。
823デフォルトの名無しさん:2005/10/16(日) 09:29:33
>>822
あいたたた。Mbせんせい・・・俺も当てはまるなそれ。
824832:2005/10/16(日) 09:56:42
見苦しい言い訳をしてみる

> まとまった業績のひとつも上げれば頭も冷えるのだが、
> 焦りがあるので長期的な取組みができず、目先の目新しそうなもの
> (で、ちょっとよさげなもの)につい飛びついてしまう。

自分としては一つか二つのテーマに専念しているのだけど、
所詮漏れは応用分野にしか顔を出せないんで、
いろいろな分野で、そのテーマの応用を探しては顔を出しています。
ここ1〜2年が勝負なので、可能性が低そうなら即ヤメで、
なりふり構わず食い散らかしているのが現状ですね。

他人には、気まぐれで分野変えてるようにしか見えないかもしれないけど。
825デフォルトの名無しさん:2005/10/16(日) 10:01:41
>>802
とにかく、イントロ部分だけでもいいから読んどけ。
顔から火がでること請け合いだw
826デフォルトの名無しさん:2005/10/16(日) 11:58:52
LCSとOWLって関連しそうですが,すでにあったりして。。
827デフォルトの名無しさん:2005/10/16(日) 12:03:16
なんでDescription Logicの話がここで出てくるの?
思いつき?
828デフォルトの名無しさん:2005/10/16(日) 12:06:16
思いつきで言ってみました。なんか関連しそうかなと。
829デフォルトの名無しさん:2005/10/16(日) 12:21:33
はいはいわろすわろす
830デフォルトの名無しさん:2005/10/16(日) 15:22:21
VIPPER製作2chブラウザ知ってるか?
使い心地、かなりいいぞ。ギコナビ+プニルみたいな感じ

【おっぱい】うはwww2chブラウザつくったwwうぇwww
http://ex11.2ch.net/test/read.cgi/news4vip/1129427490/l50
831デフォルトの名無しさん:2005/10/16(日) 21:19:14
>>826
>LCSとOWLって関連
WordNetがOWLに利用できるのであれば、EDRでも同じことが
できるはず。LCSもOWLに関係深い。

どれも、自然言語の「情報検索」に応用できる。
832デフォルトの名無しさん:2005/10/16(日) 22:18:18









833デフォルトの名無しさん:2005/10/16(日) 22:37:11
ふつーの神経持ってる人間なら、
まずLCSとDescription Logicをそれぞれ説明したうえで、慎重に両者の関係を論じるべき場面と理解するわけだが。

普段から無根拠な自信でハッタリ飛ばしまくる人物は、
匿名掲示板上でも振る舞いが醜いな。2ちゃんで有名な粘着廃人といい勝負だ。

関係ある/ない ってさぁ、
丁半博打じゃねぇーんだから。

いい加減にしろ自己愛野郎
834デフォルトの名無しさん:2005/10/16(日) 22:47:07
哀しいよな、
>>831 みたいな天然が、
計画性0の天然ボケで世間だましちまう現状。
835デフォルトの名無しさん:2005/10/16(日) 23:08:04
>>833
>まずLCSとDescription Logicをそれぞれ説明したうえで

>>827
(↑↑↑↑この馬鹿も「説明」していないが...)
836デフォルトの名無しさん:2005/10/16(日) 23:20:01
>>834
>計画性0の天然ボケで世間だましちまう現状。
あっ、これは当たっている。ハッタリで、これまでに個人研究費を
外部(文科省他)から3000万以上獲得してきた。(研究代表者が
偉いと簡単にもらえる共同研究費は除く)

自然言語処理を含むIT関連の研究費はパイが大きいから、長尾先生
の<教科書>などから適当なフレーズをコピー&ペーストして、自
己の専門に繋がるように、申請書を書くと、簡単に通ってしまう。
837デフォルトの名無しさん:2005/10/16(日) 23:30:28
なんだ3000か。

みみっちい詐欺師だな
838デフォルトの名無しさん:2005/10/16(日) 23:44:05
なんだ。
だから>>836は補助金からも大学関係からも干されて、
今度は一般投資家や証券会社を相手に法律すれすれの詐欺的行為を画策してるのか。

大学関係者や研究者から、疫病神のように忌み嫌われていて、
研究開発は進みますか?
(って、どん詰まり状態だから、
 のこのこ匿名掲示板まで出てきて 電波飛ばしているのだろうけど)
839デフォルトの名無しさん:2005/10/17(月) 00:03:58
上の方で「自己愛性人格障害」を指摘してた人、
あなたの見立ては大正解だわ。

こちらの印象ではかなり早い時期に心のアンパイヤが「アウトォォォーッ!!!」って判定下していたけど、
匿名掲示板の匿名性にあぐらかいて、ここまで醜態晒してくるとは想像もしなかった。

チビッ子チームのみんな、ご愁傷様。もうそこ業界で信用されないと思うよ。
840デフォルトの名無しさん:2005/10/17(月) 01:06:26
>>796が署名つき掲示板(?)に出て行ったら、
この分野の関係者は皆ドン引きになって、さぞかし迷惑なんだろうな。
カワイソスギ
841デフォルトの名無しさん:2005/10/17(月) 12:12:51
さ〜て、今週の>>836はぁ・・・









842デフォルトの名無しさん:2005/10/18(火) 18:16:27



843デフォルトの名無しさん:2005/10/19(水) 23:28:45
>>836 (が装っている人物)の正体は、判る人には判るとして。

某板の「残像に口紅を」に意味不明のコピペを張り続けている人物は、一体誰なんだろう・・・
・・・なんて、2ちゃんのリアル暗黒面を穿り返してみたりして(うきゃ
844>>758:2005/10/21(金) 08:40:52
461 名前: (´∀`) [sage] 投稿日: 2005/10/12(水) 02:00:41
 ふむふむ
 >ボクの感じだと、LCS が結構使えそうってことになってる気がする
 この気持ちはよく分かるにゃ
 ただし純理論としてLCSが正しい装置かどうかは別問題だろにゃ
 ちょうど、自然言語処理にとっては句構造規則やXバー理論のほうが
 bare phrase structureより使い勝手がよいが、MPでは前二者は誤り
 ってことになっとるのと同じようににゃ

543 名前: 532 投稿日: 2005/10/21(金) 00:39:38
 訂正

 語彙概念構造 (LCS: Lexical Conceptual Structures)や、生成語彙 (GL: Generative Lexicon)
 が非常に興味深いと伺います。
 最近読んだ本のNAIST松本先生の章でも、上記がクローズアップされています。
 LCSおよびGLに関して、 もし多少なりともご存知の方がおられましたら 、それらの
 研究動向および今後の見通しについて、
 お教え頂けないでしょうか?
 お願いいたします。

547 名前: (´∀`) [sage] 投稿日: 2005/10/21(金) 02:52:05
 まーたヘンなのが紛れ込んできたにゃ
 >>544しゃんや、この勘違い野郎に一言いってやってくれにゃ
 俺がLCSに否定的なのはこのスレの住人なら誰でも知ってることにゃろ
 だから「今後の見通し」は、俺的には nothing, zero, にゃ
 よーするに目指す方向、やりたいことが全然違うのにゃ
 >>461見れ

 ちなみにLCS厨の巣窟↓
 http://www.kwansei-engdept.gr.jp/FACULTY/KLP.html
 545はまじめに勉強したいのならここ逝くよーに、にゃ
845デフォルトの名無しさん:2005/10/25(火) 08:19:49
552 名前: 名無し象は鼻がウナギだ! 投稿日: 2005/10/21(金) 12:22:28
 LCSと聞くとLeague Champion Shipと思えてしまう今日この頃。
 LCSって記述の道具としては便利ですが、それを基に何かを考えようと
 いう気にはなれないですね。なんか、現象を別の言葉で言い換えましたって
 感じになるだけのような気がします、にゃ。

565 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/22(土) 23:37:42
 俺はLCSを嫌っているから、LCSについて説明する義務はない、
 という開き直りにワラタ

566 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/22(土) 23:58:15
 説明はしないけど、とりあえずLCS叩くのね(ワラ
 
 ・・・本当にそんな姿勢で学問やってて大丈夫なのか?

568 名前: 名無し象は鼻がウナギだ! 投稿日: 2005/10/23(日) 00:38:02
 >>565-566
 自分が相手したい理論をなんで弁護しなきゃいけないのかと、小一時間
 いちおー、顔文字氏の性格からいって、自分らがちゃんと議論したら反論
 するにゃろ。
 てか、
 >・・・本当にそんな姿勢で学問やってて大丈夫なのか?
 とかなんとかと人を匿名で罵ることでしか、自意識を保つ手段がないのかね?
846デフォルトの名無しさん:2005/10/25(火) 08:20:48
577 名前: (´∀`) [sage] 投稿日: 2005/10/23(日) 02:45:58
 なんにゃこりゃw
 563以降初めて書き込むわけにゃが
 >まー、ヴァカが見ればなんでもジサクジエンってこったにゃ
 
 >>565
 つーか、LCSみたいな基本的な事項は自分でいくらでも調べられるからにゃ
 ほんとに勉強したいんにゃらその程度の努力は惜しむべきでないにゃ
 あと、何か勘違いしてるよーにゃが、訊けば何でも教えてもらえる、俺に
 教える「義務」がある、という妄想はどっからわいて出るんかにゃー
 
 とゆーよーに、気が向けばヴァカにも丁寧にレスしてやるのが俺にゃw
 
 で、LCSについて議論したいんにゃら相手させてもらうから最低限の知識のある人は
 どーぞ、にゃ
 その際、生成意味論の語彙分解と述語繰り上げについて、それからMPでD構造が
 撤廃された事情とそれがlexicon-syntaxのインタフェイスに及ぼす理論的影響に
 ついて、自分なりにあらかじめ整理しとくよーににゃ

578 名前: (´∀`) [sage] 投稿日: 2005/10/23(日) 02:56:49
 をっとついでにH&KのLRSもにゃ

579 名前: (´∀`) [sage] 投稿日: 2005/10/23(日) 03:14:46
 をっと俺と違って>>572しゃんはヴァカの相手しないよーににゃ
 >>563について意見あったら聞かせてくれにゃ

590 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 02:45:51
 そして話題転換して肝心の質問には答えない、と。

 毎度毎度の展開だな。

847デフォルトの名無しさん:2005/10/25(火) 08:21:30
591 名前: (´∀`) [sage] 投稿日: 2005/10/24(月) 04:17:04
 肝心の質問、とは笑わせるにゃー 
 お前のようなウスラヴァカにわざわざレスつけてやる値打ちがあるのか
 どーか見てやるから、心して質問どーぞ、にゃ
 をっと577で言っておいた基礎的お勉強は済ましたんだろにゃ、あー?


592 名前: (´∀`) [sage] 投稿日: 2005/10/24(月) 04:25:17
 勘違い野郎が増えてきたのでこの際言っておくにゃが、俺にはお前ら荒らし厨の
 糞レベルの質問にいちいち答える「義務」はないにゃ
 ほんとに勉強しようという人にはこれまでどおりマジメに答えさせてもらうけどにゃ
 
 それにしてもにゃ、>>565-566>>569-570のウスラヴァカぶりは何度読んでも笑えるにゃー
 言語板始まって以来のヴァカっぷり曝しとるにゃが、おそらく言語学や生成はおろか
 学問とはなんの関係もないカスどもがどっかから誘導されてきたんでないかにゃ
 
 で、ローカルルールというわけではないけどもにゃ、あまりに低級な輩を追っ払う意味でも
 ちゃんとした質問なり論戦なりをしようという人は支障ない限りで自分の専門や関心を
 まず述べて欲しいにゃ

593 名前: (´∀`) [sage] 投稿日: 2005/10/24(月) 04:45:21
 しっかし肝心なこと何一つ言えん奴が「肝心の質問」には爆笑にゃ
 (しばらく笑いがとまらん、いやマジで、助けてくれにゃー)

848デフォルトの名無しさん:2005/10/25(火) 08:23:56
594 名前: 名無し象は鼻がウナギだ! 投稿日: 2005/10/24(月) 08:06:25
    生成文法総合スレ
 ってタイトルやめて、
    顔文字とその一味の生成文法研究会
 って名前にすればいいのにね。
 見苦しい振る舞いをする「自称国立大教員」だな

595 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:09:03
 おまいなかなかいいこというな かんしんするよ

596 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:17:02
 >>594
 >>591-593の連投を見るに、
 「怒りを抑制する訓練」ができていないから、
 多分教員なんかじゃなくて、
 単なる「自称研究者」くらいの所だと思うよ。

597 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:17:12
 >>594
 >「自称国立大教員」
 残念ながら自称ではない。
 それと、もう国立大学なんてモノはない。

598 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:18:26
 >>596
 >「怒りを抑制する訓練」
 
 w

599 名前: 名無し象は鼻がウナギだ! [sage] 投稿日: 2005/10/24(月) 08:19:30
 >>594
 顔文字先生のMP研究会
849デフォルトの名無しさん:2005/10/25(火) 08:25:46
   |\___/|
   |       .|
   | Θ   Θ |      / ̄ ̄ ̄ ̄ ̄ ̄ ̄
   |       .|     < パペットマペット
 ∈AA∋   ∧∧      \_______
  (゚‥゚ )   ( ゚Д゚)
  ∪∪|___⊃ ⊃
 /|__.|    |__|\
 |  |  |     | \_|
 | ノ ノ     \_|
 \_ノ|      |
    |      |
850デフォルトの名無しさん:2005/10/28(金) 15:47:50
某スレで認知科学系のレスつけてるハードロックマニアって、
もしかして苫※地さんじゃねぇ?

ラウンドハウスという出版社が出しているファッション雑誌「SENSE」に、
超能力を数式で表現しようとしているハードロック系オヤジが載ってた。

・・・たしかにこれは情緒不安定だな。
もう少しまともなら、ほりえもん位にはなれるだろうに(無責任な推測
851はげ:2005/10/28(金) 15:52:29
はげぱげこんなのやーだ髪の毛きえさっていくはげぱげはげぱげはげはー
852デフォルトの名無しさん:2005/11/01(火) 08:02:43
>>810
> 意味構造解析が欠けている

719 名前: お兄ちゃん [sage] 投稿日: 2005/11/01(火) 06:46:30
朝っぱらから2ちゃんやるのも気がめいるがこれも仕事だからやる。w

>>718
とりあえず次↓のところをアクセスしてみてちょーだい。
お口に合うかどうか分からないけど、、、。

http://hotwired.goo.ne.jp/news/20050907303.html

ADIOSというのはちょっと前に日本で開発されたMLASを
さらにソフィストケイトしたものだと思う。
ただ、このADIOSは思想的というか
発想的というか開発のバクボーンとなるのが非常にジャッケンドフ流で面白い。
何はともあれ、情報系の人にはこれからどんどんがんばってもらいたいと思う。
けど、最近の学生さん、人工知能とかいうと
すぐに映像関係に走ってしまって自然言語処理やる人少ないですよね。
言語ってやっぱ地味だからかな、、、。
わし的には人工知能の最後の最大にしてチョー分厚い壁、
それが自然言語だと思うのだが、、、。
ま、言うまでもなく
チューリングテストというか中国人の部屋をパスできるかという問題なのだが。
853デフォルトの名無しさん:2005/11/01(火) 08:04:19
http://hotwired.goo.ne.jp/news/20050907303.html

言語を分析し、自律的に文法規則を推論するアルゴリズム
高森郁哉/Infostand
2005年9月2日 1:00pm JT


 米コーネル大学とイスラエルのテルアビブ大学は8月30日(米国時間)、各国の言語のテキストをスキャンして、
自律的に文法規則を推論するアルゴリズムを開発したと発表した。人間が事前に情報を与える必要はなく、
割り出した文法規則を使ってコンピューターが意味のある文章を組み立てられるという。

 『構造の自動抽出』(ADIOS)と名付けたアルゴリズムで、言語の習得にかかわるプロセスに基づいているという。
このプロセスは、パターン抽出の統計的な手法と、構造の普遍化の二つ。具体的には、複数の文章を繰り返し対照し、
重複する部分を探すことにより、パターンを発見するという。現在特許出願中。

 ADIOSは、自然言語に限らず、複雑な規則を持つ生のデータの解析に応用可能。採譜された音楽や、
たんぱく質の配列などからも規則を推論可能という。研究チームは実際に、ADIOSでたんぱく質を分析して、
アミノ酸の配列パターンを抽出できたとしている。

日本語版関連記事

・非構造化データ分析、ビジネスの世界でも大活躍

・動物の「言語」体系を解析――人工知能とファジー理論を応用

・米アマゾン、「その本に特徴的な表現」を統計的に抽出

・読解と推論ができる人工知能

・「歌う鳥」の脳、人間の言語能力を解明する手がかりに

854デフォルトの名無しさん:2005/11/01(火) 08:10:10
>>457
> amazon.com で使われている SIP。

米アマゾン、「その本に特徴的な表現」を統計的に抽出 (SIP: Statistically Improbable Phrases)
http://hotwired.goo.ne.jp/news/business/story/20050511102.html
855デフォルトの名無しさん:2005/11/01(火) 08:18:45
>>853
それは結構興味がある。
俺はどんなエラーログを解析してわかりやすぐ表示してくれる方法を模索してるんだが
856デフォルトの名無しさん:2005/11/01(火) 10:22:58
どうして「どんなエラーログを解析してわかりやすぐ表示してくれる方法」なのは何故?
857デフォルトの名無しさん:2005/11/01(火) 12:30:44
MLAS(multiple language aquisition system)
http://www10.ocn.ne.jp/~mlas/
858デフォルトの名無しさん:2005/11/03(木) 16:14:41
aa
859デフォルトの名無しさん:2005/11/03(木) 16:38:56
>>853
生成文法的にはありえない話だが・・・
860デフォルトの名無しさん:2005/11/04(金) 04:05:32
一行レスのハッタリ君乙
861デフォルトの名無しさん:2005/11/04(金) 09:45:10
>>859
つか、生成文法をモデルにインプルメントする必要なんてさらさらないだろ。
862デフォルトの名無しさん:2006/01/04(水) 12:30:58
>>861
十中八九、確率モデルでのインプリだろうな。
863デフォルトの名無しさん:2006/01/08(日) 18:56:33
ベイズさんすごいよね
864デフォルトの名無しさん:2006/01/22(日) 08:42:32
普通に可能ってか今実験中
865デフォルトの名無しさん:2006/01/22(日) 08:43:45
文章から意味のある単語を拾い出すってのを作ってみたわけだが
見る限りうまくいってる、まだサンプルが足りないけどね
866デフォルトの名無しさん:2006/01/22(日) 08:47:24
同時に単語同士の関連性もとってるから、後で作文したり
形態素解析の分離予測に利用したりできると思ってる
まあそこまでやってしまったのが>>853なわけね
辞書データベース使って分析した気になってる研究者たちを馬鹿にしてたけど
中にはまともな人もいたんだね
867ひげひげ:2006/01/25(水) 04:59:25
>>866

汎用的データ圧縮のために
確率的言語モデルやってる方かな。
意味解析するのに辞書は不可欠でしょ。

突っ走って実用的計算量でなんらかの処理する研究も重要だけど、
貴方の価値観が全ての分野に通用するわけではない、
ということを踏まえた言動も大切かと。
868デフォルトの名無しさん:2006/01/29(日) 19:16:55
859の奴ってどうしようもないな
生成言ってみたかっただけなんだろうな
生成の何がわかってるつもりなんだろう
869デフォルトの名無しさん:2006/02/01(水) 15:03:45
>>867
以前にこのスレで自然言語処理に辞書使うなんて馬鹿なことあるかって言ったんだよな
そしたらそんなものは不可能だと証明されてるだとか、基本もわかってない場かはどっか
いけだとかさんざん言われたな
870デフォルトの名無しさん:2006/02/01(水) 15:13:17
意味解析に辞書は不可欠だとは思ってない
そもそも辞書をベースにした連想機構だって単語同士の結合性で判断するからな
イメージやら匂いといった情報は辞書ベースのほうがさらに不可能だろう
自動解析型にすれば、文法にそってない話言葉や、造語のたぐいまで意味を説明できる
挿絵をベースにしたイメージングも将来可能になるだろう
計算量を問題にするのはすべてを一つの枠にいれようとするからだな
辞書ベースの辞書は別プロセスで作らせればいいだけの話だしね
文法を固定した形態素解析が自然言語処理という名前にふさわしい存在ではないと思うぞ
871デフォルトの名無しさん:2006/02/05(日) 00:18:21
>>867
知らんわそんな話。
具体的にレス番出せ。

>>868
ああ、やっぱアナタか。
アナタの話は自己矛盾と思い込みと幼稚さがゴタマゼで、
私個人としては敬遠したい気分です。

「意味解析に辞書が不可欠だとは思わない」
あたりは、解釈によってはまともなんだけど、
その直後に「動的辞書作成プロセス」の話を始めた点が、自己矛盾。

こっちは、動的に作ろうと、静的に作ろうと、
人間の論理で辞書項目を作ろうと、
統計データで意味ネットワークを作ろうと、
それを辞書と呼ぶ。
アナタは、人間が静的に作ったもの以外は辞書と呼ばない。
ただそれだけの違い。

「文法を固定した形態素解析」云々は、
狂人のつぶやきにしか見えない。
872八百七拾壱:2006/02/05(日) 00:20:30
おっとレス番間違えた・・・
  >>867>>869
  >>868>>870
に訂正。
873八百七拾壱:2006/02/05(日) 00:22:43
追加

> 計算量を問題にするのはすべてを一つの枠にいれようとするからだな

これも狂人のつぶやき、というより計算量の基本が判っていない幼稚な発言。
さぁガキは散った散った
874デフォルトの名無しさん:2006/02/05(日) 01:13:26
>>871
> 統計データで意味ネットワークを作ろうと、
> それを辞書と呼ぶ。

あんまりオレオレ定義してると誰にも相手にされなくなるよ。
875デフォルトの名無しさん:2006/02/05(日) 03:34:40
意味解析用の辞書ってあるの?知らないが
意味解析はせいぜい単語レベルでやってるものしかないと思うけど
そんなもん辞書すらもいらないね
それは辞書じゃなくて統計的手法の統計データだと思うがね
本格的に意味解析しようと思ったら形態素解析に使ってるような辞書じゃ
なにもできないよ
「辞書じゃなにもできないよ」がすでに解析できないねw
そりゃ手で加えりゃいいけど、毎日のように造語が生まれてるし用法も変わってるのに
手作業で出来ると思ってるなら甘いね
876デフォルトの名無しさん:2006/02/05(日) 03:40:44
今の形態素解析はアルゴリズム自体が手作業で入力したシ辞書が前提になってるから
進歩して辞書を自動生成できるようになったらそのまま応用できるようなもんじゃないしね
辞書の構造自体が特殊なものになる
もちろんそれ専用のアルゴリズムも開発しなければいけないだろうがそんなに大変な作業にはならないと思う
ようするに、自動解析システムの基盤ができたら形態素解析はゴミ箱行きってことです
877デフォルトの名無しさん:2006/02/05(日) 04:27:48
>>874-876






















結論:頭おかしい人と判定。
    
878デフォルトの名無しさん:2006/02/05(日) 04:30:11
>>877
ここは2ちゃんだから、ロクでもない奴ほど口数だけは多いんだ。
子供の悪戯だと思って、勘弁してやれよw
879デフォルトの名無しさん:2006/02/05(日) 08:10:19
畑違いの俺様が知ってる、唯一この分野にかするキーワード

シソーラス
880デフォルトの名無しさん:2006/02/05(日) 11:11:07
>>871
> 統計データで意味ネットワークを作ろうと、
> それを辞書と呼ぶ。

あんまりオレオレ定義してると誰にも相手にされなくなるよ。
881デフォルトの名無しさん:2006/02/05(日) 16:19:39
現状の意味解析がいかに不完全かは翻訳ソフトの翻訳結果のおかしさ見ればわかるなw
882デフォルトの名無しさん:2006/02/07(火) 18:56:15
いきなり質問なんですが、ipadicの品詞IDと語の対応ってどこかに表がありますか?
ipadicの辞書ファイル見ても書いてないし、Web探しても見つかりません。。。
883デフォルトの名無しさん:2006/02/10(金) 00:42:04
ipadicて製品に組み込んで売れないよね?
884デフォルトの名無しさん:2006/02/10(金) 08:35:09
自然言語研究の成果ってどの程度なの?
どうせ2chの馴れ合いの検出すら出来ないんでしょ?
885デフォルトの名無しさん:2006/02/10(金) 08:48:20
>>884
AAAIのjournalやproceedingsでも読めば?
886デフォルトの名無しさん:2006/02/10(金) 17:06:11
出来ない出来ない出来るわけがない
887デフォルトの名無しさん:2006/02/12(日) 06:03:37
ここに毎日粘着してる彼の件だが。

このスレで彼が誰かに相手にしてもらえる
と期待している彼の心理状態が理解できない。
彼にできることはせいぜい、
スレッドの文章から目に付く専門用語をサンプリングし、
それを本来の意味を理解できているとは到底思えない
デタラメな妄想で塗り固めて、駄文を書くだけ。それだけ。

それっぽっちの事しかできない妄想人間が、
よりにもよって言語を扱うスレに粘着するという
2ちゃんねるならではの悲喜劇。
まったく、笑える掲示板だよな、2ちゃんて。
888デフォルトの名無しさん:2006/02/12(日) 07:58:32
認められた研究分野に属してる人ってのは心のゆとりっていうかな
素人の意見にも耳を傾けて、それはこういう理由だから違うとか、そうかもしれない
なんて対話があるんだよな
普段から認められてない研究分野はたいした成果もだせないわ、普段専門家にすら
否定されまくってるもんで素人がこようもんならファビョりまくるんだよな
言われることがわかるだけに余計はらがたつやら、ある主の信仰のような状態になってて
本気で妄信してるから理論的思考がもはや存在してないんだよな
ま、それが成果が出せない最大の原因なんだけど、そういうやつはいくらがんばったって無理だね
本当に現状を把握してて、将来につながる研究を残すような人材はまあいるから大丈夫だ
けどね、ファビョってるやつは足を引っ張ってるだけだってことに早く気付けばいいのにねw
889デフォルトの名無しさん:2006/02/12(日) 11:57:34
おまえってなんのために生きているの?
おまえの意見なんて誰も読まないから
あきらめろ
890デフォルトの名無しさん:2006/02/12(日) 19:54:56
悲惨な>>888
891デフォルトの名無しさん:2006/02/12(日) 20:09:32
>>888
言葉の使い方が間違っている。採点結果は5点。
892デフォルトの名無しさん:2006/02/12(日) 22:59:18
なんだ、また仮研人管理人が暴れたのか。
893デフォルトの名無しさん:2006/02/18(土) 07:39:31
mixiのAI系コミュ二ティに
頭がおかしい人が多数の書き込みをしている件

894デフォルトの名無しさん:2006/02/18(土) 17:56:10
mixi自体がゴミ
895FYI:2006/03/13(月) 00:46:23
>>817


> 最近、論文がだせる範囲で意味論ぽいものを書いてみます。
>
> Luke S. Zettlemoyer and Michael Collins.
> "Learning to Map Sentences to Logical Form: Structured Classification with Probabilistic Categorial Grammars."
> http://people.csail.mit.edu/mcollins/papers/uai05.pdf
>
> どんなふうにコンピュータが言語を学習したんであれ、
> 習得した以上はそれを評価できるはずで、意味を理解したことを示すベンチマークとして
>
> http://www.pascal-network.org/Challenges/RTE2/
> Recognising Textual Entailment Challenge
>
896デフォルトの名無しさん:2006/03/15(水) 00:05:17
だからカテゴリー文法ベースで論理をやろうと言ったのに。
Prologと区別できないとは情けない。
TextSS のWindowsXP(Professional)64bit化おながいします

もしくは64bitにネイティブ対応したテキスト置換ソフトありますか?

そういや64bitにネイティブ対応している2chブラウザてありましたっけ?
898デフォルトの名無しさん:2006/03/19(日) 12:53:52
ハァ・・ ハァ・・ チョムスキー・・ ハァ・・ ハァ・・
899895-896:2006/03/27(月) 10:35:13
このスレ何か書き込むと、すぐ知的障害者が寄って来るんだな
900デフォルトの名無しさん:2006/04/10(月) 12:58:57
フリー(オープン)ソースで、*BSDで動いて、
性能の良い。自然英文形態素解析ソフトの
お勧めを教えて下さい。
901デフォルトの名無しさん:2006/04/10(月) 14:26:02
形態素解析って言っても、欲しいのは、品詞情報だからね。
だれか教えて。
902デフォルトの名無しさん:2006/04/10(月) 20:20:41
英文w
スペースで区切って辞書引けw
903デフォルトの名無しさん:2006/04/10(月) 22:32:08
>>900
>フリー(オープン)ソースで、*BSDで動いて、
TreeTaggerがいい。
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

幾つかのツールをパイプでつないで処理する方法が、古典的で好き。
904デフォルトの名無しさん:2006/04/11(火) 22:47:34
>>903
ども、HP見るとlinuxにしか、対応してないようなんですが、
性能はどんなもんでしょ?
性能(品詞の正解率が高い)がそこそこなら、
もし、素直にコンパイル通らなくても、頑張ろうとおもうのですが。
905デフォルトの名無しさん:2006/05/02(火) 20:02:54
僕なんか自作してるから。勝ち組。
906デフォルトの名無しさん:2006/05/02(火) 20:12:38
よかったね
907デフォルトの名無しさん:2006/05/06(土) 00:36:46
>>903
>古典的

・・・バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
908デフォルトの名無しさん:2006/05/06(土) 00:40:03
俺も俺も
909デフォルトの名無しさん:2006/05/07(日) 13:27:39
>バカが「古典的」という単語を使う
>>907
910デフォルトの名無しさん:2006/05/08(月) 23:00:06
馬鹿はすぐ相手と同じ事を言い返す
911デフォルトの名無しさん:2006/05/09(火) 02:41:53
馬鹿はすぐ相手と同じ事を言い返す
912デフォルトの名無しさん:2006/05/10(水) 01:07:42
>>907
>バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
2通りの意味解釈が可能。

(1) バカが「古典的」という単語を使うのを見ると、私( >>907 )は虫唾が走る
 (「虫唾が走る」の主語は私)
(2) バカが、903のような発言者が「古典的」という単語を使うのを見ると、虫唾が走る
 (「虫唾が走る」の主語はバカ)

日本語、スペイン語、イタリア語などは、英語やドイツ語に比べて、主語の省略が
頻繁におこる。省略された主語の意味解釈は、自然言語処理ではどのように扱われて
いるのだろうか? 公開されているツールはありますか? スペイン語、イタリア語
など多言語にも応用できる手法はありますか?
913デフォルトの名無しさん:2006/05/10(水) 01:16:13
structured output predictionで、重要そうな論文リストをあげます。

Michael Collins の Voted Perceptron
http://people.csail.mit.edu/mcollins/papers/tagperc.ps
http://people.csail.mit.edu/mcollins/publications.html

Max Margin Perceptron と、structured problemへの応用
http://jmlr.csail.mit.edu/papers/volume7/crammer06a/crammer06a.pdf
http://www.seas.upenn.edu/~ryantm/papers/nonprojectiveHLT-EMNLP2005.pdf

SVM struct 系
http://ttic.uchicago.edu/~altun/pubs/TsoJoaHofAlt-JMLR.pdf
http://ttic.uchicago.edu/~altun/

Ben Taskar の Max Margin Markov Networkと、それに必要な optimization algorithm 系
http://www.cs.berkeley.edu/~taskar/

ここまでの問題は、効果的なdecoding algorithmがすでにある、という前提があることです。 
linear chain graphical modelに使えるViterbiや、parse treeを見つけるのに使うCKYなどです。 

さらに、あたらしく、decoder は greedy searchにして、search 自体を学習しよう、という手があります。

http://www.isi.edu/~hdaume/searn/

theoretical upper bound があるのがすごい。
僕の理解が間違っていなければ学習結果のgreedy searchに近似保証をつけています。 
考えとしては、structured output predictionの問題を reinforcement learningに落としたようです。 
これはすごいのではないかと思います。 どうなのでしょうか? 
914デフォルトの名無しさん:2006/05/10(水) 01:41:14
それ思いっきり純粋に ML 周りの話題じゃん。
どう見ても NLP のスレでするべき質問じゃない気がするなぁ。
もちろん大いに関連してるし、自分も無視できない話題だけれど、
あくまで ML は NLP を行う上で用いられる手段の1つに過ぎないし、
ML な人の側から見てもあくまで NLP って応用の1つでしかないでしょうに。

とはいえ、2chで ML な話題やってるスレってあったっけ?
無いのなら多分このスレが一番近いとは思うけれど。
915デフラグさん ◆yGAhoNiShI :2006/05/10(水) 03:52:07
  [゚д゚] デフラグガカンリョウシマシタ
 /[_]ヽ
  | |
112LLLLLLLMMMMNNNPPPch、、、、。。。。ぁあああいいいいいいいいい
いううううえかかががきききぎくくけけけこしししししじじすすそただちっっ
っっっっつつててててててででででででででととどどどなななななななな
ににににのののののののはははべままももももゃゃやょらららりりるるる
るるれれれれろをんんスススレレレ一上人側分分周問多大応思思手段
気無無用用番粋純自行見見視話話話質近連過関題題題?
916デフォルトの名無しさん:2006/05/10(水) 06:41:01
> search + structured output
structured input (たとえば、文) -> structured output(たとえば、parse tree)
の間を、局所操作(たとえば、記号を2つ纏めて非終端記号に持ち上げる)の列によってつなぐとすると、「現在までに組みあがっているparse treeをみて、次にどの操作を適用するか」
(ただし、最終的に組みあがる木のlossを小さくするように)を決定するMDPのような問題として捉えることができますね。

個人的にはこれまで、この捉え方だと根性モノになりそうだなあと思っていたのですが、この論文ではなんだかちゃんと理論的な裏づけが与えられるのですね…。
すばらしい。

---
ところで、論文のリンクをたどっていったところのブログで、著者が愚痴っているのが面白いですね。
917デフォルトの名無しさん:2006/05/10(水) 09:59:55
>>912
>>バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
>2通りの意味解釈が可能。
ではあるが、優勢な意味解釈は:

>(1) バカが「古典的」という単語を使うのを見ると、私( >>907 )は虫唾が走る
> (「虫唾が走る」の主語は私)

である、ということをコンピュータに計算させ、かつ、

(3)「古典的」という言葉を使っている「私( >>907 )」は、自分のことをバカとは
考えていない、

ということと

(4) 「私( >>907 )」自身は、自分の発言( >>907 )を読んでも、虫唾が走っていない

という人間の推論をコンピュータに計算させるためには、難しいな〜と感じた。

918デフォルトの名無しさん:2006/05/10(水) 11:11:01
>>913
これ,フレームワークとして loss function が decompose できなくてもよい
って書いててイマイチピンと来ないのですけれど,どういうことですか?
loss function を任意に設計できる,ぐらいの理解で良いんですかね?
feature の方は decompose できなくてもよいっていうことの
意味も利点もよく分かるんですけれど.
919デフォルトの名無しさん:2006/05/10(水) 12:28:25
>>912
>>>907
>>バカが「古典的」という単語を使うのを見ると、虫唾が走るわい
>2通りの意味解釈が可能。
3つ目の解釈としては

(5) 私( >>907 )のようなバカが >>907 のように「古典的」という単語を使うのを
 読者が見ると、その読者は虫唾が走る

>>917
(5)の解釈の場合には、私( >>907 )は自分のことをバカだと思っている。しかし、
私( >>907 )は、>>907 を見ても、虫唾が走らない。

省略された主語の解釈の違いにより、そこから発生する推論も異なってくる。
920デフォルトの名無しさん:2006/05/10(水) 15:39:54
日本語の不自由な方ですか?
921デフォルトの名無しさん:2006/05/10(水) 18:13:46
というか「わい」がついてる時点で一人称制限入るから
その(5)の解釈ってのはないと思うんだが・・・
922デフォルトの名無しさん:2006/05/10(水) 20:22:13
>>921
>というか「わい」がついてる時点で一人称制限入るから
「わい」は方言だろ。EDRに載っているか?
923デフォルトの名無しさん:2006/05/10(水) 22:16:51
馬鹿は下らないネタにばかり食い付くんだな
924デフォルトの名無しさん:2006/05/10(水) 22:48:13
自然言語処理に関係あるかと思って>>917あたりから読んできたけど
ぜーんぜん関係なかったorz
925デフォルトの名無しさん:2006/05/11(木) 02:57:26
日本語の学者に文章作成形式作ってもらって
それをもとに解析、判断させるのを作った方がよさげ
926デフォルトの名無しさん:2006/05/15(月) 00:56:15
>>914
MLが何の略か分かりません。(>_<)
NLPは自然言語プロ・・・なんちゃら?
927デフォルトの名無しさん:2006/05/15(月) 11:43:00
>>926
ヒント:スレタイ
928デフォルトの名無しさん:2006/05/15(月) 13:07:55
NLP: Natural Language Processing
ML は文脈からすると多分 Machine Learning の略かと
929デフォルトの名無しさん:2006/05/31(水) 00:00:12
で。

意味解析に燃えてる彼、
自分が聞きたい質問並べるだけで、
自分の情報一切出さないのは何故w?

\1,980のソフト作ってるようじゃ、
もう先は見えたな。カワイソw
930デフォルトの名無しさん:2006/06/16(金) 00:21:17
>辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表
>
>2006年の売上見込額は8〜10億円。同社では,米国からの引き合いが
>多く,2007年以降は英語市場で伸びると予測している。2007年の売
>上額は40億円超,2008年には120億円弱を見込む。

ttp://itpro.nikkeibp.co.jp/article/NEWS/20060615/241026/

「学者の遊び」とは違うね!
931デフォルトの名無しさん:2006/06/16(金) 21:41:59
精度はどれくらいなの?
932デフォルトの名無しさん:2006/06/16(金) 23:29:13
日経で与太記事飛ばしながら
その後サッパリでそのまま消えていった企業は
星の数ほどあるわけでw
933デフォルトの名無しさん:2006/06/23(金) 09:54:41
WORDの重要文抽出みたいな方法じゃなくて、
本当に"自動要約"なんてやってる(できてる)ところってあります?


934デフォルトの名無しさん:2006/06/23(金) 10:21:49
どうせなら、それをcut無しのprologで書いてほしいぞ。
935デフォルトの名無しさん:2006/06/24(土) 15:32:15
>>933
\1,980持って、ビッグカメラ逝ってこい
936デフォルトの名無しさん:2006/06/26(月) 11:12:27
上の方でも書いてある1980円のソフトって何のことです?

937デフォルトの名無しさん:2006/06/26(月) 16:27:57
>>936
ttp://www.sourcenext.com/products/youyaku/
ソースネクスト 文書作成ソフト ズバリ要約 1980円 のことかな?

>>930
ttp://itpro.nikkeibp.co.jp/article/NEWS/20060615/241026/
辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表

>Sematicsは6月15日,言語解析エンジンの最新版「Perceptron Engine」を発表した。
>語句の辞書データを使わずに解析するため高速という。同社の従来エンジン
>「Automaton Parser」で実現していた形態素解析と構文解析に加え,文脈解析と
>意味解析の機能を備えた。
938デフォルトの名無しさん:2006/06/28(水) 00:09:39
mecab0.91がビルドできねー。
WindowsXP+VC8+cygwinなんだけど、configureの
configure:cannot guess build type; you must specify one
って、何をどこに指定してやればいいんだ?
939デフォルトの名無しさん:2006/06/28(水) 19:33:44
つか、mecabのクロスコンパイル環境は滅茶苦茶だな。
なんじゃこりゃ。
940デフォルトの名無しさん:2006/07/03(月) 06:54:54
どうなってんの〜
941デフォルトの名無しさん:2006/07/13(木) 17:40:28
ジャストシステムからgoogleに移った人とかいる?
942デフォルトの名無しさん:2006/07/15(土) 01:01:42
>>930
貴方はそもそも、畑違いな分野の研究(言語処理ではなく言語学。例えば国文学とかw)
しか見ていない気配がする。
いい加減なお遊びソフトを大言壮語で高く売ろうとして失敗して、
結局\1,980で叩き売りし始めた人が言う言葉ではないな。
943デフォルトの名無しさん:2006/07/15(土) 14:16:44
言語学と国文学じゃ全然違うと思うが・・・
まあ畑違いから見たらそのくらいの認識なんだろうな
944デフォルトの名無しさん:2006/07/15(土) 15:53:56
黙れ糞文系が
945デフォルトの名無しさん:2006/07/15(土) 18:08:46
>>942
>結局¥1,980で叩き売りし始めた人が言う言葉ではないな。
それでも、売れる点は、評価しようぜ。

売れない、誰も使わない、誰からも引用されない、IC*T,
**辞書など、もっと悲惨な研究がいくらでもあるから。
(皆さん、日本では立派な大学の大先生ですが...)
946デフォルトの名無しさん:2006/07/17(月) 16:13:28
プギャー
947デフォルトの名無しさん:2006/07/18(火) 11:08:37
suffix arrayが解説されているおススメ本てないかしらん?
948デフォルトの名無しさん:2006/07/18(火) 13:05:28
オスメスがおるいらんないarray解説suffixされかし?
949デフォルトの名無しさん:2006/07/18(火) 15:54:06
長尾先生とか?
950デフォルトの名無しさん:2006/07/18(火) 17:01:55
尾長かと先生?
951デフォルトの名無しさん:2006/07/20(木) 23:43:56
mecabを入れてみました。
mecabって、未知単語の学習も売りの一つっぽいけど、学習用ユーザ辞書の作り方がわからず挫折してます・・・。
どこかに、Quick Startマニュアルないですかね・・・。
952デフォルトの名無しさん:2006/07/21(金) 08:52:53
googleの工藤タンに聞け
953デフォルトの名無しさん:2006/07/26(水) 21:22:53
この時期にきて、未だに卒論テーマが決まりません。
438サンはもうテーマ決まりました?
もし居たら参考までに今やってる研究について教えて頂きたいっす。
954デフォルトの名無しさん:2006/08/07(月) 18:50:24
ATOKの形態素解析ってどうやってるのかな
n-gram?
955デフォルトの名無しさん:2006/10/23(月) 07:44:32
age
956蕪木ら某 ◆Googl8RmwA :2006/10/24(火) 22:53:03
>>954
http://www.atok.com/tech/tec_text_4.html
> 二文節最長一致法というフレームワークもしくはパラダイム
?
957デフォルトの名無しさん:2006/10/28(土) 18:21:40
ズバリ要約ってどうよ?
958デフォルトの名無しさん:2006/10/28(土) 18:27:32
数式処理はここでいいのでしょうか?
c++からつかえる数式処理+数値計算ライブラリってないのでしょうか?
多項式が扱えればsin cosとかはいらないです
959デフォルトの名無しさん:2006/10/29(日) 01:35:13
なぜ数値処理がここになりうるんだい?
960デフォルトの名無しさん:2006/10/30(月) 16:07:59
958 の頭の中で、自然言語処理ってのがどういうものになってるのかを知りたい。
961デフォルトの名無しさん:2006/11/03(金) 22:04:10
>>960
>>958の質問にちゃんと答えてあげれば、教えてくれるかもよ?
962デフォルトの名無しさん:2006/11/04(土) 21:12:24
キチガイ警報発令!!!!
963デフォルトの名無しさん:2006/11/16(木) 23:49:06
科研費の締め切り時期ですが、みなさんは申請されましたか?

採択してもらうには、どのような工夫が必要でしょうか?
審査員は、言語処理学会から出されるのでしょうか?
言語処理学会で論文、口頭発表などを行うと、有利ですか?
964デフォルトの名無しさん:2006/11/17(金) 12:17:40
明らかにム板でやるべき話題じゃないなぁ
学術系の板行けば科研費云々のスレもあるし、
NLPのスレもあるからそこでやるべき
965デフォルトの名無しさん:2006/11/23(木) 23:41:35
>>964
何日か努力しましたが、自分では見つけられませんでした。
もう少し、ヒントをいただけますでしょうか?
966デフォルトの名無しさん:2006/11/25(土) 17:01:37
>>965
なんとなく、採択されそうにない奴だな。
967964:2006/11/26(日) 00:18:22
私の専門は、自然言語処理ではなく、いわゆる文学部の言語学なの
ですが、出願者の多い自然言語処理の枠で申請した方が、採択され
やすいという噂を聞いたので、質問しました。

過去に文科系言語の枠で採択はされたことはありますが、4年で200万
円程度です。この額だと、海外出張するための航空券は、エコノミー・クラス
です。自然言語処理で科研費をとる人たちは、ビジネスが利用できる、という
噂の聞いています。
968デフォルトの名無しさん:2006/11/27(月) 10:18:32
文系のアホ言語学はあっち池
969デフォルトの名無しさん:2006/12/01(金) 07:31:02
糞文系は死滅すべき
970デフォルトの名無しさん:2006/12/02(土) 13:06:58
死滅厨こそ唯一死滅すべき人物
971デフォルトの名無しさん:2007/01/30(火) 02:40:51
すいません質問させてください。
ChaSenの辞書使って、かな漢字変換するにはどうやったらいいですか?
972デフォルトの名無しさん:2007/01/30(火) 02:52:35
age
973デフォルトの名無しさん:2007/02/22(木) 05:58:36
勉強しだしたばかりで申し訳ないのですが、アンケートを自由記入形式で書いてもらった場合に、
文章じゃなくて項目の羅列で構成された記入があった場合、どのように処理したらいいのか書いてある本/論文ってありますでしょうか?
といいますか、こういう解析が自然言語処理に含まれているのか、別の言葉になるのかすらわかっていません。


例)
---------------
Q.好きな食べ物とその理由を教えてください。
A.
アイスクリーム
・つめたくて甘い
・やわらかい溶けかけが好き。カキ氷はかんべんだけど。

さくろんぼ
・色、紫のはみとめないけど。
・缶詰のを生クリームつけると最高
---------------

用途としては、評判分析に使いたいのです。
単純に、「アイスクリームは冷たくておいしい」「アイスクリームではやわらかい溶けかけがすき。カキ氷は簡便だけど」
といった風に分離できればいいのですが、原文の掛かり受け構造を単純に調べるだけでは
アイスクリームと箇条書きを結び付けられないですよね。
どういう処理をかませればよいのかアイデアがない状態です。

ぜんぜん勉強不足ですが、
レイアウト構造の理解し、箇条書きの主語を補完する2つの要素が必要なんでしょうね。
974デフォルトの名無しさん:2007/02/24(土) 12:07:54
反応無いですねぇ・・・
皆さんアンケートとられたときにこういうデータってどう扱ってるんでしょうか。
975デフォルトの名無しさん:2007/02/25(日) 18:49:47
ところで、ゼロ照応解析が可能なフリーウェアってあるの?
976デフォルトの名無しさん:2007/02/27(火) 06:21:08
>>973
自然言語処理では有るけど、AIに近い。
意味論まで踏み込める技術は現在まだほとんど無いので。

つまり貴方が聞いてることは、100円で2億トンの質量を月に運びたいんですが
そう言った運送業者いますか?

と聞いてるような物なので、馬鹿にして笑うか、無視するかしか、対応のしようがない。
977973:2007/02/28(水) 00:30:43
> 100円で2億トンの質量を月に運びたいんですがそう言った運送業者いますか?
それぐらい遠いこと言っていたんですね。いやはや知らないとは恐ろしいものです。

表構造から類語抽出の論文は見つけたのですが、それ以上に探しているのに近いものは見つけられませんでした。
これ以上は探すより、今の技術でできることできないことをちゃんと理解できるようになったほうがよさそうですね。
ありがとうございました。
978デフォルトの名無しさん:2007/03/04(日) 14:06:37
ChaSenの引数にファイル名でなく直接文字列を与える方法知りませんか?
スクリプトで文字列変数を与えてchasen.exeを直接呼び出したいのですが。
979デフォルトの名無しさん:2007/03/04(日) 17:41:01
松本に聞けよ
980デフォルトの名無しさん:2007/03/05(月) 07:49:31
つ COMMAND.COM
981デフォルトの名無しさん
980超えたので次スレどなたか立ててください
おねがいします