自然言語処理スレッド その3

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。


前スレ:自然言語処理スレッド その2
http://pc11.2ch.net/test/read.cgi/tech/1173105287/

次スレは>>980
2デフォルトの名無しさん:2009/02/20(金) 20:33:59
3デフォルトの名無しさん:2009/02/20(金) 20:35:44
関連スレ

形態素解析と日本語処理
http://pc11.2ch.net/test/read.cgi/tech/1106606281/
4デフォルトの名無しさん:2009/02/20(金) 21:18:03
拠り所にする文法規則ってあるじゃん
めかぶならIPAとか
でも諸説あってどれか定められない
どの文法が機械処理に向いてるんだろう


ってずっと考えてるだけで実装が進まない
5デフォルトの名無しさん:2009/02/21(土) 03:51:37
       //
     /  /   パカッ
     //⌒)∩__∩
    /.| .| ノ     ヽ
    / | |  ●   ● |     
   /  | 彡  ( _●_) ミ  まピョーん☆
   /  | ヽ  |∪|  /_
  // │   ヽノ  \/
  " ̄ ̄ ̄ ̄ ̄ ̄ ̄(..ノ
6デフォルトの名無しさん:2009/02/28(土) 19:31:31
mecab の ipa (naist-jdic) は文法体系ってか品詞体系だと思うけど、
あの体系自体は機械処理に向けて作られたものなので、
考えて進まないくらいならあれでやっていいと思うが。
7デフォルトの名無しさん:2009/03/06(金) 14:05:39
文書の重要度 (まともらしい、スパムらしいなど) はどう計ればいいですか。
人間が学習させると、未知の文書、外国語の文書に対応できません。
圧縮してサイズが激減する物は、重要でないと言えると思いますが
減らない物が重要とは言えないです。JPGが重要文書になってしまいます。
もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
人間が認識可能であるらしいこと、価値ある文書であるらしいことを判別したいんです。
8デフォルトの名無しさん:2009/03/06(金) 14:10:49
無理
97:2009/03/06(金) 14:27:54
無理って事は無いと思うんです。
たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
10デフォルトの名無しさん:2009/03/06(金) 14:35:46
教師付き学習でもカオスになりそうだな
11デフォルトの名無しさん:2009/03/06(金) 14:38:32
もともとの目標を書きます。
全文検索エンジンを作ろうとして、その性能を評価したいんです。
重要文書が上位に検索されるように、インディックス作成時のパラメータを調整したいんです。
そこで重要文書を別の方法で得点づける必要が出てきます。
12デフォルトの名無しさん:2009/03/06(金) 14:41:19
>もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
特定の言語に最適化するつもりは無いんだろ?

>たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
>平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
だったら特定の言語の特徴は関係ないだろ。
13デフォルトの名無しさん:2009/03/06(金) 14:43:04
ランダムに打たれた文字、AA、普通の文書くらいの判別ならできるが
スパムとまともな文書(これらは主観的な判断)を見分けるには
重要度について客観的に評価できる形で厳密に定義する必要がある
14デフォルトの名無しさん:2009/03/06(金) 14:44:11
>>12
それは、例で出したんです。 多言語でも、頻出する語がある程度の割合ででるはずです。
「a」「the」「is」など。
15デフォルトの名無しさん:2009/03/06(金) 14:49:00
>圧縮してサイズが激減する物は、重要でない
うそ臭いな
16デフォルトの名無しさん:2009/03/06(金) 15:20:27
14のいうスパムは意味のない文書のことではなくて
言語の体をなしていない文書のことなのか?
それだとDMや文章系のコピペは重要で詩性の強い文学や歌詞は
重要ではないことになるぞ
17デフォルトの名無しさん:2009/03/06(金) 15:30:45
想像する重要でない文書は、同じ単語、文が頻繁に現れる物、どんな人間も理解できない文書です。
コピペ文も理解できるなら重要と見なします。 
コピペが同一文書に連続すれば、たとえば圧縮することで情報量が少ない事がわかります。
歌詞や文学もほぼ誰にも理解できないなら、価値を減らしたいです。
古代文字で現在解読されていなくても、古代人には理解できるなら価値を高めたいです。
18デフォルトの名無しさん:2009/03/06(金) 15:41:25
仮に可能であったとして完成したとしたら
これほど無用なものは無いな
19デフォルトの名無しさん:2009/03/06(金) 15:41:43
下準備として、辞書無しで単語分割したいのですが良い方法ありますか。 あと類似単語を見つける方法ありますか。
類似文書については、たとえば3byteの固定長語の出現回数を測定してベクトル空間法を使えば簡単そうです。
20デフォルトの名無しさん:2009/03/06(金) 15:45:06
>>18
グーグルの方法だと、リンクの入力を計測しますから
新規の文書の価値は低く、名の知れたサイトの価値は高いです。
新規の文書や、リンクのない検索で使えると思いますが。
21デフォルトの名無しさん:2009/03/06(金) 15:53:34
エントロピー次第って事か
22デフォルトの名無しさん:2009/03/06(金) 17:30:47
重要度とかいう俺様指標をきちんと定義しろよな。
あとは情報検索の入門書でも読め。
23デフォルトの名無しさん:2009/03/06(金) 18:36:44
文書の重要度ではないのですが、自分で考えた重要単語( indexに登録すべき語 )の求め方を書きます。
3-gramで全文検索して、不要単語は登録しない物を目指してます。
たとえばabcが、全100万文書中20文書出現するとします。x=100万/20 or log(100万/20)とおきます。
abcが多くの文書で出現すればxは小さい値になり、abcはそれを含む文書を特徴づける単語ではありません。
もし大きい値であれば、abcは重要単語と見なせます。そしてその周囲の語も重要である可能性が高いです。
本来の区切りが3バイトとは限らない為です。そこでbを中心に左右に (線形的に) 値を減らながら値を割り振ります(加算します)。
これを全単語に対して行うことで、indexに登録すべき文書範囲が決まります。
24デフォルトの名無しさん:2009/03/06(金) 18:47:19
23の方法である単語に対し、文書ごとの重要度が求められるのですが
この結果がホントに重要文書順を出力するのか調べたいんです。
たとえば、x = C + (100万/20) ^ r とした方がいいとか、
値を割り振るときに等比的に減少された方が良いとか、
考慮すべき所があります。
25デフォルトの名無しさん:2009/03/06(金) 19:20:02
頼む。

辞書無しで単語分割すること。 
辞書無しで類似単語を見つけること。
知識無しで文書がスパムでないことを定量化すること。
文書の分類(言語、エンコード、分野などで分類)すること。

単語分割にはViterbi 、A*がいいらしい。
26デフォルトの名無しさん:2009/03/07(土) 14:20:42
全文検索するにはエンコードを特定しないと駄目だな。 
SJISとEUCでN-gramで登録しても一方の検索がHITしない。
登録時はそのままにして
検索時に、全てのエンコードに変換して検索かけるという手はあるが
世界各国対応とすると検索回数が10回以上になる。
エンコードを決めて、N-gramするなら全ての言語の知識がいる。
どうすればいい?
27デフォルトの名無しさん:2009/03/07(土) 14:36:35
知識無しでエンコードする方法考えた。
ベクトル空間法で文書を分類し、つながりの確率から単語分割する。
頻出単語の昇順に番号を付ける。
もし同一言語でエンコードが異なる物は、単語のつながり方に関係があるはずで
上で付けた番号どおしで変換できる。
28デフォルトの名無しさん:2009/03/07(土) 14:50:07
しかし手間かかるから現実的でない。自動判別できるソフトを使うべきか
29デフォルトの名無しさん:2009/03/07(土) 20:11:28
サポートする全言語の知識はどうやろうが必要だと思うけど……。
スパムかどうかは普通読む人次第(読む人に関係なくスパムと見なされて
いるのはアダルトかアフィリエイトかな、現在のところ。)だから、
読む人と無関係な基準を作れたとして、それが意味あるとは思えない。
「重要度」というオレオレ単語をどうにかしる
30デフォルトの名無しさん:2009/03/07(土) 20:27:47
文書、言語として成り立っている物は正常なんです。
アダルトでも文法が正しく読めるならいいんです。
日本人の多くはアラビア語はわかりませんが、文法が正しく理解可能ならいいんです。
JPGファイルは情報量は多いですが、人間が理解できません。
適切なエントロピーである事が一つの条件になると思いますが厳密な定義はわかりません。
31デフォルトの名無しさん:2009/03/07(土) 20:30:03
いま試しに、言語の知識なしで、まともな文書を生成する事をやってます。
文書データは使いますが、文法や分かち書き辞書などは使いません。
32デフォルトの名無しさん:2009/03/07(土) 21:20:42
よー分からんが

Colorless green ideas sleep furiously.

というのは文法的には正しいのに意味をなさない文として有名だけど、
これは OK ってことだよね。

単語分割くらいならがんばればできると思うけど、それ以上は難しいかも。
単語分割はエントロピー的なもので教師なしに分割するという話は腐るほど
あるので、検索すれば出てくると思うけど……

最近の話だったら

ttp://nl-ipsj.r.dl.itc.u-tokyo.ac.jp/NL190program.html

ベイズ階層言語モデルによる教師なし形態素解析

○持橋大地, 山田武士, 上田修功(NTTコミュニケーション科学基礎研究所)

言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの
出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いな
い形態素解析を可能にする。これにより, 教師データの存在しない古文や
話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。

だと思う
33デフォルトの名無しさん:2009/03/07(土) 22:13:56
たとえば、 私 俺 わたくし オレ が似ていることを決定することもなかなか難しい。
プログラマは、国語学の知識は無いとして、品詞分解や文法として正しい文を組み立てられる物か。
34デフォルトの名無しさん:2009/03/08(日) 13:09:54
>>33
それは周辺の文脈を使って単語クラスタリングすればある程度分かるし、
そこまで言語学の知識なくても、周辺の N 単語を使うとか、
bag-of-words を使うとかすればいいし。
品詞を決めようとすると正解タグづきコーパスがないと難しいんじゃないかなぁ
35デフォルトの名無しさん:2009/03/08(日) 13:32:09
品詞名は決まらなくて良いんです。
本来、動詞、名詞と分類されるグループに含まれるっぽいという事がわかれば。
そのほか、英文とドイツ語が混在している文書ならは、英語っぽい、ドイツ語っぽいとかいう分類もあります。
でも今は単語分解してます。 辞書無しで短時間で分解したいんですが難しいです。
たとえば2バイトごとのつながりの計測はすぐに済みますが、
その統計を使ってabcdeというつながりが高確率であり得ると出ても、2語しか比較してないので
実際に文書から出現回数を求めてみないとわかりません。 このチェックを毎回していたら大分時間掛かります。
36デフォルトの名無しさん:2009/03/08(日) 14:45:46
繋がる部分は長めになるけど、分割部分は2バイトあればわかるか。
たとえば、abcxyが、本来abcとxyにわかれるならば、bcとxyのつながりに比べてcxのつながりは弱い。
37デフォルトの名無しさん:2009/03/08(日) 14:51:50
だから品詞名が必要ないなら単語分割したあとクラスタリングすればいい、
って言っているんだが。。。それが動詞っぽいクラスタであるか名詞っぽい
クラスタであるかは人間が見て分かるだけで、クラスタリングでは自動で
クラスタのラベルはつけないし。

あと前も書いたけど辞書なしで単語分割する手法も研究レベルでは
たくさんあるし、そういうの参考にすればいいんじゃないの? 
短時間でできるかどうかは自分で実装したことないので分かんないけど。

どちらかというと暗号解読系の技術に近いことがしたいのかもね。
サイモン・シンの「暗号解読」はちょうど未知の言語の判別問題について
どんな手法があるか書いてあるね。古代の言語(文字)の解読の話題も
書いてあったと思うので、そういうの読んでみたらいいんじゃない
38デフォルトの名無しさん:2009/03/08(日) 14:58:28
重要度順に並べるとどうなるか脳内でシミュレーションできない?
たとえばこのスレで重要度が高くなって欲しいレスと低くなって欲しいレスは
どういうの?
39デフォルトの名無しさん:2009/03/08(日) 15:11:53
ほとんど空白ばかりの文書、JPGの中身をコピペした文書は重要でありません。
エントロピーが適度で、人間が先を予測出来る文書が重要らしいと思うのですが厳密にはわかりません。
そこでまず人間に重要らしいと思わせられる文書を自動生成されてみようと思いました。

>>37
トン。 サイモン・シン読んでみます。 
もともとの目標が全文検索エンジンを作る事なので、知識0のままで高速にindexを作りたいんです。
40デフォルトの名無しさん:2009/03/08(日) 18:48:42
言語と絵の境界は曖昧だよ。
41デフォルトの名無しさん:2009/03/08(日) 23:16:30
>>39 ああ、そうするとデータ圧縮系の話が興味あると思う。
どのように符号化すれば圧縮限界に近づくかとかそういうことだよね。

でも自然言語はあえて冗長な部分があったり
(70% 削っても人間は元の文が復元できるとかいう実験結果があった。
数字はいいかげん)、一次元の尺度ではうまくいかないんじゃないかなぁと思う。

機能語は単純な頻度とか圧縮率で抽出できると思うけど、
内容語は頻度もそんなにないし曖昧性もあるし。
機能語だけに着目して言語判定できるかというとそういうものでもないし。

前文字コード判別でバイト列の N グラムを作って判別したことあるよ。
この場合単語分割する必要すらないんで……。

知識ゼロで作るのは研究としては意味あるけどねー
精度的にはまだまだなんで、かなりブラッシュアップが必要だと思うよ
42デフォルトの名無しさん:2009/03/16(月) 14:43:57
スレ違い
43デフォルトの名無しさん:2009/03/23(月) 19:33:21
は?
44デフォルトの名無しさん:2009/03/23(月) 22:58:51
>>43
しね
45デフォルトの名無しさん:2009/06/19(金) 04:51:03
つながりの確率を求めて単語分割したいんだけど2バイト同士のつながりの統計を取ろうとすれば、
4バイト(int) * 2の32乗 の記憶域が必要になる。(出てこない文字を削れば減るが)
単語は、2語より長くなるから、もっと記憶域を使うことになる。
たとえば、「プログラ」のあと、「ム」「ミング」が来やすいという統計を取ろうとすれば
相当の記憶域が必要。 どうすればいいんでしょうか?
x,y,z,v,wを16bit数とし、「プログラム」の個数を数えるには sum[x][y][z][v][w]という配列にアクセスするようなものと思うのですが。
46デフォルトの名無しさん:2009/06/19(金) 04:55:45
全角で8語くらいまでの統計が求められれば、たくさん自動学習させることで、
どんな既存の辞書も使う事無しに精度はかなり良いと思います。
PPM圧縮を調べたのですが、長い単語の対処方法がわかりません。
47デフォルトの名無しさん:2009/06/19(金) 13:52:06
頻出する (2語、4バイトの) 単語が求め、それに2バイトを割り当てて
再び、4バイトの単語の統計をとれば、長い単語が求められそうです。
48デフォルトの名無しさん:2009/09/12(土) 07:03:04
特徴語、重要語の求め方教えて。 
辞書による単語分割は使わず。
中国語、漢語でも可能な方法。
4948:2009/09/12(土) 08:07:55
何度もデータを読みに行くのは辞めたい。 一度のロードで済ましたい。時間食うので。
例えば、一度目の読み込みで単語辞書を決定し、2度目で単語の回数を測定するとか。
5Gのデータ群だと、2回読めば10Gになり時間食う。
読み込みは、一度だけでいい方法ありますか。
50デフォルトの名無しさん:2009/09/12(土) 11:41:37
>>49
64bitOSで32GBくらいRAMを積めばOK。
5148:2009/09/12(土) 17:38:28
再読み込み、巨大メモリを使って
試行錯誤せず (計算多くせず) 済む方法が知りたいです。
辞書無しの方法がいいです。
52デフォルトの名無しさん:2009/09/12(土) 20:43:09
5Gを全て使わずとも適当にさっぴいてやればいい
5348:2009/09/12(土) 20:54:34
具体的には、500Mを利用して単語辞書を作成するとかですか?
5Gは複数ファイルの合計値です。 
各ファイル毎に特徴語を求めたいです。
辞書に漏れた単語のランク付けがうまくいかないと思うのですが?
54デフォルトの名無しさん:2009/09/12(土) 20:58:45
単語辞書だと、「単語」「辞書」に分かれますが、「語辞」と間違えて抜き出したら
「単語」や「辞書」が一つも出現せず、「語辞」が多く出る文書の特徴語と同じになってしまいます。
これをどのように回避するのかが重要と思うのですが?
55デフォルトの名無しさん:2009/09/12(土) 21:35:43
クラスタリングで、文書のドメイン特定してから
そのドメインにおいて、単語辞書 を 単語 辞書 とすべきか 単 語辞 書 にすべきかを
HMMなり使って最大になる分割を決めればいい。


と、素人ながらに思ったが。
特徴語が同じになるって話だから、そもそもクラスタリングがうまく行かない可能性が高いかw
56デフォルトの名無しさん:2009/09/12(土) 21:47:51
短時間、辞書無し、何言語でも、特徴語を抜き出したいです。
HMMは、確率的に最も有り得る単語分割を決定するって事でしょうか。
これを行ってからだと相当時間食いそうなのが難点です。
57デフォルトの名無しさん:2009/09/12(土) 23:06:47
それは無理。
辞書ありの形態素解析器ですら、使ってるんですから。
確率使わずに、最適な分割例を決めるとか、無理でしょw
58デフォルトの名無しさん:2009/09/12(土) 23:11:23
確率は使うのは良いんですが、膨大な時間を使うのを回避したいです。
59デフォルトの名無しさん:2009/09/12(土) 23:15:43
特徴語を決定するのに、全ての単語の単語分割が必要なのかどうかも疑問です。
60デフォルトの名無しさん:2009/09/13(日) 03:53:43
まずビタピ(ビーム)サーチやってみます。 ABCDはそれぞれ1語(16bit)としたとき
分割方法は8とおりありますが、Aが1000回出現してABは5回出現ならABが繋がる確率は1/200でしょうか?
一方でBが10回しか出現しないとすれば1/2になりますが、これは少ない方(確率の高い方)を採用すれば性格でしょうか?


ABCD
ABC-D
AB-CD
AB-C-D
A-BCD
A-BC-D
A-B-CD
A-B-C-D
6160:2009/09/13(日) 06:16:05
2語の統計とっても、ABCDなど3語以上の出現確率が不明だ。
3語、4語、5語と統計取るのはメモリ容量から実現難しい。 
2語(16bit)でやる人は多いと思いますが、3語以上の確率はどう求めますか?
62デフォルトの名無しさん:2009/09/13(日) 11:39:25
>45辺りから全力で間違った方向に進んでいるような気がする。
疎行列とか連想配列とか使えよ。
63デフォルトの名無しさん:2009/09/13(日) 14:36:47
便乗の質問です

>>60
A 1000回
AB 5回
B 10回

こんな場合だとAとABとBを単語として認識することになるんでしょうか。
もしABがあった場合、これはどの単語が出現したとカウントするんでしょう。
AとABとB、三つともカウントですか?
6460:2009/09/13(日) 15:07:26
>>63
カウントは、出現したやつは全部カウントしないと統計取る意味ないじゃないですか。
よく繋がる語を、単語と見なすんです。
同じ語の繋がりでも文意によっては変わるんです。日本語変換と同じです。
65デフォルトの名無しさん:2009/09/13(日) 16:18:06
なるほど。
語Aと語Bの複合語ABがあった時にもA, B, ABを全部カウントですね。
辞書ありの形態素解析なんかでは最長一致の事が多いから、ABだけですよね。
66デフォルトの名無しさん:2009/09/18(金) 08:41:15
必要と思うので、グーグルのメモリ管理、mapとicuの導入方法をここに記す。
いまから調べる。 windows XP 32bit visual c++ 2008を元にする。
67デフォルトの名無しさん:2009/09/26(土) 23:32:43
文章のクラスタリングをするために適当な固定次元の特徴ベクトルで表現できないかと思っています
どんなベクトル表現が適切でしょうか
68デフォルトの名無しさん:2009/09/26(土) 23:55:25
日本語処理はrubyが充実しててpython使ってる人があまりいない気がする
69デフォルトの名無しさん:2009/09/26(土) 23:56:36
それは完全に気のせいです
70デフォルトの名無しさん:2009/09/27(日) 09:25:54
I18Nのハンドリングは自然言語処理と基本的に関係ありませんから。
71デフォルトの名無しさん:2009/09/27(日) 12:21:03
>>67
2文字か3文字(32-48bit)ごとの統計を取って、2の32乗のベクトルと見なす。
そのベクトルのうち直交しているものをいくつか選び出す。
たとうば、20個選べば、20次元の座標に、それぞれの文書を特徴づけられる。
72デフォルトの名無しさん:2009/09/28(月) 01:07:42
自然語処理って強化学習と相性よさそうなのに
あんまり話を聞かないのは,ダメだってことかな
7371:2009/09/28(月) 08:03:50
>>67
一緒に作るか?前から文書分類しようと考えていた
74デフォルトの名無しさん:2009/09/28(月) 08:29:39
ベイジアンスパムフィルタは、判定結果(あるいはその判定を人間がさらに判定した結果)に
もとづいて学習させてるじゃない?
75デフォルトの名無しさん:2009/09/28(月) 08:56:48
>>71
意味通じない
7671:2009/09/28(月) 14:14:58
>>75
ABCDEFG・・・は2バイト文字とする。
ABC、BCD、CDE・・はそれぞれ一回ずつ出現する。出現した物をカウントする。
すると、2の48乗次元ベクトル空間が得られる。
似ている文書では、同じ箇所がカウントされやすくそのベクトルの類似がはかれる。
これでは、計算量の点から、クラスタリングが困難なので
直行している基底をいくつか選んで射影をとってクラスタする。
すると、20次元くらいなどにおさえられる。
77デフォルトの名無しさん:2009/09/28(月) 17:50:03
文字コードが一文字nビットm文字単位だとだと(mn)^2次元ですか。
どうしてそう無駄なパラメータ入れるかな。

78デフォルトの名無しさん:2009/10/09(金) 10:16:43
高速クラスタリング考えた。偶然良いクラスタに入る法、良いクラスタを選択する法の2つ。
※クラスタの中心を求めるコストは無視できるとする。

前者。
データを100個、1000個など一定数になるように等分する。N等分されたとする。
クラスタnの中心を求めてそれと離れている (関係が薄い) ものをクラスタn+1へ移す。
n=Nのときだけ、クラスタ0へ移すか、新規クラスタへ移すかを選択する。
次クラスタへ移す条件=悶値を徐々に上げていくことで分割が完了する。

後者。
始めにクラスタの中心を関係が薄いもの (直行しているベクトル) 同士で選び出す。
0 < a < b < 1を適当に設定して、クラスタの中心との内積値がbを超えたら、そのクラスタに属すものとする。
すべてのクラスタの中心との内積値が、a未満ならどこにも属さない新規クラスタとする。
こっちは一度の走査で分割が完了する。
7978:2009/10/09(金) 10:23:47
後者は、内積値が最大になるクラスタへ移すのが最善だけど、
時間食うので、bを超えたらそこにしてしまいます。
より良いクラスタがある可能性はあります。
後者で荒く分割 (a,bは0に近い) してから前者を用いるのもいいかもしれません。
80デフォルトの名無しさん:2009/10/09(金) 10:48:26
>>78
どこが高速なの?
8178:2009/10/09(金) 11:01:06
前者をK-means法と比較すると、
クラスタに合わないもの(悶値以下のもの)は、そのまま次のクラスタへ入れてしまう所。
たまたまそこが良かったらそのままにする。
K-means法は合うところを試行錯誤して選ぶ。

後者は、一度の走査で入る場所を確定できる。
82デフォルトの名無しさん:2009/10/09(金) 11:47:09
>>81
前者は収束が鬼のように遅くなるだけの気がするけど?
83デフォルトの名無しさん:2009/10/09(金) 12:19:02
文書分類するやついま作ってる。それを動かしてもらうとわかりやすいはず。
84デフォルトの名無しさん:2009/10/09(金) 17:03:33
>>78>>81
悶値って何?
閾値じゃなくて?
85デフォルトの名無しさん:2009/10/09(金) 17:40:07
まちがえて似た字を当てはめたかも?
86デフォルトの名無しさん:2009/10/09(金) 17:42:28
スマン
いきち = 閾値 は、字だけみた事あって読みを知らなかった。
87デフォルトの名無しさん:2009/10/09(金) 17:45:25
閾値の読み方
閾値の本来の読み方は「いきち」で、「しきいち」は慣用読み。「閾」の字は日本人になじみが薄く、第二次大戦後、当用漢字外とされたため、字義である「敷居(しきい)」の語を当てたものと思われる。「閾」の訓読みは「しきみ」。


しきい値 - Wikipedia
88デフォルトの名無しさん:2009/10/20(火) 10:36:29
日本語の判定テストレポート

対象ソフト。
universalchardet-1.0.3 http://code.google.com/p/juniversalchardet/
icu4c-4_2_1 http://site.icu-project.org/
nkf-2.0.9 http://sourceforge.jp/projects/nkf/releases/
libguess-0.2.0-d7 http://www.honeyplanet.jp/download.html

対象サンプル。
一部文字化けを含むネット上ニュースまたはwindowsXPのバイナリファイル。
個数 バイナリ 2300、 UTF8 5200、 SJIS 4100、 JIS 3800、 EUC-JP 2000

速度。
libguessがもっとも速くこれを1としたときの比較。 ICU 185、 nkf 30、 universalchardet 10

正解率。
libguess 0.99971(5個)、 ICU 0.9996(6個)、 nkf 0.998567(25個)、 universalchardet 0.969221(537個)

まとめ。
libguess( 関数 guess_jp)とnkfは日本語限定の判定。 
ICUとuniversalchardetは判定可能な全ての言語での判定。
ICUは一致率60未満でバリナリと判定しこのとき4つのバイナリが西ヨーロッパ言語、2つのEUCが中国語となった。中国語と判定されたケースはもともと漢字が多く言語判定ではICUがもっとも正確といえる。
nkfの25個はSJISをバイナリと誤認した。universalchardetは、バイナリを言語、言語をバイナリなど間違えるケースが多発した。
日本語限定であればlibguess。 世界各国語が対象なら判定速度は遅いがICUがいい。
89デフォルトの名無しさん:2009/10/20(火) 10:43:02

正解率の括弧は、間違えた個数です。
90デフォルトの名無しさん:2009/10/24(土) 18:54:24
>>83
おい、はやく報告しろ。
91デフォルトの名無しさん:2009/11/02(月) 19:16:16
アイデアのみで実装してないけど、自然言語処理にウェーブレット
使ったらどうだろう?
92デフォルトの名無しさん:2009/11/05(木) 09:17:25
>>90
クラスタリングは諦めた。
それほど関連のある文書は多くない。
正しい分類が出来たところでほとんどは関連がない。
対象はたとえば世界中の文書。
ある一つの文書を指定したとき、関連する文書をサーチするのでいいや。
これは少ししたら上げる
93デフォルトの名無しさん:2009/11/10(火) 09:32:42
やっと悪金解除された・・・

>>92
それはデータが少ないからじゃないのか?
どの位のデータなんだ?
94デフォルトの名無しさん:2009/11/11(水) 05:16:35
100万件を10個程度ずつ10万個に分類したところで意味があるか。
人間にとって価値がないと思う。
いかに速く分類できたという数値測定は意味あるだろうが・
95デフォルトの名無しさん:2009/11/11(水) 05:22:36
100万件の分類には相当時間かかるから、人間がデータを与えたら
それと似た文書を高速で検索できれば十分という考えになった。
100万などやったら、数時間〜一日とかかかるだろ。ずれなく分類使用した場合。
96デフォルトの名無しさん:2009/11/16(月) 16:17:41
>>90
重要そうな文書を指定個数だけ勝手に判断して、
それと類似する文書を抜き出すのは出来た。
クラスタリングは全てを分類しなければならず大変だが
これなら短時間で可能。
97デフォルトの名無しさん:2009/11/17(火) 07:48:06
ふう、悪金解除されたと思ったらまたされて、ようやく解除された・・・

お、ちゃんと進めてるみたいじゃん。
それってk-NN検索だね。
でもそれを効率良く(高速に)行なおうとすると索引が必要になって、
索引作りって半ばクラスタリングしてるようなもんになってない?

ところで100万文書というとかなりのもんだけど、やっぱウェブ?
98デフォルトの名無しさん:2009/11/17(火) 08:38:35
昨日まちがえて Tully's cafe でキャラメルマキアート頼んでしまったが
店員さんは適当にキャラメルトッピングのホットコーヒーを作ってくれた
99デフォルトの名無しさん:2009/11/23(月) 09:51:13
特徴ベクトルを抜き出す部分までは言語処理だけど
クラスタリングは別分野になるな。
画像でも、ベクトルさえ抽出できていたら
分類するのは言語でも共通するから。
100デフォルトの名無しさん:2009/11/23(月) 11:04:56
ファイル群の特徴ベクトル抽出に一時間掛かったとしても
ほぼ無視出来るほどの時間だろう。
これに比べて分類は数倍-数十倍掛かるだろうから。
あと、クラスタリングより類似画像抽出のほうが困難と思った。
大きな分類だけではなく、ひとつひとつの対応まで必要だから。
これを高速で行えれば言語でも使える。
101デフォルトの名無しさん:2009/11/23(月) 11:10:51
基底となるベクトルを3つ、4つなど数個を設定して
それとの類似度を計算して3次元、4次元座標に移し替えれば
クラスタリングしやすいと思った。
これを計算量は3n、 4nで分類に比べた無視出来る程度。
これで距離が近い物は元々似ている可能性があり
離れていれば、元々似ていないことが決定する。
102デフォルトの名無しさん:2009/11/27(金) 00:39:26
わかち書きってどのようなアルゴリズムでやるんですか。
辞書は与えられたとして最長一致にしたいのですが。
103102:2009/11/27(金) 05:21:43
簡単かと思っていたら、LZH ZIPなど圧縮法と関係あるみたいですね。
圧縮は辞書から最長一列を求めることなので。
104デフォルトの名無しさん:2009/11/27(金) 05:42:45
ChaSenのソース読めばわかるよ。
色んなやり方があるけど、
基本的には当然、辞書の中の単語で文を切っていく
切っていくときに、単語の出現頻度を加味しながら、評価関数をmax(min)する組み合わせを探すだけ。
ChaSenなんかは、単語の頻度だけじゃなくて、品詞も見てて、
ある品詞が来たときに次の品詞は何になるかって情報を使ってるのね。(条件付き確率ってやつ)
(もしかすると、品詞情報を使って解くと言うより、品詞を当てるために使ってるのかもしれんが・・・)

で、ここまで書いてて俺がわかんなくなったんだけどw
あれってHMMをモデルに使ってるらしいけど、一体何を隠れ状態にしてるの?
品詞?単語?
あと、HMMつっても、解くときってどうやってるの?
確かMeCabがViterbiを使って高速に解くように改良したってどっかで書いてたけど
逆に、ChaSenの時は、HMMを何で解いてたの?まさか全探索してないよね?w

105デフォルトの名無しさん:2009/11/27(金) 05:48:33
それは最もあり得る探索では
最長一致を高速に求めたいのですが
106デフォルトの名無しさん:2009/11/27(金) 05:54:37
最長一致を高速に求めるなら、全文検索のお話じゃだめなの?
多分、SuffixTree(or Array)なりを作るような感じになると思うけど・・・
多分そっちだと、どうやって高速に作って、枝刈りしてリソース押さえるかって問題になるけど・・
でも、ちょい研究としては古いかな・・・。
107デフォルトの名無しさん:2009/11/27(金) 06:01:01
ここいくとそれほど古い話でもないようだけど。
研究は知らないけど、コピーと同等の速度で分かち書きを出力できればいいけど。

DO++: LZ法再び
DO++: 最長一致文字列の話

http://hillbig.cocolog-nifty.com/do/2008/10/lz-5ed2.html
http://hillbig.cocolog-nifty.com/do/2008/07/post_2e1d.html
108デフォルトの名無しさん:2009/11/27(金) 06:09:19
ほほー、これは知らなかった。
BWT法とかよりいけそうなのか・・・。
うちはSuffixArrayで色々やってきたんだけど、
Treeに比べればメモリ的には優しいけど、それでも大変なんだよな・・・
なんせ一切端折らずに全ての位置情報を付加すれば、
文字数分のintなりlongの位置情報が必要になっちまうから・・・
109デフォルトの名無しさん:2009/11/27(金) 06:10:01
全文検索に使いたいんですけど、結局の所、
分かち書きしなくても、辞書に登録と検索は可能なんですよね。
N-gramでやれば。 
分割して無駄省けば、辞書サイズと検索精度は上がりますが。
検索目的で考えれば、品詞分解にやってる人は無駄だと思います。
それ以外で、MeCabやChaSen使うのはかなり少数な気がします
110デフォルトの名無しさん:2009/11/27(金) 06:24:07
SuffixArrayやBWT法は一時期きょうみ持ったけど、
大きな欠点として新規データの追加が行えないので離れた。
構築時間も掛かるし。zipなど定番と同程度、同圧縮になれば
全文検索出来る分のメリットはあるけど。
これ実現したら、世界標準の圧縮になり得るけど。
111デフォルトの名無しさん:2009/11/27(金) 06:34:58
Suffix Array、BWTは、O(n)で実現できるようですけど、
10nでも100nでも、O(n)ですからね。
圧縮と書き込み完了までの合計がコピーの5倍以内だったらいいけど。
112デフォルトの名無しさん:2009/11/28(土) 18:04:51
    ┏┓┏┓          ┏━━━━━━┓  ┏┓  ┏━━━━┓┏━━┓
    ┃┃┃┃          ┗━━━━━┓┃  ┃┃  ┗━━┓┏┛┃┏┓┃
┏━┛┗┛┗━━━┓  ┏━━━━━┛┗┓┃┃  ┏━━┛┗┓┃┗┛┃
┃┏┓┏┓┏━━┓┃  ┗━━━━━━┓┃┃┃  ┗━━┓┏┛┗━━┛
┃┃┃┃┃┃    ┃┃  ┏━━━┓    ┃┃┃┃  ┏━━┛┗┓
┃┃┃┃┃┃┏━┛┗┓┃┏━┓┃    ┃┃┃┃  ┃┏━┓┏┛
┃┃┃┃┃┃┃┏┓┏┛┃┃  ┃┃    ┃┃┃┃  ┃┃  ┃┃
┃┗┛┗┛┃┃┗┛┃  ┃┗━┛┗━━┛┃┃┗┓┃┗━┛┃
┗━━━━┛┗━━┛  ┗━━━━━━━┛┗━┛┗━━━┛
113デフォルトの名無しさん:2009/11/29(日) 11:47:52
>>2 にある 依存構造解析 というのは、 構文解析 (下記) とは意味が異なるの?

ttp://ja.wikipedia.org/wiki/%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90
114デフォルトの名無しさん:2009/11/29(日) 11:58:52
形態素解析も依存構造解析も構文解析の一種
115デフォルトの名無しさん:2009/11/29(日) 12:00:19
ここって随分低レベルになったり、
逆に、自然言語処理の研究者(M、Dr含む)が書き込んでるっぽいなぁってレスがあったりで
波がすごいなw
116デフォルトの名無しさん:2009/11/29(日) 12:30:15
>>114
ありがとう。同じグループとして繋がりました。

>>115
すみません。まったくの素人です。
たまたま検索エンジンでこちらががヒットして、気になったことを質問しました。

大量にある文書から個人情報の箇所を自動的に隠蔽したく (例: 鈴木様 <<人名>>様)、
そういう技術を探していました。 市販の商品もあるようですが、手元のマシンで動かして確かめ
たり、理解を進めたいと思っています。

もし形態素解析で「人名」が特定できるなら、その部分を除去して元に戻すことで望む動作に
ならないかと期待しています。 
実データを用いてどこまでできるか、何はできないか知りたいと思っています。
117デフォルトの名無しさん:2009/12/02(水) 02:30:42
>>101
よくあるのは特異値分解していくつかの特異ベクトルを基底に選んで低次元に投射するってのだね。
そういうオーソドックスな事はやってみた?
118デフォルトの名無しさん:2009/12/15(火) 18:35:53
(つд⊂)エーン
119デフォルトの名無しさん:2009/12/15(火) 20:39:43
dosita
120デフォルトの名無しさん:2009/12/15(火) 21:54:04
俺も今泣きたい。
121デフォルトの名無しさん:2009/12/19(土) 08:21:24
nasite?
122デフォルトの名無しさん:2010/01/03(日) 17:02:06
なにが
123デフォルトの名無しさん:2010/01/15(金) 09:43:12
部外者です。
つまらない質問なんですけど、例えば「住んでいて」という言葉を「住んでて」と略したりしますよね?
これは文法的には間違っているけど、通じますよね?
こういった言葉の翻訳の場合、どのような処理をするもんなんでしょうか?
普通に考えると、辞書的な処理とか、略す規則を求めるとかなんでしょうけど、
もっと別の方法ってあるんですかね?
124デフォルトの名無しさん:2010/01/15(金) 13:22:00
い抜き言葉とか、ら抜き言葉とか
一応決まった規則があるから、それで処理するだけかと

もっと本気で分析するなら、音素関係を見て
どういう音素の繋がりがあった時に、どの音を抜くかとか
そういうのもあるとは思うけど
125デフォルトの名無しさん:2010/01/15(金) 13:57:41
>>123
間違ってないよ。
君の知らない文法があるってだけ。
126デフォルトの名無しさん:2010/01/15(金) 23:55:33
>>123
音素コーパスから統計処理。
127デフォルトの名無しさん:2010/01/23(土) 13:22:01
>>117
特異値分解が、クラスタリングで重要なことがわかったけど
これを実行することが難しい。
128デフォルトの名無しさん:2010/01/23(土) 14:23:24
でかい疎行列の特異値を計算するライブラリないですか?
129デフォルトの名無しさん:2010/01/23(土) 14:33:59
特異値分解が、全ての相関度を計算するコストより
かかったら意味ないな。
経験的に、多くのベクトルと関連があって直行に近い数個のベクトル
を選んでおく方が良いか。
130デフォルトの名無しさん:2010/01/23(土) 14:38:18
特異値分解できれば、相関度に影響の少ない次元を
数値的に削れるけど、時間がかかりすぎる気がしてきたから
これはやめるか。
131デフォルトの名無しさん:2010/01/23(土) 15:12:54
っていうか、どうやってお前ら特徴ベクトル作ってんの?
片方の軸は単語として、もう片方は各文?
中身は頻度かtf・idfだと思うけど・・・
132129:2010/01/23(土) 15:53:03
直交基底を始めに適当に作って
その基底でいくつかのサンプルをプロットしたときに
良く分布するものを選ぶことにした。
これなら次元を落とす作業の準備はほぼ一瞬ですむ。
133デフォルトの名無しさん:2010/01/24(日) 09:15:25
卒論か何かかなぁ。
学部生が一人でやってるなら仕方ないけど、サーベイしなさ過ぎだぞ。
大規模疎行列の特異値分解についてはsvdpackcを探せ。
この中のlanczos法プログラム(las2.c)を使え。
具体的な使い方については茨大の新納先生の↓が参考になる。
http://nlp.dse.ibaraki.ac.jp/~shinnou/papers.html

他にも色々言いたいことはあるが面倒だからやめとくw
134デフォルトの名無しさん:2010/01/24(日) 09:16:52
おっとすまん、そこの「SVDPACKCとその語義判別問題への利用」という論文だ。
135デフォルトの名無しさん:2010/01/24(日) 09:48:06
サンクス
136デフォルトの名無しさん:2010/01/24(日) 16:47:18
SVDPACKCの使い方みたのですが大規模疎行列は無理みたいでした。
1-3万 * 2000くらいが限度だと厳しいです。
シュミットの直交化を使って、正規直交基底を沢山作っておき、そこへサンプルをプロットして
分散(標準偏差)の良い上位k個を選んで、k次元に落とすことにしました。
137デフォルトの名無しさん:2010/01/24(日) 17:18:02
研究屋が言う「大規模」と、実務屋が必要とする「大規模」は
字面は同じでも意味が全然違うというわな
138デフォルトの名無しさん:2010/01/24(日) 17:49:44
まったく、ほんとに出来の悪い学生だな。
ちったぁ自分で工夫しろ。
仮にsvdpackcをそのまま使うにしても、25000x2000でダメだったのは512Mのメモリの場合と書いてあるだろ。
今時数十GB位のメモリ使えるだろ。


>>137
計算機の世界では数字さえ出てくれば意味は同じですよ。
賢い実務屋さんなら人をクサすような事ばかりじゃなくて、こういう時にはみんなどうしているのか教えてやってよ。
139デフォルトの名無しさん:2010/01/24(日) 18:02:20
とりあえず64bit環境用意しないと、話が進まないけどな

>>138
単一のハードウェアに数十GB単位のメモリが仮に載せられたとして
それをそのまま利用できると思ってるのは所詮解説論文しか書けない実装出来無い奴の頭だ
どこかの頭の悪い文系SEと同じ

ちなみに、大規模計算機の数十GBは、分散型だから、単一ではせいぜい数GB程度のメモリ
これを分散型にする場合、SVDをそういうアルゴリズムに落とさないといけないと言う問題が待っててだなry

140デフォルトの名無しさん:2010/01/24(日) 18:34:18
おっとそれは俺が4年前に通った道だ
141136:2010/01/24(日) 18:40:46
個人のPCで他アプリを同時に動かす環境で使いたいのですが。メモリは多くて200Mが限度と思います。
142デフォルトの名無しさん:2010/01/24(日) 18:57:21
>>141
誰かが答えを呉れるのを待ってるのかもしれないけど、自分で調べた事柄と
自分の考えたをそれぞれ説明して、疑問点を明確にしないと
もう誰も答えないと思うよ。
143デフォルトの名無しさん:2010/01/24(日) 19:13:06
メモリが200しかないんだろ?
200しかない所に300はつっこめないだろ?

じゃあどうするの?
魔法使いじゃないんだから、メモリにツッコむには
・データを何らかの前処理で圧縮する
・メモリ以外を活用する
・サンプリング
の3つしか無いと思うんだが
144デフォルトの名無しさん:2010/01/25(月) 04:20:38
メモリを買ってくる
145デフォルトの名無しさん:2010/01/25(月) 09:16:05
仮想記憶?
146129:2010/01/25(月) 19:35:04
疎な10万次元ベクトルを、100次元以下に縮めたら、
0ベクトルになる率が多くて使えなかった。
何の変換もしない元のデータのままて゜頻度の少ない単語を無視して
次元圧縮するのが確実に有効っぽい。
147デフォルトの名無しさん:2010/01/25(月) 23:01:01
目的が何か知らないけど(潜在的な意味繋がりを使いたいとかならともかく)
次元圧縮そのものが目的なら、頻度で切って
そこから更に次元圧縮するのって、何か無駄に見えるが・・・
頻度で切るなら圧縮意味なくね?
148129:2010/01/26(火) 10:33:44
100万 - 1000万件ほどの文書のクラスタリングをしたいのですが。
計算量を減らすために次元を減らしたいのですが。
149デフォルトの名無しさん:2010/01/28(木) 07:50:51
この分野を勉強してみたいと思うのですが、入門書とかおすすめのサイトを教えていただけませんか?
150デフォルトの名無しさん:2010/01/28(木) 09:17:25
とりあえず、ずばり「自然言語処理」がタイトルに入ってる本が何冊かある。
151デフォルトの名無しさん:2010/01/28(木) 17:28:04
自然言語処理って、ぶっちゃけ何でも屋だからなぁ・・・
漠然と自然言語処理を勉強するっていったって・・・

ちなみに、今世間で騒がれてる
検索エンジン、日本語入力、機械翻訳、なんて言うメジャーな自然言語処理の応用例と言われてるツールは
どっちかと言うと、この分野じゃ本流じゃないからな。
152デフォルトの名無しさん:2010/01/28(木) 17:31:39
> 日本語入力、機械翻訳

これが専門の人から教わったので、俺にとっては自然言語処理というとこれなんだがw
153デフォルトの名無しさん:2010/01/28(木) 17:39:59
最近はGoogleや集合知ブームのせいか知らないけど
統計的な言語処理が流行ってるなぁ・・・

統語的な話しとか、生成文法とかの話はどこへやら・・
154デフォルトの名無しさん:2010/01/28(木) 17:56:47
「計量」言語学なんて用語もあるように、統計的な手法も歴史はあるんだけどね。
155デフォルトの名無しさん:2010/01/29(金) 18:41:06
K-meams法の最適解(最適な中心)は固有値(ベクトル)計算で決まるみたいだね。
ここに書いてあった。普通のK-meamsで試行錯誤するより固有値計算した方が
かかる時間は半分になるそうだ。


スペクトラルクラスタリング
http://d.hatena.ne.jp/mrcarrot/20100117/1263735597

スペクトラルクラスタリングは次元圧縮しながらKmeansする手法
http://d.hatena.ne.jp/mamoruk/20090128/p1
156デフォルトの名無しさん:2010/01/29(金) 18:46:06
こんな線形代数の初歩しかやってない事が2001-2003年頃まで知られて無かったらしい。当たり前すぎて誰も論文かかなかっただけかも。
157デフォルトの名無しさん:2010/01/29(金) 19:02:22
日本語で書いてあるより詳しい資料見つけてきた。
固有ベクトル求めてK-meamsやるソフトウェアは無いと思うんで作りたんだけど実力がない。
だれか。


スペクトラルクラスタリング
http://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2008/Rclustering/r-motegi-0624.pdf
部分時系列クラスタリングの 理論的基礎
http://www.research.ibm.com/trl/people/ide/2006_JSAI_Ide.ppt
縮約類似度行列を用いたスペクトラル手法による クラスタリング結果の改善
http://nlp.dse.ibaraki.ac.jp/~shinnou/paper/sig-kbs-07-79.pdf
158デフォルトの名無しさん:2010/01/29(金) 21:39:33
逆に言うとK-meansが正確に高速にとけると
固有値、ベクトル計算できるってことだな。特殊なやつだけだけど。
いまかんがえたやつだけど、1万個なら100クラスタ*100個に分けて
クラスタの中心とそのノルムを計算して、
ノルムはクラスタの散らばり度を表すから
その小さい物を、ほかのクラスタの散らばり度を無くす様に配置転換していけばいとおもうな。
ここで、良い場所がなければ101個目のクラスタを作って良いとする。
1つのクラスタが一番散らばりが少なくなるからどこかで止めないといけないが。
159デフォルトの名無しさん:2010/01/31(日) 09:38:09
みなさん、どれくらいの機械使ってるもんなのかな。

スペック足りないからもっとゴツいの買ってほしいんだが、
「お前のコードがヘボいからだ!」と言われそうだ。
ヘボいのは(たぶん)事実だから、あんまり強気に出られない。

運用の方のスペックは割と情報があるけど、開発の方のスペックがどうなっているのか
見たことがない。
160デフォルトの名無しさん:2010/01/31(日) 13:12:35
>>159
用途やデータの規模によるところが大きいかと。
161デフォルトの名無しさん:2010/01/31(日) 15:02:14
いやそりゃ重々わかってるんだけどさ…
162149:2010/02/01(月) 14:36:40
趣味である言語の自分用の機械翻訳ツールを作ってみようと思ってるんですが、
どこから勉強すべきか分からないんです。
自然言語処理の基礎から勉強するのは遠回り過ぎますか?
163デフォルトの名無しさん:2010/02/01(月) 22:02:29
>>162
楽しむだけなら、
http://www.amazon.co.jp/dp/4766501101/
なんか読むだけでいいんじゃないか。
164デフォルトの名無しさん:2010/02/04(木) 11:46:45
>>153
日本語限定のことはあまり価値無い
全世界や未知語や宇宙語でも共通するのが良い
165デフォルトの名無しさん:2010/02/04(木) 14:32:23
671番さん
57行目でclassまたはinterfaceがありません。
です。
すみませんがよろしくおねがいします。
166デフォルトの名無しさん:2010/02/04(木) 18:15:03
対話コーパスの隣接対について、自動的にタグ付けするアルゴリズムってどこかで研究されてる?
167デフォルトの名無しさん:2010/02/05(金) 00:29:16
>>139
今時数十GBがそんな特別なもんかよおい・・・
ていうか、それをそのまま使えない環境なんて捨てちまえよ、おい・・・
いずれにせよサーベイしなさすぎだな、みんな。
168162:2010/02/05(金) 00:42:53
>>163
レスが遅れましたがありがとうございます。
読んでみます
169デフォルトの名無しさん:2010/02/05(金) 04:43:32
ググることをしないIR専門家(自称)
170デフォルトの名無しさん:2010/02/05(金) 05:22:17
むしろググるな
論文探すって言う意味なら良いけど、
それなら、もっと良い方法あるだろ。
IR専門家なら、参考にするのは、査読付き論文のみにするだろjk
171デフォルトの名無しさん:2010/02/05(金) 05:24:33
>>167
サーベイでどうにかなるもんだいじゃないだろ
元論文だって、結果の裏で細かい実装上の苦労があんだよ
そのノウハウ蓄積無しに、サーベイサーベイ言ってもなぁ・・・
172デフォルトの名無しさん:2010/02/05(金) 07:02:47
サーベイばっかしてて研究進まない香具師
173デフォルトの名無しさん:2010/02/05(金) 08:40:15
サーベイと言ったらとりあえずはIEEE-CS DLとACM DLは常識だと思った俺が悪かった。すまん。
174デフォルトの名無しさん:2010/02/05(金) 20:43:08
>>173
そいつら、やたら使い難いじゃん。ググルスカラのほうが遥かにマシ。
175デフォルトの名無しさん:2010/02/12(金) 11:52:51
>>159
Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。
176デフォルトの名無しさん:2010/02/12(金) 12:49:29
もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる?
やっぱMPI?
177デフォルトの名無しさん:2010/02/19(金) 11:19:49
>>148
亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの?
178デフォルトの名無しさん:2010/02/19(金) 18:12:21
>>177
???あまりにも疎だから次元減らしたいんじゃね?
179デフォルトの名無しさん:2010/02/21(日) 23:07:06
>>178
疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。
180デフォルトの名無しさん:2010/02/22(月) 19:01:31
表現がコンパクトなだけで空間としては全然コンパクトじゃない罠
181デフォルトの名無しさん:2010/03/08(月) 00:36:43
知識なし、形態素分解なしでキーフレーズ抽出できるもの?
まず候補の分解までいければ、統計的手法で重要語を選べそうだけど。
知識なしで、単語分解と連結する語の特定するにはどうすればいい?
182デフォルトの名無しさん:2010/03/08(月) 00:41:05
文書から学習したら連結する単語のいくつかは判明するけど
すべて網羅は無理。漢字・カタカナのみで最長部分を選べばよさげだけど。
ひらがな・数字をどうするか。漢数字でない数字を含むキーワードやひらがなを含むものもある。
1月18日などはスルーしたいところ。
183デフォルトの名無しさん:2010/03/08(月) 01:14:57
辞書もコーパスもなしなら文字種の変わり目で区切るしかないんじゃないの
まあ「できる。」とか「のだった。」が最頻出になるのがオチだとおもうけど
184デフォルトの名無しさん:2010/03/09(火) 18:24:15
>>181
ぱっと思いついた方法。
まず、n-gramをN=1からN=10ぐらいまで取る。
次に、低位の出現率のchainと高位の出現率を比べてみて
大きな差があったらそいつは単語っぽいと思っていいのでは。
185デフォルトの名無しさん:2010/03/10(水) 01:17:31
ちゃんと論文読めw
ノンパラメトリックの形態素解析はもう研究され尽くしてる
今更そんなレベル低い事やっても意味がない
186デフォルトの名無しさん:2010/03/10(水) 07:44:56
>>185
自分は言語処理やってる人間じゃないんだが、とある事情で形態素解析をやる必要が出てきた。
もちろん辞書の類は無しで。
もしよかったら参考になる文献か論文を教えてほしい。
そのまま実装に持っていけるくらいのアルゴリズムまで示されているとさらにありがたい。
187デフォルトの名無しさん:2010/03/10(水) 17:44:44
>>185
機械学習だろ。
文書が1つ〜10つくらいの少しでも出来るのか。
188デフォルトの名無しさん:2010/03/11(木) 01:28:52
出来るか出来ないかはともかく
既に先行研究がたくさんあるのに、今更1から原始的な方法を取る意味はない
189デフォルトの名無しさん:2010/03/11(木) 02:32:06
少ない文書で知識なしで分解するソース上げてから言ってもらおう
190デフォルトの名無しさん:2010/03/11(木) 03:40:16
ベイズなんとかを有意に計算できるくらいにはコーパスが必要なんじゃないの
191デフォルトの名無しさん:2010/03/11(木) 08:58:43
何でもいいから一冊くらい本を通読してから質問しろよ。

とある企業のサーバシステムをまかされました。良い本を教えてください。
とか言われて、まともな回答ができると思うのか。
192デフォルトの名無しさん:2010/03/11(木) 09:56:46
技術屋によくいるタイプなんだけど、ちょっと質問すると「うーん」とうなって「それだけじゃなんとも…あれは?これは?それは?」と逆に質問されまくる。
そういう時は「あんたコミュ能力不足だね」と言ってやる。
193デフォルトの名無しさん:2010/03/11(木) 10:28:44
>>192
お客様扱いされたいなら、コンサルに金を払え、池沼。
194デフォルトの名無しさん:2010/03/11(木) 12:27:09
>>192 コミュ能力不足は、一発で回答を期待してるのに、十分な情報を与えてないおまえだ。
195デフォルトの名無しさん:2010/03/11(木) 14:48:22
つーか、「とある事情で形態素解析をやる必要が出てきた」だけなら
「めかぶでも使っとけお前の仕事なんてねーよ」で終わるレベル
196デフォルトの名無しさん:2010/03/11(木) 16:09:05
>>195
> もちろん辞書の類は無しで。

コミュ力不足w
197デフォルトの名無しさん:2010/03/11(木) 17:30:47
辞書不可とか「辞書作るのとかめんどくせーし」ってだけだろ。おまえのコミュ力が心配だわ
198デフォルトの名無しさん:2010/03/11(木) 20:35:09
>>197
そういう決め付けはコミュ不足の典型例だな
199デフォルトの名無しさん:2010/03/11(木) 20:36:16
>>185
といいながら、具体的なアルゴリズム名や文献を例示できるほどには詳しくないのですねw
200デフォルトの名無しさん:2010/03/11(木) 20:42:03
決めつけも何も事実だし
201デフォルトの名無しさん:2010/03/12(金) 04:56:18
事実と推測の区別がつかない人がコミュ力とかwww
202デフォルトの名無しさん:2010/03/13(土) 05:27:16
久々に見たらなんか盛り上がってて嬉しいぞ
203デフォルトの名無しさん:2010/03/24(水) 15:51:15
論理的には同じことを言っている文章を検出する方法はないのでしょうか
日本語を論理式に変換するようなものがあるといいのですが
204デフォルトの名無しさん:2010/03/24(水) 16:06:24
あるといえばあるしないといえなくもない
205デフォルトの名無しさん:2010/03/24(水) 18:10:10
>>204
検索キーワードだけでも教えていただけませんでしょうか
206デフォルトの名無しさん:2010/03/24(水) 18:51:43
専門業者に頼んだほうがいいんじゃないの

自分で同義語辞書作ってたら何年かかることやら
207デフォルトの名無しさん:2010/03/25(木) 13:37:15
>>203
英語ならあるのかな?
208デフォルトの名無しさん:2010/03/25(木) 14:19:35
I'll be back.

See you later.
は論理的には同じ?
209デフォルトの名無しさん:2010/03/25(木) 20:32:53
最後は人出で探すから大まかに検出できるだけでいいんだ
210デフォルトの名無しさん:2010/04/16(金) 15:53:54
mecabを日本語のhtmlにかけると、htmlのタグまで処理してしまうんだけど
日本語文字列だけ判別して処理する方法はないの?
kakasiはあったみたいだけど
211デフォルトの名無しさん:2010/04/16(金) 16:39:58
http://d.hatena.ne.jp/niitsuma/20100416/1271403446
P2P web検索エンジン yacy http://www.yacy.net/ を日本語でも使えるようにしてみた
212デフォルトの名無しさん:2010/04/16(金) 22:53:02
 京都大霊長類研究所(愛知県犬山市)人類進化モデル研究センターで昨年
3月〜今月までに、飼育中のニホンザル15頭が急死していたことが28日、
かった。

 死因は不明で、感染症の疑いもあるという。

 同センターによると、死んだニホンザルは昨年6頭、今年9頭。いずれも血液中の
血小板や赤血球、白血球の数が減少する「再生不良性貧血」を発症していた。ただ、
病気と急死の因果関係がはっきりせず、死因は特定できていないという。

 また、一つの飼育室で複数のサルが発症していることなどから、感染症の疑いも
あるという。2001〜02年にも再生不良性貧血の症状があった6頭が急死したが、
死因は分かっていない。

 同センターでは約1000頭を飼育しているが、ニホンザル以外での発症例はなく、
平井啓久センター長は「今夏以降、死因を本格的に調べている。分かり次第、
公表したい」と話している。

読売新聞 2009年12月28日19時56分
http://www.yomiuri.co.jp/science/news/20091228-OYT1T01061.htm
213デフォルトの名無しさん:2010/05/19(水) 18:31:38
いまこのスレ見つけて、wktkしながらみてみたのだが、、
質問してるやつらが、痛すぎるなあ。
214デフォルトの名無しさん:2010/05/19(水) 19:15:31
2chはそんな場所。そこが面白いところでもある
215デフォルトの名無しさん:2010/05/31(月) 12:11:20
未知言語に対して、ほぼ必ず区切りになる部分の見つけ方わかりますか?
例えば、英語だと空白やDOT、日本語だと、。が区切りなりますが。

たとえば 「。」 → 「丸」 と置き換えた場合でも、言語の構成・仕組みから
「丸」は特別で区切りと判明できる方法です。
216デフォルトの名無しさん:2010/05/31(月) 12:12:03
あげます。
217デフォルトの名無しさん:2010/05/31(月) 12:26:04
ABCと語が出現したとき。

Aの総数と、ABの総数
Bの総数と、ABの総数
Bの総数と、BCの総数
Cの総数と、BCの総数

などを比較して、
ABとBCはどちらも繋がりにくい事を判定すればいいか。
= AB、BCは単語を構成しない(らしい)としてBが区切りと判定する。


218デフォルトの名無しさん:2010/05/31(月) 16:09:41
上のほうで辞書なしとかノンパラメトリックとかいってるのがそれだ。あとはぐぐれ。
219デフォルトの名無しさん:2010/05/31(月) 17:46:08
サンクス
220デフォルトの名無しさん:2010/06/03(木) 22:15:13
周辺確率でぐぐれ
221人工痴脳:2010/06/26(土) 22:01:07
遅レスですまん。

>>123
> つまらない質問なんですけど、例えば「住んでいて」という言葉を
> 「住んでて」と略したりしますよね?
> これは文法的には間違っているけど、通じますよね?
補助動詞「行く」「置く」「居る」の三つは省略がある。
ex.「ずっと住んでく」「とりあえず住んどく」「いま住んでる」
222人工痴脳:2010/06/26(土) 22:09:35
>>181
> 知識なし、形態素分解なしでキーフレーズ抽出できるもの?
可能ではあるが精度が上がらんから、辞書作ったほうが早い。
頭っから見てって、ひらがなから非ひらがなに変わるところで切り、
ひとつ前を見て「お」「ご」だったら接頭語かどうかチェックする、
という手で相当いける。
まあ、そこまでやらんでも、すでにフリーの辞書があるから
それ使え。
ゲーム製作技術板の『人工知能or人工無脳作ろうぜ』スレ参照。
223人工痴脳:2010/06/26(土) 22:36:34
>>203
> 論理的には同じことを言っている文章を検出する方法はないのでしょうか
> 日本語を論理式に変換するようなものがあるといいのですが
様相論理が役に立つかもしれん。
坂井秀寿『日本語の文法と論理』勁草書房とか。
224デフォルトの名無しさん:2010/07/03(土) 11:20:19
UTF16LE UTF16BEを検出出来るソフトはないようだ。
判定方法判ったので、ソフトで間違えた場合の応急処置として使ってみてくれ。
このyの値が1/2より下回ればUTF16LE、上回ればUTF16BE。


int n; int cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<s.size(); n++) cnt[n%2]+=s[n]<32?1:0;
double y=(double)cnt[0]/cnt[1];
cout<<y<<endl;
225224:2010/07/03(土) 11:22:29
訂正。

このyの値が1/2より



このyの値が1より


上位ビット、下位ビットが不均衡になる所に注目する。
226デフォルトの名無しさん:2010/07/03(土) 11:55:48
UTF16LEとUTF16BEが間違えるな。
文字化けがあれば大小関係がかわるし。
227デフォルトの名無しさん:2010/07/03(土) 12:57:55
ボム無しUTF16LEとUTF16BEの判定方法判りますか
228デフォルトの名無しさん:2010/07/03(土) 13:29:00
UTF16の判定は0の個数だけ判定したらうまくいった。ただし英数字が十分にあること。


int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[0] > 0.7*cnt[1] ) return 2; // UTF-16BE
return 0; }
229デフォルトの名無しさん:2010/07/03(土) 13:39:20
ヒューリスティックだねぇ
230デフォルトの名無しさん:2010/07/03(土) 14:32:02
修正

int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if(cnt[0]==0 || cnt[1]==0 ) return 0;
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[1] < 0.7*cnt[0] ) return 2; // UTF-16BE
return 0; }
231デフォルトの名無しさん:2010/07/03(土) 14:32:33
連続した文字が「同じ文字区分に属している確率」を見ればいいんじゃない?
232デフォルトの名無しさん:2010/07/06(火) 04:51:26
>>227
察するにCかなんか使ってるようだが、
Javaかなんかに乗り換えたほうが
たぶん長期的に見れば楽だと思うぞ。
Cの文字列はヌル・ターミネートだから、
文字列の中にヌル文字が入ってると結構ややこしいことになるし、
文字列のような可変長データの動的割当を気にしていると
開発効率があまりよろしくない。

Javaが厄介な点も一つだけあって、
char が signedで あって unsigned じゃない。
高速ですべての部分文字列の辞書引き(直積検索という)を
行なうとき、Google でも使われてる
「ダプル配列法」(本当は、もっと素朴なトリプル配列法のほうが
面倒臭くないし効率もいいのでおれはそっちを使ってる)を
使おうとすると、配列の参照点→配列の参照点+バイアスという
相対移動が出てくるときにマイナスの移動が生じ、
範囲外参照で落ちるということがある。
まあ、そこに配慮してコードを書けばいいだけの話なんだが、
文字コードのせいでプログラムとアルゴリズムの対応が直感的に
取りづらいというのはあまり気分がよろしくない。
233デフォルトの名無しさん:2010/07/06(火) 21:29:23
Javaのcharは符号無しですが何か?
234デフォルトの名無しさん:2010/07/07(水) 09:09:42
>>233
ごめん byte だ。
char はでかすぎてダブル配列法を使うと場所食ってたまらん。
235デフォルトの名無しさん:2010/07/07(水) 17:43:13
文書の類似度計るのに多く出る単語は価値を低くして
滅多に出ない単語も価値を低くしたいのですが。
後者は、前者と対立して価値を高くすべきと思われますが、ここを無視すれば計算時間が短縮出来ます。
価値が一定値以下の単語はカットしたいのですが、上側と下側をカットするにはどうしたらいいですか。
236デフォルトの名無しさん:2010/07/07(水) 19:06:27
w_i = 0
これでバッチリ。
237デフォルトの名無しさん:2010/07/07(水) 19:13:07
普通にヒストグラム取って25パーセンタイルと75パーセンタイルでカットするとかじゃ駄目なのか?
238デフォルトの名無しさん:2010/07/07(水) 21:06:19
サンクスです。
上と下も同一パラメータでカットしたかったのですが。
総量と分散でに分けてカットすることにします。
どの文書にも10個ずつ現れるなら分散0でカットして
合計数が少なすぎ多すぎでカットします。
239デフォルトの名無しさん:2010/07/07(水) 21:10:21
>>237
二十年以上昔から
駄目っぽいことが判ってるらしい。
上側は用言や副詞や動名詞
下側は固有名詞と
だいたい傾向が分かっていて、
類似度を計るときは、通称「百科語」と呼ばれる
単語を使うことになっているのだが、
ここんとこに漢語の合成語が入ってくるのが難物なのだ。
漢語の合成語を自動検出するシステムを作って
ふるいに掛けてみたら、
二十万語を越しても一向に頭打ちになる様子がないので
怖くなってやめたと、たしか高橋秀俊先生が
書いていらっしゃった。

最近ではシソーラスを作るのが基本だが、
手間が半端じゃねぇというので
あまり好かれない。

>>235 もたぶんそういった流れなんだろうと思う。
240デフォルトの名無しさん:2010/07/07(水) 21:14:30
自分の場合は、単語は普通の単語でなくN-gramなんですが。
HTMLをテキストとして読み込むと、文書を特徴付けないタグ関連が上位にきて
ここら辺が精度のためにカットして、下位は精度より計算量削減のため削ります。
241デフォルトの名無しさん:2010/07/07(水) 21:20:29
普通の単語では、長いものは短い物より現れにくく
経験としての単語同士の価値の補正が必要になり不便です。
いまは、UTF16 (上のレスは自分です) で2語または3語で回数数えてやってます。
242デフォルトの名無しさん:2010/07/07(水) 21:25:18
>>239
今時の計算機ならいけるかもしれんな。
IPADICから合成語を除いた上で、2語で1語になるものを、ウェブ上で端から集めるとか
そんな方法ででけるかな。
243デフォルトの名無しさん:2010/07/07(水) 22:29:13
>>242
辞書がこなれてくるまでに
多少人手で編修する必要はあると思うが、
基本いけそうに思う。
「割愛する」が「割+愛する」と
解析されてしまうとかいった類の
不測の事態っつーのがけっこうあったりするので。
244デフォルトの名無しさん:2010/07/07(水) 22:39:45
割礼
245デフォルトの名無しさん:2010/07/08(木) 20:23:38
>>244
むしろ熱愛
246デフォルトの名無しさん:2010/08/08(日) 10:47:10
MeCabってどういう仕組みなんですか?
文字列abcがあり、辞書に[a], [b], [c], [a, b], [b, c], [a, b, c]の形態素情報があった場合、
もっとも繋がりの高い形態素の連鎖状況を見てそれを出力するんですか?
(例えば[a][b][c]よりも[a, b][c]となっている確率の方が高い場合、後者を選択)
品詞情報からp(x|y)を判断する方法もあると思いますが、特定の形態素に対してp(x|y)を算出するのに辞書情報を用いる方法が分かりません。
247デフォルトの名無しさん:2010/08/08(日) 12:08:54
>>246
CRF
248デフォルトの名無しさん:2010/09/09(木) 23:03:51
c++でmecab使ってるんだけど
直接stringを解析ってできないの?
今はいちいちstringからcharに変換してる
249デフォルトの名無しさん:2010/09/10(金) 03:36:30
>>248
なかったはず。
いちいち変換と言っても tagger.parse(str.c_str()) くらいだし、ユーティリティのマクロでも書けば?
250デフォルトの名無しさん:2010/09/10(金) 09:49:32
>>249
ありがと!
そうしてみる
それにしてもmecabをc++で書いてる人ってあんまいないね
みんなperl使ってるわ
251デフォルトの名無しさん:2010/09/13(月) 16:37:00
統計ならR
画像ならOpenCV
みたいな定番があるけど
自然言語処理でこれが定番みたいなものはないの?
252デフォルトの名無しさん:2010/09/13(月) 19:04:34
Python
ツールが揃ってるのが大きい。

Perlはもう時代遅れ気味で
新しいツールはPythonばかり。
253デフォルトの名無しさん:2010/09/13(月) 19:08:03
>>252
質問(>>251)しているのは、プログラミング言語ではなくて
アプリケーションあるいはミドルウェアに属すソフトウェアだと思うんだが?
254デフォルトの名無しさん:2010/09/13(月) 19:36:57
>>251
めかぶ
255デフォルトの名無しさん:2010/09/13(月) 23:01:40
>>252
日本語でも大丈夫なのかな?
もしよかったら日本語OKなライブラリを教えて。
256デフォルトの名無しさん:2010/09/14(火) 00:56:20
でもネットに転がってるソースってまだPerlが全然多ないか?
参考にしたいから勉強しようと思ってたけど
遅れ気味って言われると今からやるのは抵抗あるな
257デフォルトの名無しさん:2010/09/14(火) 01:07:21
今からperlやるのは
今からwin95使うようなもんだろ
258デフォルトの名無しさん:2010/09/14(火) 02:17:32
そりゃあ最近まではPerlが主流だったから既存のソースは多いよ。
ただ、これからはPythonが主流なので最先端の実装はPythonでリリースされるのが多い。
Perlでは新しいツールはあまり作られなくなるだろうね。
259デフォルトの名無しさん:2010/09/14(火) 15:01:04
POPFileを今も使ってる
perlはまだまだ現役
260デフォルトの名無しさん:2010/09/14(火) 22:21:06
別にどっちでもいいよ。目的は、所望の処理ができることだから。
261デフォルトの名無しさん:2010/09/16(木) 08:45:04
とりあえず自然言語処理ではmatlabやRに相当するものはないということでいいんだね
262デフォルトの名無しさん:2010/09/16(木) 09:54:27
>>261
日本語ならNAISTが開発している一連の形態要素解析/言語解析ライブラリ群、
コーパス/辞書管理ツール群がmatlabやRに相当するものになるのではないかと。
ちなみに既出の形態要素解析ライブラリMeCab(そしてChaSen)もNAIST生まれ。
ただ、数学に無知な人がmatlabやRを使いこなせないのと同じ理由で、
統語的意味論とか統計的言語解析みたいな言語理論を理解していないと使えないけどね。
263デフォルトの名無しさん:2010/09/18(土) 09:53:53
NAISTの成果物 (MeCab, ChaSen等) と、京都大学の成果物 (JUMAN, KNP等) は
どちらが優れる?
264デフォルトの名無しさん:2010/09/18(土) 09:56:47
アイちゃん
265262:2010/09/18(土) 11:59:16
>>263
ナゼそこで個別のパッケージを比較せずに開発元組織を比較しようとする?
お前は本物のサルだな
266デフォルトの名無しさん:2010/09/29(水) 13:36:12
mecabをc++で使ってて、解析したnode->surfaceから表層系を取り出したいんだけど
charから指定した文字数を吐くような関数ってある?
char型の文字を指定した文字数だけstring型に移す関数でもいいんだけど
やっぱstrncpy使わないとダメか?
267デフォルトの名無しさん:2010/09/29(水) 21:43:47
質問がよく判らんが、sprintf(destination, "%.*s", length, source)という話なのだろうか
268デフォルトの名無しさん:2010/11/05(金) 19:02:00
Natural Language Processing with Pythonの和訳本がようやく出るね
twitterでは5月ころ出るって言ってたのにw
でも日本語処理の章も追加されてるししょうがないのか
269デフォルトの名無しさん:2010/12/15(水) 02:04:41
緊張浮上
270デフォルトの名無しさん:2010/12/17(金) 11:17:19
日本語処理に関する、ゴミみたいな記事が追加されただけだろ
271デフォルトの名無しさん:2010/12/17(金) 16:02:20
とゴミが言いました。
272デフォルトの名無しさん:2010/12/17(金) 23:15:15
読んだけどいい本だったよ
273デフォルトの名無しさん:2010/12/19(日) 09:00:36
基本的に英語での処理?
英語ってスペースで区切れば簡単に英単語抽出できそうだよね。
274デフォルトの名無しさん:2010/12/19(日) 20:49:42
そう思ってる椰子はステマーの奥深さを知らない初学者。
275デフォルトの名無しさん:2010/12/20(月) 12:22:31
ステマー?
動詞の活用とか副詞のlyとか接頭語接尾語に関する用語か?
276デフォルトの名無しさん:2010/12/21(火) 16:22:53
ってかこの分野って需要ある?
277デフォルトの名無しさん:2010/12/21(火) 16:37:24
http://www.youtube.com/watch?v=fUsdOFlG7Rg
過疎りかたがはんぱない
278デフォルトの名無しさん:2010/12/22(水) 13:12:06
機械翻訳の技術について書かれた本とかサイトとかないかな?
今どんなことが問題になっててどんなアプローチされてるのかとか知りたいんだけど
279デフォルトの名無しさん:2010/12/22(水) 13:51:54
ググレ
280デフォルトの名無しさん:2010/12/22(水) 14:42:20
ググれは最強だからな
281デフォルトの名無しさん:2010/12/22(水) 19:22:41
Google Scholar で 1,770,000 件。
http://scholar.google.co.jp/scholar?q=Machine+translation
282デフォルトの名無しさん:2010/12/27(月) 00:14:25
>>278
誰かまとめてくれ。
自然言語処理の分野で。
283デフォルトの名無しさん:2010/12/27(月) 17:19:32
自然言語処理では、
造語とか、略語とか、若者言葉とか、
特殊な言葉はどうやって処理してるんだ?

特別な辞書(キーワードリスト)でも作っておけばいいのか?
284デフォルトの名無しさん:2010/12/27(月) 18:34:53
文部省的な「文法」(橋本文法とかね)に従ってきっちり処理できるような文は、
現実に通用してる文のごく一部でしかないので、自然言語処理ではもっと適当に
現実に合わせて処理しています。

つまり特殊な言葉とかそういうくくりはなくて、単に処理する必要がある(ありそうな)
単語は片っ端から辞書に登録されているわけ。
285デフォルトの名無しさん:2010/12/27(月) 20:05:52
誤字脱字があっても平気?
286デフォルトの名無しさん:2011/01/03(月) 15:49:33
みんな言語処理でどんなことしようとしてるの?
287デフォルトの名無しさん:2011/01/03(月) 15:53:16
金儲け
288デフォルトの名無しさん:2011/01/03(月) 20:27:33
人工無能
289デフォルトの名無しさん:2011/01/04(火) 10:47:20
英語の勉強に活用。
290デフォルトの名無しさん:2011/01/04(火) 16:34:24
>>289
どーやってんだ?
291デフォルトの名無しさん:2011/01/04(火) 18:57:18
ステマーの奥深さを知らないのか
292デフォルトの名無しさん:2011/01/06(木) 10:35:39
>>290
たとえば、
nltk.chat.chatbots()
を使うとbotと会話できるw
293デフォルトの名無しさん:2011/01/06(木) 17:32:09
どのアルゴリズムもパラメータサーチは結局は手動で勘なのか
全然進歩してないな
294デフォルトの名無しさん:2011/01/08(土) 21:44:34
そんなことないだろ。
295デフォルトの名無しさん:2011/01/21(金) 04:16:22
四ヶ月ぐらい取り組んできた成果が出てきた
日本語限定だが自然言語処理を根本からひっくり返せるかもしれぬ
どこで発表すべき迷うな
296デフォルトの名無しさん:2011/01/21(金) 05:37:28
ここでもいいよ
すごそうだぬ
297デフォルトの名無しさん:2011/01/22(土) 03:10:01
入門書の良い本紹介してくれませんか?
298デフォルトの名無しさん:2011/01/22(土) 16:59:54
入門自然言語処理
299デフォルトの名無しさん:2011/02/16(水) 16:06:35
CRFって離散変数しか扱えないの?
300デフォルトの名無しさん:2011/02/28(月) 16:58:57.74
本屋にpythonでテキストマイニングする本が積まれてた
ここみるとみんなrubyのような気もするんだけど
pythonの方が実は使われてたりするの?
301デフォルトの名無しさん:2011/02/28(月) 17:01:17.55
302デフォルトの名無しさん:2011/02/28(月) 17:38:29.76
>>300
少なくとも国際的には圧倒的にpythonが主流。
303デフォルトの名無しさん:2011/02/28(月) 19:44:46.83
Pythonは機械学習・データマイニングなどのライブラリが充実してる
304デフォルトの名無しさん:2011/04/14(木) 10:42:58.45
そういえばRってあんまりみないね
pythonなんだ
305デフォルトの名無しさん:2011/04/15(金) 12:29:50.40
入門自然言語処理って面白い?
306デフォルトの名無しさん:2011/04/15(金) 22:02:21.49
おいしいよ
307デフォルトの名無しさん:2011/04/16(土) 00:51:56.42
どういうこっちゃねん
308デフォルトの名無しさん:2011/09/06(火) 04:22:16.58
人工無能botを作りたいんですがおすすめの本とかありますか?
309デフォルトの名無しさん:2011/09/06(火) 19:04:56.93
誰でもできるtwitterbotの作り方。
310デフォルトの名無しさん:2011/09/08(木) 23:46:18.94
tf,idfのidfの式に+1する理由って何ですか?
0にしないため?
311デフォルトの名無しさん:2011/09/09(金) 11:07:33.37
ラプラスさんに訊け
312デフォルトの名無しさん:2011/09/09(金) 20:37:53.87
表記は tf*idf じゃないのかな?
313デフォルトの名無しさん:2011/09/12(月) 12:15:22.92
tf☆idf
314デフォルトの名無しさん:2011/10/08(土) 11:38:27.96
しょうもないことをいってすまんかった。話を続けてくれ。
315デフォルトの名無しさん:2011/12/13(火) 23:33:05.83
皆さんは使っているのは
距離:コサイン類似度
クラスタリング:k-means
分類:SVM
って感じなのでしょうか?

どんなもの使用しているのか教えていただけませんでしょうか?
316デフォルトの名無しさん:2011/12/14(水) 22:25:36.63
目的によるんじゃないの? どうしてそう特定できるのだろう?
317片山博文MZ ◆0lBZNi.Q7evd :2011/12/17(土) 14:37:13.95
他のスレでも書いていますが、小学校2年生ぐらいの算数の文章問題を
解析して答えを導きたいとき、どのような処理を行えばよいのでしょうか。
単純な計算は解けます。困っているのは日本語の処理です。
318デフォルトの名無しさん:2011/12/17(土) 14:43:36.71
数学者が扱うようなかっちり定義された問題なら
まだわからなくもない
319デフォルトの名無しさん:2011/12/17(土) 15:15:20.87
>>317
具体例だしてよ
320片山博文MZ ◆0lBZNi.Q7evd :2011/12/17(土) 15:47:24.77
すずめが 5わいます。 そこへ2わとんできました。
すずめは みんなで なんわに なったでしょう。
321片山博文MZ ◆0lBZNi.Q7evd :2011/12/17(土) 15:50:41.62
りんごが 3こ あります。
さとしくんは 1こ たべました。
りんごは のこり なんこに なったでしょう。
322片山博文MZ ◆0lBZNi.Q7evd :2011/12/17(土) 16:18:38.32
おすしを2こたべました。
今、さらに3こをたべました。
ぜんぶでなんこたべたことになりますか?
323デフォルトの名無しさん:2011/12/17(土) 16:23:55.78
しかもひらがなかよ!!
324デフォルトの名無しさん:2011/12/17(土) 21:36:55.37
>>322
それは難しすぎる
高騰プログラミング技術が必要だ
325デフォルトの名無しさん:2011/12/17(土) 22:06:38.73
論理命題に落としこむとか対応付けたり出来ないか
食べる → マイナス
飛ぶ → マイナス
みたいに
326デフォルトの名無しさん:2011/12/18(日) 10:32:38.36
>>321 食べる→マイナス
>>322 食べる→プラス

プログラミングじゃなくて言語学を専門でやらないと無理

ちなみに >>322 の「さらに」は皿のことだからな、間違うなよ!!!
327デフォルトの名無しさん:2011/12/18(日) 10:39:53.34
いったん人の読める形に変換するとか。

おすしを2こたべました。

私は2個のお鮨を食べた。
328デフォルトの名無しさん:2011/12/18(日) 10:55:36.82
小学校低学年向けだとすると
文脈情報を極端にカットしてるケースも多いと思われ

あらかじめ問題作成者と連携を取って
使用可能な単語リストや文型が完全に定義された状態からのスタートなら
わからなくもない
329片山博文MZ ◆0lBZNi.Q7evd :2011/12/18(日) 12:18:55.16
少なくとも時系列記憶ができないといけない。
330デフォルトの名無しさん:2011/12/19(月) 22:35:08.20
今、自然言語の本を読んでいるのですが、質問させてください
PythonでNLTKを使った解説がありますが、このモジュールは日本語でも使えますか?
関数など見ていると、英語圏のように、スペースにて文字を区切ることを前提にしている様ですし、
品詞タガーだけでなく、N-gram関数でさえも一単語(英語)と一文字(日本語)で、
日本語の場合と(仕方ないですが)挙動が違ってきますし

・日本語を解析する際にもNLTKが使用できるのか
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか

を教えて頂けませんでしょうか?
331デフォルトの名無しさん:2011/12/19(月) 23:17:52.27
>>330
・日本語を解析する際にもNLTKが使用できるのか
自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな

・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
日本語用のNLTKみたいなのはないと思うので大体は自分で書く
なにをするのかによるけどngramとかなんかだったらmecab + pythonですぐ書けるし(速度は別にして)
332デフォルトの名無しさん:2011/12/19(月) 23:28:43.31
>>330
書籍 『入門 自然言語処理』 O'Reilly Japan, 2010 の第12章「Python による日本語自然言語処理」
の内容が公開されてるよ。ChaSenやMeCabによる形態素解析とNLTKを連携させる話しが載ってる。
個人的にはこの章が追加されてるだけでも本書を買う価値があると思うよ。

http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html
333デフォルトの名無しさん:2011/12/19(月) 23:38:01.74
>自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
なるほど、やはりそうですか
本を読んでいて、「これ日本語で使えるか?」と思っておりました
ストップワードを削除するとか言うRTEFeatureExtractorは元より、他の関数達も、(日本とかは世界では独特でしょうから当然ですが)欧米型の文書構造を考えているので
使うのは厳しいだろうなとは思いました
中には日本語でも使えるものもあるとは思いますが

自分は元々PHPでN-gramとかMecabとか書いたり使ったりしていたのですが、めんどくさくなってきた&自然言語はPythonみたいなものがあってPythonを学習しました
しかし、となるとPython使う意味がなくなったような気もしますが、Pythonは統計計算系のライブラリなど充実していると聞きました
自然処理として、入門的な所で言うと、ナイーブベイズなどのライブラリとかそういうのはやはり皆さんは使われているのでしょうか?
関係ないとは思いますが、この場合(ライブラリを使う場合)も日本語の問題はやはりあるのでしょうか?
334デフォルトの名無しさん:2011/12/19(月) 23:41:01.14
>>332
ありがとうございます
ネットにて検索いたしました

まぁ、読めば分かるのかもしれませんが、そのように形態素とNLTKを連携させた場合、上記で書きましたようなNLTKの関数などはやはり使えないのでしょうか?
335デフォルトの名無しさん:2011/12/19(月) 23:52:35.08
(´・ω・`)シランガナ
336デフォルトの名無しさん:2011/12/19(月) 23:57:06.37
>>333
python以外あんまやったことないんで、間違った意見かもしれないけど
確かにライブラリは充実してると思う(自分はあまりつかわないけど)
ナイーブベイズくらいなら自分で書いちゃうけど、例えばSVMだったらlibsvmとか使う
まあこれはPHPでも使えるけど
だから、自分が使いやすければ言語はなんでもいいと思うよ
ただ、言語処理だとpythonとかrubyを使ってる人が多いから、
ネットに転がってるソースを見るときに楽ってのはある
337デフォルトの名無しさん:2011/12/20(火) 00:26:51.64
でもPythonやRubyってVBと同じくらい糞言語に見えると思うんだよな。
PHP使ってるところからして。
338デフォルトの名無しさん:2011/12/20(火) 19:25:09.19
質問させてください
N-gramを使用した場合、形態素解析と違い、
自分で品詞タガー、チャンキングなど作成する実装をしないといけないと思うのですが、
それらのように、N-gramのその後に行うべき処理はどういうものがあるのかを教えていただけませんでしょうか?

N-gramを行えというのはどの本や資料でも書かれていますが、そのままだと、品詞も分からず、
そもそも["今日”, "日か", "から", "から"]など単語として成り立っていないので、
どのようにかして結合し、単語にしなければいけないと思います

欧米の場合はN-gramを使えば単語に分かれているのでそのままでもいいのでしょうが、
日本語の場合はそのように、N-gram後の事が書かれていません

N-gram後に何をどういう手順で行えばいいのかアドバイスを頂けないでしょうか?
また、そのような事の書かれているサイトや書籍などありましたら教えていただきたいと思います
339デフォルトの名無しさん:2011/12/20(火) 19:28:01.58
文字に対するngramなのか、単語に対するngramなのか、
まずそこをはっきりさせないと。
340デフォルトの名無しさん:2011/12/20(火) 19:54:24.24
>>339
一般的にN-gramアルゴリズムでは文字N-gramが書かれていると思いますので、文字N-gramです
341デフォルトの名無しさん:2011/12/20(火) 20:40:57.74
で、文字ngramを使ったPOS taggerを作りたいの?
それとも文字ngramを使ったchunkerを作りたいの?
最終的に何をしたいのか不明のままでは
taggingやchunkingが必要かどうかすら不明なんだけ
342デフォルトの名無しさん:2011/12/20(火) 20:59:05.66
>>341
まずN-gramから単語に・・・と思ったのですが、
そもそもの問題として質問させてください(すみません)
皆さんはN-gramの後に単語に作り直さないのでしょうか?
タガー、チャンク作成は必須なのかなと勝手に思っていたのですが
Mecabなども品詞は出てきますし

例えば、ナイーブベイズとかピアソンなどで類似性をはかるにはまず単語にしなければいけないと思うのですが
違うのでしょうか?

自分は、ある文章をクラス(ジャンル)分けしようと考えているのですが、
その為には品詞、特に名詞(後は動詞)を使うのがいいと思いました
Mecabならば出来ますが、N-gramでやろうとすると、文字に分割した後が何をすればいいのかいまいち分かりませんで

とにかく、N-gram -> 相関性やクラスタリングなどの式に送る ということをしたいと思っております
343デフォルトの名無しさん:2011/12/20(火) 21:14:49.61
品詞使いたいなら素直にmecab使えよ
なんでn-gram使いたんだ?
344デフォルトの名無しさん:2011/12/20(火) 21:24:19.12
mecabがいいと自分は楽だと思ったのですが、新語や他国後を扱う機会が想定されまして
辞書の追加、インデックスなど後々めんどうだと思いまして
で、N-gramを使った実装をテストしてみようと思ったのですが、分割したものを単語にまとめなおすという情報が、検索の仕方が悪いのかもしれませんが出てきませんでした
単にN-gram テキストマイニングとか、その後処理とかいくつかやってはみたのですが

まず単語に直せさえすれば欧米のようにチャンク文法とかへ繋げる事が出来るとは思ったのですが
色々と考えてみたのですが非常に難しいでした
日本語でN-gramを使っている人やGoogleを始め、他の検索エンジンでもN-gramを採用しているところもあるという事実から出来ないことはないとは思うのですが
345デフォルトの名無しさん:2011/12/20(火) 21:35:07.71
N-gramは漏れなしで全て登録が基本。
346デフォルトの名無しさん:2011/12/20(火) 21:36:46.37
知識なしの統計のみで単語分割はN-gramとは別の話題。
なんでもかんでもN-gramで解決すると思うな。
347デフォルトの名無しさん:2011/12/20(火) 21:43:24.10
教師なし単語分割の最前線。ベイズ meets 言語モデル
http://d.hatena.ne.jp/mamoruk/20090325/p1


教師なし 統計 言語 - Google 検索
https://www.google.com/search?q=%E6%95%99%E5%B8%AB%E3%81%AA%E3%81%97%E3%80%80%E7%B5%B1%E8%A8%88%E3%80%80%E8%A8%80%E8%AA%9E
348デフォルトの名無しさん:2011/12/20(火) 21:48:11.51
翻訳やIMEを作るのでなく、容量食ってでも漏れなし検索したいときに全パータンを登録するのがN-gram
349デフォルトの名無しさん:2011/12/20(火) 21:48:49.66
そもそもやりたいのは文章分類なんだよね?
それなら新語はそんなにクリティカルじゃないと思うんだけど
どうしてもn-gram使いたいんだったら、2から5くらいでn-gram作ってやって
それぞれでSVMで分類してやれば?
形態素で分類したほうが精度いいと思うけどね
350デフォルトの名無しさん:2011/12/20(火) 21:50:41.18
長くなってすみません m(_ _)m

教えて頂きたいのですが、「漏れなしで全て登録が基本」というのがちょっと分からなかったのですが、
日本語の場合は欧米系と違い、N-gramで単語単語が取得できません
で、自分など読んでる本とか、Web上の情報など欧米系のものが主になってきてしまっているので、
その感覚で考えてしまっているので混乱または難しく考えているのかもしれませんが、
日本語の場合はそもそも単語に戻す処理をするのでしょうか?
それとも、欧米系とは根本から異なり、上記のように["今日”, "日か", "から", "から"]のような構造を保持し、
それを(単語として戻さずに)検索などの処理に当てるのでしょうか?

その根本的な部分がまず分かっていないと思います
ただ、戻さないとナイーブベイズとか後処理へ持って行けないので訳が分からなくなります(苦笑)
形態素解析だけでは本当の意味でのテキストマイニングなど出来ないんじゃないかと思います
351350:2011/12/20(火) 21:52:48.13
おおっ、350書いてる間に大量の返答ありがとうございます
先にお礼を述べさせていただきたいと思います

今からレスを一つ一つ確認いたします
352デフォルトの名無しさん:2011/12/20(火) 21:58:39.34
人間が理解可能な言語構造のない検索対象。

"n-gram" dna配列 - Google 検索
https://www.google.com/search?q=%22n-gram%22%E3%80%80dna%E9%85%8D%E5%88%97
353350:2011/12/20(火) 22:07:13.91
なるほどッ!
皆さん、レスありがとうございます
自分の場合、まず検索エンジンの文章を読んだために形態素とN-gramが比較の対象になっていたのですね
(自分は検索エンジンを作るつもりではありませんでしたが)
形態素よりもN-gramの方がいいと書かれていた(メリットが強調されていた)為に、
まずN-gramが先に来てしまっていたのだと思います
それと何度も書いていますが、欧米系の処理方法が頭にあったので

日本語の場合はクラスタリングとか統計的に使う場合は形態素解析がメインで、N-gramは殆どないという事ですね
教師なし形態素解析というのは少し前に知って、ネット上でザッと目を通したのですが、
良く分からないから後回しにしようと思っておりました
関連にてやはりきちんと読んでみようと思います


"人間が理解可能な言語構造のない検索対象"というのは言葉の表現を聞いただけでとてつもなく難しそうな
感じがしますが、読んでみます
354デフォルトの名無しさん:2011/12/21(水) 04:33:48.34
1〜N Gramが最も確実な検索。
形態素は、そのうちで登録しないものを取り除いた検索。
検索されないだろう物を除外。
355デフォルトの名無しさん:2011/12/21(水) 04:51:48.14
日本語相手にngramを使う場合、
検索なら文字ngram
分類なら形態素解析した後で単語ngram

ただし、文字ngramでも自動分類に使うことはできる。
もちろん形態素解析したほうが精度いいけどね。
多国語を同じスキームで処理することが目的なら、
文字ngramで自動分類やクラスタリングするのも
頭から否定してかかるほど的外れでもない。

この場合は文字ngramの種類数が莫大になるから
うまくfeature selectionしてやる必要があるだろうね。

がんばれ。
356デフォルトの名無しさん:2011/12/21(水) 22:17:52.87
今、KNPにて
http://reed.kuee.kyoto-u.ac.jp/nl-resource/knp-form.html
文章打って試してみたのですが、Cabochaとか、こういう係り受け解析ってのは何に使うものなのですか?

何かグラフのように出力されましたが、これが何なのかな、と思います
基本的に何の目的で使うものなのでしょうか?

Juman
http://reed.kuee.kyoto-u.ac.jp/nl-resource/juman-form.html
とかは分かるのですが
357デフォルトの名無しさん:2011/12/22(木) 00:01:55.70

特徴
KyTeaには以下の機能が揃っています:

単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。
読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。
線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。

<a href="http://www.phontron.com/kytea/index-ja.html">KyTea (京都テキスト解析ツールキット)</a>
358デフォルトの名無しさん:2011/12/22(木) 08:30:14.66
>>356
ついこないだからknp使い始めたにわかがマジレスすると、係り受け木を利用することで単語列よりは文の意味的なものを扱いやすくなります。

まず、係り受けっていうのは、語の修飾関係を表している、情報を付け足す向きを表しているものです。

私が本を読んだ、という文の係り受けは
私が→読んだ
本を→読んだ
これを木の形にするとknpとかの出力になります。
359デフォルトの名無しさん:2011/12/22(木) 08:39:07.33
そのうえで大量の文書の特定の固有名詞への係り受けをクラスタリングすると、特定の固有名詞に対する評価が分析できるとかじゃないかな
360デフォルトの名無しさん:2011/12/22(木) 23:16:55.44
>>358
なるほど
レスありがとうございます

私が→読んだ
本を→読んだ
のようなものの精度を上げるのは難しい仕事だと思いますが、コンピュータに文脈の意味を誤解させない・・・というか、
品詞分解などなどで間違わせないようにする機能と理解して宜しいのでしょうか?

>>359
なるほど
関連性、親密性のようなものも判断できるということですね
361デフォルトの名無しさん:2011/12/27(火) 17:28:18.65
かな漢字変換の実装を行なっていて
後ろ向き探索をA*アルゴリズムで行い、n-best解を求めたいのですが
どのように実装すればよろしいのでしょうか。
現在、前向き探索をコスト最小法で行なっていて、
ある文字で終わるノードのコストはわかっています。

できれば、Rubyでの実装法を教えていただけるとありがたいです。
スレ違いでしたら申し訳ございません。
362デフォルトの名無しさん:2011/12/27(火) 17:47:58.30
>>361
A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まるが?
363デフォルトの名無しさん:2011/12/27(火) 17:54:34.37
>>362
A*の実装法がよくわからないのです。
前向き探索を一度やっていると効率よくA*を出きるというのですが
具体的にどのように書いていけば良いのかわからなくて…
Ruby(というか、プログラム)初心者なもので、ご教授いただけるとありがたいです。
364デフォルトの名無しさん:2011/12/28(水) 01:13:32.79
>>362
「A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まる」ってのは本当なんかね・・・

ここにもA*でおkって書いてあるけどいまいち信用出来ない・・・
http://d.hatena.ne.jp/tkng/20090302/1235958257

これって「k shortest simple paths 問題(コスト付きグラフにおけるk番目に短い経路(ループする経路は除く)を求める問題)」だよね。
365デフォルトの名無しさん:2011/12/28(水) 12:33:21.23
366デフォルトの名無しさん:2011/12/28(水) 19:15:58.02
自分の読んだ本には例えば「僕は今日高校生になります」と「僕は今日川に泳ぎに行きました」という2文があった場合、(簡単な為名詞、動詞だけにします)
 x(今日) = (n("僕"), n("高校生"), n("川"), n("泳ぐ")) = (1, 1, 0, 0)
とか、(n("今日"-1), n("今日"+1), ...) = ()
という様な色々な表現法でベクトルで表し、それらに文書の類似性として、ピアソン相関係数とかコサイン類似度などを使用するようですが、分からない点があります

文書の群があった場合、それらをまずクラスタリングや分類器にてクラス分けし、その後で類似性を上記の様に計算するのだと思いますが、
例えば、10個の文書群でも相互に計算する場合、9+8+....+1通りありますし、
文書自体も1000語とかあれば類似度計算自体も大変だと思います
これがもし文書が何千個もあれば、膨大な類似計算が必要になると思います

こういう場合、どのようにして対処すれば宜しいのでしょうか?
何か他にいい類似度を測る計算法だとか、アルゴリズムとかありましたら教えていただきたいのですが
367デフォルトの名無しさん:2011/12/28(水) 20:18:02.05
>>364
n個の到達解S1,...,Snを得た後で残された全ての可能な経路について
h()がadmissibleであれば、あとは自明だよね?
368デフォルトの名無しさん:2011/12/29(木) 07:11:16.75
テイラー展開がある大域的な領域の各点で可能な関数は、その領域において解析的である(またはその領域上の解析関数であるという)。
大方収束したと考えてよろしいのでは。
369デフォルトの名無しさん:2011/12/29(木) 09:26:16.23
A*もダイクストラもたいしてかわらない。
まずダイクストラで組むんだ。
違いは最短距離を予測するヒューリスティック関数の作り方が難しいだけ。
370デフォルトの名無しさん:2011/12/29(木) 09:34:58.74
A*よりもそれを適用するためのかな仮名漢字変換用データの収集・選択が難しいだろ。
371デフォルトの名無しさん:2011/12/31(土) 00:23:59.89
361です。皆様、解説ありがとうございます。
まだ、全部に目を通せていない&実装できる環境にしばらく行けないのですが
参考にまた、勉強してみようと思います。
372デフォルトの名無しさん:2011/12/31(土) 04:01:16.07
>>365
ありがと。
373片山博文MZ ◆0lBZNi.Q7evd :2011/12/31(土) 15:55:06.49
自然言語処理を1から勉強したいです。
いい本とかサイトとかあったら教えてください。
374デフォルトの名無しさん:2011/12/31(土) 15:59:45.49
>>373
大学に行きなよ。
375デフォルトの名無しさん:2011/12/31(土) 17:18:13.41
>>373
ネットで探してみなよ
私は大卒じゃないけれど、何とか勉強していけそう
あなたも興味があるなら、頑張って
376デフォルトの名無しさん:2011/12/31(土) 18:38:43.43
>>375
最初はいいんだけど、おそらくある程度のところになると大学で学ばないときつい
特に、プロの実践の場での使用となると・・・
377デフォルトの名無しさん:2011/12/31(土) 20:04:49.39
>>373
とりあえず、「入門自然言語処理」を読んで、自然言語処理の勉強会にいけ。TokyoNLPとか、DSIRNLPとか。
378デフォルトの名無しさん:2011/12/31(土) 23:02:14.64
赤ちゃんプレイでしたら申し訳ございません。
379デフォルトの名無しさん:2012/01/01(日) 02:03:48.30
勉強会はありがたいですよねー。
詰まったときは、聞くことも出来るしさ
大学行くか、独学か…お好きな方を
どちらにしても、目標あるって良いよね ;)
380片山博文MZ ◆0lBZNi.Q7evd :2012/01/01(日) 13:26:45.84
>>374-379 皆さんありがとうございます。
381デフォルトの名無しさん:2012/01/02(月) 12:24:14.38
>>376
大学がじゃないと厳しいと思えるのは何ですか?
何か一つでもあげてもらえば参考になります
382デフォルトの名無しさん:2012/01/02(月) 18:20:05.70
>>381
最終的に何がしたいかにもよるけど、基礎をやろうとすると独学や企業では難しいかもしれない。
言語学よりな話とか、論文の読み方、研究の仕方、とかね。機械学習とかはよほどマニアックな話でなければ企業でもやれるんでないの。

あと、独学だとモチベーションの保ちかたとか趣味レベルを超えた時の目標とか難しそう。
383片山博文MZ!omikuji ◆0lBZNi.Q7evd :2012/01/03(火) 14:14:10.89
何でみんなUnicodeを使わないの? Lispで使えなかったから?
384デフォルトの名無しさん:2012/01/03(火) 14:31:34.94
どう考えても企業の方が上だろ。
アメリカのようにビジネス、実践を重視して、即戦力になる大学なら別だが。
日本の大学は、ちょっと知識がある程度になるだけ。
即戦力、リーダーなどに抜擢されたりしない。
385デフォルトの名無しさん:2012/01/04(水) 05:50:25.78
社会人厨は巣に帰れよ。

だいたいの日本の企業はアメリカのように先端の研究をしない。
ほとんどの企業は世界と競争できる研究なんて全くしてない。
386デフォルトの名無しさん:2012/01/04(水) 15:09:13.18
ジャストシステムとか
富士通とか
NTT系のどっか
387デフォルトの名無しさん:2012/01/04(水) 15:12:49.33
日本企業が世界で戦えないレベルとしたらいまごろ外資に占領されてるだろう。
388デフォルトの名無しさん:2012/01/04(水) 23:21:15.36
今自然言語の練習でニュースサイトの分類などしようと思っているのですが、この場合、クラスタリング、分類器などどんなものを使うのが一番いいのでしょうか?
ニューラルネットワークが一番いいのかもしれませんが良く分かりません
例えば、「野田総理が辞任しました」のような記事を同類にまとめるとか、スポーツ記事の中でもサッカーや野球にわけるとかです
SVMはナイーブベイズよりも精度が高いようですが、ある程度の記事数になると処理の重さなどにより逆にナイーブベイズの方が有利とかあるようです
自分はSVMがカーネルの所がまだハッキリと理解できないでいるのですが

今日R言語でのテキストマイニングの本を読んでみたのですが、なんとユークリッドで分けていました
ユークリッドで大丈夫なのかなとか思ったのですが、上記の場合どのようなアルゴリズムを使用するのが一般的には有利なのでしょうか?
実装や環境にもよるとは思うのですが、一応アドバイス頂けたらと思います
自分の名前も知らないアルゴリズムが最適だったりするかもしれないと思いまして
389デフォルトの名無しさん:2012/01/05(木) 01:25:30.73
>>388
内容からすると、分類よりもクラスタリングがしたいようなので、まずはk-meansから試してみるとよいのでは。
390デフォルトの名無しさん:2012/01/05(木) 09:23:03.37
>>388
アルゴリズムは主に速度を向上させるだけ。分類するための基準づくりが重要。
まったく違う物を同一と判定したらどんなアルゴリズムでも分類できない。
391デフォルトの名無しさん:2012/01/05(木) 09:26:27.86
たとえば類似画像検索で、どれを類似と見なすかを設定すれば
あとは効率悪くても総当たりで比較可能。
アルゴリズムで分類の効率化はできても、どれも同一と見なすかは人間の判断・指定がいる。
392デフォルトの名無しさん:2012/01/05(木) 10:18:01.09
自然言語処理を1から勉強したいです。
393デフォルトの名無しさん:2012/01/05(木) 18:31:41.25
とりあえず>>390-391は自然言語処理もアルゴリズム論も全くの無知であることはわかった。
394デフォルトの名無しさん:2012/01/05(木) 18:48:04.25
潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較(データ・クラスタリング、文書分類、など)
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す(言語間検索)。
用語間の関係を探す(類義性や多義性)。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す(情報検索)。
潜在意味解析 - Wikipedia


TF-IDFで遊んでみた - uncertain world
http://d.hatena.ne.jp/rin1024/20090926/1253940572
395デフォルトの名無しさん:2012/01/05(木) 18:56:15.79
文書を特徴付ける語の選択が分類精度を決めるから
それがダメだったらどんなに高級なアルゴリズムを使ったとしても正確な分類はできない。
アルゴリズムは主に計算量、速度の差につながる。
396デフォルトの名無しさん:2012/01/05(木) 19:01:24.42
>>369>>370と似通っているが、言語処理はアルゴリズムの優劣だけでは決まらないんだ。
ヒューリスティックな部分、機械的にはできそうにない特徴付けが本質的に重要。
397デフォルトの名無しさん:2012/01/05(木) 19:08:37.45
と言われていた将棋で、非ヒューリスティックが圧倒的に出し抜いた例を見ちゃったからなぁ
398デフォルトの名無しさん:2012/01/05(木) 19:13:49.12
>>397
ありゃでかい突破だよなあ。
言語学主流派のグランドセオリーからすりゃ、同じように機械的にいけるはずなんだよねえ。
399デフォルトの名無しさん:2012/01/05(木) 19:14:29.85
ボナンザは特徴の重みを機械的に決定したのであって、特徴抽出は手動だぞ。
400デフォルトの名無しさん:2012/01/05(木) 19:18:02.14

ボナンザは元にした6万局の棋譜データから、評価関数のパラメータを自動生成している。
ただし、パラメータは自動生成だが、何を評価するかは保木自身が決めている。
棋譜からパラメータを自動生成することで、開発者の主観を排除した評価関数は強みでもあるが、同時に弱みでもある。
当初、Bonanzaは序盤で大駒を切ることが多かったが、これは大駒の点数が他のソフトに比べて低く設定されているためであり、
人間の感覚に反するこの設定は、自動生成に由来するものであった。
Bonanza - Wikipedia
401デフォルトの名無しさん:2012/01/06(金) 10:28:24.91
Blunder のアルゴリズム

Blunder の評価関数は、以下の項目から成る 6668140個の要素を持つ特徴ベクトルを用いている。
http://www.computer-shogi.org/wcsc21/appeal/Blunder/Blunder.pdf
402デフォルトの名無しさん:2012/01/06(金) 23:51:53.36
で?
403デフォルトの名無しさん:2012/01/07(土) 10:56:57.00
特徴量なんか、とりあえず考えられるだけ全部突っ込めよ。今の学習アルゴリズムは人が一つ一つ作った程度の特徴の数じゃ悪影響なんてまず出ない。それでだめなら特徴選択考えてみればいいだろ。
404デフォルトの名無しさん:2012/01/07(土) 11:23:26.39
重要な特徴を入力し損なえば失敗だ。
機械学習でもヒューステリックが必要。
405デフォルトの名無しさん:2012/01/07(土) 11:26:56.69
あと単語・品詞分解がほぼ正確にできたとして、そのあとどうやって学習させるんだ?
文書の種類ごとに、単語の重要度は変化する気はするが。
学習させる方法が難しい。
406デフォルトの名無しさん:2012/01/18(水) 10:04:55.40
寒中見舞いは、寒さのために相手の健康を気づかうたよりですが、
賀状の返礼や喪中の方への挨拶、賀状をくれた方への欠礼の知らせ
にも適しています。

モノの応用
407デフォルトの名無しさん:2012/01/22(日) 01:47:33.04
ドキュメント中に含まれる特定の単語2つの関連性を数値化したいんですが良い方法が思いつきません。
よければアドバイスお願い致します
408デフォルトの名無しさん:2012/01/22(日) 02:44:23.16
Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)
http://www-tsujii.is.s.u-tokyo.ac.jp/enshu3/lsa.htm


目次
http://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/yoshimura/node1.html


潜在意味解析 - Wikipedia
http://ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90


pLSA(pLSI)用共起行列の作成 - かがぴーの雑記帳
http://d.hatena.ne.jp/kagamiuta/20110609/1307550239


うぃとげんしゅたいん: Probabilistic Latent Semantic Analysis : PLSA (Rで実装)
http://wg-stein.blogspot.com/2009/11/probabilistic-latent-semantic-analysis.html
409デフォルトの名無しさん:2012/01/22(日) 04:02:56.10
連続音声認識システムに使用するアルゴリズム
http://unicorn.ike.tottori-u.ac.jp/murakami/doctor/node6.html


ビタビアルゴリズム
http://www.yobology.info/text/viterbi/viterbi.htm


簡単なラティス構築とビタビアルゴリズム - Negative/Positive Thinking
http://d.hatena.ne.jp/jetbead/20111025/1319499732


Khafra - A Phrase-based DP Beam Search Decoder -
http://www.nlp.mibel.cs.tsukuba.ac.jp/khafra/


ソフトウェア特論 講義資料 グラフ探索,問題解決
http://www.jsk.t.u-tokyo.ac.jp/~inaba/soft4/soft4-search/soft4-search.html
410デフォルトの名無しさん:2012/01/22(日) 04:33:56.81
【PC班】日本語入力ソフトの単語予測アルゴリズムに関する考察 : ブツリブログ
http://blog.livedoor.jp/eikophys/archives/51880269.html


Python による日本語自然言語処理
http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html


文節をどう区切るか
http://www4.airnet.ne.jp/koabe/com_inet/im/bunsetsu.html
411デフォルトの名無しさん:2012/01/22(日) 05:09:46.05
412デフォルトの名無しさん:2012/01/26(木) 03:38:46.40
413デフォルトの名無しさん:2012/01/26(木) 08:34:04.08
このスレはおまえのお勉強ノートじゃねぇんだ
414デフォルトの名無しさん:2012/01/28(土) 14:13:32.43
平仮名にすると区切るのが難しいと思うけど辞書なしでできる物なのか。



蜂は花の蜜を吸う

はちははなのみつをすう
415デフォルトの名無しさん:2012/01/28(土) 19:06:44.47
文書の1〜4バイトの出現回数をしらべてどこで区切るかの方法=アルゴリズムが判らん。
416片山博文MZ ◆0lBZNi.Q7evd :2012/02/05(日) 13:50:34.97
「iPhoneとiPadで動作するスマートな日本語入力システムを2013年までに
Appleに提案せよ。さもなくば日本人の生産性を10%低下させる。」
という脅迫状がJ社に届いた。あなたはJ社の営業部社員である。
あなたならどうする?
417片山博文MZ ◆0lBZNi.Q7evd :2012/02/05(日) 13:55:41.07
JUST SYSTEMは、iPad用のIMEを開発できるのかなぁ。
418デフォルトの名無しさん:2012/02/06(月) 10:53:32.79
IDEの間違いじゃないの
419デフォルトの名無しさん:2012/02/06(月) 10:58:18.63
「かな漢」って言えばいいやん
420デフォルトの名無しさん:2012/02/06(月) 18:13:38.32
ウェブサイト向け「NRI連想検索(銘柄)」サービスを開始
http://www.nri.co.jp/news/2008/080321_2.html

>ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
>上場企業との関連度及びキーワード間の関連度を定義したデータベース(連想辞書)を作成します。

動詞は語尾変化も含めて、助詞や助動詞(「〜である」「〜から」)も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。

『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する(図5)。』
http://it.impressbm.co.jp/e/2012/01/16/4163?page=0%2C2

それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。

『レンマ化とは,基本形(base form)あるいは辞書に載っている語形に,語尾変化している
語をまとめることである.レンマとは,つまり,語尾変化をする部分を除いて,変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず,本研究では,共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った.これはすべての語の組み合わせを対象とするため,レンジを広げると計
算が複雑すぎるからである.』
http://homepage3.nifty.com/yukie-k/publication/23.pdf
421デフォルトの名無しさん:2012/02/06(月) 19:41:08.38
なにがしたいん
422デフォルトの名無しさん:2012/02/06(月) 20:17:02.73
ステマだろ
423デフォルトの名無しさん:2012/02/07(火) 19:39:45.45
動態保存
424デフォルトの名無しさん:2012/02/08(水) 14:28:18.04
FYI:

日本語入力を支える技術という本を書きました - 射撃しつつ前転
http://d.hatena.ne.jp/tkng/20120203/1328248554

日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界
http://www.amazon.co.jp/dp/4774149934

425デフォルトの名無しさん:2012/02/09(木) 08:34:43.52
ただのステマ
426デフォルトの名無しさん:2012/02/09(木) 09:21:46.96
嫌儲にカエレ(・A・)
427デフォルトの名無しさん:2012/02/10(金) 16:15:24.87
単語の重要度は一意的でないな。
たんなる「A」と「血液型はA」ではAの重要度が違う。
これを正しく認識できないものは駄目だな。
428デフォルトの名無しさん:2012/02/11(土) 22:16:12.81
20周くらい周回遅れの人が来たよ
429デフォルトの名無しさん:2012/02/13(月) 14:05:23.88
http://www.ntts.co.jp/products/knowledgeocean/qanda.html

>文章を単語(一般的に)に分割して、品詞情報や読みなどの情報を取得する処理のことです。

それでは格助詞「に」についての、以下のような詳細な分析は可能ですか?

また『大統領に選ばれる』の意味としては,「大統領として(誰かが)選ばれる」,
大統領によって(誰かが)選ばれる」,「大統領が選ぶことができる」の少なくとも3通りの解釈
http://www.adm.fukuoka-u.ac.jp/fu844/home2/Ronso/Kogaku/T83/T8300_0023.pdf

>Knowledgeoceanでは、単語間の距離(単語の数)を指定して、共起度をカウントしています。

以下のような「主客関係」も考慮した共起度算定も可能ですか?

たとえば、以下の(8)においては「豚」と「人」との階層の違いによって
「豚が人を殺す」のではなく「人が豚を殺す」ことが明らかであるので能格構文を用い
ないが、(9)においてはそのような「有生性原理」が働かないので能格構文によって
主客関係を明示しなければならない。
http://www.lang.nagoya-u.ac.jp/proj/genbunronshu/22-1/kondo.pdf

また類義語にしても微妙に大きく違っていたりする場合もあるようですが、統計化できますか?

「起きる」と「生じる」
問題が起きるは84件、問題が生じるは63件。
事件が起きるは301件、事件が生じるは1件。
(毎日新聞記事 2003年)
http://www.ninjal.ac.jp/products-k/syokai/press/07_01/press07_01_2.pdf
430デフォルトの名無しさん:2012/02/13(月) 14:15:22.82
NTTソフトウェア 猪尾(いお)です。
お世話になっております。

このたびはお問い合わせいただきまして、ありがとうございました。

下記質問について確認いたしましたが、
弊社テキストマイニング製品(Knowledgeocean:ナレッジオーシャン)では、
簡易な共起抽出機能しかありませんので、
下記質問していただいた分析をできる機能がありません。

申し訳ございませんが、
よろしくお願いいたします。
431片山博文MZ ◆0lBZNi.Q7evd :2012/02/13(月) 15:54:59.12
IME作れって言われても。専門外だもんなぁ。。。
432デフォルトの名無しさん:2012/02/17(金) 18:07:56.86
スーパーコンピュータを使って、百万冊の書籍を、文節単位に区切って、それら全ての共起関係を調べられないだろうか。

シソーラスやオントロジーがあると話しましたが、実はそれを作ること自体が大変なのです。
世の中には無数の単語があります。1万〜 2万ではなく、100万以上の単語がありますし、
フレーズの意味的関係も考えなくてはいけません。
フレーズまで考えだすと、恐らく億単位では収まらないくらいの表現があると思います。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

また共起関係と一口に言っても、どちらが主格でどちらが目的格になるのかについての統計も必要。
例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
433デフォルトの名無しさん:2012/02/17(金) 18:42:44.10
>例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
窮鼠猫を咬むの喩えでも判るように、有り得ないとは限らないから困る。
実際、ヌーなどの大型の草食動物は(撃退するために)ライオンを襲う。
434デフォルトの名無しさん:2012/02/17(金) 19:18:59.30
>>432
「ウサギはライオンに襲い掛かった」もありえることを>>432自体が証明している。
435デフォルトの名無しさん:2012/02/18(土) 08:33:22.85
>>434
>>433
千に一つ万に一つの稀有な例は除外ということで良いと思う。

とりあえず「ウサギ」と「ライオン」の関係についての、一般的な共起データベースを作っておきたい。
436デフォルトの名無しさん:2012/02/18(土) 08:44:53.11
自然言語処理では、千に一つとか万に一つぐらいなら、
「いつも起こる」と同義なぐらい高い確率ですよ。
437デフォルトの名無しさん:2012/02/18(土) 09:32:26.35
ところで本当にライオンは「ウサギ」を狩ることがあるんでしょうかね。
438デフォルトの名無しさん:2012/02/18(土) 10:23:20.84
「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

「太陽が雲に隠れる」はあっても、「雲が太陽に隠れる」はありえない。
「机の上にリンゴを置く」はあっても、「リンゴの上に机を置く」はありえない。
「壁に貼られたチラシ」はあっても、「チラシに貼られた壁」はありえない。

共起関係と一口に言っても、動詞を介した主格と目的格についての区別ができたら良いと思う。
主格・目的格・動詞の三角関係を明らかにした共起データベースが見たい。
439デフォルトの名無しさん:2012/02/18(土) 10:34:07.39
>>438
あなたの言う「あり得ない」は、自然言語処理では十分にあり得る話ばかり。
せいぜい「十分なコーパスがあれば統計的に有意な差が出るだろう」程度です。
440デフォルトの名無しさん:2012/02/18(土) 10:35:11.41
>>438
形式概念分析(Formal Concept Analyze, FCA)でググると、ヒントが見つけられるよ
441デフォルトの名無しさん:2012/02/18(土) 10:39:48.36
>>438
頭の中で考えればそうかもしれないが、実際のデータは別だよ。
極端に言えば 「意図的に作られた情報」 として「あり得ないと考えたケース」が
登場するかもしれない。やると分かるが、それほど千差万別なので難しい。
442デフォルトの名無しさん:2012/02/18(土) 11:00:21.35
お、情報処理学会誌の特集が「不自然言語処理」だ
443デフォルトの名無しさん:2012/02/18(土) 12:43:10.17
>>438
>「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

下剤入りの正露丸
お昼のモーニングショー

イルカのわき毛
しっぽの無いヘビ
カバのかば焼き

夜中になると 台所を這い回る タワシ
ミミズの骨折
カエルのクロール
アジの開き直り

七三にわけた オシリ
脱毛に悩む毛虫

毛の生えたミートボール
つぶつぶ入りマムシドリンク

あったら怖い あったら怖い
三三七拍子を打つ心臓

この世にそんな恐ろしいものが あったら怖いよ
あったら怖い あったら怖い あったら怖いセレナーデ

あったらコワイセレナーデ 嘉門達夫:作
http://www.geocities.co.jp/MusicHall/6654/attarakowai.htm
444デフォルトの名無しさん:2012/02/18(土) 12:53:32.51
>>438
>「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。

例えば「食べた」という動詞に関する文がたくさんあります。
「せんべいとケーキを食べた」は「両方食べた」という意味なので、「ケーキ」にかかります。
「先生とケーキを食べた」は、「一緒に食べた」ことになります。
「クッキーとケーキを食べた」なら両方食べたという意味になります。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

「形式概念分析」は、今後ますます進化すると思う。
445デフォルトの名無しさん:2012/02/18(土) 13:42:00.00
白い恋人とケーキを食べた
446デフォルトの名無しさん:2012/02/18(土) 14:51:51.64
>>444
「先生とケーキを食べた」は、
女教師をスイーツに誘った後でホテルにいったんだろ?
447デフォルトの名無しさん:2012/02/18(土) 15:03:13.40
鴎の玉子を食べた
固有名詞と一般名詞でだいぶ事情が異なる
448デフォルトの名無しさん:2012/02/18(土) 15:30:44.54
>>446
そりは「先生を食べちゃった」という解釈っすか?w

それなら>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる

これ、単なるダジャレやらヘリクツという意味で終わらず、
「自然言語処理における暗喩(あんゆ)の解釈」という難しい問題を提起することになるね
449デフォルトの名無しさん:2012/02/18(土) 18:25:21.80
>>448
そういうこと。
自由文には隠喩とか皮肉とか、単なる述語論理や係り受け構造では掬い取れない要素がいっぱいだよな。
それを分析できないというのは構わない。
しかし、ある手法を提案する時に隠喩や皮肉が無いことを前提にした手法というのは、
自然言語処理の技術としては、ちょっと不味い。
450デフォルトの名無しさん:2012/02/18(土) 22:23:35.22
最近この手の話題が増えたよね。サービス品質、正誤は問われないのだろうか?

【話題/IT】ネットのつぶやきを解析、電車の遅れ速報--東芝が新サービス [02/18]
http://anago.2ch.net/test/read.cgi/bizplus/1329566810/

運行情報サービスのイメージ。遅れや運休があると判断した路線名に
「!」が付き、「つぶやき」の内容も確認できる
ttp://www.asahi.com/digital/internet/images/TKY201202180142.jpg
ttp://www.asahi.com/digital/internet/TKY201202180141.html
451デフォルトの名無しさん:2012/02/19(日) 01:34:10.52
人間が一番安価なセンサー
問題はノイズ除去

2ちゃんねるやツイッターからノイズが除去出来れば
452デフォルトの名無しさん:2012/02/19(日) 03:28:38.20
>>451
なにも残らなかったり
453デフォルトの名無しさん:2012/02/19(日) 09:18:51.64
ゴミ情報を紛れ込ませることに喜びを感じるバカが必ず出てくるから、それをどう排除するか、だね。

古くからある手法としては、そもそも参加者を限定する(サロン、アカデミア、ギルド等)とか、
出来ては消える新しいネット利用メディアのように、バカが集まるまでの時間を利用して、
焼畑農業的にやる、という方法(金と手間はかからないが、心が折れる人間が一定数出る、
という人材焼畑という側面がある)、
2ちゃんねるのようにある程度の規模にできれば、良情報の絶対数がそれなりに
あるんだからいいじゃん、と開き直る、etc
454デフォルトの名無しさん:2012/02/19(日) 09:34:35.70
>>453
最近知ったんだけど、Amazon のレビューも、「Amazon Vine 先取りプログラム」 という招待制が導入された
みたいだ。詳細は次の解説のとおり。これも評判の質を向上させようという試みなのだろうね。

> ttp://www.amazon.co.jp/gp/vine/help
> Amazon Vine 先取りプログラム?(以下、「本プログラム」)とは、お客様に予約商品や新商品のサンプルを
> ご利用いただき、ご意見やご感想をカスタマーレビューとして投稿いただく、招待制プログラムです。
> 本プログラムのメンバーとなるお客様は、他のお客様の役に立つ率直なカスタマーレビューを投稿している
> 実績があります。Amazon.co.jpでは、各仕入先から提供されたサンプルを、メンバーに無料でお送りします。
> 投稿されたレビューは、レビューガイドラインに違反している場合を除き、修正、編集されません。そのため、
> メンバーは商品に対する意見を自由に書くことができます。
455デフォルトの名無しさん:2012/02/20(月) 09:58:41.32
とりあえず「子なし女性」についての、一般的な共起データベースを作っておきたい。
456デフォルトの名無しさん:2012/02/21(火) 02:17:39.73
>>451
それ自体はもう既に2ちゃんネラーがノイズ元になってることがはっきりしてるから、
2ちゃん用語を元に元から除去すればノイズがなくなることは実証実験済みだな。
457デフォルトの名無しさん:2012/02/21(火) 04:54:13.97
そして2ちゃんには元々信号なんてなかったことが実証される。
458片山博文MZ ◆0lBZNi.Q7evd :2012/02/23(木) 11:29:08.96
social-ime.imeのソースはどこにあるんだ?
459デフォルトの名無しさん:2012/02/23(木) 11:38:31.75
問題はノイズを発生させる馬鹿じゃなくて
情報の品質を確認しない馬鹿をどう取り扱うかだ

天気予報を100%うのみにする馬鹿は冷たい雨に打たれるがよい
460デフォルトの名無しさん:2012/02/26(日) 03:07:09.03
ベイジアンフィルタでスレをフィルタできる2chブラウザはある。
461デフォルトの名無しさん:2012/03/09(金) 00:26:44.91
語彙概念構造の仕様ってどっかに無い?
462デフォルトの名無しさん:2012/03/12(月) 12:47:39.86
>>460
ニュース速報のスレを話題のジャンルごとにカテゴライズしてある
アンテナ・まとめサイトを作ればアフィリエイトでウハウハだなと、
スレタイ偽装スレも含めて95%くらいの精度で振り分けるところまで作ったものの
例の件で無かったことにしたのを今思い出したぞこの野郎
463デフォルトの名無しさん:2012/04/13(金) 14:33:34.33
■多様な表現から主語・目的語等を判別する述語項構造解析技術
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データ
から自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する
主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。
この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。

■国内最大級のシソーラス「日本語語彙大系」等の言語資源
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は
「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。

http://www.kecl.ntt.co.jp/rps/research/innovative/research_innovative04.html
464デフォルトの名無しさん:2012/04/14(土) 08:46:19.73
 「する」の例で考えると,「トランプをする」「調査をする」のヲ格の意味は,「す
る」の具体的な内容であり,「彼を叩く」「ケーキを食べる」のようなヲ格とは異
なる。一方で,フィルモア(1975)に「判断,想像のような心理事象の内容」が
対象格にあることを考えると,このような「動作の内容」が対象格の範疇であっ
ても整合性がないわけではない。ところが,「青い目をしている」のヲ格は意味
を抽出することが難しい。動作の内容でも,動作の対象でもなく,このヲ格名詞
句は動詞に対して対等な要素として存在するとは考えられない。あえて言うなら
ば,「述語の表す状態の具体的内容」である。この他に「問題とする」「医者にす
る」のト格,ニ格は事柄の認定の目標,変化の結果を表すので,目標格とした。「頭
痛がする」のガ格は動作の表す具体的な内容とすれば対象格となる。ただし,こ
こで断っておきたいのは,これらを既存の意味格の中に位置づけようとすると些
かはみ出す形となり,特異な存在であることが浮き彫りにされることである。こ
れが「する」という動詞の特質でもある。
http://libir.soka.ac.jp/dspace/bitstream/10911/3244/1/nn21-033.pdf
465デフォルトの名無しさん:2012/04/14(土) 09:41:01.59
 2009年7月現在、収容語数は42万語で最多と考えている。
 ボトムアップでの作成により名詞のみでなく動詞、形容詞、形容動詞、副詞、代名詞、
擬態語さらに慣用句までを収容している。時事的な用語の積極採択、地名を除いて固有名詞
は含めない編集方針としている。言葉を探すのを目的とする人間の感覚に沿った分類とした。
色の分類時に、「はでな色」、「暖かい色」とする例が挙げられる。言葉の意味空間は、
1次元ではなく、例えば、「料理」は、材料・地域・調理法の3次元でありこの様に複数の
観点で分類している。「現在」に対する、「明日」、「翌日」、「過去」に対しては、
「翌日」が意味を持つ様に分類作業における揺れを吸収している。
http://www.issj.net/mm/mm0406/mm0406-3-9s.html

ここではオントロジー技術の動向把握をテストすることを目的とするため、「オントロジー」
と共起する用語の共起関係ネットワークだけを示す (図 4)。図から分かるように、
オントロジーに関連しそうな「セマンティックWeb」や「テキストマイニング」「情報抽出」
などの技術用語、「構築」「検索」などの関連語が関係付けられている。しかし、必ずしも
すぐにその関係の意味を推測できない用語も多く、この図によってオントロジー研究の
全体像が分かったとは言い難い。
http://sigswo.org/papers/SIG-SWO-A701/SIG-SWO-A701-02.pdf

この候補数は,かな漢字変換の候補選択に比較すれば少ない値であるが,理想的な自動訂正を
目指すならば,提示候補数は1に近いほどよい.したがって,この平均候補数を自動訂正の評価基
準にすることが可能だと言えよう.
今回の実験に用いた格フレーム辞書は,自動抽出した直後では,「が格」が欠落しているものが
ほとんどであった.これは,実際の文章では主語の省略が頻繁に起こるためであると考えられる.ま
た,「が格」に前置される名詞の意味素性は,「人間」,「団体・組織」,「システム」,「プログラム」
がほとんどであった.このことから,「が格」の欠落を自動補正することが可能だと思われる.
http://dspace.wul.waseda.ac.jp/dspace/bitstream/2065/425/12/Honbun-05_03.pdf
466デフォルトの名無しさん:2012/04/14(土) 09:49:45.57
あらまし 本稿では,タグの共起と類似画像を利用して,画像に対して有効なタグをユーザに提示するシステムを提
案する.十分にタグ付けされた Web 画像のデータベースから,タグの共起に加えて類似画像の関連語も抽出すること
で,多様で精度の高い関連語をユーザに提示する.また,ユーザが新たに付与したタグを入力のタグに含め,関連語
の再検索を行うことで,さらに新しい関連語を抽出することができる.16002 枚の画像を対象にして,タグの共起の
みを用いる手法,また類似画像のみを用いる手法と比較実験を行った結果,提案手法はより多くの有効な関連語を抽
出できることがわかった.また,これらの有効なタグを入力タグに追加し,関連語の再検索を行うことにより,新た
に有効な関連語を抽出できることも明らかになった.
http://www.ieice.org/~de/DEWS/DEWS2008/proceedings/files/e10/e10-5.pdf

?Webに関するオープンな標準を開発しているW3Cは、データの意味を記述する為の言語(正確にモデルと構文ですが、
分かり易くする為に言語と言います)として、RDF(Resource Description Framework)を開発しました。
?RDFは、主語と述語と目的語とから構成される意味モデル(トリプル、日本語では「三つ組み」と言います)を有し、意味モ
デルを記述する為の構文と語彙とを規定しています。
(注)トリプルのモデルは、非常に単純な様に思えますが、RDFでは、開集合、閉集合、トリプルを主語又は目的
語とするReification等の複雑なモデルを包含しています。
?RDFで記述された情報は、RDFの意味モデルと一対一に対応する様になっています。
?即ち、RDFで記述された情報の意味を、RDFの仕様に則して、解釈するならば、誰もが同じ意味として把握する事が可能
となります。
http://s-web.sfc.keio.ac.jp/conference2012/0202-shimizu.pdf
467デフォルトの名無しさん:2012/04/17(火) 19:11:42.06
少なくとも二つ以上の Infobox に現れる属性は全体の 3 割程度(8,612 個)であるが,その
ような属性の共通性に基づく Infobox 間の関係性を示したのが図 3 である.二つの Infobox
間に共通属性があれば,Infobox 間につながりがあるとみなす.つながりの重みは Jaccard
係数で求め,図では上位 10,000 本のエッジを示している.ネットワーク図は Cytoscapeを
用いて,ばねモデルで描画している.図から,類似した Infobox がクラスターを形成して
いることがわかる.つまり概念的に類似した Infobox は共通属性を多く持つことを示している.
http://www-kasm.nii.ac.jp/papers/takeda/11/hamasaki11gnsw.pdf
468デフォルトの名無しさん:2012/04/25(水) 23:38:10.55
CKY法で構文解析するブログラムをつくっています。簡単な文法はできたので、英語に挑戦しようとネットで文法探したけど、バークレイ大?の確率文脈自由文法しか見つからず頓挫しています。とりあえず解析ができれば良いので、手頃な文法があれば教えてください。
469デフォルトの名無しさん:2012/04/28(土) 19:50:45.94
ドラエモンをドラエモン絵描き歌でスクリプト化するように、この世の全ての物体をスクリプト化できたらいいなと思う。
470デフォルトの名無しさん:2012/04/28(土) 20:00:04.16
「ドラエモン」は未来のロボットとして描かれた架空のアニメキャラクターであるが、
後に「ドラエモン絵描き歌」が考案され、誰もがドラエモンを描くことができるようになった。
471デフォルトの名無しさん:2012/04/28(土) 20:32:42.49
あの絵描き歌は偉大だったな
当時いろいろアニメの絵描き歌があったけど、実際に描けたのはドラえもんだけだった
ポイントは歌よりもキャラ造形なのだろうけど
472デフォルトの名無しさん:2012/05/02(水) 17:33:06.58
4.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前
方にくる.この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義
語を集めたのと同じような効果を持たせることができる.
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される.
 狭義語  「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
 ノイズ  「竹トンボ」「尻切れトンボ」「極楽トンボ」
 漏れ   「オニヤンマ」「ギンヤンマ」
  「トンボ」という言葉を比ゆ的に用いている場合にノイズになる.
http://www.gengokk.co.jp/the_gengo_NLP.pdf
473デフォルトの名無しさん:2012/05/02(水) 17:37:24.14
自然言語処理教科書 コンピュータサイエンスの注目分野を概観!
I/O BOOKS
赤間世紀/著 第二I O編集部/編集
出版社名 : 工学社
出版年月 : 2012年1月
ISBNコード : 978-4-7775-1658-2
(4-7775-1658-X)
税込価格 : 2,415円
頁数・縦 : 159P 21cm
出荷の目安 : 通常1〜2日で出荷します
(GW期間の出荷/配送について)
http://www.e-hon.ne.jp/bec/SA/Detail?refShinCode=0100000000000032700426&Action_id=121&Sza_id=C0
474デフォルトの名無しさん:2012/05/03(木) 20:01:32.44
<Sale>中国語版の書籍<文系・理系・ITの諸分野>(格安)
ttp://lang-8.com/194279/journals/1457398/
475デフォルトの名無しさん:2012/05/06(日) 13:08:10.70
結局自然に処理するにはどうすればいいの?
476デフォルトの名無しさん:2012/05/06(日) 15:50:03.94
自然を処理するんだよ
477デフォルトの名無しさん:2012/05/18(金) 18:08:51.24
http://www.ibm.com/developerworks/forums/thread.jspa?messageID=14818331

>スーパーコンピュータで百万冊の書籍を統計分析

2チャンネラー百万人を動員して、それらの一文一文を人力で解析するというやり方も考えられる。
修飾語についても、何が何をどのように修飾しているのかを分析する。

小学校で「ことばのきまり」を学んでおれば、誰でも簡単にできるはずだ。
478デフォルトの名無しさん:2012/05/19(土) 02:09:33.10
それが正しいかどうかの判定はどうするの?
479デフォルトの名無しさん:2012/05/19(土) 02:58:58.51
2ちゃんねるで「日本語でおk」と言われちゃう奴が
毎日幾人も現れるようなこの世の中で...
480デフォルトの名無しさん:2012/05/19(土) 07:53:25.24
>>478
「ことばのきまり」を小中学校で学んでおれば、百点満点中で70点くらいは取れるはず。
481デフォルトの名無しさん:2012/05/19(土) 08:00:06.16
デジタルヘルス 1 (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/3/25)
新品: ¥ 31,500
4 中古品 ¥ 30,173より
デジタルヘルス 2――いざ新産業創出へ医療・健康・介護が変わる (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/11/22)
新品: ¥ 31,500
http://www.tsutaya.co.jp/works/41011503.html
482デフォルトの名無しさん:2012/05/19(土) 08:11:50.98
2チャンネラーって本当は何人?
483デフォルトの名無しさん:2012/05/19(土) 09:35:46.94
そんなどうでもいいことで2ちゃんねらー百万人が動員できるわけないだろ
現実を見ろ
484デフォルトの名無しさん:2012/05/19(土) 20:33:48.82
文を形態素解析器にかけ、品詞によりノード作成
例:水は水素と酸素の化合物である。

水は/水素と/酸素の/化合物である

文節の自立語(名詞・形容詞・形容動詞)をノードにする
(動詞については、リンキングワードとする)
http://133.41.33.194/nagi/cmm/ppt/cmapmaker.ppt

RDF:意味記述ができる
? データの意味を記述する方法は提供している.
? 統一した意味モデル
? 意味モデルに準拠してアプリケーションが処理す
ること,各アプリケーションが「同一のRDFは
同一の意味を持つこと」を認識できる.
http://www.jaist.ac.jp/~hideaki/class/K225/pdf/11K225-14.pdf

意味ネットワークとは本質的には概念間の2項
関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
http://www.nm.cs.uec.ac.jp/assets/files/JinkouChinouRon/ai02.pdf
485デフォルトの名無しさん:2012/05/20(日) 00:09:15.81
セマンティックウェブ(笑)
もう残念でしたとか言いようがないだろ
486デフォルトの名無しさん:2012/05/20(日) 08:48:14.02
なんでもかんでも残念って決めつける人って、残念だよねw
487デフォルトの名無しさん:2012/05/20(日) 17:42:49.42
RDFは筋が悪い。もう結論は出ている。
少なくとも自然言語を相手にするには決定的にダメ。
488デフォルトの名無しさん:2012/05/20(日) 21:11:18.03
>>486
セマンティックウェブという1例しか出していないのに
「なんでもかんでも残念って決めつける人」と決めつける残念な人だったか
489デフォルトの名無しさん:2012/05/21(月) 15:57:53.43
>>487
>少なくとも自然言語を相手にするには決定的にダメ。

2ちゃんねらー百万人では、まだ足りないのか?

ツイッターとフェイスブックを合わせて500万ではどうだ?
490デフォルトの名無しさん:2012/05/21(月) 16:20:30.83
突然コーパスの話にすり替える>>489の負け犬っぷりw
491デフォルトの名無しさん:2012/05/21(月) 16:50:19.57
そして>>489の冗談を真に受ける馬鹿っぷりww
492デフォルトの名無しさん:2012/05/21(月) 18:32:02.11
冗談?>>489のどこが面白いの?
493デフォルトの名無しさん:2012/05/21(月) 19:11:28.79
話変わるけど皆さん大学で体系的に言語処理を学んだ感じですか?
独学でヒッソリみたいな人はいないのだろうか
494デフォルトの名無しさん:2012/05/21(月) 20:37:00.75
>>492
怒りでチンコが勃起してるのか?
495デフォルトの名無しさん:2012/05/21(月) 20:50:36.09
>>494
消えろこの知能障害!
496デフォルトの名無しさん:2012/05/22(火) 11:00:02.74
まぁ、>489は面白くないんだけどね。
497デフォルトの名無しさん:2012/05/22(火) 14:42:03.65
あれ、もしかして、地球人全員動員すれば可能じゃね?
498デフォルトの名無しさん:2012/05/22(火) 22:14:07.87
>>493
自然言語処理は、通り一遍のこと以上を教えられる先生はまだそんなに多くないので、
それ専門にやってる先生がいない大学のレベルなら、独学でもいけるように思う。
499デフォルトの名無しさん:2012/05/23(水) 23:15:29.50
最近は機械学習とn-gramだけ分かればいいからな


500デフォルトの名無しさん:2012/05/24(木) 08:23:36.97
>>499
自然言語処理が専門だけど、n-gramとか難しすぎてさっぱりだよ。
501デフォルトの名無しさん:2012/05/24(木) 15:04:22.30
>例:水は水素と酸素の化合物である。

例えば「水」「氷」「水蒸気」については、「凍る」「溶ける」「蒸発する」「気化する」など、
様々な動詞を挟んでRFDデータベースが作成される。「凍る」と「溶ける」は反対語、
「蒸発する」と「気化する」は類義語であるが、「蒸発する」は「人間が行方不明になる」の意味もある。
けれども人間は蒸発はしても気化はしない。RFDデータベースにより、類義語の微妙な違いを理解させる。
「同一ではないが類似」について、共通点と相違点を、RFDデータベースにより明らかにしていきたい。

「たけし」と「たけし軍団」は違うけれど、「イェニチェリ」と「イェニチェリ軍団」は同じであることが分からないといけません。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf

これもRDFデータベースが充実していれば、「たけし」と「たけし軍団」ではRDFデータベースは全く違うが、
「イェニチェリ」と「イェニチェリ軍団」は似たようなRFDデータベース関係となることが理解されよう。
更に言えば百万冊の書籍について一文一文、いつ何処で誰が何をしたか、あるいは何が何にどうしたかを、
2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
502デフォルトの名無しさん:2012/05/24(木) 20:10:56.93
言語観がナイーブすぎ
503デフォルトの名無しさん:2012/05/25(金) 07:33:54.44
>2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
この一文だけで妄言だと分かる
504デフォルトの名無しさん:2012/05/25(金) 20:26:58.58
>>420
> ご利用いただきまして、ありがとうございます。
> また、こちらからの返信が遅れましたことをお詫び申し上げます。
>
> お問い合わせの件でございますが、担当者より下記の回答がございましたので、ご
> 確認いただけますようお願いいたします。
>
>
> 膨大なテキストデータの圧縮にVF符号化を使うと、データの符号化・復号化のための
> オーバーヘッドが発生するため、高速で質問応答の計算を行う状況では、こういっ
> た手法は用いないのが一般的です。
> このため十分なディスク容量と、インメモリで解答を計算できるような大容量メモ
> リを搭載したシステムを利用します。
505デフォルトの名無しさん:2012/05/26(土) 22:08:43.24
>>500
俺の知ってるn-gramは学部生で分からなかったら
アホレベルだと思うんだけどなぁ

専門の奴でも難しく感じるくらいの
n-gramが他にあるのか?
506デフォルトの名無しさん:2012/05/27(日) 10:47:17.10
むしろ簡単すぎ、役に立たな過ぎで
逆にわからないと感じてしまうとか
507デフォルトの名無しさん:2012/05/27(日) 16:37:26.17
自然言語処理でN-gram以上に役立つものなんて存在しないだろ
508デフォルトの名無しさん:2012/05/28(月) 20:50:41.16
最初にオライリーの自然言語処理入門買ったけど選択ミスだった
妙に分厚いのでなんでも網羅してるだろうと思ったら大間違い
何ら本質的な事は書いてなくて、ツールの使い方がダラダラ続くだけ
その後確率的言語モデル系の本に出会ってようやく言語処理の取っ掛かりが掴めた
509デフォルトの名無しさん:2012/05/29(火) 15:29:23.97
折角だからその役に立った本をステマしてってよ。
510デフォルトの名無しさん:2012/05/29(火) 16:14:22.27
確率的言語モデルでググってみたら?
511デフォルトの名無しさん:2012/05/29(火) 17:10:35.24
テキストマイニングみたいなものではなく
係り受け解析や述語項構造解析をがんばってほしい

512デフォルトの名無しさん:2012/06/02(土) 05:48:26.55
>>505
n-gramはただ出現数を数えただけでもSVMに放り込むか検索のキーに使うかって感じでもちろん使えます。
でも、文の出現確率をうまく近似するためのスムージングとか、巨大なn-gramモデルを扱うためのデータ構造やらプルーニングやらで、面倒で奥深く最近もまだ研究が続いているのですよ。

とは言え、使うだけならSRILMとかあるので、理解する必要かあるかはやりたいこと次第だけれど。
513デフォルトの名無しさん:2012/06/06(水) 18:20:56.54
1ヶ月近く前の5/11にお問い合わせ頂いておりました件ですが、
大変申し訳ございません、
弊社内で担当割りがされないままの状態が今になって発覚いたしました。
大変失礼いたしました。

今更で大変恐縮ですが、お問い合わせに対応させて頂けたらと思っております。


<いただいたお問い合わせ>
http://wacom.jp/jp/company/news_detail.php?id=426

>双方がPCとペンタブレットを使用して同じ教材を閲覧するとともに、手書きで書き
込みをし合うことができるため、

数式についても、インターネットクラウドサービス上で『データ化』してやり取りできるということですか。

数式入力パネルを使用して数式を入力および訂正する
http://windows.microsoft.com/ja-JP/windows7/Use-Math-Input-Panel-to-write-and-correct-math-equations


数学の入試問題は数式と図形と日本語の混合ですが、ワコムの手書き入力システムは
それにも対応して『デジタル化』できますか。
Windows7に手書き数式入力パネルが用意されているのだから、それと連携するクラウ
ドシステムがあってもよさそうな気がしますが。

(2003年の東大)円周率は3.05より大きいことを証明せよ。
http://d.hatena.ne.jp/LM-7/20070310/1173504483

例えばこうした証明問題についても、手書きの解答記述を図形も含めてデジタル化できますか。
これは平方根でこれは微分でこれは行列でこれは三角形でこれは円でこれは放物線だ、と。
更に言えば、類似の問題を検索する機能は開発されているのですか。
514デフォルトの名無しさん:2012/06/06(水) 18:22:08.87
【要望】
手書きのOCRは誤認識が多いが、原稿用紙のようにマス目を設定したり、あるいは文
脈から誤認識を検出するシステムが求められる。

実験では、文字誤りモデルの有効性を検証するためにOCR 誤り訂正システムを実装し
た。実験の結果、文字正解率 97.2% の高いベースラインに対して 12.5% の認識誤り
を訂正することができた。
http://www.phontron.com/paper/neubig09nlp.pdf

図形についてもこれは楕円なのか円なのかというのも、解答記述の数式から推測する
アルゴリズムとか。上の証明問題は「円周率」と書いてあるから、関連する曲線図形
も「円」であることは認識できるはず(あるいは楕円や放物線や双曲線を用いて円周
率を証明する方法が考えられるか)。また「閾値」が怪しいようなら、いくつかの選
択候補を提示するとか。

========================

<回答>
仰る通り数式入力パネルを使用してのデジタルでの数式入力は可能(対応アプリが必要)です。
弊社、または現時点での弊社パートナー様のシステムで
クラウド上でデジタル数式をやりとりするといったサービスはございません。
数式のデジタル化は文字認識という意味では可能ですし、通常の文字も文字認識変換は
Windows7(またはVista)の機能で可能です。
ただ、それに「連携」という意味でのクラウドサービスについては分りかねます。
実際に弊社の液晶ペンタブレットの実機をお貸出しして検証いただくことは可能です。

大変恐れ入りますが、差し支えなければ篠田様のご職業を伺ってもよろしいでしょうか?
本件の対応につき、直接お電話などさせていただければ幸いでございます。
もしよろしければご連絡先お電話番号をおしらせいただけますでしょうか。

何卒よろしくお願い申し上げます。
515デフォルトの名無しさん:2012/06/07(木) 12:14:48.07
NLTKのバージョン2がリリース
NLTK 2 Release Highlights | StreamHacker
http://streamhacker.com/2012/06/03/nltk-2-release-highlights/

NLTK 2.0.1、別名NLTK 2は 、最近リリースされました、
何以下は、私のお気に入りの変更点、新機能、およびからのハイライトであるのChangeLog 。
516デフォルトの名無しさん:2012/06/07(木) 12:37:23.65
>>515
日本語でOK w

以下は、私が気に入った変更点、新機能、ChangeLogからの抜粋です。

程度の訳でいいのかな。
517デフォルトの名無しさん:2012/06/07(木) 12:44:43.12
>>516
google翻訳です。
518デフォルトの名無しさん:2012/06/07(木) 21:06:44.89
>>517
なぜここにgoogle翻訳なんか投げる必要が
519デフォルトの名無しさん:2012/06/08(金) 07:32:09.58
自然言語処理スレだから自然言語処理の力を使ったのだろう
「自分の作ったドックフードを食え」
の精神に則ったよい心がけだと思うわ
520デフォルトの名無しさん:2012/06/16(土) 16:09:52.73
生成文法ってやつあるけど
自然言語処理と何か関係あったり役立つことありますか?
521デフォルトの名無しさん:2012/06/16(土) 20:48:49.43
自然言語処理の基礎としてたいてい生成文法の話はやるけど?
522デフォルトの名無しさん:2012/06/17(日) 00:29:43.78
やるけど、役に立つのか?
523デフォルトの名無しさん:2012/06/17(日) 01:50:38.02
否が応でも勝手に頭にたたき込まれているから問題ない。
というか、文系の言語学の連中より我々の方があれをまともに使っている。
524デフォルトの名無しさん:2012/06/17(日) 03:44:24.23
何が「問題ない」で、何が「というか」なんだ?
525デフォルトの名無しさん:2012/06/17(日) 12:56:59.56
正直やればわかるとしか言いようがないな
526デフォルトの名無しさん:2012/06/17(日) 17:19:37.17
>>520
研究として自然言語処理をするなら知っておくとよいかもしれません、という程度です。視野を広げる意味で。
言語学で使われているような生成文法を使ってどうこうする、ということは今のところ無いです。
527デフォルトの名無しさん:2012/06/17(日) 19:40:38.48
>>525
つまり答えられませんってことだろ
528デフォルトの名無しさん:2012/06/18(月) 11:53:26.56
そう思うなら好きにしろ。
あとで「そんな便利なものがあったのか」と泣く自由はあるからな。
529デフォルトの名無しさん:2012/06/21(木) 21:56:17.12
LFGも生成文法?! これはMicrosoftが
自然言語処理エンジンに使用している。
チョムスキーのは,言語学者の遊び。
530デフォルトの名無しさん:2012/06/22(金) 08:08:51.20
違うよ。
チョムスキーの理論を唯一まじめに使っているのは我々だけだということ。
531デフォルトの名無しさん:2012/06/22(金) 10:41:12.81
言語学者にいぢめられたバカが必死、なのか?
532デフォルトの名無しさん:2012/06/22(金) 10:47:23.23
>>531
頭が悪いやつだな。
言語学者の仕事と我々の仕事は違うんだよ。連中は実装しない。
533デフォルトの名無しさん:2012/06/22(金) 14:39:53.35
無知なやつだな。
534デフォルトの名無しさん:2012/06/26(火) 02:07:25.61
>>532
もしかして、HPSGパーザーを作ってる方でしょうか。であれば、生成文法は基礎として必要なのは確かですね。
前に生成文法が自然言語処理に必要ないと言ったのは、別にHPSGを否定したかったのではなく、自然言語処理一般では使わないという意味でした。ただ他には目立った用途がない以上、当面必要ない人にまで勉強するべきとはいえないと思います。
535デフォルトの名無しさん:2012/06/26(火) 09:23:31.89
hello worldを書くのに必要ないから、プログラミングに数学はいらない、みたいな意見だな。
536デフォルトの名無しさん:2012/06/26(火) 18:54:27.63
>>535
パーザーはhello world ほど、誰もがかける必要があるプログラムではありませんし、生成文法は数学ほど重要ではないと言う意見です。
537デフォルトの名無しさん:2012/06/28(木) 10:36:05.94
荒れたおかげでまともな人も来たようだな
538デフォルトの名無しさん:2012/08/02(木) 00:11:20.73
LDAてなんですか?
なんか最近よく聞くのですが
トピックなんて短い文解析してどうするのですかね?
特にMalletて何してるんですか?
だれか教えてください
539デフォルトの名無しさん:2012/08/02(木) 00:20:39.37
もう夏休みか?
540デフォルトの名無しさん:2012/08/03(金) 06:28:33.89
トピックごとの特徴語を素性にしてトピックにクラスタリングする処理を生データの入力からひとまとめでやるものだろ
541デフォルトの名無しさん:2012/08/04(土) 00:42:43.07
普通の文章分類とどう違うの?
542デフォルトの名無しさん:2012/08/04(土) 08:02:25.68
>>538 今からそんなんじゃ卒論に間に合わないぞw
どうせ受かりもしない就活なんかにかまけてるからww
543デフォルトの名無しさん:2012/08/05(日) 01:16:06.63
お願いです。LDAがわかりません
もう少し、わかりやすく説明してください。
説明してくれたらとっておきのエロビデオをxvideoにうpします。
ものすごいビデオです。

544デフォルトの名無しさん:2012/09/05(水) 22:16:02.40
よくわからないのですが、どなたか試しに自分で作成されたアルゴニズムで
なにか文章を吐かせていただけませんか?


お題は「インスタントラーメン」でお願いします。

どれくらい自然になるか興味があります。
545デフォルトの名無しさん:2012/09/08(土) 21:56:38.54
不活性気体主義?
546デフォルトの名無しさん:2012/09/11(火) 17:13:43.37
 国立情報学研究所(注1)(以下、NII)の人工頭脳プロジェクト『ロボットは東大に入れるか』
(以下、東ロボ)に、本年度から株式会社富士通研究所(注2)(以下、富士通研究所)は、
『数式処理・計算機代数』技術をベースに、数学チームとして参画します。
 「東ロボ」はNIIの新井紀子教授を中心にして、1980年以降細分化された人工知能分野の研究
を再び統合することで新たな地平を切り拓くことを目的に、2011年にスタートしたものです。プロジェクト
としての目標は、2016年までに大学入試センター試験で高得点をマークし、2021年に東京大学入試
を突破することです。本プロジェクトでは、教科ごとにチームで担当する体制をとっており、数学につい
ては「数学チーム」での活動が進められています。
 富士通研究所では数理的な分析や最適化技術をはじめ、数学の問題を正確に解くために必要と
なる『数式処理・計算機代数』の研究を長年行っています。そこで、本年度からその技術をベースに、
東ロボの数学チームに参画することとしました。
 富士通研究所は、「東ロボ」(数学)を通して、NIIと共同で人間中心のITを実現するために必要な
技術の開発を行います。これにより、高度な数理解析技術が誰でも容易に使えるようになり、さまざまな
現実世界の問題解決のための高度な数理的な分析や最適化などが自動化されることを目指していきます。

国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
富士通研究所が“数学チーム”として参加
http://pr.fujitsu.com/jp/news/2012/09/10.html
547デフォルトの名無しさん:2012/09/14(金) 14:21:20.02
ツイッターのムードは株式市場を予測出来きるか?

導入
株式市場の予測は学会と同様ビジネスの世界でも関心をもたれている
しかし、株式市場は本当に予測可能だろうか?
株式市場の初期の研究においてランダムウオークとEMHにもどづいて行われてた
548デフォルトの名無しさん:2012/09/26(水) 15:16:25.23
http://kaigi.org/jsai/webprogram/2012/pdf/437.pdf

>選択肢文と語彙および構造の面で類似している文

「オスマン帝国の皇帝直属の常備軍」と、「オスマン帝国の常備軍」のような、
同じ意味となる表現は抽出し整理しておく必要がある。また類似の文章は、
ここは同じだがここは違うと、細かく分析して整理しておく。
自然言語処理でいくつもの書き換え文を自動作成できれば進歩が大きい。

同じ内容を複数の英文で表現できることがよくあります。いわゆる「文の書き換え」
と呼ばれているものですが、最近の特に私立大学の英語の試験では、ある英文を別
の英文で言い換える「パラフレーズ問題」が増加傾向にあるため、書き換えの重要度
はますます高まってきています。
http://www.ravco.jp/cat/view.php?cat_id=4520

それから一見するとよく似ている文章でも、全く違う内容という場合もある。
「人間は顔じゃねえよ」は、人間の価値は顔で決まるわけではない、と解釈できる。
けれども「人間の顔じゃねえよ」と「人間は顔じゃねえよ」は、全く違う。

人間の顔じゃねえよ
広が獲君を慰めようとした言葉。しかし、本当は「人間は顔じゃねえよ」であるため、
彼はますます落ち込んでしまう…。しかも、広は克也に殴られるまで、全然間違いだ
と思ってなかった。正直、爆笑必至ネタで、ベスト3に入る迷言であろう。
http://www.geocities.co.jp/SilkRoad-Forest/6130/nube/advanced/meigenanother.htm
549デフォルトの名無しさん:2012/09/26(水) 15:41:15.36
でも「象の鼻は長い」と「象は鼻が長い」は、同じ意味なんだよね。

コンピュータで解析するとしたら、どういうアルゴリズムになるのだろう。
550uy:2012/09/26(水) 18:38:55.10
バカには無理

は の前にある単語を主語
の の前にある単語を主語装飾語
最後にある単語を意味決定語
として組めばいいと20秒で結論づいた
551デフォルトの名無しさん:2012/09/26(水) 19:41:27.08
まず品詞推定がそのとおりになるアルゴリズムからだな
552デフォルトの名無しさん:2012/09/28(金) 10:05:32.92
  格助詞 接続助詞 副助詞 終助詞 全出現
の  2909  50328    1     0   53238
を  32949    0     0     0  32949
は  3       0     0   32231  32234
に  30562  437     0      0  30999
が  23812  3273    0      0  23085
と  21980   25     1      0  22006
で  13369   2      1     2   13374
も    0     8   9139     2   9149
表 1: 京都大学テキストコーパスに含まれる高頻度助
詞とその品詞細分類別頻度
http://nlp.nii.ac.jp/tawc/papers/C10_uematsu.pdf

用いた用例             意図する用法
a) 私が林檎と桃を食べる     体言の並列
b) 「話す」と「聞く」         用言の並列
c) 私が彼と握手する       体言を取る補語
d) 山と積まれた桃を食べる   体言を取る修飾
e) 「林檎」と子供          体言を取る補語 (述部省略)
f) 林檎がおいしいと答える    用言を取る補語
g) 雪が降ると犬が走る      用言を取る接続
h) 仕事が終わったと喜ぶ    用言を取る修飾
i) 「おいしい」と子供        用言を取る補語 (述部省略)
j) やっと終わった、と           文末
k) 彼は思った。おいしいと        転置
l) わんわんと犬が吠える        副詞・修飾
m) というのも、               文頭
表 2: 助詞「と」の用法アノテーションで用いたカテゴリ
http://nlp.nii.ac.jp/tawc/papers/C10_uematsu.pdf
553デフォルトの名無しさん:2012/09/29(土) 10:44:25.65
反対の賛成=賛成の反対。

反対の賛成は、賛成の反対なのか?
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1334388753

このような「同一表現」を整理するための自然言語処理アルゴリズムが必要。
554デフォルトの名無しさん:2012/09/29(土) 12:49:26.19
「反対の賛成」なんて日本語を使うやつはいない
記号論理学でもやれば?
555デフォルトの名無しさん:2012/09/29(土) 16:19:49.41
バカボン「パパェ...」
556デフォルトの名無しさん:2012/09/29(土) 17:57:09.26
>>554
でも意味としては通るでしょ。
557デフォルトの名無しさん:2012/09/29(土) 18:02:15.62
「反対」が賛否の否ではなく「一方俺はお前と違って」の意味なら
賛成の反対: 賛成に相対する『反対』を主張するものである
反対の賛成: (お前は賛成するのか?)俺は(その)反対に位置する『賛成』を主張する
と、まあコンテキスト依存だが意味のある解釈は可能だと思った。
558デフォルトの名無しさん:2012/09/30(日) 20:55:41.89
>>556
通らないよ
559デフォルトの名無しさん:2012/10/01(月) 11:50:16.28
「反対に賛成」を言い間違えたと言う解釈ではどうだろう。
560デフォルトの名無しさん:2012/10/01(月) 18:41:20.64
それが自然言語処理なの?と言いたいわけだが
「反対の賛成」という文字列が書き込まれその意味を解釈しなければならない事例が
どのくらいの確率で起こる?
561デフォルトの名無しさん:2012/10/01(月) 18:53:22.08
無理やり解釈しようとすれば意地悪な日本語なんていくらでも作れる
そういった文も解釈できたほうがいいのは確かだが
今のところ明らかに意味の通る文の意味解析さえ微妙な精度なのだから
まだそんな例外について考える段階ではないだろ
562デフォルトの名無しさん:2012/10/01(月) 19:49:41.92
例外を考えないクリーンな状況において考えられた理論が
実問題に適用しようとすると役に立たなかった、なんて事今まで散々あっただろうに
563デフォルトの名無しさん:2012/10/02(火) 00:55:20.71
>>562
それ自体が例外だろ
工学で例外を全て考えるとかありえないし
564デフォルトの名無しさん:2012/10/02(火) 10:01:36.03
理論だけ考えるのが間違い
実験すればいい
565デフォルトの名無しさん:2012/10/05(金) 20:29:25.21
>>560
> それが自然言語処理なの?と言いたいわけだが
> 「反対の賛成」という文字列が書き込まれその意味を解釈しなければならない事例が
> どのくらいの確率で起こる?
>

それを言うなら、大学入試問題なんて、入試問題特有のわかりにくい表現ばかりだ。
566デフォルトの名無しさん:2012/10/06(土) 01:26:16.07
大学入試をするなら受験勉強をするし
受験勉強をすると「入試問題特有のわかりにくい表現」が
「入試問題にありがちな表現」になるでしょ
567デフォルトの名無しさん:2012/10/06(土) 16:30:42.51
なぜ俺は「チンボ『が』シコシコ」するのか
http://kohada.2ch.net/test/read.cgi/prog/1342488636/

高度な自然言語処理を行なう際には、構文情報のみならずさまざまな語と語の関連情報が重要となってくる。
我々は「トマトなどの野菜」といった定型表現を用いて、新聞記事から、名詞の下位概念を自動的に抽出する
手法を提案する。7種の定型表現を作成し、6年分の新聞記事をコーパスとして下位概念を抽出した。
その結果、ほぼ6割以上の正解率で下位概念が得られた。また、抽出した下位概念と、人間が連想した
下位概念との比較をおこない、2人以上の被験者が連想した下位概念のうち、平均85%の下位概念を
コーパスから自動抽出することができた。
http://ci.nii.ac.jp/naid/110002948748/

本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類
システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、
さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、
対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。
本システムは、この2つの課題を3つ組{対象物,属性,評価}のモデルと情報抽出の手法を用いて解決する。
本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82%,再現率52%であり、
システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。
http://ci.nii.ac.jp/naid/110002949320/
568デフォルトの名無しさん:2012/10/06(土) 16:54:01.82
さらに必要な機構は,各名詞概念が保持する属性情報(名詞概念やその他の定数)の集合であり,
これを名詞属性フレームと呼ぶ.動詞概念とその格要素から成る事象が動詞概念のためのフレームだとすれば,
これはその名詞概念版に当る.名詞属性フレームを構成する属性情報に関して,[熊谷2010]は小説の分析
を通じて人物に関する属性スロットの素案を示した(表 1).今後はこれを拡張して行く予定である.
http://kaigi.org/jsai/webprogram/2012/pdf/487.pdf

? 「雪國」は川端康成の作品として知られている
この場合「川端康成」が作者であり,「雪国」が作品名である.この意味を「作成する」という動作概念の述
語項構造でと記述してみると
(a1) [Pred: 作成する, Agent: 川端康成, Theme: 雪国 (head)]
であろう.つまり「作品」の意味構造を「Y は X の作品」の項構造で捉えて規格化する意味記述法である.
この時,「作品」という言葉自体は「作成した物」でありこれは上記の述語項構造の意味役割における
Theme(「作成する」のヲ格) となるので,そこに head という情報を記述しておく.
http://nlp.nii.ac.jp/tawc/papers/W03_takeuchi.pdf

Web ページや車のナビ,携帯電話のメニューなど,世の中のあらゆるところにメニュー階層構造が用いられており,
我々は日常的にメニュー階層構造の操作を行っている.操作の分かりやすいメニュー階層構造を開発するためには,
メニュー階層全体での繋がりの分かりやすさを定量的に客観評価できる指標が必要である.そこで,本研究では,
メニュー階層構造の分かりやすさの評価に用いるため,2 単語間の連想関係,関連関係
の自動判定,および,連想度,関連度の指標化を検討した.
 ここで,連想関係とは,全体-部分関係,上位-下位概念,装置-機能を含む親子関係である.関連関係とは,
ある全体に対する部分集合,ある上位概念に対する下位概念の集合,ある装置に対する機能の集合を含む兄弟関係である.
 また,連想度とは,ある 2 単語に関して,心理的に連想関係があると感じる度合いである.関連度は,ある 2 単語に関
して,心理的に関連関係があると感じる度合いである.
http://kaigi.org/jsai/webprogram/2012/pdf/281.pdf
569デフォルトの名無しさん:2012/10/06(土) 17:05:10.75
>人間は顔じゃねえよ
STEP2: 係助詞「は」が着くとすると,どのような名詞に着くかといった構文上のルールによって,
各切片の「主題」を書きだす.また,日本語の新聞記事で主題を明確にするために利用されている
「目理方結(目的・理由・方法・結果)」あるいは,「現原対変(現実・原因・対策・変化」をプロパティ
として用いる.ディメンジョンは,これらプロパティに対する値を入れる.
http://www.issj.net/journal/jissj/Vol7_No2_Open/A4V7N2.pdf

抽出した対を用いた含意認識の例
入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした
         ?イリノイ生まれ-チャールズ
         ?チャールズ-俳優
          27歳-俳優
入力仮説:  チャールズはイリノイで生まれた
         ?チャールズ-生まれ
         ?イリノイ-生まれ
抽出した対:
含意要因表現:イリノイ生まれのチャールズ
         イリノイ生まれ-チャールズ
仮説:チャールズはイリノイで生まれた
チャールズ-生まれ
         ?イリノイ-生まれ
http://dl.dropbox.com/u/2152477/slide/12/12NLP-udaka.pdf

ある現象を分析した場合,その現象に関連する現象には,特定の実行順序が規定される場合が多くある.
そして,特定の実行順序で規定される現象概念間において,現象概念間の上位下位・全体部分等の関係に拘らず,
各現象が言及する意味内容が相互伝搬される場合がある.例えば,「浜松に行った.ホテルに泊まった」という
文を考えた場合,「移動行為」と「宿泊行為」は,それら自体はまったく異なる現象であり,それらの間で意味内容
が相互に限定されるか否かは,文脈・知識・状況に依存する.ひとつの解釈としては,この「移動行為」と「宿泊行為」とが,
ある行為現象の部分を構成している場合,そして更に「移動行為」と「宿泊行為」とが連続して引き起こされると解釈される
場合には,「移動行為」概念の「移動場所終点」属性と「宿泊行為」概念の「宿泊場所」属性との間で意味の伝搬が引き起こされる.
http://kaigi.org/jsai/webprogram/2012/pdf/445.pdf
570デフォルトの名無しさん:2012/10/06(土) 17:52:07.78
「図のように」、「正三角形を」「9つの部屋に」「辺で区切り」、
「部屋P,Q」を定める。「1つの球が」「部屋Pを出発し」、「1秒ごとに」、
「そのままその部屋にとどまることなく」、「辺を共有する隣の部屋に等確率で移動する」。
「球がn秒後に部屋Qにある確率を求めよ」。
http://meploblog.kawai-juku.ac.jp/kinki/2012/09/002851.html

>しかし、赤線部分を自ら理解するでしょうか?

     「そのまま」「その部屋」「に」「とどまることなく」

まず「その部屋」というのが具体的に何を指しているのかがわかりにくい文章だ。
「そのままその部屋にとどまることなく」は挿入文であり、その挿入文を切り離して、
それから「1つの球が」「1秒ごとに」「辺を共有する隣の部屋に等確率で移動する」、
というふうに解読される必要がある。

「その部屋」=9つの部屋のうちのいずれか1つ、と解読できるか。
部屋Pなのか部屋Qなのか、いくつかの「候補」を挙げて、妥当性を検証するとか。
571デフォルトの名無しさん:2012/10/06(土) 18:01:27.40
>「その部屋」=9つの部屋のうちのいずれか1つ、

「その部屋」=9つの部屋のうちのいずれか1つで、かつ1秒ごとに変化する。
こういうのはわかりやすい言葉に直していく必要がある。
572デフォルトの名無しさん:2012/10/06(土) 18:06:09.46
>>566
>受験勉強をすると「入試問題特有のわかりにくい表現」が
>「入試問題にありがちな表現」になるでしょ

数学の文章題など、入試ではわかりにくい意地悪な日本語はいくらでも出てくるので、
「反対の賛成」=「賛成の反対」くらいは解読できてしかるべき。

      「そのままその部屋にとどまることなく」
573デフォルトの名無しさん:2012/10/06(土) 22:36:07.57
反対の賛成なんて受験問題に出したら謝罪レベルの意味不明な日本語だろ
574デフォルトの名無しさん:2012/10/06(土) 22:39:46.21
まあ問題にとって必要ならやればいいと思う
多くの場合は必要ないというだけ
575デフォルトの名無しさん:2012/10/10(水) 20:32:33.81
機能表現とは,「にあたって」や「をめぐって」のように,2 つ以上の語から構成され,全体として1つの機能的
な意味をもつ表現である.一方,この機能表現に対して,それと同一表記をとり,内容的な意味をもつ表現が
存在することがある.例えば,文 1 と文 1には「にあたって」という表記の表現が共通して現れている.
(i) 出発する にあたって,荷物をチェックした.
(ii) ボールは壁 にあたって,跳ね返った.
文 (i) では,下線部はひとかたまりとなって,「機会が来たのに当面して」という機能的な意味で用いられている.
それに対して,文 (ii) では,下線部に含まれている動詞「あたる」は,動詞「あたる」本来の内容的な意味で
用いられている.このような表現においては,機能的な意味で用いられている場合と,内容的な意味
で用いられている場合とを識別する必要がある.
http://nlp.iit.tsukuba.ac.jp/member/utsuro/papers/utsuro/NLP2012-C3-1.pdf
576デフォルトの名無しさん:2012/10/12(金) 12:18:53.61
$ bundle exec ruby dadot.rb run "戦うと元気になるなあ、ローラ。死を意識するから、生きることが実感できる"
# => create '#{Time.now.strftime("%Y%m%d%H%M%S")}.png'

Yahoo!JAPAN 日本語係り受け解析API を Graphviz で表示するものでさぁ
https://github.com/gongo/dadot
577デフォルトの名無しさん:2012/10/12(金) 12:33:48.73
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な
正解データから自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、
述語に対する主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定す
ることができます。この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。
http://www.kecl.ntt.co.jp/rps/research/innovative/research_innovative04.html

例 3. 図 7 に文 x = h 私は;彼女の;真心に;感動した.i に対する状態遷移系列の末尾にグラフ g を付加した例を示す.
ただし,ここでの例は,c2 から c3 の遷移において,誤った遷移が関数 oによって選択された例である.この図に
おいて辺 (1,4) は,cmにはなく,g に存在する辺であるので,他の辺とは異なるラベルをもつことを表すために破線
で図示されている.このグラフ系列の変換系列は以下で与えられる.
http://kaigi.org/jsai/webprogram/2012/pdf/48.pdf

例えば図 3 では,述語文節は「作成しました.」である.まず,「私は」の係先は「作成しました.」であるので,
「私は」が単独の連文節となる.続いて,「あなたの」の係先は,「予定を」であり,「あなたの」と連結し,
「あなたの予定を」となる.さらに,「予定を」の係先は,「考慮して」であり,「あなたの予定を」と連結し,
「あなたの予定を考慮して」が連文節となる.「考慮して」の係先は,述語文節であるため,これまで連
結した文節が一つの単独な連文節となる.「計画を」の係り先は述語文節であるので,一つの単語連文節となる.
http://db-event.jpn.org/deim2012/proceedings/final-pdf/e5-3.pdf

次に, 表 1 に示す言語的手がかりを特徴量として使う方法について説明する. 例えば,
所属関係の場合,「昨年, 本田圭佑が所属し ていたVVV フェンロは〜」というテキストは,
所属関係が時間によって変化しうることを示唆していると言える.
http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1172/data/nlp201203_takaku.pdf
578デフォルトの名無しさん:2012/10/12(金) 13:22:00.90
完全にSSRI特有の攻撃性がでてる。
トラブル起こさない内に貴方の前にぶら下がってるその粗末な物を切断することをオススメする。
579デフォルトの名無しさん:2012/10/12(金) 14:10:14.58
>>466
>RDFは、主語と述語と目的語とから構成される意味モデル

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

>>567
>なぜ俺は「チンボ『が』シコシコ」するのか

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
580デフォルトの名無しさん:2012/10/13(土) 16:21:46.62
>>578
>貴方の前にぶら下がってるその粗末な物

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ。
581デフォルトの名無しさん:2012/10/13(土) 16:52:02.94
>>549
>「象は鼻が長い」

ならば『私はチンボがシコシコする』というのもアリだよな!
582デフォルトの名無しさん:2012/10/13(土) 18:19:15.64
>>580
ズキズキは受動的
シコシコは能動的
チンコは自ら意思を持ちシコシコすることはない
よって用例の誤り

583デフォルトの名無しさん:2012/10/13(土) 20:25:34.68
ぼくはうなぎだ
584デフォルトの名無しさん:2012/10/14(日) 01:27:44.46
>>国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
はっきり言います。無理です。100%。
うまくいって1,2題でしょ。
しかも、どっかの見た問題があればですが。
予算の無駄です。
だだし、DQN大学なら可能ですがw
585デフォルトの名無しさん:2012/10/14(日) 01:28:31.28
東大なんかよりセンター試験にしてください。
そのほうがコンピュータには難しいはず
586デフォルトの名無しさん:2012/10/14(日) 09:43:07.77
>>584
30年も経って未だにオモチャ程度のリニアモーターカーと比べれば、まだ始まって一年も経っておらず、
また開発費用も安価な「ロボットは東大に入れるか」のほうが期待できる。
税金のムダというのなら、まずリニアモーターカーと原子力発電から先に撤退すべきだ。
587デフォルトの名無しさん:2012/10/14(日) 10:48:06.76
http://pr.fujitsu.com/jp/news/2012/09/10.html

>意味解析:人間にとって理解しやすい自然言語や数式で表現された問題文を理解する。

「物理はイメージ」(橋元流解法の大原則)は、自然言語文章題を正しく理解するにあたっては金言だと思う。
まず仮想物体と仮想動作と仮想状況をリアルにイメージすることが大切で、公式うんぬんはその後のこと。

ATLAS  専門用語辞書
http://software.fujitsu.com/jp/atlas/function/techdics.html

文構造の基本は「主語・動詞・目的語・修飾語」(RDFモデル)なので、辞書に登録されている語全てについて、
それに対応する仮想物体と仮想動作と仮想状況を、テンプレートオブジェクトとして用意しておくわけにはいかないですか。
またカテゴリーの広い名詞は、最も一般的なものを自動選択する。例えば「鳥」は、特別な指定が無ければスズメ・ハト・カラスのいずれか。

臓器やゼリーなどのレオロジー物体を仮想空間で表現し,シミュレーションをおこなうためには,レオロジー物体の性質を正確に
表現することが必要である.本研究では,レオロジー物体表面の情報をより詳細かつ高速に扱えるようにするために,レオロジー物体表面
の情報をテクスチャから取得するシステムを提案する.提案したシステムにより,テクスチャのサイズに応じて,より詳細なレオロジー物体表面の情報を扱うことができる.
http://ci.nii.ac.jp/naid/110008095342
588デフォルトの名無しさん:2012/10/14(日) 15:08:59.46
>>584-586
絵本もろくに読めないのに東大の入試なんて
一見すごそうに見えることを利用して予算獲得目的だし
入試のデータマイニングになるだけだろう

589デフォルトの名無しさん:2012/10/14(日) 17:54:39.97
> 30年も経って未だにオモチャ程度

自分の事実認識が壊れてることを自覚しようなw
ついでに言うと中央リニアはJR東海が100%で作ろうとしてるのに、税金のムダとかw
590デフォルトの名無しさん:2012/10/14(日) 20:48:43.19
>>589
>中央リニアはJR東海が100%で作ろうとしてるのに、

路線距離8.9kmではオモチャ程度だと思うし、『作ろうとしている』は何十年も前から言われてるが?

路線データ [編集]
路線距離(営業キロ):8.9km(建設キロ:9.15km)
方式:常電導吸引型磁気浮上式 (HSST)
駅数:9駅(起終点駅含む)
複線区間:全線
最高速度:100km/h
http://ja.wikipedia.org/wiki/%E6%84%9B%E7%9F%A5%E9%AB%98%E9%80%9F%E4%BA%A4%E9%80%9A%E6%9D%B1%E9%83%A8%E4%B8%98%E9%99%B5%E7%B7%9A
591デフォルトの名無しさん:2012/10/15(月) 10:28:04.19
それはいいんだが、なにか自然言語処理の面白いアイデアない?
592デフォルトの名無しさん:2012/10/15(月) 11:42:09.05
なんだ、JRのリニアと日航HSSTすら識別できないバカかw
593デフォルトの名無しさん:2012/10/16(火) 14:21:38.46
入試のデータマイニング以外に何者でもないなw
東大はこの単語が出やすいですよとか
で、LDAで東大の入試問題解析した人いる?
594デフォルトの名無しさん:2012/10/16(火) 16:19:49.78
>>589
リニアは何十年も「作ろうとして」、全く何もできなかった。
これに対し「ロボットは東大に入れるか」は、
一年も経たないうちに、富士通が参加することになった。
富士通は現実に京速スパコンを完成させた優良企業なので、口先だけの原発やリニアよりは期待できる。

原発とリニアは即刻中止して、「ロボットは東大に入れるか」に予算を集中させるべき。

595デフォルトの名無しさん:2012/10/16(火) 16:23:57.12
>>592
JRのリニアはまだ計画だけで何もできてない白紙状態だが、何を期待するの?

リニア鉄道で完成したのは、日航のオモチャだけ。
596デフォルトの名無しさん:2012/10/16(火) 18:10:03.61
>>595
山梨実験線を見て、「何もできてない白紙状態」と言えるキチガイだと証明されたね。
597デフォルトの名無しさん:2012/10/16(火) 19:08:32.87
【韓流】ブームがいきなり終焉!? K-POP「江南スタイル」がYouTubeランク外に消える“珍事"が勃発[10/16]
http://awabi.2ch.net/test/read.cgi/news4plus/1350366216/
992:<丶`∀´>(´・ω・`)(`ハ´  )さん :2012/10/16(火) 16:30:03.73 ID:kdSMXng1
★まとめ★

1:チョーセン人が不正で異常な閲覧数を稼ぎレディガガ記録を抜く
2:気づいた奴が4ch(アメリカ版の2ch)で暴露
3:「アイツら本当にうぜーな」と4chねらーが PSYのwiki(英語版)で死んだことにする
4:チョーセン人かその関係者がwiki(英語版)での死亡を直す
5:4chねらーが PSYのwiki(英語版)で死んだことにする、チョーセン人が直す(無限ループ)
6:「こりゃ祭りだ」と4chねらーがYoutubeに”お悔やみ”(RIP)を書き込む
7:「物足ねーな、Koreanが嫌うことって何だ? 日本を褒めることか!」と4chねらー考える
9:「PSYは最高の日本人、死んで残念」「J-POP最高!」などの書き込みが始まる
10:おそらくアメリカ留学中のタイ人やマレーシア人がFaceBookで母国に拡散
11:タイ語の書き込みまで出てくる
12:「◯◯人の私もPSYのファン」というネタで意味もなく国名を目立つように書く
13:火星、木星、天国からもメッセージが届く
14:Youtube再生数より視聴時間重視に変更後ランキング1位から圏外に   ←今ここ
598デフォルトの名無しさん:2012/10/17(水) 11:07:38.87
スパコンでありったけの「仮想物体」を作成しておいて、文入力するとシミュレーションというわけにはいかんですか。例えば「机の上にミカンを置く」と入力すると、仮想物体と仮想動作が自動選択されるとか。「物理はイメージ」(橋元流解法の大原則)とはよくいったもの。
599デフォルトの名無しさん:2012/10/17(水) 11:10:49.50
>>596
>山梨実験線を見て、

35年もかけて、未だにオモチャ程度だが?

鉄道総合技術研究所(鉄道総研)と東海旅客鉄道(JR東海)が開発している超電導リニアの研究施設として、
これまでに宮崎県と山梨県にリニア実験線が建設された。国鉄時代の1977年(昭和52年)に開設された
宮崎実験線は、1996年(平成8年)に走行実験を終了し、その後はエアロトレインの実験や小規模な太陽光発電
に使用されている。1996年(平成8年)開設の山梨実験線は、18.4kmの先行区間で2011年(平成23年)まで
走行実験が行われ、現在は総延長42.8kmの全線完成に向けた延長工事が行われている。山梨実験線は
2027年開業予定の中央新幹線の一部として利用される予定である。
http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%8B%E3%82%A2%E5%AE%9F%E9%A8%93%E7%B7%9A
600デフォルトの名無しさん:2012/10/17(水) 12:06:41.80
オモチャ程度と連呼すれば、みんながそうだと信じてくれるだろうw

池田信夫がよく使ってますねw
601デフォルトの名無しさん:2012/10/17(水) 14:26:35.45
仮想はさみを用いた手による紙の切断システム
http://www.youtube.com/watch?v=VPYgjSei3gc
高校物理のイメージ教材
http://www.wainet.ne.jp/~yuasa/
物理学は数式や公式にあるのではなく、日常の自然現象をビジュアルに理解することにある
http://honu81.blog28.fc2.com/blog-entry-307.html

一方,ユーザからの指示・教示として自然な手法の 1 つは,自然言語による指示・
教示である.例えば,前述の「この箱を部屋の隅に動かせ」といった指示を言葉でロ
ボットに伝え,ロボットが作業を自律的に行う手法である.この手法はユーザの継続
的な操作を必要とせず理想的ではあるが,「この箱」や「部屋の隅」を認識するのが
困難であるうえ,ロボットがあいまい性を解決できず,物体や場所を自律的には判別
できない可能性がある.
http://www.ipa.go.jp/about/jigyoseika/10fy-pro/mito/ih_4d.pdf

>「この箱」や「部屋の隅」を認識するのが困難

ワトソンの問題の正答率はだいたい90%くらい。90%になるまで、さまざまな調整が行われ
たそうです。問題文章の解析、回答の候補の抽出、どの候補が回答か逆に解析して、根拠付け、
すなわち、回答の可能性が高いものを見つれられれば回答する、といったようにできています。
http://uva.jp/dh/mt/archives/005499.html
602デフォルトの名無しさん:2012/10/17(水) 14:54:25.86
日本語の助詞の種類
 ・格助詞  … 体言につき、意味関係(格)を表す。 「私のもの」
 ・並立助詞 … 2つのものを並立させる。 「赤と白」
 ・終助詞  … 文や句の末尾について疑問・禁止・感動の意味を付加する。 「雨かしら」
 ・間投助詞 … 文節末尾につけて語調の変化、感動などの意味の付加をする。 「そうだよね」
 ・副助詞  … 体言や副詞、格助詞の後などにつき副詞的働きをさせる。 「明日まで」
 ・係助詞  … 意味を添えて語を強調する。 「彼でさえ」
 ・接続助詞 … 文と文の間の意味関係を表して接続する。述語間の関係を表す。 「〜けれども〜」
 ・準体助詞 … 用言の後について体言相当の意味を表す。 「〜に着いてから」
 (ウィキペディアフリー百科事典「助詞」、http://homepage3.nifty.com/を参考
http://www.jnlp.org/iwase/wen-fano-hua/pin-ci-yi-lan
603デフォルトの名無しさん:2012/10/17(水) 14:55:59.15
省略 主語や目的語,動詞,助詞などの省略.節や文ごと省略される場合もある.
照応表現 「それ」などの指示詞など.
倒置表現 「切符が欲しいんです,札幌までの」
非文 文法的におかしい,または意味的にずれた表現.よほどひどくずれてなければ,聞き
手は常識的に判断して修正して解釈.
言いよどみ・
言い直し
論理立てて考える前に話し出して誤ったり,無意識の心理状態がつい口に出てしまう
間投詞 「おお」「ええっと」「はい」「うん」など.あいづちは,聞き手の理解を示す.イントネー
ションを加え,理解,疑問,嘲り,満足,不満足など様々な心理状態を伝達.
視点表現 「やる」「くれる」など,視点に依存した表現.空間的な位置,社会的な立場も含む.
http://www.brl.ntt.co.jp/people/fujita/2012ai/materials/AI12.pdf
604デフォルトの名無しさん:2012/10/17(水) 15:04:35.53
>>587
>臓器やゼリーなどのレオロジー物体を仮想空間で表現し,シミュレーションをおこなうためには

仮想空間を用いて、仮想土俵に仮想力士を置いてシミュレーションするしかないと思う。

例えば,下記の例は相撲の取組の説明だが,「いつも相手の〜」の文で「若乃花」が
「フワッと 立って、胸で 受けてしまった」後で,「そこへ〜」の文から「最高の出足で
突っ込み、左右を 差す」行為を行ったのが「琴錦」であることを理解するためには,
この状況が明確に理解でき,ある行為を行った場合にそれと対となる他の行為は他者が
行うといった複雑な知識とそれに基づく推論が必要になると考えられる.
http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf
605デフォルトの名無しさん:2012/10/17(水) 19:55:15.05
>>546
>国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
>富士通研究所が“数学チーム”として参加

自然言語処理の研究という観点からすれば、新製品も出てるし、今後ますます需要が高まる。

パソコンの日本語入力を格段に効率化させる「Simplewrite」新発売
入力した文章を自動登録し、次回入力時に変換候補の文章を表示
http://pr.fujitsu.com/jp/news/2012/09/20.html
606デフォルトの名無しさん:2012/10/18(木) 18:04:16.70
>>604
『これ』とか『その』とかの代名詞をどうするかだが、照応解析は今のところかなり困難。
607デフォルトの名無しさん:2012/10/24(水) 12:25:27.07
>>588
>絵本もろくに読めないのに

テキストマイニング(自然言語処理)やイメージマイニング(画像認識)は、ここ数年で飛躍的に進歩している。

世界初(*1) 過去の肺がんの診断情報を活用して類似症例を表示
人工知能の技術により医師の画像診断をサポート
類似症例検索システム 「SYNAPSE Case Match (シナプス ケース マッチ) 」
新発売
2012年10月23日
富士フイルム株式会社
http://www.fujifilm.co.jp/corporate/news/articleffnr_0703.html

東大入試は来年くらいで、人工知能が合格点を突破すると思われる。
608デフォルトの名無しさん:2012/10/24(水) 19:07:03.59
>>607
テキストマイニングは文章を理解しようとしていないだろ
コンピュータビジョンは視覚という原始的な機能が目標だから今の方向でもいいと思うが
自然言語処理が今の統計手法のまま東大に合格したところで
検索システムを東大の問題に特化させたくらいの意味しかなく人工知能には程遠いよ
609デフォルトの名無しさん:2012/10/24(水) 23:17:49.30
ワトソン関係の論文って公開されてるっけ?
610デフォルトの名無しさん:2012/10/25(木) 00:52:45.95
>>609
読み物的な本は出版されていたな
あと
http://www.math.ryukoku.ac.jp/~www-qma/lab/IPSJ-MGN520717.pdf
に概要が書いてある
611デフォルトの名無しさん:2012/10/25(木) 21:41:05.67
顕在化された情報のうち 30 事例を人手で分析したところ,23 事例は談話の内容と整合した内容であった。
例えば,1番の問題のText \As a result of these weaknesses,computer systems and the operations that rely on..."
からは「computer と systems が part of の関係にある」という情報が顕在化できていることがわかった。次に,
本稿の談話解析モデルを含意関係認識 (RTE-2 テストセット) の正解率で試験的に評価したところ,60.4%
(Bag of Words: 59.4%) の正解率を得た。
http://www.cl.ecei.tohoku.ac.jp/~naoya-i/resources/nlp2012_paper.pdf


これに対し,日本語を対象とした照応関係のアノテーションでは,主に省略された照応詞(ゼロ代名詞)を検出し,
そのゼロ代名詞に関して先行詞をアノテーションするという試みがなされている.日本語では読み手(聞き手)
の推論可能な照応詞は頻繁にゼロ代名詞として省略されるため,ゼロ代名詞を検出し,そのゼロ代名詞の先行詞
を同定するゼロ照応解析がさまざまな応用処理に必須な処理である.
http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf
612デフォルトの名無しさん:2012/10/30(火) 10:33:08.35
深層格と表層格
¨ 表層格
? ガ格,ヲ格,ニ格など,表層?格助詞と基本的に対応
? 「?」,「も」,「しか」?付加的な意味を表す?で
曖昧性解消が必要
n ?: 文?主題 「日本?経済状況が深刻になっている」
対比 「太郎が帰った?に対し,次郎?続けて練習した」
n も: 「りんごも私?食べる」
¨ 深層格
? 文や節における役割
n 帰る(動作主:太郎,終点:NULL)
n 練習する(動作主:次郎,対象:NULL)
http://www.cl.cs.titech.ac.jp/~ryu-i/class/nlp4.pdf
613デフォルトの名無しさん:2012/10/30(火) 10:41:52.96
>>588
>絵本もろくに読めないのに

都内のパン屋でパン画像識別システムを使った実証実験がスタート
http://jp.diginfo.tv/v/12-0145-r-jp.php
がん診断を支援する病理組織画像認識システム
http://www.aist.go.jp/aist_j/research/patent/2012/08_1/index.html
SIFT を用いた特定物体認識の高速化と移動ロボットによる物体ハンドリングへの応用
http://hokuga.hgu.jp/dspace/bitstream/123456789/2027/1/%E2%91%A5%E5%A1%A9%E6%BF%B1%E8%AB%96%E6%96%87.pdf
局所特徴量の部分空間を用いた複雑背景下での3次元特定物体認識
http://imlab.jp/publication_data/1267/prmu201205_PRMU.pdf
614デフォルトの名無しさん:2012/10/30(火) 11:03:58.05
適応分野の生テキストは、まず実際に解析してみて、解析精度がどの程度かを目視で推測することに用いられる。
その結果、解析誤りが散見され、大部分が単語分割ツールの未知語に起因することに気付く。
http://www.phontron.com/paper/sasada12nl207.pdf
615デフォルトの名無しさん:2012/10/30(火) 15:13:44.13
>>613
画像認識は解ける問題を設定しないと使えないよ
パンならあらかじめ分類したいパンの種類を決めて種類ごとに教師データを使って学習すると
パンが入力された時にどの種類のパンかを当てることができるってだけだし
特定物体認識なら保持している同じ見え方のサンプルのうちどれかにマッチするか判定出来るだけ

任意の絵本を入力して描かれている物体を当てるなんて無理だよ
616デフォルトの名無しさん:2012/10/30(火) 15:30:06.14
このスレにスパムみたいに論文を張り続けてるやつ
全く内容を理解していないだろ
617デフォルトの名無しさん:2012/11/02(金) 19:14:13.58
MeCabで出てくる品詞の全種類ってどこでわかりますか?
618デフォルトの名無しさん:2012/11/03(土) 00:55:18.26
>>617
MeCab\dic\ipadic\pos-id.def
619デフォルトの名無しさん:2012/11/05(月) 00:51:22.18
>>618
助かりました!
620デフォルトの名無しさん:2012/11/15(木) 19:11:18.17
 それでも今のままでは、東大入試の数学問題には太刀打ちできない。人間は問題文を読んだら記憶を頼りにすぐに
計算に入る。だが人工知能は言語や数式のある問題文の意味がまず理解できない。数式ならば「ソルバー」と呼ぶ
プログラムを幾つも作り、対応はできる。「方程式や三角関数などはソルバーの拡張などで解ける。だが数列や確率
の問題は、意味の解析がまだ難しい」(穴井さん)
 国立情報学研の新井紀子教授は若手研究者の士気が高まると東大入試への挑戦を待ち望む。跳ね返されても、
人工知能の実力が分かり、次の課題が見つかる 。
 人工知能は同じリンゴでも形が違うと戸惑う。常識や暗黙知、意味の深い理解は人間が上回る。創造力やコミュニケ
ーション能力をもっと磨く必要がある。
http://blog.goo.ne.jp/fukuchan2010/e/e5276f5528e2615071b5c34db3d9fef5
621デフォルトの名無しさん:2012/11/22(木) 01:16:48.63
./bin/opennlp Parser ./en-parser-chunking.bin
A dog, a cat, and a rat is cute.
(TOP (S (NP (NP (DT A) (NN dog,)) (NP (DT a) (NN cat,)) (CC and) (NP (DT a) (NN rat))) (VP (VBZ is) (ADJP (JJ cute.)))))

これなんでカンマとかピリオドが単語とくっついて品詞にされてるの?
おかしくね?
OpenNLP
http://opennlp.apache.org/

他になんか良いの無い?Javaとかで叩けてタダで使えるやつで!
622デフォルトの名無しさん:2012/11/22(木) 05:46:42.38
コンマ要らないなら、取ればいいだけだろ、ばーかw
623デフォルトの名無しさん:2012/11/22(木) 15:54:57.72
Mr. とかの.もある
624デフォルトの名無しさん:2012/11/22(木) 17:25:49.70
.は普通は文末記号かその他の用法かを前処理するだろ
625デフォルトの名無しさん:2012/11/29(木) 12:34:19.22
機械学習とか形態素解析とか使わずに手っ取りはやく単語を抽出する方法ってないか?
IDFの計算をやってみたいだけで「連続するカタカナは単語である」とかその程度の規則で構わないんだけど。
626デフォルトの名無しさん:2012/11/29(木) 12:50:35.01
とりあえずn-gramでやってみれば
627デフォルトの名無しさん:2012/11/29(木) 14:15:07.74
>>625
試しにその方法で自分の書き込みを分割して使い物になるか考えたら
628デフォルトの名無しさん:2012/12/03(月) 09:53:14.17
http://blog.goo.ne.jp/fukuchan2010/e/e5276f5528e2615071b5c34db3d9fef5

>「方程式や三角関数などはソルバーの拡張などで解ける。だが数列や確率の問題は、意味の解析がまだ難しい」(穴井さん)

一般論として、現代文にしても数学にしても、必ずしも『厳密な理解』を要するわけではない。
三角関数の定理証明にしても誘導抜きでは困難で、これが出来ずとも東大に合格した人は多い。

「全然大丈夫」といういいかたは「とてもおかしい」のか。
http://weblog.simplifysimplify.net/?p=348
「定義」を問う入試問題 北海道帯広三条高等学校 吉田 亮介
http://izumi-math.jp/R_Yoshida/teigi.pdf

>人工知能は同じリンゴでも形が違うと戸惑う。常識や暗黙知、意味の深い理解は人間が上回る。

目の前に3次元の仮想物体を表示 キヤノンが「拡張現実システム」実用化
http://itpro.nikkeibp.co.jp/article/COLUMN/20120618/403346/

これは「リンゴ」をいくつか、「拡張現実システム」で登録して、「リンゴ」とは何かについて、
仮想物体としてデータ化登録するしかない。

http://www.geocities.jp/sayasiapa51jp/002.html

>水道の蛇口から水が出るのを見た兵士が金物屋で蛇口を買い、壁に取り付けて「水が出ない!」と言い、

その当時の中国人には、「水道」という概念が全く無かった。だから人間だって幼少の頃から、
「これは水道だよ」「これはリンゴだよ」と、幼少の頃から実体として触れていなければ、何のことだかわからない。

狼に育てられた少女〜狼っ子・アマラとカマラの記録〜
http://members.jcom.home.ne.jp/invader/works/works_7_j.html
629デフォルトの名無しさん:2012/12/03(月) 22:27:29.30
Fong Po Poうぜええよ
ちっとは自分で調べろよ
630デフォルトの名無しさん:2012/12/14(金) 12:42:58.55
英文の構文解析器ってフリーだと何が最強なの?
631デフォルトの名無しさん:2012/12/14(金) 18:05:29.70
NLTKだけ使えばよい
632デフォルトの名無しさん:2012/12/16(日) 09:04:33.14
それはやだあ
633デフォルトの名無しさん:2012/12/16(日) 15:24:04.00
NLTKって、どこが駄目なの?
634デフォルトの名無しさん:2012/12/16(日) 19:48:07.74
NTLKは使ったことがないけど、MATLABほどに離せないものなのか?
635デフォルトの名無しさん:2012/12/17(月) 02:32:40.75
もうMATLABなんて捨ててNumPyを使うようになってきてるから
636デフォルトの名無しさん:2012/12/18(火) 07:32:37.63
高価なMATLABが使えるからNumPyは調べてもいなかった。
Toolboxがもし充実してるなら乗り換えてもいいけど。
637デフォルトの名無しさん:2012/12/18(火) 15:15:29.51
MATLABだと実験以上のことはできないからな
ただMATLABが使いたいなら
NLTKで特徴抽出してMATLABで読めるファイルを書き出して
あとMATLABでやればいいんじゃね
638デフォルトの名無しさん:2012/12/26(水) 02:39:47.04
>>448
>それなら>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる

人肉食の可能性は現実論として完全否定はできない。

けれども以下の記述については、「絶対にありえない」と断言できる!

タナトス
<中略>
神であるだけにその力は凄まじく、ポセイドンが星矢たちに送った黄金聖衣を一瞬にして破壊するなど、
一時は星矢たちを死地に追い込んだ。また身に着けている冥衣の防御力も高く、完全に凍結させるには
絶対零度の数百倍の凍気が必要だと彼自身が公言している。
http://ja.wikipedia.org/wiki/%E5%86%A5%E9%97%98%E5%A3%AB

   絶対零度の数百倍の凍気が必要だ
   絶対零度の数百倍の凍気が必要だ
   絶対零度の数百倍の凍気が必要だ
639デフォルトの名無しさん:2012/12/26(水) 05:55:47.85
PGをクビになった感がする人の怨念みたいなコピペで見たけれど、matlabってcのコード吐くはず。
640デフォルトの名無しさん:2013/01/11(金) 16:39:58.27
kenlmの人って顔長いよね
641デフォルトの名無しさん:2013/01/15(火) 19:50:30.43
自由研究したので、成果物を貼っておく
http://bluecrow.hatenablog.com/entry/2013/01/15/193708
642デフォルトの名無しさん:2013/01/18(金) 03:08:25.40
俺が出た糞大学のアホ教授には真似のできない出来栄えw
643デフォルトの名無しさん:2013/01/18(金) 07:28:47.02
お前がアホというのは分かった
644デフォルトの名無しさん:2013/01/19(土) 22:05:35.28
CS学科の教授たちって、大学が潰れたら何処で働くんだろう
645デフォルトの名無しさん:2013/01/19(土) 22:19:19.18
BPやDP、gnuplotの使い方みたいな論文が転がってる時点で進学すべきでなかった
けどさ、けどさ、皆、自然言語処理なんて専攻を選らんでおいて、
それらしい就職先が見つからなかったら、すごく時間の無駄だよね
3ヵ月ほどインターンに参加して、ほんのちょっと何か実験しただけで大手ITに就職して、
プログラミングなんて作業とはお別れしたヤツが勝ち組なんだってスグに判るよ
どーせ、人事なんて何をドレだけ努力したかなんて面接でしか判断できないんだからw
自己PRだけウマくやれば良いんだよ。
646デフォルトの名無しさん:2013/01/22(火) 19:28:21.82
や自糞
647デフォルトの名無しさん:2013/01/23(水) 02:24:54.05
>>577
>前後の文脈を調べて述語と項の関係を高い精度で同定することができます。

かわいがる
特定の対象に対して愛着を感じ、大切に扱うこと。
上記の意味より転じて、特定の対象に対するいじめや虐待を表す隠語、反語的表現。
上記の意味が加味された相撲界独特の用語。本項で扱う。
http://ja.wikipedia.org/wiki/%E3%81%8B%E3%82%8F%E3%81%84%E3%81%8C%E3%82%8B
648デフォルトの名無しさん:2013/01/23(水) 03:44:41.00
アーロン・シュワルツの自殺に面して、自分が書いた屑論文を
オープンに出来る教授がドレだけ居るかって本当に興味深いよ
649デフォルトの名無しさん:2013/01/24(木) 02:27:05.12
「実世界の状況を画像を介して理解し、物理的な法則に従って変化する事象を物理シミュレーションによってモデル化し、
将来を予測する技術の研究が必要となっている」
http://www.jnlp.org/anh/nlp2012/wu-limoderu-li-jieto-zi-ran-yan-yu-chu-lino-zong-heniyoru-li-ke-wen-tino-hui-da

設置シミュレーションで現実物体との衝突を検知現状のARによる設置シミュレーションでは目視で設置の可否を判定することになる。
そこで周囲の現実物体を認識して,仮想空間に仮想物体として表示すれば仮想物体同士の衝突は判定できるため
http://www.konicaminolta.jp/about/research/technology_report/2013/pdf/10_higashi.pdf

.指示者は図 1 の実空間側環境下で行動し,操作者に対し家具を配置 する指示を出してもらう.操作者は指示者の様子を
仮想空間と 実空間の映像の両方から観察し,指示者の言語指示と非言語指 示から仮想空間に家具を配置する操作を行う.
https://kaigi.org/jsai/webprogram/2012/pdf/644.pdf

RDFでは、リンクの起点リソースを主語、終点リソースを目的語、リンクの種類を 述語と呼ぶ。述語に用いられる URI のことを「語彙」とも呼ぶ。
http://ds22n.cc.yamaguchi-u.ac.jp/~abesha/SEL/pub/2012/Takahashi-2012b.pdf

RDFで記述 ? 主語・述語・目的語 ? 「3つ組」(トリプル) ? 目的語が次の3つ組の主語に ? 連結させて情報量を増やす ? 知識のネットワーク
http://must.c.u-tokyo.ac.jp/sigam/sigam02/121116-jsai-ohmukai.pdf

?RDF(Resource Description Framework) ? Web上のリソースを記述するための基本的なモデル ? 三つ組(トリプル)
:主語,述語,目的語 ? 主語の属性・プロパティを述語で,その値を?的語で記述
http://www.kde.cs.tsukuba.ac.jp/~inohiro/cs_seminar/materials/2012/slide.pdf
650デフォルトの名無しさん:2013/01/24(木) 02:28:34.07
本研究では,物語テキストからアニメーション を自動生成するシステムを構築することを通して人間が物語テキストから状況
モデルを構築する過程について検討した.そして構築したシステムによりメンタルシミュレーションを行った
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf

近年の計算機の進歩により、計算機の中の仮想的な環境(ここでは仮想物理世界と呼ぶ)で機械的なハードウェアを動作
させるタイプの研究が行われている。仮想物理世界を作り出すためには、重力や摩擦力などの物理的な法則をシミュレーションする必要があり、
http://kaigi.org/jsai/webprogram/2012/pdf/31.pdf
651デフォルトの名無しさん:2013/01/31(木) 18:00:31.28
2.4 考察
実空間にいるユーザが仮想物体の操作指示に対して用いる言語・非言語情報を観察するという目的のため,言語指示のみで
は意図を伝え難くなるよう家具配置を設定した.しかしいずれの参加者についても言語情報による指示が多くを占め,指差し
以外の非言語行動の頻度は参加者により大きく差が見られた.参加者にはできるだけ参考図通りになるよう家具を配置す
ることを念頭に置いて指示を出してもらったが,実験後の配置の状態は人により様々であった.指示の内容が細かくなってく
ると,言語・非言語情報のいずれを用いても意図を伝え難くなり,操作者としてもその解釈が難しくなるため,ある程度似て
いると思われる配置で妥協するという様子がよく見られた.そのため,微調整のためには指示者,操作者間の通話を介さず,
指示者が直接家具を操作できるようなシステムが必要と感じられた.
https://kaigi.org/jsai/webprogram/2012/pdf/644.pdf

1. 研究概要
認知科学の分野において,人間の理解過程は現在でも大きな研究テーマである.近年でも言語,特
に物語文の理解過程に関する研究が盛んである. Kintsch ら[1]や Zwaan ら[2]によると,人間は物
語を読む際,まず記述されている状況についての言語的な手掛かりを抽出する.そして,これらの情
報と過去の知識や経験を頭の中で結びつけて活性化させ,状況モデルと呼ばれる心的小世界(イメー
ジ)を作ることで物語文に記述された内容を理解しているとされる.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf

「 0(ゼロ)」という概念は、6世紀ごろ、古代インド人によって生み出されたと伝えられている。
古の人々は存在の無いものを「 0」として存在させることで、
世の中の仕組みをよりわかりやすいものにした。
もちろん、それ以前に「 0」がなかったわけではない。
あまりに当然のことであったため、見過ごされていただけなのである。
http://www.aichi-pu.ac.jp/campus_guide/joho2013.pdf
652デフォルトの名無しさん:2013/01/31(木) 18:16:08.79
セマンティックウェブとRDF
?セマンティックウェブ
? Web上のリソースにメタデータを付け,コンピュータが
?間と同じように意味を理解できるようにする試み
? リソース:?書,画像,…
?RDF(Resource Description Framework)
? Web上のリソースを記述するための基本的なモデル
? 三つ組(トリプル):主語,述語,?的語
? 主語の属性・プロパティを述語で,その値を?的語で記述
? グラフ構造を構成する
http://www.kde.cs.tsukuba.ac.jp/~inohiro/cs_seminar/materials/2012/slide.pdf

3.4 学術情報のリンク
電子ジャーナルの大きなメリットは、リンクによって参照論文を入手しやすいことにある。さらに、リンクに「意味」を与えることで、
論文がどのような参照関係にあるのかを示すことができる。その一例として、ここでは XHTML+RDFaを考えてみたい。
まず、RDF とは「主語」「述語」「目的語」という三つ組によってリンクを意味付けする規格である。ここで使われる各用語は
言語学的な意味ではない。RDFでは、リンクの起点リソースを主語、終点リソースを目的語、リンクの種類を述語と呼ぶ。
述語に用いられる URI のことを「語彙」とも呼ぶ。
この三つ組を基本として、様々な「述語関係」を構築したものを RDF グラフと呼ぶ。目的語は、別の三つ組では主語として機能しうる。
さて、RDFa とは XHTML にいくつかの属性を追加し、XHTML データから直接 RDF グラフを抽出するための規格である14。
RDFa で用いられる属性を表 1に列挙しておくが、これらを RDF トリプルを構成するように XHTML データに埋め込んでいく。
http://ds22n.cc.yamaguchi-u.ac.jp/~abesha/SEL/pub/2012/Takahashi-2012b.pdf

4. 1 現実世界と仮想世界の相互作用
仮想物体に触る,または仮想物体が現実世界に影響を及ぼすなど現実世界と仮想世界の間で物理法則を合わせ
る試みは各地で研究が進められている。
現実世界と仮想世界の相互作用を複合機(MFP)に応用する例として次のようなことを検討している。
http://www.konicaminolta.jp/about/research/technology_report/2013/pdf/10_higashi.pdf
653デフォルトの名無しさん:2013/01/31(木) 18:28:08.73
仮想空間での協調作業において、仮想物体を扱うには実体と概念の両方を同時に操作する必要
がある。二種類の操作を同時に行うインターフェースは多くの場合独特の入力デバイスを用いる必
要があるが、本研究では言語・非言語情報を統合することで簡易に統一的に解決するインター
フェースを提案する。実際に仮想物体について位置や移動、サイズなどを操作するシステムを実装
し、統一的に解決できることを確認した。
http://ict-nw.i.kyoto-u.ac.jp/ict-innovation/2013/panel/pdf/panel-010.pdf

(5A) [飲酒運転による死亡事故]の増加
(5B) 飲酒運転による[死亡事故の増加]
(5A)では「飲酒運転による」は「死亡事故」にかかっているのに対し,(5B)では「飲酒運転による」は
「死亡事故の増加」あるいは「増加」にかかっている.この構文解釈の違いは意味解釈においても大き
な違いを生む.たとえば(5A)と(5B)とでは「による」により表されている因果関係が異なる.(5B)は
飲酒運転と死亡事故増加の間の因果関係を表している.一方(5A)は,飲酒運転と死亡事故の因果関係は
表しているが,死亡事故(全体)の増加との因果関係は必ずしも表してはいない.たとえば,居眠り運
転など他の要因による死亡事故が減?しているために,死亡事故全体の数はむしろ減?しているという
可能性も否定はできない.
http://plata.ar.media.kyoto-u.ac.jp/mori/research/Proceedings/NLP2012/pdf_dir/C4-7.pdf

我々の係り受け解析のもう 1 つの特徴は、単位を文節ではなく、単語とすることである。日本語において
は、文節を単位とする係り受け解析が一般的である。しかしながら、単語を単位とすることが他の主要言語
では主流である。また、単語を単位とすることで、複合語内の構造や統語的複合動詞の各動詞の格要素な
ど、文節単位の係り受けでは表せない情報を表すことができるという利点がある。また、機械翻訳や情報抽
出などのタスクでは、単位として単語が適している場合が多く、単語単位の日本語係り受け解析器の需要がある。
http://www.phontron.com/paper/flannery12nlp.pdf
654デフォルトの名無しさん:2013/02/03(日) 17:47:56.61
text miningには優れた書籍やツールがあり、集めたcorpusに対して形態素解析をかけたり、TF-IDFにかけたりすることはできますが、そもそもcorpus収集が分かりません。
私は金融のnews miningがやりたいので、自動的にnews記事を集めて、銘柄ごとtime stampごとに分けて、分析にかけたいのです。
news記事収集softは今のnewsを集めるだけで、reuters等のarchiveから記事を引っ張れません。
自分でcrawlerを作ろうと思いましたが、本が皆無で難しく頓挫しました。役に立つtoolや日曜programmerでも読める本があれば教えていただけないでしょうか。
655デフォルトの名無しさん:2013/02/03(日) 22:12:11.21
crawler なんか web 上にいくらでも情報転がってると思うんだが。
古い本だけど Spidering hacks は crawler 本だね。Perl だけど。
656デフォルトの名無しさん:2013/02/05(火) 03:22:57.37
HTTP/1.1とHTMLとXPathについて学べば分かる
657デフォルトの名無しさん:2013/02/26(火) 15:32:32.13
4. まとめと今後の課題
Web 文書やブログ文書,チャット(対話)ログなどをテキス
ト解析し,様々な知識を抽出または発見する研究が盛んに行わ
れている.しかしながら,Web テキストに限らず,近年のテキ
スト文書中には既存の形態素解析器にとって未知である語の割
合が非常に増えて来ており,未知語に対しては既存の形態素解
析器を用いた品詞推定が必ずしも正確ではないため,有益な知
識の元を逃してしまっている.この問題に対して我々は,既存
の形態素解析器のラッパーとして,形態素解析器が有する辞書
に未登録である未知語に対しても,その未知語を含んだ入力文
の品詞列パターンを適度に条件強化・緩和することで用例コー
パスから類似用例を検索し,その結果を用いて未知語の品詞を
推定する手法を提案した.品詞の分類法,未知語に隣接する品
詞列の形態素数が未知語品詞推定に与える効果(精度および実
行速度)を検証した結果,形態素解析器「MeCab」の未知語品
詞推定手法の平均精度を約 14%改善し,かつ,これまでの我々
の手法[14] よりも約 1000 倍高速化して実用的な計算時間(入
力文 1 件当たりの平均処理時間約 10 ミリ秒)を実現できてい
る.平均では形態素解析器「MeCab」の精度をわずかに上回っ
た程度であり,計算時間が大きく掛かってしまうため,依然と
して未だ不十分であると考えるが,名詞以外にも動詞や感動詞,
助詞,助動詞の未知語も精度良く取得することができること,
また,抽出したい品詞の種類に合わせてパラメータを最適化す
ることも可能であることの 2 点において優れている.
http://db-event.jpn.org/deim2012/proceedings/final-pdf/e5-1.pdf
658デフォルトの名無しさん:2013/02/26(火) 16:09:29.06
この問題は特別な読解能力を必要としているのではなく、英語で書かれた文章を正しく理解できているかどうか
が求められています。ここで「正しく理解できている」というのは、日本語と同じように理解できているということですが、
その中には「一般社会での常識を知っている」ことが含まれています。人間であればだれでも分かることを前提として、
ちゃんと理解できているかどうかを試験しているわけですが、コンピュータにとっては「人間であればだれでも
分かること」が分からないため、そこが逆に難しい問題になってしまいます。
今までの分析では、英語の問題はこのように人間の常識に依拠する部分が多く、効果的な解答方法はまだ
見つかっていません。常識の問題は、今までの人工知能研究でも非常に難しいことが知られており、
現在の多くの研究ではいかにこの問題を避けるかが一つのポイントともなっています。このプロジェクトでは、
試験で出題される限られた範囲の中で、上記のような理解のしくみを考えていきます。今後、意味理解や
常識がどのようなメカニズムで運用され、試験問題に解答しているのか、さらに分析を進めていきます。
http://21robot.org/%E8%8B%B1%E8%AA%9E/
659デフォルトの名無しさん:2013/02/26(火) 16:54:54.64
「心臓シミュレータ」の発想は秀逸。

http://www.ssken.gr.jp/MAINSITE/download/newsletter/2012/20121024-sci-2/sectionmeeting_report/index.html

>サルコメア力学から心筋細胞構造を経て心拍動にいたるマルチスケール解析について

コンピュータというのはどんなに処理速度を向上させようとも、所詮は「0と1(ONとOFF)の演算」であり、
従って入試問題を解答するだとかの自然言語処理技術や画像認識技術を発展させるにあたっては、
現実物体を仮想物体に置き換える「シミュレーション化」が不可欠になってくる。

http://d.hatena.ne.jp/k-takahashi/20120911/1347375552

>ローラーコースターという問題文によって人間は「ABCD」を想定する

「ローラーコースター」の物理学的性質とか動作状況とかが、コンピュータには理解されていない。
向心力とか遠心力とか慣性力とか摩擦力とかが、どこでどう作用しているのかも理解されていない。
ABCDの順番どころか、Aでは何がBでは何がCでは何がDでは何がどういう物理現象が生じているかも不明。
それから「エレベーター」とか「電車」とか「滑車」とか「発電機」とか定番モノはあらかじめ、
これはこういうものでえこういう性質で動作するのだという「モデル化」をしておくのも一法。
あと高校物理では、「単原子分子理想気体」など、「入試問題としてしか通じない概念」もある。

http://21robot.org/%E8%8B%B1%E8%AA%9E/

>コンピュータにとっては「人間であればだれでも分かること」が分からないため、

コンピュータは「0と1(ONとOFF)の演算」の処理能力は優れてはいるものの、
「現実社会の一般的状況」を全く知らない。「レストラン」にしても単に辞書登録されているだけで、
「現実社会の一般的状況」としてどういうものなのかについて具体的イメージが形成されているわけではない。
それはアメリカ人の多くが「従軍慰安婦」=「旧日本軍性奴隷」と、史実と異なった認識をしているのと似ている。
660デフォルトの名無しさん:2013/02/28(木) 11:39:30.86
1. 研究概要
 認知科学の分野において,人間の理解過程は現在でも大きな研究テーマである.
近年でも言語,特に物語文の理解過程に関する研究が盛んである.
Kintsch ら[1]や Zwaan ら[2]によると,人間は物語を読む際,まず記述され
ている状況についての言語的な手掛かりを抽出する.そして,これらの情
報と過去の知識や経験を頭の中で結びつけて活性化させ,状況モデルと呼ばれる
心的小世界(イメージ)を作ることで物語文に記述された内容を理解しているとされる.
 また Zacks らの EST(event Segmentation theory) [3]によれば,人間は状況
モデル構築の過程で, 物語内で起きる特徴的な次元の変化によって,
物語の分割を行っているとされる.例えば,時間/空間の次元に関連した変化による
セグメンテーション,その下での人物の次元に関わる変化によるセグメンテーション
というように,いくつかの階層でセグメントを行い,それぞれを意味の単位と
してまとめ,文の内容の統合,理解をしているとされる.
 これら状況モデルや EST の理論を用いることで,状況モデルの構造や言語的な
手掛かりを決定することが出来る.しかし,これらの情報から視覚的イメージを
生成するためには,心的小世界の範囲や視野,それらを定義する視点の情報を補完す
るための知識が必要であると考えられる.
 これに関し,Zwaan ら[4]は,状況モデルを構築する際の視点の存在についても
言及している. 人間は心的小世界の中に視点を置き,あたかもその状況の中に自分自身
が没入しているような,経験的なシミュレーションを行うとされる.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf
661デフォルトの名無しさん:2013/02/28(木) 11:54:16.88
>アメリカ人の多くが「従軍慰安婦」=「旧日本軍性奴隷」と、史実と異なった認識をしている

70年も前の時代の状況を、言葉だけで説明しようとしても、説得力は今ひとつだ。
米国のエリート外交官がいかに頭脳明晰でも、70年も前の時代の状況を把握することはできない。
「売春婦だ」と反論しても、旧日本軍はイランや北朝鮮と同じ「悪の枢軸」と一方的に決めつけられて、
従軍慰安婦問題は旧日本軍が売春という口実で婦女子を強制連行して性奴隷にしたとしか理解されない。
662デフォルトの名無しさん:2013/02/28(木) 13:36:35.34
 僕の身内にもロボットの研究開発に携わった人がいるのだけれど、やはり人間がいかに精巧にできているのか、
ということを言っていた。その身内が言うには、人間は数百万年かけて進化してきたのであり、自分が数十年研究
したところで追いつけるわけもない、と。
 そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109
663デフォルトの名無しさん:2013/02/28(木) 13:44:58.15
>>661
>「売春婦だ」と反論しても、旧日本軍はイランや北朝鮮と同じ「悪の枢軸」と一方的に決めつけられて、
>従軍慰安婦問題は旧日本軍が売春という口実で婦女子を強制連行して性奴隷にしたとしか理解されない。

 (4) (前略)そして、これに加えるに、そのころまでには、ドイツ連邦共和国、アメリカ合衆国、カナダにおいて、第二次世界大戦中
の各国家の行為によって犠牲を被った外国人に対する謝罪と救済のための立法等がなされた事実もまた明らかになっており
(別紙一及び二のとおり、当事者間に争いがない。)、これら先進諸国の動向とともに従軍慰安婦制度がいわゆるナチスの蛮行
にも準ずべき重大な人権侵害であって、これにより慰安婦とされた多くの女性の被った損害を放置することもまた新たに重大な
人権侵害を引き起こすことをも考慮すれば、遅くとも右内閣官房長官談話が出された平成五年(一九九三年)八月四日以降の早い段階で、
先の作為義務は、慰安婦原告らの被った損害を回復するための特別の賠償立法をなすべき日本国憲法上の義務に転化し、
その旨明確に国会に対する立法課題を提起したというべきである。そして、右の談話から遅くとも三年を経過した平成八年八月末には、
右立法をなすべき合理的期間を経過したといえるから、当該立法不作為が国家賠償法上も違法となったと認められる。
http://d.hatena.ne.jp/asobitarian/20120913/1347530601
664デフォルトの名無しさん:2013/03/04(月) 19:56:38.41
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。  
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html

>25万2千語を収録

ではその25万2千語全ての単語について、百万冊の書籍をスパコン「京」で形態素解析し、
さらにコンピュータの「誤読」と「理解不能表現」を分析抽出し、これらを「人力で修正」し、
「属性フレーム」と「意味ネットワーク」と「RDFトリプル」を作成というわけにはいきませんか。
コンピュータには何が理解できて何が理解できないのかも、ここではっきりさせられませんか。

 そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109

あるいは現在の技術では、未だにコンピュータの「誤読」と「理解不能表現」が多すぎて無理なのですか。
けれどもそれなら2チャンネラー百万人を動員して、人力でオントロジー作成という手もあると思われますが。
665デフォルトの名無しさん:2013/03/10(日) 02:51:38.02
>>私は金融のnews miningがやりたいので、自動的にnews記事を集めて、銘柄ごとtime stampごとに分けて、分析にかけたいのです。
>>news記事収集softは今のnewsを集めるだけで、reuters等のarchiveから記事を引っ張れません。
>>自分でcrawlerを作ろうと思いましたが、本が皆無で難しく頓挫しました。役に立つtoolや日曜programmerでも読める本があれば教えていただけないでしょうか。
じゃ、これ使えよ
ロイターの日本語版をデータベースのアクセスにDLしてくれる
http://kie.nu/RI4

使い方はVBのダウンロードしてF5で実行
コマンドラインに
開始年 開始月 終了年 終了月 パス名
コードもあるので自分で改良してくれ
666デフォルトの名無しさん:2013/03/10(日) 03:01:44.06
これが
ロイターのDB
http://kie.nu/RIe
667デフォルトの名無しさん:2013/03/10(日) 12:52:41.49
ナイーブペイズについて教えてください
今、文書d1、d2、d3がありワードw1、w2、w3、w4、w5、w6、w7があります
以下の回数が文書に現れます
D= w1 w2 w3 w4 w5 w6 w7
d1 1 2 1 0 1 0 0
  d2 0 2 0 0 1 1 1
  d3  1 0 1 1 0 2 0
668デフォルトの名無しさん:2013/03/10(日) 12:55:34.37
(続き)
このうちd1,d2は広告でd3は普通とわかっています(事前確率)
k=0を広告k=1を普通として
p(k=0)=2/3 p(k=1)=1/3 p (w|k=0)=[0.1 0.4 0.1 0 0.2 0.1 0.1]
p (w|k=1)=[0.2 0 0.2 0.2 0 0.4 0]
しかしp(d1|k=0)=2/3(1/10×4/10×4/10×1/10×2/10)
が全くわからません低能な私を助けてだれか解説してくれませんか?
669デフォルトの名無しさん:2013/03/29(金) 20:10:26.35
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。  
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html

>25万2千語を収録

では、252000?252000=63504000000(635億4百万)通りの「概念間の2項関係の集合」について、
大学教授と東大生と京大生(院生含む)合わせて60万人を動員して、「意味ネットワーク」を作成するというわけにはいきませんか?

意味ネットワークとは本質的には概念間の2項関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
http://www.nm.cs.uec.ac.jp/assets/files/JinkouChinouRon/ai02.pdf

一人あたり一日100通り、60万人なら一日あたり6000万通り、このベースなら千日くらいで可能と思われますが、
もしかしてこれってただのギャグですか?
670デフォルトの名無しさん:2013/04/09(火) 11:56:03.18
代表的な関係である is-a(一般-特殊)関係は,例えば「人間 is-a 哺乳類」や「犬 is-a 哺乳類」の
ように記述することで,「人間」や「犬」に共通する性質を持つ一般化された概念が「哺乳類」であるこ
とを表す.ここで「哺乳類」のように一般化された概念を上位概念,「人間」や「犬」のようにより特殊
な性質をもつ概念を下位概念と呼ぶ.is-a 関係に基づいて概念群を階層化したものを is-a 階層と呼び,
対象世界に現れる概念の最も基本的な体系を表すオントロジーの最も基本的な構成要素となる.
http://sigswo.org/papers/SIG-SWO-A1202/SIG-SWO-A1202-04.pdf

http://www.geocities.jp/sayasiapa51jp/002.html

>水道の蛇口から水が出るのを見た兵士が金物屋で蛇口を買い、壁に取り付けて「水が出ない!」と言い、

その当時の中国人には、「水道」という概念が全く無かった。だから人間だって幼少の頃から、
「これは水道だよ」「これはリンゴだよ」と、幼少の頃から実体として触れていなければ、何のことだかわからない。

狼に育てられた少女〜狼っ子・アマラとカマラの記録〜
http://members.jcom.home.ne.jp/invader/works/works_7_j.html
671デフォルトの名無しさん:2013/04/09(火) 12:08:09.08
いくらコンピュータの計算能力を上げても、自然言語処理については、
形態素解析されたその一つ一つについて、「意味ネットワーク」と、
「is-a(一般-特殊)関係」と「RDF」が用意されていなければどうにもならない。
それはいくら中国人を沢山集めても、また中国人がどれだけ大勢でがなり立てても、
彼らの脳裏に「水道」の概念が理解されていないのではどうにもならないのと同じに思える。
672デフォルトの名無しさん:2013/04/09(火) 13:34:24.12
RDF信者でウヨとか、この特定日本人、ほとんど特定可能だろw
673デフォルトの名無しさん:2013/04/20(土) 17:33:04.55
>>659
>従って入試問題を解答するだとかの自然言語処理技術や画像認識技術を発展させるにあたっては、
>現実物体を仮想物体に置き換える「シミュレーション化」が不可欠になってくる。

3 シミュレーションを用いた物理問題解答
 大学入学試験における物理の問題は多くの場合,ある特定の状況において発生した物理現象に関して,
そのときの物理量を問うという形式になっている.例えば,図 1 に示す問題では,最初に状況についての記述があり,
続いてその状況に対する操作とその結果となる物理現象が記述されている.そして,問題では一連の物理現象のうち
" 物体が止まった" 時の位置が解答すべきものとして指定されている.
 一般的には,このような問題を解答する際にはその現象の背後にある物理法則を推測し,それに関する公式を
用いて計算し解を求める.このような解法に対し,我々は問題に記述されてある状況をシミュレータ上に再現し,
そこで問題と同じような操作をシミュレーションすることによって物理量を観測し,それを用いて問題を解答する
ことを目指す.このアプローチは大きく分けて以下の 3 つの要素からなる.
(1). 問題テキストからの状況理解
(2). シミュレーション
(3). シミュレーション結果を用いた問題解答
本論文での議論は (3) に関するものである.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P6-8.pdf
674片山博文MZパンク ◆0lBZNi.Q7evd :2013/04/21(日) 09:17:35.79
【映画「日本語崩壊」あらすじ】
ある日突然、日本語だけが機械に高精度でコンピュータに認識されるようになる。何者かが日本語認識プログラムをwebに公開したからだ。
たちまち全世界的に日本語の爆発的ブームが起こり、日本語会話の活用が大ビジネス活用がされるようになる。
しかしとんでもない悪用が蔓延。東京では72%の家庭にロボット盗聴機が仕掛けられ、
日本語の日常会話が闇ビジネス、ストーカー、殺戮マシン、ポルノ、成りすまし詐偽などに脅かされるようになる。
礒野家ではとんでもない事件が度々起こる。パパ、フランス語知ってるよね。僕に教えてよ。礒野家はめちゃくちゃなフランス語会話を受け入れるはめに。
675デフォルトの名無しさん:2013/04/21(日) 09:40:02.86
未来が来ることを拒むことはできない。今のうちに考えておきたいことがある。
676デフォルトの名無しさん:2013/04/24(水) 16:23:57.72
1 はじめに
歴史の試験問題などに見られる客観式問題ではしば
しば、記述された文の真偽を判定させることによって
受験者の理解度を測る。この種の真偽判定問題を機械
的に直接解こうとすると、閉世界を仮定できるだけの
網羅性をもった知識が必要となるが、出題の幅広さに
対応させることは現実的とはいえない。言い換えると、
命題が「偽」である根拠を情報源から明示的に見つけ
ることは困難である。そのためか、ファクトイド型を
中心とした質問応答が成果を挙げている一方で、大規
模な知識源を用いて真偽を判定する研究は少ない。
そこで、真偽判定問題を、定理証明のアプローチと
は異なる見方で捉えるべく、以下の例をもとに1、知識
を確認するための命題の作られ方について考えてみる。
(1) Chirac was the president of France in 2000.
(2) Chirac was the president of Germany in 2000.
(2) のような偽の命題はしばしば、(1) のような真の
命題をもとにして、一部の要素(この場合は国名)が
入れ替わることによって作られる。本稿ではこれに着
目し、命題の中に現れる語句を問うような質問文を生
成し、それを解くことによって真偽の判定を行うアプ
ローチを試みる。(1)(2) の例の場合、下線部を上位語
で置き換えることにより、文 (3) を生成する。
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/B2-3.pdf
677片山博文MZパンク ◆0lBZNi.Q7evd :2013/04/24(水) 23:24:02.89
未定義語や未定義文をどうやって解釈するかって問題があるけど、特徴分析とパーサコンビネータで何とかならないか?
678デフォルトの名無しさん:2013/04/30(火) 10:10:56.95
(1) 太郎が公園に戻ってくるとさきほど 見かけた女の子はいなくなっていた。
 たとえば上記のような文があった場合,省略された項を考慮しない解析,すなわち,
デフォルトの構文・格解析では,「見かけた」が「女の子」を連体修飾しているということ
は正しく解析できるものの,「女の子」は「見かけた」のガ格であると解析されてしまう.
しかし,文頭に出現した「太郎」も考慮に入れ,新たに「女の子」が「見かけた」のヲ格である
可能性も含めて述語項構造解析を行うことにより,「太郎」が「見かけた」のガ格であり,
「女の子」は「見かけた」のヲ格であると正しく解析することができるようになる.
http://www.lr.pi.titech.ac.jp/~sasano/paper/nlp13.pdf
679デフォルトの名無しさん:2013/04/30(火) 12:53:13.25
新井
小学校の段階から、すべての科目において、論理的に考えて表現しなければ達成できな
いような活動を意識的にすることでしょう。それはまず、それぞれの学年、成長の過程に合わ
せて、より多くの“説明活動”をさせることです。
 「大学数学基本調査」からわかっていることは、論述式の問題を解く訓練を経ているかどうかで、
大きな差が出ているということです。論述式の入試を目指して勉強した人と、それは必要ないと切り捨
て勉強した人では、勉強の仕方が根本から違ってしまって、それが能力の差につながってしまっているのです。
 また、教え方でも、例えば放物線を教える時に、x軸との交点はこうで、y軸の交点はこうで、
頂点はこうですよと説明して済ませてしまう。その数値を求めよというのが問題ということで、
その求め方を教えるだけで終わらせてしまう。では、なぜ3点なのか。それがなぜ重要なのかという
ところまで生徒はイメージが及びません。しかし、放物線は3点がわかればそれが決定される、
と頭に入れさえすれば、何か現象を観たときに全容を理解するパースペクティブを得ることができるでしょう。
微分方程式なら微分方程式といった名前がわざわざ付いているのはなぜか。それはその概念
がほかに使える重要なものだからに決まっているわけで、それを理解させれば、当たり前の勉強をしていても、
コンピュータが苦手とするような力がついていくだろうと思います。
http://www.gakuryoku.gakken.co.jp/pdf/articles/2013/6/p2-5.pdf
680デフォルトの名無しさん:2013/05/01(水) 17:13:53.52
>>671
>いくらコンピュータの計算能力を上げても、自然言語処理については、
>形態素解析されたその一つ一つについて、「意味ネットワーク」と、
>「is-a(一般-特殊)関係」と「RDF」が用意されていなければどうにもならない。

●リンゴが木から落ちるのを見て、式を思いつくように
どんな言語でも、名詞や動詞があったり、主語や述語があったりと、結構似たような構造があり
ます。すると単語がどういう順で並び、どう組み合わさって文全体の意味ができるのか、そこに何
らかの規則性があるはずなんです。そこで文法学者の理論をひもとき、いざ式に書き起こそうとす
るのですが、これまでの理論には矛盾が潜んでいることも多く、コンピュータが理解できるような
形式的な規則にまとめようとすると、実は大変な難題であることがわかります。
自然言語処理という分野では、最近はむしろ膨大なデータを利用してコンピュータで統計的に処
理し、意味を獲得する方法が広く行われています。ところがデータからすべて自動的に学習させよ
うとしても、それはまだコンピュータにはできないところなんです。自然言語もニュートン物理学
と同じように、まずは自然現象のように観察し、やっぱり自分の手で言語の規則性を明らかにして
いかなければならないと考えています。
http://www.nii.ac.jp/userimg/intro/jp/miyao.pdf
681デフォルトの名無しさん:2013/05/01(水) 17:37:51.32
>>679
> また、教え方でも、例えば放物線を教える時に、x軸との交点はこうで、y軸の交点はこうで、
>頂点はこうですよと説明して済ませてしまう。その数値を求めよというのが問題ということで、
>その求め方を教えるだけで終わらせてしまう。では、なぜ3点なのか。それがなぜ重要なのかという
>ところまで生徒はイメージが及びません。

これは「放物線」の概念や定義について、コンピュータが正確に把握していなければならない。

※ 放物線の方程式は,中学校と高校数学Iで2次関数のグラフとして習う.
    中学校3年 : y=ax2
    高校数学I : y=ax2+bx+c

■ 方程式
y2=4px …(1)
で表わされる曲線は,右図1のような放物線になる.
○ (1)を放物線の方程式の標準形という.
○ この曲線は「定点 F(p , 0) と定直線 x=?p からの距離が等しい点の軌跡」となっている.
(解説は次の項目↓)
○ 点 F(p , 0) を放物線の焦点といい,直線 x=?p を準線という.
○ 点 O(0 , 0) を放物線の頂点という.
○ (1)の放物線は x 軸に関して対称となっている. この対称軸を放物線の軸という.
すなわち,軸の方程式はy=0

放物線の方程式の標準形
http://www.geisya.or.jp/~mwm48961/kou3/quadratic_3.htm
682デフォルトの名無しさん:2013/05/01(水) 17:48:13.15
4.2.1 受動態
受動態では、正確な述語項構造解析により、汎化する
ことができる。
t: 太郎が次郎をナイフで刺した。
h: 次郎が太郎にナイフで刺された。
格関係が正しく解析できたとすると、助詞「れる」
の処理が問題となる。しかし、述語項構造解析におい
て、受動態を考慮した格を出力すると定めることで、
助詞「れる」を省略することができる。
t: 貨幣は造幣局で作られる。
h: 造幣局が貨幣を作る。
しかし上記のように、組織や場所、状況などは、ガ
格とデ格を交換しても同じ意味をさす場合があること
を考慮しなければならない。
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P3-10.pdf
683デフォルトの名無しさん:2013/05/01(水) 18:00:23.19
(5) 正しいことを確認してください。
(正解:CT+,出力:U)
(5) では,親の述語である「確認する」につけられた事実性Uを伝搬させたことにより,事象「正しい」の事実
性を U と出力している.しかし,「確認する」は先行する文脈を前提する述語であるため,「正しい」の事実性
はCT+となるべきである.これは,手がかり表現辞書に「確認する」が存在しなかったため,うまくいかなかっ
た問題である.
 今回分析した,文末以外の事象における誤り1,483事例のうち,手がかり表現辞書中のない用語が関与してい
たものが422事例あった.ところが,内容語に関する誤りはわずか9事例であったことから,内容語の曖昧性の
問題は,ほとんどないことが明らかになった.また,分析したコーパス領域中の正解事例2,207件のうち,手が
かり表現を使って正解できたものは,628 件であった.これに対し,手がかり表現が辞書に登録されていないこ
とが原因となっている誤りは,わずか38件であった.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/B2-2.pdf

(i) いくつかの単語が緊密に連結して 1 つの機能語として働くものは、1 つの助詞 (P) として扱う。
これは、最終目的である文意味解析の便宜のためである。この中には、「として」「について」「に対して/
対する」「に関して/関する」等が含まれる。このうち、「として」「について」には助詞プラス動詞テ形として
の用法もあり、構造的にあいまいなものとして取り扱う。また、通常形式名詞とされる「ため」「おかげ」「せい」
「あまり」についても、「のために」のように 1 つの機能語に相当する用例については、1 語の P とする。
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/B6-2.pdf

4. 係り受け解析が誤っている (False Negative)
 「煙草の臭いが苦手な私には 本当にありがたかったです。」では,「煙草の臭いがありがたい」という
誤った係り受けが生じた,これにより,As と Bs の差が大きくなり,「煙草の」という評価条件文節を
誤って負例と予測した.もし「臭いが」という評価条件文節の次の係り受け先が「苦手な」になってい
れば,正しく分類された.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/A4-2.pdf
684デフォルトの名無しさん:2013/05/01(水) 18:10:41.66
次に、3・1節(2)の生テキストに関してである。適応分野の生テキストは、まず実際に解析してみて、
解析精度がどの程度かを目視で推測することに用いられる。その結果、解析誤りが散見され、
大部分が単語分割ツールの未知語に起因することに気付く。この誤りの対処として、
未知語を単語分割ツールの辞書に追加する。多くの応用研究での分野適応は、この作業までである。
未知語に起因しない誤りもあるので、単語分割精度を十分に向上させるには、生テキストへの情報付与
が必須である。すなわち、文の全ての文字間またはその一部に人手で単語境界情報を付与する。
こうして得られる以下の言語資源を用いて、自動単語分割ツールのモデルを再学習する。
?フルアノテーションコーパス
例: 電-極|端-部|と|対-向|す|る
?部分的アノテーションコーパス
例: 電 極|端-部|と 対 向 す る
ここで、例の中の文字間の記号「|」と「-」と「 」は、順に、単語境界が有る、無い、有るか無いか不明を表す。
このような言語資源には文脈情報があるので、すべての部分文字列が単語となる「上端部」のような文字列
を文脈に応じて単語に分割することが可能となり、単語登録のみの場合よりも精度が高くなる?4
http://plata.ar.media.kyoto-u.ac.jp/mori/research/public/JSAI12Jul.pdf

「法令等に定めがあるとき、又は長沼町個人情報保護審査会の意見を聴いた上で」
「法令等に定めがあるとき、又は池田町個人情報保護審査会の意見を聴いた上で」
この場合は、「長沼」を「池田」に書き換えるだけなので、編集距離は2である。しかしながら、次の場合は異なる。
「法令等に定めがあるとき、又は倶知安町個人情報保護審査会の意見を聴いた上で」
この場合は、「長沼」や「池田」を「倶治安」に換えることになるので、自治体名の長さの違いから、
長沼町や池田町の条文の文面と比較すると、編集距離が3になってしまう。
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/16943/1/08_%E8%A7%92%E7%94%B0%E7%AF%A4%E6%B3%B0%E6%A7%98.pdf
685デフォルトの名無しさん:2013/05/02(木) 22:42:17.68
3・4 複数の分野適応の結果と関係
実際に単語分割の分野適応を行うと、様々な分野の部分的アノテーションコーパスが蓄積される。
すると、自動単語分割のモデルは、各分野ごとに別々とするべきなのか、適応作業の結果を全て
学習コーパスに加えた唯一のモデルでよいのかという問題が現れる。この問題に答えるために、
BCCWJのコアデータを一般分野とし、以下の分野適応をそれぞれ行い一般分野と適応分野での精
度を測った。さらに、すべての作業結果を加えたモデルの精度を測った。
http://plata.ar.media.kyoto-u.ac.jp/mori/research/public/JSAI12Jul.pdf
686デフォルトの名無しさん:2013/05/06(月) 14:15:44.30
>>673
>我々は問題に記述されてある状況をシミュレータ上に再現し,
>そこで問題と同じような操作をシミュレーションすることによって物理量を観測し,

波しぶきだってここまで再現。最新技術を駆使した流体シミュレーション映像

 最新物理演算エンジン「PhysX」を利用して、ポジションベースのリアルタイム流体シミュレーション映像が公開されていた。

http://karapaia.livedoor.biz/archives/52125461.html

http://www.youtube.com/watch?v=6WZZARzpckw
687デフォルトの名無しさん:2013/05/06(月) 14:42:29.27
>>673
>我々は問題に記述されてある状況をシミュレータ上に再現し,
>そこで問題と同じような操作をシミュレーションすることによって物理量を観測し,

文章題を解くための計算方法とその意味を,連動したアニメーションを使って解説します。
定規をつかって図をかいたり,つくった図を動かしたりできます。
http://www.tokyo-shoseki.co.jp/soft/pdf/math.pdf

(1)学習理解のための基本的な支援
ことばだけでなく、視覚的手がかりを活用する(絵、写真、図、文字、動画など)
・算数(数学)の文章問題を、具体物、半具体物、絵、図などで示す。
・具体物を使ってシュミレーションする。
http://www.ed.niigata-u.ac.jp/~nagasawa/UDLjissen(1).pdf

物理・数学の2D,3Dシミュレーション †
http://www.yoshino-tech.com/index.php?%BF%F4%B3%D8%A1%A6%CA%AA%CD%FD%A4%CE%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF%A5%B7%A5%DF%A5%E5%A5%EC%A1%BC%A5%B7%A5%E7%A5%F3


以前、ハーバード大学の学生に、東大の数学と理科の入試問題を見てもらったことがある。その学生は
「全米の学力テストのSATは、難易度も低く、マークシートなので満点が取れる。しかしながら東大の入試問題は、
難易度も非常に高く、答案に記述していかないといけないので満点は取りにくい。もしかすると世界で最も
難しい大学入試の問題かもしれない」と言っていたのが印象的だった。
http://toyokeizai.net/articles/-/12143?page=5
688デフォルトの名無しさん:2013/05/06(月) 14:56:33.56
>具体物を使ってシュミレーションする

モデリングの過程では 問題を解くために必要な事項のみに注目し,他の情報は捨てる
? 体長 体重 羽の色 甲羅の模様などは無視
? 「足の合計本数」と「全部で何匹か」のみに注目
? 「足の合計本数」と「頭の合計数」に注目してもよい
? 問題の見方を変えた方が良い場合もある
? そんなの数える暇があったら,最初から鶴と亀を別々に数えた方が簡単だろう!
http://www.is.titech.ac.jp/~etsuya/lecture/cs/2007/02.pdf

>体長 体重 羽の色 甲羅の模様

このへんはランダムかつ最も標準的なモデルを採用したらいい。

新入荷!! 2013/04/30
■オオアタマガメ
■ラオスモエギハコガメ
■ベトナムモエギハコガメ
■クロハラモエギハコガメ(Pr)
■ムオヒラセガメ
■オプストヒラセガメ
■ニシキマゲクビガメ
■インドシナスッポン”アルビノ”
■マレーニシクイガメ
http://www.dizzypoint.co.jp/
689デフォルトの名無しさん:2013/05/07(火) 12:21:14.75
>>548
>自然言語処理でいくつもの書き換え文を自動作成できれば進歩が大きい。

テキスト理解(解析)の特徴(1)
? 1つの入力文に対して,複数の解釈(構文構造,意味構造)がありうる(曖昧性)
例:「昨日図書館で借りた分厚い本を読んだ.」
? 可能な解釈を順次作り出すこと
? それらの間に優先順位を付けること
が重要
? 参考: テキスト生成でも,1つの意味構造(言い表したい内容)に対して複数の文が生成可能
⇒ すなわち,文と意味構造は多対多対応の関係
http://www.sic.shibaura-it.ac.jp/~sugimoto/nlp/nlp13-3.pdf
690デフォルトの名無しさん:2013/05/13(月) 23:54:29.67
>>548
>それから一見するとよく似ている文章でも、全く違う内容という場合もある。
>「人間は顔じゃねえよ」は、人間の価値は顔で決まるわけではない、と解釈できる。
>けれども「人間の顔じゃねえよ」と「人間は顔じゃねえよ」は、全く違う。

係り受け解析や固有名抽出の技術がある程度成熟した現在、述語項構造解析や 照応省略解析,
種々の意味関係の抽出といった高次の解析技術を実用レベル に押し上げる研究の素地が整ってきた。
機械学習技術と言語学的知見を 組み合わせることによって頑健な項構造・照応解析を実現する
研究を進めている。 また、これらの研究を推進するために語彙概念構造に基づく動詞意味辞書の
開発および照応タグ付きデータや項構造の用例データの構築を行っている。
http://cl.naist.jp/index.php?%BC%E7%A4%CA%B8%A6%B5%E6%C6%E2%CD%C6
691デフォルトの名無しさん:2013/05/14(火) 16:14:00.02
2021年までに「人工知能」が東大の入試を突破する可能性があります。
東京大学の安田講堂(東京・本郷キャンパスで)
東京大学の赤門(東京・本郷キャンパスで)
 国立情報学研究所(東京都千代田区)が、「ロボットが東大に入れるか」というプロジェクトを進めています。
チェス、クイズ、将棋、そして…
 といっても、ホンダのアシモのような人間の姿をしたロボットが、鉛筆を持って筆記試験を受けるわけではありません。
研究所が開発しているのは、ロボットの頭脳部分にあたる「人工知能」、つまりコンピューターのソフトウエアです。
東大の試験問題を入力すると、高い確率で正解を出すソフトをつくろうとしているのです。
 IBMの人工知能が、チェスの世界王者に続き、米国のクイズ王も負かしました。日本の将棋ソフトの実力は、
プロ棋士に勝つレベルまで上がっています。次は、難関の東大合格を目指そうというわけです。
http://www.yomiuri.co.jp/job/biz/qaetc/20130507-OYT8T00687.htm
692デフォルトの名無しさん:2013/05/20(月) 12:53:37.30
プロ棋士をコテコテに負かす人工知能技術でも東大入試は突破できない つまり東大生>プロ棋士
http://poverty.ikioi-list.com/2013-05-17/1368706187/
【IT】2021年までに「人工知能」が東大入試を突破する可能性 国立情報学研究所が進める「ロボットが東大に入れるか」というプロジェクト
http://anago.2ch.net/test/read.cgi/scienceplus/1368704153/
693デフォルトの名無しさん:2013/05/20(月) 13:14:20.21
>>684
>この場合は、「長沼」や「池田」を「倶治安」に換えることになるので、自治体名の長さの違いから、
>長沼町や池田町の条文の文面と比較すると、編集距離が3になってしまう。

「人間は顔じゃねえよ」は、人間の価値は顔で決まるわけではない、と解釈できる。
けれども「人間の顔じゃねえよ」と「人間は顔じゃねえよ」は、全く違う意味になる。

人間の顔じゃねえよ
広が獲君を慰めようとした言葉。しかし、本当は「人間は顔じゃねえよ」であるため、
彼はますます落ち込んでしまう…。しかも、広は克也に殴られるまで、全然間違いだ
と思ってなかった。正直、爆笑必至ネタで、ベスト3に入る迷言であろう。
http://www.geocities.co.jp/SilkRoad-Forest/6130/nube/advanced/meigenanother.htm

なお、「象の鼻は長い」と「象は鼻が長い」は、全く同じ意味。
694デフォルトの名無しさん:2013/05/20(月) 13:20:36.60
>>690
>係り受け解析や固有名抽出の技術がある程度成熟した現在、述語項構造解析や 照応省略解析,
>種々の意味関係の抽出といった高次の解析技術を実用レベルに

固有表現抽出も最大エントロピー法が成功した応用例である 。 固有表現抽出とは人名や会社名
などの固有表現をテキストから抽出することであり、情報抽出の前処理として必要な処理である。
固有表現抽出も分類問題に変換できる。例えば、人名を抽出するには、入力文の各単語に以下の
5種類のク ラ スを割り当てればよい。
OP-CL : その単語自身が人名
OP-CN : 人名が複合語でその最初の単語
CN-CN : 人名が複合語でその中間の単語
CN-CL : 人名が複合語でその最後の単語
none : その単語は固有表現と は無関係
http://nlp.dse.ibaraki.ac.jp/~shinnou/papers/aamt_exp.pdf
695片山博文MZパンク ◆0lBZNi.Q7evd :2013/05/21(火) 18:34:23.95
久しぶりに小学生の国語辞典を眺めてたら、ほとんどが言葉の言い換えだった
696デフォルトの名無しさん:2013/05/22(水) 14:28:47.09
>>673
>シミュレーションを用いた物理問題解答

3.1.1. 状況モデルとは
本研究では,物語テキストから言語的手がかりを抽出する過程のモデルとして,状況モデルとい
う考え方を導入する.状況モデルとは,人間が物語理解の際に頭の中で構成する心的小世界,
すなわちイメージとその構成過程のモデルである.Zwaan[2]らによると,状況モデルを構築するた
めには 5 つの重要な状況的次元,時間(time),空間(space),主人公(protagonist),意図(motivation),
原因及び因果(causation)があり,読者が物語を読む際には,これらの要素に注目しているとされる.
本研究では,Zwaan の主張する状況モデルを構成する要素のうち,主人公を登場人物とし,そして
新たに状況に登場する物あるいは対象(object)を人物と分ける.また文脈解析の困難さから意図を除き,
主人公の目標に沿って物語が進むという仮定から,意図を潜在的に含むと考えられる行為/状態の
次元を加え,時間,空間,人物,物及び行為/状態の 5 つの次元を,状況モデルを構築する要素とした.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf
697デフォルトの名無しさん:2013/05/22(水) 14:42:58.75
3.1.1. 状況モデルとは
本研究では,物語テキストから言語的手がかりを抽出する過程のモデルとして,状況モデルとい
う考え方を導入する.状況モデルとは,人間が物語理解の際に頭の中で構成する心的小世界,
すなわちイメージとその構成過程のモデルである.Zwaan[2]らによると,状況モデルを構築するた
めには 5 つの重要な状況的次元,時間(time),空間(space),主人公(protagonist),意図(motivation),
原因及び因果(causation)があり,読者が物語を読む際には,これらの要素に注目しているとされる.
本研究では,Zwaan の主張する状況モデルを構成する要素のうち,主人公を登場人物とし,そして
新たに状況に登場する物あるいは対象(object)を人物と分ける.また文脈解析の困難さから意図を除き,
主人公の目標に沿って物語が進むという仮定から,意図を潜在的に含むと考えられる行為/状態の
次元を加え,時間,空間,人物,物及び行為/状態の 5つの次元を,状況モデルを構築する要素とした.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf

>状況モデルとは,人間が物語理解の際に頭の中で構成する心的小世界,
>すなわちイメージとその構成過程のモデルである.

脚本から直接、シミュレーション人形劇を作成できたらよいと思う。

連続人形劇 プリンプリン物語
https://www.youtube.com/watch?v=S4h_dKUv3lY

ここでの状況モデルは「舞台」、そしてその中でキャラクターが会話しながら動いていくということ。
698デフォルトの名無しさん:2013/05/22(水) 15:25:29.89
>>695
言葉の元素108個を見つける作業に戻るんだ
699デフォルトの名無しさん:2013/05/30(木) 12:00:10.36
>>582
>チンコは自ら意思を持ちシコシコすることはない
>よって用例の誤り

タイトル 日本語のガ格に対する副助詞「は」の使用の推定
著者 横野光,稲邑哲也
誌名, 巻・号, ページ, 年 情報処理学会 第207回自然言語処理研究会, 2012年7月
URL
カテゴリ 研究論文
http://21robot.org/mu8jg2uln-213/

問い合わせフォーム
http://21robot.org/inqury/FAQ/
700デフォルトの名無しさん:2013/05/30(木) 19:38:06.50
3.1 作業内容
シソーラス上に定義されている動詞の事例拡張の観
点から作業者の手順を記述する.
ap1シソーラスで定義されておりかつBCCWJにも
存在する動詞を選択
ap2例文を選択
ap3動詞の語義を選択(語義無し可)
ap4係り元の文節や句,文を同定
ap5係り元動詞の意味役割を選択
上記各項目について,簡単に説明する.まずap1では
作業システムで動詞のリストと動詞が例文に含まれて
いる数などが付与されている.そのうち,シソーラス
に登録されている動詞を選択する.
次にap2ではシソーラスでの意味概念が3以下なら
10例文,4種以上なら20例文として例文を選択する.
例えば「測定する」などは1概念しかなく,「上がる」
ならば15概念ある.例文選択は,本来ならば必要と
する概念を幅広く獲得すべきであるが,事例付与の最
初の段階であり,時間をかけ1ると付与がほとんど出
来ない恐れがある.簡単な事例でもまず量を出す必要
から,こうした簡単化した指示を行った.現段階では
人手で行ったが,統計的手法などを利用した補助シス
テムが必要であろう.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-3.pdf
701デフォルトの名無しさん:2013/05/30(木) 19:54:14.07
3.2 処理の単位
文書の意味構造を考えた場合,処理単位を考えないと
時間の前や後,因果といった計算は難しいように思える.
よって処理の単位はなにか時間ステップの基準となるべき
であるがその単位は文より短い複合名詞,節の単位となる.
例を挙げて説明する.
? 空港閉鎖が解除された
? 空港が閉鎖されていたが,解除された
? 発車した電車を追いかけた
? 彼は車を降りた.今ここに立っている
? 彼は車を降りて,今ここに立っている
まず最初の2文であるが,事態を含む複合名詞であるが,
文に展開された文書と同様の意味を持っていると考えられ
る.つまり「空港閉鎖」という複合名詞が事態の1単位で
あり,これに対して,「解除」という2つ目の事態が起こっ
たように扱う意味解析モデルが必要である.
次に3番目の例であるが,「電車」に対する修飾句に「発
車(完了)」という事態が指定されており,これを1独立単
位にする必要がある.
最後に4番目以降の例であるが,2文で現れている内容
も複文でほとんど同様の意味を述べることが出来る.よっ
て,こうした表現の違いを吸収する意味構造が必要である.
つまり,事態の単位として事態1「降りる」の次に事態2
「立つ(状態)」が来ても同様の構造になるように意味記述
を構築する必要がある.
http://ousar.lib.okayama-u.ac.jp/Detail.e?id=4987120130510095148
702デフォルトの名無しさん:2013/05/30(木) 22:10:34.78
6. 結論と展望
本稿では,「機械によって数学問題を解く」という行為を (1)
問題文の ZF の式への翻訳,(2) ZF の式から現実的に機械に
よる推論が可能な体系 (RCF++PA) の式への変換,(3) 「解
けている」と認められる項・式を得るための推論の実行,とい
う流れとして明確化し,これに基づく解答システムについて
(1) の自然言語処理のステップを中心に概説した.言語処理部
について理想化した実験設定ではあるが,RCF-QE ソルバー
を用いてテストデータの約 7 割に現段階で正答が得られたこ
とは,上記の方針について明るい見通しを与えるものである.
http://kaigi.org/jsai/webprogram/2013/pdf/622.pdf

2. 数式処理による数学入試問題の解法
数式処理は, 入力された数式に対して計算機上で代数的な記
号演算を行い数式を出力する.多くの計算では浮動小数ではな
く任意多倍長の整数または有理数を用い,誤差のない結果を返
す.例えば,数式処理により多項式の最大公約因子や因数分解
などの計算ができる.数式処理を実現する商用の数式処理シス
テムとしては Maple や Mathematica, フリーでは Risa/Asir
などがある. 数学入試問題では誤差のない計算が要求されるた
め,数式処理システムの活用は有効な手段であると考えられ
る.本章では数式処理アルゴリズムのひとつである QE によ
る入試問題の解法について紹介する.
https://kaigi.org/jsai/webprogram/2013/pdf/347.pdf
703デフォルトの名無しさん:2013/05/30(木) 22:14:15.97
>>688
>モデリングの過程では 問題を解くために必要な事項のみに注目し,他の情報は捨てる

3.1 問題文の意味解析
自然文で記述された問題からそこに書かれている内容を理
解する.物理の試験では,記述された状況において起きた物理
現象に関する理解が問われる.そのため,必要となる情報は物
理現象に関わるもののみに限定することができ,その他の要
素は無視できる.例えば,\探査機を惑星に着地させる" や \
ボールを床に落とす" という状況を考えたとき,\探査機" や
\ボール" がどういうものか,ということを考える必要はなく,
これら両方の事象が \物体が落下する" という物理現象におけ
る \物体" であることが理解できればよい.従って,定義すべ
き述語の数は限定できる.
本研究では,a) 物体,b) 物体の属性,c) 操作,d) 物理現象
の 4 種類に対する述語を定義する.表 1 に述語の一部を示す.
物体に対する操作と物理現象は時間軸に沿って順番に発生する.
これらを意味する述語に対して,イベント変数ei[Davidson 80]
を導入し,この変数の順序関係 (ei < ej i? i < j) によって事
象間の時間的な順序関係を表す.例えば,\車が出発して,点
p に到着した" という文は以下のように表すことができる.
https://kaigi.org/jsai/webprogram/2013/pdf/632.pdf
704デフォルトの名無しさん:2013/05/31(金) 13:51:09.45
>>688
>モデリングの過程では 問題を解くために必要な事項のみに注目し,他の情報は捨てる

https://kaigi.org/jsai/webprogram/2013/pdf/347.pdf

>しかし,センター試験に対して高得点をとるという観点ではこの手法のみでは不十分で,

>一般に整数に関する問題や三角関数・指数関数・対数関数の問題に対して適用できる QE アルゴリズムは存在しない.

過去のセンター試験で、QE法では解答できなかった問題を、いくつか挙げてもらえますか。
整数問題についても、コンピュータでは解答困難だった問題を、いくつか挙げてもらえますか。

整数問題に関しては「互いが素数」とかの条件を駆使して絞り込むか、あるいは帰納法を用いるとかが考えられる。例えば、

「2X+3Y=n<nは整数>で、この式を満たす<正の整数X,Y>がちょうど10組になるようなnを全て求めよ。」は、
まず「2X+3Y」という左辺の式の係数がいずれも素数であることに着目し、これを利用できないかを考える。すると、
2X+3Y=n<nは整数>⇔2(X+n)=3(Y+n)<nは整数>、よって(X+n)は3の倍数で、(Y+n)は2の倍数、と絞り込める。
なお問われている変数は専らnであって<正の整数X,Y>ではなく、 問題を解くために必要な事項のみに注目し、他の情報は捨てる。
そこでX+n=pとなるような整数pを新たに変数として定義して、(X,Y)=(3p-n,-2+n)と置き換える。
3p-n>0,-2+n>0、よってn/3<p<n/2と絞込み、あとはpは整数と定義したからということで、n=6Q+K(Qは整数、K=0,1,2,3,4,5)と絞って、あとは計算。
705デフォルトの名無しさん:2013/05/31(金) 14:10:51.16
死ねゴミクズw
706デフォルトの名無しさん:2013/05/31(金) 20:13:35.09
ここはマジキチの日記帳だから
707デフォルトの名無しさん:2013/06/01(土) 08:05:01.17
レスつける馬鹿は、自作自演ですか?
708デフォルトの名無しさん:2013/06/01(土) 17:35:35.90
そうですよ
709デフォルトの名無しさん:2013/06/05(水) 08:19:48.28
>>697
>本研究では,物語テキストから言語的手がかりを抽出する過程のモデルとして,状況モデルとい
>う考え方を導入する.状況モデルとは,人間が物語理解の際に頭の中で構成する心的小世界,
>すなわちイメージとその構成過程のモデルである.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf

●これが衝撃の「障子破り」シーンだ! (石原慎太郎 『太陽の季節』 (新潮文庫) より)
 夏に入る前、葉山にあったサマーハウスの準備にやってきた英子が、ついでに逗子の竜哉の家を訪れた時、
彼は英子をヨットに誘った。夕方舟から上った彼女が、もう東京に帰るのは面倒だから今夜は葉山に泊ると言うので、
彼は英子を自宅に連れ戻すと一緒に食事を取り風呂をすすめた。湯上りの彼女を庭に建てられた自分の離れに案内し、
「僕もやっぱり風呂に入って来らあ。悪いけど一寸待ってて。どうせ今夜は良いんだろ」
 (中略)
 風呂から出て体一杯に水を浴びながら竜哉は、この時始めて英子に対する心を決めた。裸の上半身にタオルをかけ、
離れに上ると彼は障子の外から声を掛けた。
「英子さん」
 部屋の英子がこちらを向いた気配に、彼は勃起した陰茎を外から障子に突きたてた。障子は乾いた音をたてて破れ、
それを見た英子は読んでいた本を力一杯障子にぶつけたのだ。本は見事、的に当って畳に落ちた。
http://www.geocities.co.jp/Bookend-Soseki/3578/2003/shoujiyaburi.htm

>彼は勃起した陰茎を外から障子に突きたてた。障子は乾いた音をたてて破れ、

「汎用京速計算機」は人体シミュレーションを目指す
http://www.itmedia.co.jp/news/articles/0509/28/news107.html
弊社が過去に施工したアコーディオン障子をご紹介いたします。
http://tostem.lixil.co.jp/lineup/living/shinwafu/wasyoji.htm

>それを見た英子は読んでいた本を力一杯障子にぶつけたのだ。

演説中の米大統領に男が本を投げつける< 2010年10月12日 20:55 >
http://www.news24.jp/articles/2010/10/12/10168508.html
710デフォルトの名無しさん:2013/06/23(日) 19:12:08.12
固有値分解でページランクが求まるように
特異値分解で単語OR文書の重要度が求まると思うんですが。
理論的に説明してあるところはありませんか。
711710:2013/06/23(日) 20:32:04.45
ページランクを調べた。
どこからどこへ移動するかを表現する行列をAとするとき
任意のベクトルxを繰り返し移動させたとき(A^n・x)、これが収束するとすると、
そのベクトルが、どのページへ移動したかの確率分布を表すという仕組みだな。
収束するためには、最大固有値がちょうど1でなければいけないがそのあたりの調整が必要なんだとおもった。
712デフォルトの名無しさん:2013/06/23(日) 21:22:54.02
713デフォルトの名無しさん:2013/06/23(日) 21:51:04.01
主成分分析したときの成分のノルムの大きさを単語の重要度としたらいいか。


主成分分析
http://www.macromill.com/landing/img/words/b007_img04.gif
http://www.macromill.com/landing/words/b007.html

主成分ってなに?
http://home.a02.itscom.net/coffee/tako04.html

文系のための「主成分分析の仕組み」
http://cis-jp.blogspot.jp/2012/09/blog-post_4.html

隠れたトレンドを探る:多変量解析
http://www5.ocn.ne.jp/~shinya91/csm/331csm_multi.html
714デフォルトの名無しさん:2013/07/18(木) NY:AN:NY.AN
3.9 問題文の理解
2 節で述べたように,当面の研究課題は,典型的な問題タイプについて個別の解法システムを開発し,
その基盤となる言語処理技術を向上させることである.しかし,試験問題として問われうる全ての問題
タイプを網羅することは不可能であるため,将来的な課題として,想定外の問題に対しても問題文を理解し,
蓄積した解法システム・基盤技術を適切に組み合わることで解法システムを自動生成する手法を開発
することが考えられる.これを達成するためには,上述の様々な解法システム・基盤技術の相互運用性を高め,
言語処理技術とその入出力に関するオントロジーを整備することで,大学入試タスク全体を分析・形式化
しなければならない.もしこれが実現されれば,3.1 節や 3.3 節の技術を,問題文の要求を言語処理
ワークフローへと翻訳するという一段階抽象的な処理に適用することが可能になる.
http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/D4-5.pdf

宮尾 たとえば、「1日に3台の車をつくる工場があったとして、12台つくるには何日必要ですか?」という文章から、
コンピュータは人間のように瞬時に数式を立てることができません。車や工場といった概念がわからないので、
関係性が理解できないのです。それに比べれば積分の計算のほうがずっと簡単です。
http://www.nii.ac.jp/userdata/results/pr_data/NII_Today/60/all.pdf
715デフォルトの名無しさん:2013/07/24(水) NY:AN:NY.AN
自分は英語が母国語ではないので、
自分の書く英文はネイティブから見たら多分不自然なところがある

どのくらい不自然なのか、どの部分が不自然なのかを知りたい

自然言語処理で、ある英文がどの程度自然かを判定することはできる?
そして、どの部分が不自然さを生みだしているか解析できる?

もしできたら外国語を学ぶ上で便利で強力なツールになると思うんだが
716デフォルトの名無しさん:2013/07/26(金) NY:AN:NY.AN
解析するのは無理
ビッグデータを使って「ありきたりの表現」にマッチするかを
計量することならできるかも知れん
717デフォルトの名無しさん:2013/07/27(土) NY:AN:NY.AN
自然かどうかは、「ありきたりの表現」にマッチするかどうか、でOK

でも、登場頻度が高い≒自然な表現、とはいいにくいか…
(保守的に見ると)間違った用法が流行して使われることもあるしな

そうか、コーパスに新聞データとか書籍データとかの
「堅い」文章だけに限って収集すればいいか

文全体に対して計量できれば、文の一部に対しても同じ処理で計量できそう
そうするとどの部分が不自然なのか計量できそうだが、甘い考えか?
718デフォルトの名無しさん:2013/07/27(土) NY:AN:NY.AN
ginger とかそんなサービスじゃね?
719デフォルトの名無しさん:2013/07/28(日) NY:AN:NY.AN
ginger試した

あんまりビシバシ赤ペンいれてくる感じじゃないな
自分の英文だからいっぱい変な所あるはずだがスルーされる感じ

正しい所を間違いと判断してしまう誤動作を防ぐために
しきい値高くとってるのかな?
720デフォルトの名無しさん:2013/08/20(火) NY:AN:NY.AN
1)「骨の疾患」に共通する性質(概念定義)を知るため,検索結果の中でも最も一般的な疾患の検索を
目的とし,検索結果として「骨疾患」のみを求める場合
2)(後頭骨や脊椎骨や肋骨のような特定の種類の骨にのみ起こる疾患ではなく)すべての種類の骨に共
通する疾患の検索を目的とし,検索結果として異常対象のクラス制約が骨(特定の種類の骨は除く)で
ある「骨疾患」,「関節リウマチ」,「骨肉腫」を求める場合
3) 後頭骨や脊椎骨や肋骨のようなあらゆる種類の骨を分類した部位における疾患の検索を目的とし,
図 1 で示した全ての疾患を検索結果として求める場合
などがある
http://sigswo.org/papers/SIG-SWO-A1203/SIG-SWO-A1203-09.pdf

EDR概念記述辞書:その他の関係
? object: 動作・変化の影響を受ける対象
? 食べる?object→りんご
? agent: 有意志動作を引き起こす主体
? 食べる?agent→父
? goal: 事象の主体または対象の最後の位置
? 行く?goal→東京
? implement: 有意志動作における道具・手段
? 切る?implement→ナイフ
? a-object: 属性をもつ対象
? 赤い?a-object→トマト
? place: 事象の成立する場所
? 遊ぶ?place→部屋
? scene: 事象の成立する場面
? 演じる?scene→ドラマ
? cause: 事象の原因,理由
? 死んだ?cause→インフルエンザ
http://www.yamaguti.comp.ae.keio.ac.jp/japanese/2013WI/4%E5%9B%9E%E7%9B%AE%EF%BC%88%E3%82%AA%E3%83%B3%E3%83%88%E3%83%AD%E3%82%B8%E3%83%BC%EF%BC%89.pdf
721デフォルトの名無しさん:2013/08/20(火) NY:AN:NY.AN
死ねゴミ共がw
死ねゴミ共がw
722デフォルトの名無しさん:2013/08/27(火) NY:AN:NY.AN
午前中にはメインホールにおいて,宮尾祐介氏(国立情報学研究所・准教授,総合研究大学院大学・
准教授)に,「試験問題に解答することから見える人工知能の課題」と題した基調講演をいただきました.
小学校の問題と東京大学入試問題を比較され,コンピュータが解く視点から問題を分析すると,
現在の情報処理レベルでは東京大学入試問題の方がはるかに易しいことを示されました.さらに,
数学,英語,国語,世界史,物理や化学など試験科目別に,コンピュータが問題を入力してから出力
するまでの自然言語処理のプロセスをお話いただききました.入出力とそれをつなぐアルゴリズムは
はっきりしているものの試験科目ごとに異なる問題が生じていること,それについてのまだ完全なる
解法はないことなどの現時点での課題のお話のあと,今後の展望も示していただきました.
http://www.jsims.jp/kenkyu-taikai/12.html
723デフォルトの名無しさん:2013/09/09(月) 05:44:45.19
tf-idfを高速に計算したいんだけど
文字列をハッシュ値に置き換えてから計算した方が速いよね?(誤差はあっていい)
724デフォルトの名無しさん:2013/09/09(月) 12:18:00.90
素性ベクトルにする段階で素性にID割り当てていれば
誤差なし文字列比較なしで計算できるだろ
725デフォルトの名無しさん:2013/09/09(月) 16:39:10.57
文字列からIDへのテーブルの永続化が面倒くさい
726デフォルトの名無しさん:2013/09/09(月) 23:18:15.88
なら糞重い処理を無駄に繰り返しやっていればいい
727デフォルトの名無しさん:2013/09/10(火) 10:29:52.22
6. 結論と展望
本稿では,「機械によって数学問題を解く」という行為を (1)
問題文の ZF の式への翻訳,(2) ZF の式から現実的に機械に
よる推論が可能な体系 (RCF++PA) の式への変換,(3) 「解
けている」と認められる項・式を得るための推論の実行,とい
う流れとして明確化し,これに基づく解答システムについて
(1) の自然言語処理のステップを中心に概説した.言語処理部
について理想化した実験設定ではあるが,RCF-QE ソルバー
を用いてテストデータの約 7 割に現段階で正答が得られたこ
とは,上記の方針について明るい見通しを与えるものである.
https://kaigi.org/jsai/webprogram/2013/pdf/622.pdf
728デフォルトの名無しさん:2013/09/10(火) 18:46:51.74
第五世代の亡霊だな。筋悪。
729デフォルトの名無しさん:2013/09/11(水) 18:40:44.65
プロジェクトの説明をするまえに,RTEというタスクの説明をしておこう.
このタスクは,国語の問題によくある,「次の選択肢のうち,上の文章と当てはまるものを選びなさい」という問題だ.
つまり,問題として,テキストのペアを与え,あるテキストAが,別の仮説となるテキストBを意味的に内包して
いるか(合っているか)否かを認識する.

例えば,「アベノミクスはインフレを起こす.」というテキストAを与えたとして,
@ アベノミクスは物価の上昇を引き起こす.
A アベノミクスはデフレを起こす.
B アベノミクスは物価を下落させる.
C アベノミクスはインフレを起こさない.
という4つの仮説文があったとすれば,この場合に正解(含意)となるのは@だけだ.
少し考えれば分かる通り,「インフレ=物価の上昇」という知識が無ければこの問題は解けない.
またいくらでも表現のバリエーションが考えられるので,言い換え表現というものを網羅しなければならなくなり,
極めて難しい問題となる.


http://yamanekou.blog.fc2.com/blog-entry-49.html
730デフォルトの名無しさん:2013/09/12(木) 20:04:16.75
1 言語表現の多義性と同義性
 言語は曖昧性であふれている.いや,正確には,言語を機械的に解析し,例えば翻訳するプログラムを作ろう
とすると,言語は曖昧性であふれているように見える.「彼女の手を握る」の「手」は英語の “hand” に訳せ
ても,「他に手がない」の「手」に “hand” は使えない.「英語と数学を教える」と「親父と酒を飲む」はどちら
も「〔名詞1〕と〔名詞2〕を〔動詞〕」の形をしているが,前者の「と」は等位関係を表す接続助詞,後者の
「と」は随伴を表す格助詞である.どの場合の「手」がどの意味で,どの場合の「と」がどの意味を表すかは人
間にとっては多くの場合易しい問題だが,計算機にとっては大問題である.
 このように,言語を計算機で解析する際に,入力文に見かけ上いくつもの解釈があるように見えることを言語
処理研究者は「曖昧性がある」あるいは「多義性がある」と言い,それらの解釈の中から書き手が意図した「真の」
解釈を推定する問題を曖昧性解消あるいは多義性解消と呼んできた.言語処理研究を黎明期から長く牽引してき
た機械翻訳では,何よりもまずこの多義性が問題になる.その意味で,言語処理研究の歴史はその大半が多義性と
の戦いの歴史だったと言える.

自然言語処理と言い換え
http://www.cl.ecei.tohoku.ac.jp/~inui/papers/0711Nihongogaku.pdf
731デフォルトの名無しさん:2013/09/12(木) 20:19:25.04
〔講演A〕(招待講演) 「行間を読む」自然言語処理への挑戦
東北大学大学院情報科学研究科
乾 健太郎 教授
私たち人間は、省略だらけの文章を難なく読みこなし、「庭に洗濯物を干したところに雨が降ってきた」と聞いて登場人物
のガッカリした様子が瞬時に目に浮かびます。このように、言葉を理解するには単語や文法を知っているだけでは不十分
で、常識的知識を使いこなして省略を補ったり、何がなぜ起こったのかを推論したりと、「行間を読む」高度な知能が求め
られます。自然言語処理がこうした深い言語理解をめざすとき、これまでの最大の障壁は「知識獲得のボトルネック」、す
なわち思考に必要な常識的知識がコンピュータには決定的に欠けているという問題でした。しかしこの問題は、ネット上
の膨大な文章を自動解析し、コンピュータ自身がそこから常識的知識を吸収することで解決できる可能性が見え始めて
います。近い将来に相当量の常識を含む巨大な知識ベースが利用可能になるとすると、その先の課題は何か? 「行間
を読む」自然言語処理、そのための推論技術の構築を目指す東北大の取り組みを紹介しながら、今後の展開を考えます。
http://www.toyota-ti.ac.jp/kenkyu/2013CSseminar.pdf
732デフォルトの名無しさん:2013/09/12(木) 21:43:56.34
(1) 太郎が公園に戻ってくるとさきほど 見かけた女の子はいなくなっていた。
 たとえば上記のような文があった場合,省略された項を考慮しない解析,すなわち,デフォルトの構文・
格解析では,「見かけた」が「女の子」を連体修飾しているということは正しく解析できるものの,「女の子」
は「見かけた」のガ格であると解析されてしまう.しかし,文頭に出現した「太郎」も考慮に入れ,新たに
「女の子」が「見かけた」のヲ格である可能性も含めて述語項構造解析を行うことにより,「太郎」が「見かけた」
のガ格であり,「女の子」は「見かけた」のヲ格であると正しく解析することができるようになる.
http://www.lr.pi.titech.ac.jp/~sasano/paper/nlp13.pdf
733デフォルトの名無しさん:2013/09/13(金) 02:56:16.30
 高校や大学などにおける学校教育において,試験問題の解法を学習する際には,過去に出題された問題から
類題を収集して重点的に取り組むことにより,効果的な学習を行っている.また,教員など試験を実施する側の人
が試験問題を作成する際,過去に類題が出題されていないかを効率的に検査することが求められる.本研究は,
日本語で記述される数学の問題文を対象とした検索手法を開発することを目標とする.本稿では,大学入試
センター試験における数学の試験問題を対象にする.数学の試験問題は,大問を単位としてまとめられた複数の
小問文から構成されている.我々は,問題から類題を探すとき,大問の構造が多少異なっていても,小問文が
クエリと類似していれば,その問題を学習に有用な類題とみなす.したがって,効果的な類題検索を行うためには,
大問同士の比較ではなく,ひとつの大問を構成する小問文の集合を抽出した上で,小問文を単位として比較を
行うことが有効であると考えられる.本研究では,小問文に相当する文をクエリとして,大問単位で与えられた
問題データから入力文と類似する小問文を検索する手法を提案する.
https://kaigi.org/jsai/webprogram/2013/pdf/643.pdf
734デフォルトの名無しさん:2013/09/27(金) 08:42:39.75
4.3. アニメーション作成から見た動詞概念の
特徴の分類
動詞概念における「物理的行動」の範疇における,1.身体全体,
2.物全体,3.身体全体と物全体,これら三つのパターンの空間的
な移動を伴う動詞概念,並びに,4.それぞれのパターンが反復す
る動詞概念,5.それぞれのパターンの組み合わせによる動詞概念
の 5 種類からなる 3078 個の動詞概念に対しては,以上の方法に
よってアニメーションを定義した.しかし残りの物理的行動3186
個に関しては以上の方法のままではアニメーション定義は不可
能であった.その理由を考える中で,物理的行動の動詞概念の特
徴を以下の三種類に分類した――(1)詳細な動作への分割を必要
とする抽象的な動詞概念,(2)特定の物や場所に依存する意味を含
む動詞概念,(3)頭部や四肢等身体部位の動きを必要とする動詞概念.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P6-14.pdf
735デフォルトの名無しさん:2013/09/27(金) 08:45:32.57
3.2 意味を拡張する数直線
 整数の乗法は、「同数累加」の意味を用いていた。例えば、3×2は、3+3(3を2個たす)という意味である。ところが、
乗数が小数になると「同数累加」の意味は適用できない。例えば、3×2.4は「3を2.4個たす」とはいえない。そこで、
乗数が小数の場合の意味を新たに考える必要がでてくる。いわゆる「意味の拡張」である。
 そこで、乗法の意味を「基準量×割合」の意味づけにする。この割合の意味づけは、乗数が整数の場合も小数の場合にも通用する。
例えば、乗数が整数の3×2は、「3を1とみたときの2にあたる大きさ」となる。同様に、乗数が小数の3×2.4は、「3を1とみたとき
の2.4にあたる大きさ」となる。
 この「基準量×割合」の意味づけを、数直線に表すことで、整数、小数、分数の乗法を統一的に見ることができる。
整数や小数の乗法を数直線に表す。例えば、3×2や3×2.4は、次のようになる。
0 3×3/4 3×1   3×2 3×2.4 3×3
├─┼──┼────┼─┼──┼─ 

├─┼──┼────┼─┼──┼─ 
0 3/4   1       2  2.4  3
http://www.edu.yamanashi.ac.jp/~ntakashi/cho9901.htm
736デフォルトの名無しさん:2013/09/27(金) 10:57:17.31
■資源配分(配分先に区別が無い場合)の数 / ボールと箱のモデル
 ボールと箱のモデルを使って
「区別しない5 個のボールを,区別しない3 個の箱に最低1 個は配る場合の数」
 を求めてみよう.
箱に区別はないが,数を数えやすくするため,とりあえず区別して考えていく.つまり,箱に区別のある普通の『資源配分』 に一度戻して考えていく.
ボールは区別しないので,それを○ とし, ,箱はとりあえず区別するので番号をつけておく.
下の図は 1 に 1 個, 2 に 2 個, 3 に 2 個のボールを配った場合を表したものである.
http://www.ravco.jp/cat/view.php?cat_id=6187&PHPSESSID=
737デフォルトの名無しさん:2013/09/27(金) 11:24:57.35
問題5
Q>0 を正の有理数の集合、Rを実数の集合とする。f:Q>0→Rを次の3つの条件をみたす関数とする:
(i) すべての x, y∈Q>0 に対して、f(x)f(y)≧f(xy),
(ii) すべての x, y∈Q>0 に対して、f(x+y)≧f(x)+f(y),
(iii) ある有理数 a>1 が存在して、f(a)=a.
このとき、すべての x∈Q>0 に対して、f(x)=x となることを示せ。
http://rara-avis.sblo.jp/article/71466037.html
738デフォルトの名無しさん:2013/09/27(金) 11:35:31.58
数学オリンピックの問題は、一般的な学校の数学の問題に比べれば、「拡散思考」が要求されるようには思えます。しかし、
難問を解くための色々な「戦略」も存在しています。仮にそういった戦略を学んだわけではないにしても、ある独特の
傾向を持った問題群であることは否めません。
まず一つ言えることは、「ちまちました思考」を要求されるということです。ダイナミックな図形的な感じは全くしません。
また直感的というよりは、非常に試行錯誤を要求される問題だと言えます。ああいった問題を直感で捉えられる人も
いるかもしれませんが、捉えられない人もいると思います。現に、アインシュタインは直観力に優れていたとされますが、
当時の数学者には「彼は数学を全く理解していない」と評されるほど数学者から見れば、違った思考様式をしていたのです。
http://nowsmartsoft.blog121.fc2.com/blog-entry-101.html
739デフォルトの名無しさん:2013/09/27(金) 13:11:43.87
2. 統合物語システムにおける「状態」の位置付け
統合物語生成システムにおける物語内容は,事象を終端要
素とし,それらを結ぶ談話的・物語論的な関係を中間要素とす
る木構造により表現される.事象は,動詞的概念により表される
出来事を意味し,動詞概念とその深層格(主体や対象等)から
なる格構造により表現される.これを構成する動詞概念や名詞
概念は概念辞書[Oishi 2012]が提供する.また,各事象はその
背後にある「状態」に結び付いている.状態は物語内容に現れ
る人物,物,場所の各要素の属性的情報を時間軸上で管理す
る知識体系に相当し,複数の属性スロットからなるフレーム形式
で表現される.事象と状態の関係においては,事象はある状態
を別の状態に推移させる動的情報に相当する.
状態は,事象列から状態列を生成する「状態管理機構」
[Akimoto 2013]により管理される.これは,動詞概念辞書に含ま
れる各動詞概念に対して,それが引き起こす状態変化を定義し
たルールに基づき,事象前後で状態情報を書き換える処理に
よる.例えば,「[agent]が[object]を食べる」 という意味の動詞概
念「食べる 2」に対応する変換ルールには,(事象後の状態にお
いて)「[object]が存在しなくなる」という意味の状態変化が定義
されている.現状で,人物を主体とする物理的な行為を表す動
詞概念 2391 個に対応する変換ルールが定義されている.
https://kaigi.org/jsai/webprogram/2013/pdf/641.pdf
740デフォルトの名無しさん:2013/09/30(月) 12:54:47.99
人が意味を理解/機械が意味を理解
¨ 極端な例: 古池や蛙飛びこむ水の音
?人間の場合: 状況?理解,わからなくて良い部分?
わからない漠然とした理解 (具体的な場所?わから
なくても状況が想起できる),蛙?(たぶん)一匹,たぶ
ん周り?静か,etc.
?機械?場合: 格フレーム「飛び込む」とその格要素,
「や」は難しい,「水の音」?「水の音」で,蛙が飛び込
んだ結果派生した「水の音」と理解するのは難しい
https://www.cl.cs.titech.ac.jp/~ryu-i/class/nlp4.pdf
741デフォルトの名無しさん:2013/09/30(月) 13:08:08.67
4.2 関係ラベル毎の精度評価
2013 年 1 月 9 日-16 日の RITE-2 フォーマルラン7におい
て、15 チームが、本データを各自のシステムに認識させ、精
度を算出した。表 3 に関係ラベル毎の平均精度一覧を示す。
「語順入れ替え」、「修飾句削除」が平均精度が 90%程度と高
い精度を出した。また、元々の関係ラベル数が少ないものの、
「集合・リスト」の精度も 90%程度となった。一方、精度が低
かったラベルとして「時間の不一致」、「モダリティの不一致」、
「その他の推論」「空間の推論」、「同格」が挙げられ、それぞれ
50%以下となった。また、「単語の不一致」、「フレーズ:品詞
の変換」、「単語:全体・部分」は 50-70%の精度であった。こ
こで挙げた、精度が 70%以下のラベルは全て出現回数が 3 回
未満であり、ラベルが 3 回以上出てきたものはすべて 70%以
上の精度を出しているため、ラベルの出現頻度が精度に関連し
ている可能性がある。出現頻度が低いラベルに関しても正確に
認識するシステムを構築するにはどうすべきか、を今後検討す
る必要があると考えられる。
https://kaigi.org/jsai/webprogram/2013/pdf/388.pdf

(7) a. 鯨の数は十分に回復している
b. 鯨の数は回復からはほど遠い状況にある
(8) a. マイナスイオンはトルマリンから生成します
b. トルマリンがマイナスイオンを放出するとされる
が、それはあり得ないことである
この問題に対し我々は,従来の機能表現辞書(例えば松
吉らの辞書 [14])に加え,より多様なムード表現を識別
するための計算モデルを新たに開発中である [8].ただ
し,ムード情報の分類体系やタグ付きコーパスの作成方
法など残された課題も多く,言語学研究との密な連携が
必要であると考えている.
http://www.cl.ecei.tohoku.ac.jp/~inui/papers/0806Gengo.pdf
742デフォルトの名無しさん:2013/09/30(月) 13:28:53.32
7. 結果と考察
 二つの物語テキストに対し,システムによるシミュレーションを行ったところ,どちらの物語におい
ても物語テキストからの状況モデルを構築する5つの次元の情報の抽出や,それに基づくセグメンテー
ション,さらには視覚的イメージ化のための構図の決定に成功した.「桃太郎」では,ほぼ想定通りの違
和感のないアニメーションの生成にも成功した.
 「鶴の恩返し」においては,現状ではTVMLファイルへの変換部が「桃太郎」を想定して作られている
ため,モデルが存在しない空間や人物については既存の物で代用し,表示出来ないイベントもいくつか
出現する結果となった.しかし,移動や発話等の共通であり,かつ物語の多くの部分を占める行為につい
ては,同様に違和感のないアニメーションの生成に成功した.完全とは言えないものの,物語テキストか
らのアニメーション生成に成功したことにより,メンタルシミュレーションに必要な情報,ひいては人
間の物語理解に必要な情報の指針を確認することが出来たのではないかと考える.
 ただし,これは非常に限定的な状況下での成功であり,現状では自然言語処理の困難さ,アニメ
ーションに必要な 3D モデルの不足といったことがボトルネックとなっている.テキストから
の情報導出の改良,汎用 3D モデルの導入等により, 様々な物語,または物語以外のテキストに
も対応できるようにした上で,さらなるシミュレーションを行う必要があるだろう.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf
743デフォルトの名無しさん:2013/09/30(月) 14:38:17.57
○整数問題…因数分解をする解法
○整数問題の倍数の問題(剰余系、合同式)と連続2整数と連続3整数
○合同式≡と剰余類の説明と応用問題
○整数問題…不等式の操作で解く解法
○背理法の説明と√2は無理数の証明
○a+b=1の時、a,bは互いの素
○3で割り切れる数、4で割り切れる数の見分け方
○3の倍数になる組み合わせの場合の数の求め方
○a,bを互いに素な自然数とする。 0以上の整数m,nを用いてX=am+bnとあらわすことできる自然数Xをすべて求めよ。
○一次不定式、am+bn=dの整数解の求め方
若干お話系
○中国式剰余定理
○ユークリッドの互除法の証明
○10進法とn進法の変換方法
http://kazuschool.blog94.fc2.com/blog-entry-195.html
744デフォルトの名無しさん:2013/10/01(火) 15:00:33.54
http://jp.fujitsu.com/about/tech/k/why/simulation/

>スーパーコンピュータが得意とするコンピュータシミュレーションとは?

バーチャルヒューマンモデルによる労働安全の研究
https://www.jstage.jst.go.jp/article/jje1965/37/Supplement/37_Supplement_232/_pdf
自然言語からの仮想人間の複合動作アニメーションの生成
http://www.cg.ces.kyutech.ac.jp/paper/gcad06.pdf

例えば「(人が)ボールを投げた」と記述されている文章をコンピュータがどう読み取るかだが、
ボールの投げ方は様々だし、ボールにしても野球ボールなのかバスケットボール
なのかは不明だ。けれども「ボールの投げ方」「ボールの種類」をそれぞれ100通り
くらい用意しておいて、100×100で一万通りのシミュレーションをやてみてはどうか。
そして文脈に応じて100通りのうちのどれが適切なのかは、後で検証して選択する。

物理シミュレーションを用いた曖昧性解消
http://21robot.org/research_activities/science/
745デフォルトの名無しさん:2013/10/01(火) 18:51:07.78
>「庭に洗濯物を干したところに雨が降ってきた」

これは「庭に洗濯物を干す」と「雨が降る」とを、事象を2つに分解して、
「庭に洗濯物を干す」という「目的」が、「雨が降る」(=水で濡れる)
ことによって「否定」されたと解釈するアルゴリズムを作成すれば良いと思う。

何のために「庭に洗濯物を干す」のか、その「目的」は洗濯物を乾かすためである。
けれどもその「目的」は、「雨が降る」ことによって「否定」されてしまった、と。
あと「雨が降る」とは、「空から水が降ってくる」ことだと、コンピュータが理解できるか。

ドリフの舞台セット?
http://abetomo.net/blog/archives/28
実世界の仮想化,仮想世界の現実感表現 - 池内研究室 - 東京大学
http://www.cvl.iis.u-tokyo.ac.jp/~oishi/Papers/tmp/2.Concrete6_50-09.pdf

それから「庭に洗濯物を干したところに雨が降ってきた」を、コンピュータで
シミュレーションするための、仮想物体モデルセットを用意しておきたいところ。
746デフォルトの名無しさん:2013/10/03(木) 18:16:23.67
3.1 問題文の意味解析
自然文で記述された問題からそこに書かれている内容を理解する.物理の試験では,記述された状況において起きた物理
現象に関する理解が問われる.そのため,必要となる情報は物理現象に関わるもののみに限定することができ,その他の要
素は無視できる.例えば,\探査機を惑星に着地させる" や ボールを床に落とす" という状況を考えたとき,\探査機" や
\ボール" がどういうものか,ということを考える必要はなく,これら両方の事象が \物体が落下する" という物理現象におけ
る \物体" であることが理解できればよい.従って,定義すべき述語の数は限定できる.
https://kaigi.org/jsai/webprogram/2013/pdf/632.pdf
747デフォルトの名無しさん:2013/10/03(木) 20:26:41.88
テキスト含意認識に関する既存研究が利用する知識の形態は様々であるが,その中に WordNet [Tatu 05] や
FrameNet[Aharon 10],Web[Glickman 05] の様な言語資源を用いて,T の H に対する意味類似度を計測し知識
として活用しようというものがある.T と H の間に高い意味類似度が見られれば,それは T と H の間に含意
関係が生じている根拠になりえるかもしれない.例えば,(1) と (2) は多くの単語を共有している.さらにオントロ
ジーや複合語処理技術等を用いれば,「wild animals」と「animals」の類似度も計測可能である.結果として (1)
と (2) の間には高い意味類似度を評価でき,この事実は(1) が (2) を含意していることを示唆しているようにも見える.
しかしながら,2 つのテキスト間の高い意味類似度は必ずしも含意の根拠とはならないことに注意しなくてはならない.
http://cgi.csc.liv.ac.uk/~danushka/papers/yokote2013.pdf

そこで,NMF における目的関数を改良することで,なるべくクラスタリングの最適解に
収束するように制御し NMF 単体のクラスタリング精度向上を目指す.ここで改良する概念
として類似度の高い文書ベクトル同士は各クラスタとの関連度も類似し同じクラスタに収
束するであろうという考えを用いる.具体的には,単語を要素とする文書ベクトル同士の類
似度とクラスタと文書の関連度を要素とする文書ベクトル同士の類似度の差のノルムを既
存の NMF における目的関数に追加することで,その目的関数が最小になるにつれてクラス
タリングの精度がよくなることを目的とする.
https://www.ipsj-kyushu.jp/page/ronbun/hinokuni/1001/B-4/B-4-2.pdf

IndexSearcher, TermQuery, TopDocs
このシステムでは見出し語とその説明から抽出した名詞で構成される類義語候補の類似度を計算します。
そして類似度がある閾値より大きいときは、その候補が見出し語の類義語であると判定してCSVファイルに出力します。
しかし、見出し語とその類義語候補の類似度はどうやったら計算できるでしょう。このシステムでは見出し語の説明文Aaと、
類義語候補を使って書かれた辞書エントリの説明文の集合{Ab}の類似度を計算することで近似しています。
http://soleami.com/blog_ja
748デフォルトの名無しさん:2013/10/06(日) 19:39:19.29
 文における述語の意味は単語が違っていても共通する意味概念があり,ほとんど同じ意味であることがある.
例えば,「社長が太郎を一人前に育てる/仕立てる/鍛えあげる」では,ある対象「太郎」に対して動作主
「社長」がある働きかけをして成長させたことを意味している.こうした意味概念をクラスタ(例えば [成
長] という意味概念) としてまとめておき,自他の違いなどを整理しておくと,例えば,「太郎が一人前に
育つ/成長する」も同じ意味概念として扱うことができる.さらに,前文の「社長が」は「育てる」という
動作の動作主体であるのに対して,「太郎を」は「育つ物」であり,それは後文の「太郎が」と同じである
という関係付けができると,文内の要素同士の対応も容易に取ることが出来る.こうした述語間の関係を同
定するために,各述語の語義どうしで共通する意味概念でまとめて,その述語に係る要素(主に項と呼ばれ
る) に対して意味関係のタイプ分けである意味役割を付与しておく述語項構造辞書が必要である.
本研究室では Lexeed辞書の動詞,形容詞,形容動詞を対象にこれらを人手で分析してまとめ,
述語項構造シソーラス (以降シソーラス)として内部でまとめている1.シソーラスでは一つの語義に対して
ほぼ一例文しかないため例文の拡張が,自動付与システムの構築[5, 4]に必要である.
http://cl.it.okayama-u.ac.jp/study/data/takeuchi_nlp2013.pdf
749デフォルトの名無しさん:2013/10/06(日) 21:26:35.23
30年後には翻訳家・通訳が要らなくなっているのかなあ?
750デフォルトの名無しさん:2013/10/07(月) 06:00:32.62
ありえない。このプロジェクトは結局失敗すると思う。
せいぜい、教科書レベルの問題しかとけない。
または難問の類似問題。100年後はしらんが5年程度でできるわけない。
国語なんてどうするんだよw翻訳もまともにできないのに
751デフォルトの名無しさん:2013/10/07(月) 11:30:21.55
教科書レベルが解ければ十分という気もするが。
ゼロから教科書レベルまでのほうが、教科書レベルから東大レベルよりもよっぽど険しい道のりでしょう。
752デフォルトの名無しさん:2013/10/07(月) 15:43:28.25
これはただの質問応答システムだから
想定している形式の問題さえ解ければ十分なんだよ
753デフォルトの名無しさん:2013/10/07(月) 23:42:25.71
>>想定している形式の問題さえ解ければ十分なんだよ
それじゃ東大合格できないじゃないかw
754デフォルトの名無しさん:2013/10/07(月) 23:50:16.92
このスレの天才たちに聞きたいがLDAやナイーブベイス分類にしろ
機械学習は名詞だけをとって統計とってるだけのように思う。
助詞や指示語など文書解析に重要な要素をどうやって
プログラミングするんだ。また、そんなツール見たことないぞ。
(指示語を具体的に表示するツールとか)
755デフォルトの名無しさん:2013/10/07(月) 23:53:13.27
大昔、5世代コンピュータという大失敗のプロジェクトで
優秀な研究者がPrologでたくさん作ったがほとんど使い物に
ならなかったように感じるがどうだろう?
だいたいprologなんて本当に使われているのかw
KL/Cてどうなったんだろ。LISPマシーンなんてあるのか?
756デフォルトの名無しさん:2013/10/08(火) 07:43:51.55
まず、機械学習の手法と扱う言語的な特徴は基本的にあまり関係ない。 LDAなんかはやや拡張が難しいところがあるけど、まあ用途次第。
助詞については、単純にはn-gramとかでも目的次第で助詞は扱ってることになるが、KNPとか使ってガ格とかニ格とかの格解析すれば、助詞が表す名詞や動詞との関係を取り出すことができる。
指示語が指す内容を取ってくるのは照応解析で、ただこっちはやたら難しいのでまだまだこれから。
757デフォルトの名無しさん:2013/10/08(火) 08:18:46.89
>>727,746あたりはprologで頑張ってた頃の遺産を引き継いでるんだろうけど
自然言語から論理式を抜き出す部分が実用にはならないんじゃないかね
第五世代コンピュータは来るのが早すぎたんだ
758デフォルトの名無しさん:2013/10/08(火) 08:20:42.20
>>755
今日考えれば、論理計算機大学院(または研究所)のようなものを
設立して持続して研究するべきだった。PIMだけに大半の資源を
費やしてしまった結果になったことはさすがに残念なことだった。
759デフォルトの名無しさん:2013/10/08(火) 08:57:23.54
>>757
自然文を論理式に変換する研究は最近すごい流行ってる。英語限定だけど。
ただ、prologの遺産を今現在みかけることはほぼないので、技術的にその延長上にあるかというとどうでしょう。
760デフォルトの名無しさん:2013/10/08(火) 12:38:19.79
だから論理式では破綻するだろ。
意味解析なんてどうするんだよ
761片山博文MZコスモ ◆T6xkBnTXz7B0 :2013/10/09(水) 19:35:03.15
C++ referenceの自動翻訳に挑戦してみました:

https://dl.dropboxusercontent.com/u/72753355/cppreference-en2ja-20130510-0.zip

<p>...</p>と<li>...</li>のみです。
762デフォルトの名無しさん:2013/10/11(金) 10:40:19.58
意味解析どうするかなんて誰も知らないだろ。意味って何だよ。
763デフォルトの名無しさん:2013/10/16(水) 23:16:05.64
gentoo linuxから
cbochaのパッケージが消えてたのだけど
何があったんだ?
764デフォルトの名無しさん:2013/10/17(木) 07:25:11.59
宮尾 たとえば、「1日に3台の車をつくる工場があったとして、12台つくるには何日必要ですか?」
という文章から、コンピュータは人間のように瞬時に数式を立てることができません。車や工場といった
概念がわからないので、関係性が理解できないのです。それに比べれば積分の計算のほうがずっと簡単です。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Interview/
765デフォルトの名無しさん:2013/10/18(金) 02:54:21.84
東大の受験マニアが喜びそうだ課題だ。w
どうせ、受験時代を回顧しながら使い物にならないシステムを作るだろうな
766デフォルトの名無しさん:2013/10/18(金) 10:43:20.43
過去、20年後にやっと実用化されるような研究の、20年前の重要な到達点を見たとき、
そういう反応をした奴を数多く見てきたw
767デフォルトの名無しさん:2013/10/20(日) 11:09:21.31
20年でできると思えないw
768デフォルトの名無しさん:2013/10/20(日) 11:28:02.86
>>766みたいな反応も、第5世代ナントカの時代に聞いたな。
769デフォルトの名無しさん:2013/10/20(日) 12:48:48.34
もし実用化できたらそれはシステムの進歩ではなく
入試問題作成技術の停滞を示すに過ぎないw
770デフォルトの名無しさん:2013/10/22(火) 14:20:12.83
将棋とかに置き換えてみれば、どれだけバカなことを言っているか自覚できると思うよw
771デフォルトの名無しさん:2013/10/29(火) 04:03:18.89
単語の出現傾向を大量のデータから獲得
http://www.cl.ecei.tohoku.ac.jp/publications/2013/130621ToDas.pdf

「彼女と行く」はよく言う(560万回)
「盛岡や仙台」はよく言う(20万回)
「福島と行く」は言わない(24回)
「彼女や仙台」は言わない(4回)
772デフォルトの名無しさん:2013/11/01(金) 11:18:46.85
>>582
>チンコは自ら意思を持ちシコシコすることはない

ならば「チンコは自ら意思を持ちシコシコすることはない」という、「概念辞書」の構築が不可欠だな。
773デフォルトの名無しさん:2013/11/10(日) 21:43:24.31
120%失敗する
774デフォルトの名無しさん:2013/11/24(日) 15:07:23.39
Mecab
Cabocha
ってコマンドラインやパイプから使えないような複雑な入出力ってありますか?
入力が単純なテキストで
出力もテキストですよね
例えばgrepにパイプする様な使い方で全ての機能使えますよね?
775デフォルトの名無しさん:2013/11/25(月) 12:12:41.95
135 名前:名刺は切らしておりまして[sage] 投稿日:2013/11/24(日) 19:05:37.14 ID:kW12vZ42
悪い意味で糞ワロタww
現状の人工知能は、こんなものなんだな。

>具体的には、質問文にあることばの中から「邪馬台国」といった固有名詞や
>それに関係がありそうな「統治」や「人物」といった単語をキーワードとして選び出します。
>そのうえで、東ロボくんは、選び出した複数のキーワードが教科書の中で最も多く出現する場所を段落の単位で探し当てます。
>そのうえで、探し出した段落と最も関連性が高い文章をセンター模試の4つの選択肢の中から見つけ出し正解として回答します。


このやり方、F欄しか受からない程度の高校生が、あてずっぽで試験問題を解く方法と、ほぼ同じ。
低学力層の高校生に、英文和訳をさせると、まさにこの方法で「謎の和訳」をでっち上げてくる。
知ってる単語だけピックアップして、適当に文意を推し量って、謎の日本語文を捏造する。
マーク式の場合は、知ってる単語同士を適当に参照して、一番似ていそうな選択肢をマークする。

まだまだ、人工知能は自然言語のロゴスを追って理解解釈するレベルには、到底達していない。

【科学】人工知能「東ロボくん」、センター試験模試で900点満点中387点…全国400以上の大学でA判定[13/11/23]
http://anago.2ch.net/test/read.cgi/bizplus/1385265247/
【ロボット】人工知能「東ロボくん」、センター模試の偏差値は45、中堅私大よりやや下のレベルであれば十分合格可能
http://anago.2ch.net/test/read.cgi/scienceplus/1385212565/
776デフォルトの名無しさん:2013/11/25(月) 12:30:57.50
ていうかそんなのを人工知能と呼ぶのは詐欺
芝エビがどうの言ってる場合やないっちゅうねん
777デフォルトの名無しさん:2013/11/25(月) 19:29:14.90
こういう簡単に説明したものを真に受けて馬鹿にするようなやつにはなりたくないな
778デフォルトの名無しさん:2013/11/26(火) 00:50:57.60
>>774
CaboChaは木構造を出力するから解析が面倒じゃないかな
できるかもしれないが良い方法ではない
コマンドラインツールの出力をshellで解析するくらいならCやRubyから使ったほうがいい
779デフォルトの名無しさん:2013/11/26(火) 05:47:29.34
すでに訪れてる

http://www.nhk.or.jp/kaisetsu-blog/400/157084.html
アメリカでは人工知能の成果を応用した優れた会計のソフトが開発されたために、
ここ数年で会計処理あるいは税務処理の専門家が数万人も職を失ったと言われています。
780デフォルトの名無しさん:2013/11/26(火) 07:49:30.97
IT革命と呼んだ頃からそんなことは自明
雇用が増えるとか言ってペテン師が大臣やったりしたけどな
781デフォルトの名無しさん:2013/11/26(火) 09:34:40.75
おまえがバカであることが自明
782デフォルトの名無しさん:2013/11/26(火) 12:56:08.72
人間はより創造的な仕事へシフトすればいいと考えたが。そもそも創造的な人間が少ないことを忘れてた。
783デフォルトの名無しさん:2013/12/01(日) 03:52:12.32
機械学習の知識が既にある人向けの自然言語処理の教科書として
お勧めって何がありますか?
784デフォルトの名無しさん:2013/12/01(日) 10:43:49.79
質問が曖昧すぎ。それだけの知識があるなら
自分で何が必要かは探せるだろうに。
785デフォルトの名無しさん:2013/12/01(日) 20:56:48.40
>>783
自然言語処理のための機械学習入門
で機械学習がどういう風に使われてるか勉強すれば?
786デフォルトの名無しさん:2013/12/02(月) 17:10:35.11
自然言語は2つの領域に分けられる
1つはアスペの領域で、通常の科学や工学の領域。
1つは定型の領域で、既存システムを利用するコンピュータウィルスの領域
つまり、相手を攻略するための会話が定型の会話
定型の場合、相手の感情あるいはクオリアを操作するのがおおかたの目的

ちなみに、学校で教える国語はアスペの領域まで
言い換えると、攻撃ウィルスを想定しない科学・工学までの言語

んで、社会にでるとそれらを利用するサイコパスらが
ウィルス同様におまえらを操作して儲けるわけ
787デフォルトの名無しさん:2013/12/03(火) 08:20:26.98
>>783
国文法の教科書
788デフォルトの名無しさん:2013/12/03(火) 21:25:00.07
>>786
言いたいことはわかるけど中二病こじらせて陰謀論に染まってるなw
789デフォルトの名無しさん:2013/12/03(火) 22:33:20.07
>>788
まだ洗脳が解けてない方ですね?
この世界の慣習も文化も多くはサイコパスや自己愛らが作ったものですよ
まず、挨拶から考えるといいでしょう
なぜ挨拶をするのですか?
挨拶をしないとなぜ怒ったり嫌がらせをしたりするんです?
790デフォルトの名無しさん:2013/12/03(火) 22:47:33.76
Rとpythonどっちが便利ですか?
nltkのあるpythonもいいけど統計一般はRが充実
791デフォルトの名無しさん:2013/12/03(火) 23:00:04.28
お好みで
792デフォルトの名無しさん:2013/12/03(火) 23:04:29.70
それより、聞きたいことがあるんだよ
>>786 のウィルスの領域を扱う学問は言語学上存在しているのかい?
存在しているならその分野を知るのに適切なキーワードなり参考書なりURLが欲しい
793デフォルトの名無しさん:2013/12/04(水) 02:36:23.29
CRFで隠れ状態に離散値だけじゃなくて連続値も混ぜる事できないのでしょうか
794デフォルトの名無しさん:2013/12/04(水) 02:53:15.74
キチガイに触るな
かまってもらえると思って居着くだろ
795デフォルトの名無しさん:2013/12/04(水) 02:57:06.86
>>792,786
犬などの家畜を躾ける方法論を人間に適用してるだけだから
動物の訓練方法を探すといいかもしれない
796デフォルトの名無しさん:2013/12/04(水) 03:54:51.62
合理的に脆弱性を見つけるアルゴリズムを見つける学問は
現在のところ存在していないということでよろしいでしょうか?
797デフォルトの名無しさん:2013/12/04(水) 04:09:28.77
>>796
ダブルシンク
798デフォルトの名無しさん:2013/12/04(水) 16:16:55.77
実際対立してるよ。アスペと定型の会話が対立そのものさ
799デフォルトの名無しさん:2013/12/04(水) 16:29:20.70
だが、二重思考ではない
なぜ生物が免疫系を保有し
戦争において敵味方識別装置がなぜ必要なのか
を考えればよいだけだ
ちなみに、生物は核酸やタンパク質という言語でできている
800デフォルトの名無しさん:2013/12/04(水) 21:15:07.87
>>790
R & node.js
801デフォルトの名無しさん:2013/12/04(水) 23:27:34.98
>>790
R & Ruby がお薦め

・RとRubyによるデータ解析入門
 http://www.amazon.co.jp/dp/4873116155/
802デフォルトの名無しさん:2013/12/05(木) 07:19:05.43
http://blog.livedoor.jp/dg_law/archives/52165212.html

>どの科目もエンジニアリング的な手法でサイエンティフィックな手法ではなかった。

専門の研究者だけで固まっているような感じで、これでは「既成の研究成果」という枠組みからは出られない。
いくら正論でも他人の模倣ならその価値は低く、逆に誤謬であっても独自性があれば価値は高い。
世界のどこにも開発されていない分野を開拓するのであれば、素人の「一発ギャグ」に期待したいところ。

その日は朝から夜だった / 嘉門 達夫
http://petitlyrics.com/kashi/200133/

その日は朝から夜まで雨だった、は通じる。
その日は朝から雨だった、も通じる。
けれども、その日は朝から夜だった、は通じない。

「から」という助詞の解釈にしても、朝とか夜とかは「時間帯」という概念で理解されている必要がある。
朝という時間帯で同時に夜という状況はありえない、コンピュータはこのことを正しく理解しているか。

「概念辞書」の世界 鳥澤 健太郎 - NICT NEWS
http://www.nict.go.jp/publication/NICT-News/0912/02.html

コンピュータは数学でも未だに文章題が苦手であるが、文章題を読み解くための「概念辞書」をどうするかが重要と思う。
特に「共通概念」が掴めるようになれば、苦手の文章題も克服されるものと思われる。例えば、

小学1年生の算数の問題難しすぎワロタ
http://blog.livedoor.jp/nemusoku/archives/27609860.html

こういう数え上げの文章題は、「価格」と「商品」についての組み合わせの問題と理解すれば、
100円が1000円に変わろうと、チョコレートやせんべいがえんぴつや消しゴムに変わっても正しく応用できる。
803デフォルトの名無しさん:2013/12/05(木) 08:10:19.90
http://blog.livedoor.jp/dg_law/archives/52165212.html

>特に図像は,高校物理独特の表現が多く,

独特の表現が多いのであれば、それなら却って「この図のこの部分はこう解釈する」とパターン化できると思う。
全体が類似しているわけではなくとも、分割してここのこの部分が類似と、領域内の物体を単語に関連付ける。

テンプレートマッチング
パターンを検出するための小さな画像(テンプレート)を用意してお
き、与えられた画像の中を移動させて一致する場所があるか探す
画像同士を照らし合わせるため形の検出が正確
http://www.cc.kyoto-su.ac.jp/~g1045326/images/PowerLunch_20130417_SimilarImage.pdf

この研究では,領域分割アルゴリズムを用いて領域分割を行い,領域ごとの特徴量を利用して
領域内の物体を単語に関連付ける手法である。
http://www.kochi-tech.ac.jp/library/ron/2012/g25/M/1155089.pdf

例えば以下のような図柄理解に関しては、「下に凸のカーブと、それに接する円」とも考えられるが、
同時に円の内側に接する「動く物体」が存在すると認識される必要がある。
「宙返り」「ジェットコースターの模型」「車両の運動」だけでは理解困難だろうか。
これは「宙返り」の概念と、「ジェットコースター」が車両のカテゴリーに含まれることが理解できれば十分と思われる。
動物体の進行経路については「途中で宙返り」と書いてあるのだから、その概念に矛盾しないように解読すれば良い。
どこでどのように「宙返り」するかについての曖昧性解消は、既存の物理シミュレータで何とかなると思う。

この2010年のジェットコースターの問題は、受験生であれば、中央に1回のループがある連続したトラック
であると容易に理解できるが、この図だけからでは、下に凸のカーブと、それに接する円とも考えられてしまう。
そのどちらであるかは経験に基づく知識が必要であり、人工知能にとっては非常に難しい問題であるという。
http://news.mynavi.jp/articles/2011/12/15/21robot/001.html
804デフォルトの名無しさん:2013/12/07(土) 02:19:46.16
http://d.hatena.ne.jp/active_galactic/20131126/1385459165

>「カードを取り出してシャフルした後、印をつけ」みたいな多様な文を論理式に変換するプログラムは大変らしい。

カード → 裏と表、シャフルする(ランダムに並び替える)、(記号や数字が)書かれる
コイン → 裏と表、金額
玉   → (記号や数字が)書かれる、色分け

(箱や袋に入っている物が)カード・コイン・玉では、共通概念もあるが相違する概念もある。
例えばカードには裏表があるが玉には裏表が無く、コインには金額があるがカードや玉には無い。

テキスト含意認識に有効な意味類似度変換及びその獲得法
http://cgi.csc.liv.ac.uk/~danushka/papers/yokote2013.pdf

「概念辞書」で全てをカバーできない場合も、類似概念検索アルゴリズムを用いる方法もある。

バレーボールとサッカーボールを1個ずつ買いました。定価の合計は5500円でしたが、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10110007535
サッカーボールは何面体
http://www.morinogakko.com/classroom/sansu/zukei/tukuru/sei6/b1.html

また同じ「サッカーボール」でも、文脈によって「商品」として理解されるべき問題もあれば、
「多面体」として理解されるべき問題もあるし、「球」として理解されるべき問題もある。
こういうのはJava型の多重継承のオブジェクト指向で数学概念辞書を作成するしかないと思う。
805デフォルトの名無しさん:2013/12/07(土) 02:52:12.90
富士通のサイトで、このように投稿してやった。「 ××ニー 」なら大丈夫だろう。

特集:企業の持続可能な成長を支える「臨機応変な機動性」―不可避な変動に立ち向かう企業の鍵―
http://jp.fujitsu.com/group/fri/downloads/service/case/rep_vol6/total.pdf

>いかにして未来のニーズが書かれた有用な記述だけを、モレなくノイズなく収集するのか

これは「独自性」をいかにして検出するかに尽きる思う。それとこれとは何がどう違うのかを明確にする。

自然言語処理と言い換え   乾 健太郎
http://www.cl.ecei.tohoku.ac.jp/~inui/papers/0711Nihongogaku.pdf

人間は誰でも誤謬をするものだし、誤謬であっても「独自性」があれば一発ギャグにはなる。
逆に正しい情報でも、ごくありふれた記述であれば汎用コピペと同じで、その価値は低い。
同じような内容の繰り返しなら、一くくりにまとめてゴミ箱に捨ててしまったほうがいい。

>生活者の行動実態を知るうえで「有用な情報」である「生活者が特定の行動に至った理由やその結果抱いた心理等」

生活者の行動実態といっても、以下のように「老若男女誰でも日常的にやってること」は省くことが大切。

Twitterで××ニーしたこと報告するのやめろよ。誰もお前の××ニーになんて興味ないんだからさ
https://twitter.com/tamu067/status/337137531118301184
806デフォルトの名無しさん:2013/12/08(日) 13:00:38.90
まずは貴様がオナニーを2ちゃんねるに書き込むのをやめろ屑
807デフォルトの名無しさん:2013/12/08(日) 19:18:26.04
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!
808デフォルトの名無しさん:2013/12/08(日) 19:23:51.23
くだらなすぎて誰も述べないだろう。
809デフォルトの名無しさん:2013/12/08(日) 20:45:44.46
自然言語処理の面白いとこって
言葉の持つ法則性を解き明かすことにある気がする
810デフォルトの名無しさん:2013/12/08(日) 21:18:02.00
言語だけに拘りすぎるとその先ができなくなる。
お前の目指しているのは文法の先生さ、

日常会話で文法がまちがっているよと忠告するキチガイ機能を目指せ!
811デフォルトの名無しさん:2013/12/08(日) 21:47:54.07
>>809
なら「チンボがシコシコする」ってのはどうだ?
812デフォルトの名無しさん:2013/12/09(月) 18:21:08.08
美少女と排便について述べる奴は無尽蔵にいるのに不思議だな。
813デフォルトの名無しさん:2013/12/11(水) 21:12:59.06
俺がこのスレLive2chで開いた時、>>412からだったw
約2年だな
814デフォルトの名無しさん:2013/12/11(水) 21:33:13.20
自然言語処理は日本語でやる場合は相当難しいという話を聞くな
研究ってどこまで進んでんだろうか
815デフォルトの名無しさん:2013/12/11(水) 22:15:10.64
難しいぞ
アルファベットタイプの言語からすると大変
確かに、何かいい論文とかあればいいんだけどな
誰か知らない?
816デフォルトの名無しさん:2013/12/12(木) 01:00:59.45
まず普通に入門書なり教科書なりは読んであるわけ?
817デフォルトの名無しさん:2013/12/12(木) 01:55:19.63
Googleって日本語解析どうやってるのかな?
形態素やN-Gramとかあるけど何使ってるんだか
普通に考えれば、ひらがな入力で漢字や英文のオートコンプリートや検索結果ってかなり難しいんじゃないかと思うんだけど
818デフォルトの名無しさん:2013/12/12(木) 07:30:50.16
IMEと一緒だよ
GoogleにはMeCabの作者もいてGoogle IME作ってるしな
819デフォルトの名無しさん:2013/12/12(木) 08:05:28.23
そうなのか?
作者京大の教授じゃないのか?
820デフォルトの名無しさん:2013/12/12(木) 10:17:06.87
それは点推定の人じゃね
821デフォルトの名無しさん:2013/12/12(木) 15:04:01.16
822デフォルトの名無しさん:2013/12/12(木) 22:25:12.15
そもそも古文と現代文では、語句の意味が全く違っている場合も多く、
また現代文においても、状況によっては標準語と全く異なる場合もある。
例えば相撲部屋で言う「かわいがる」は、標準語のそれとは全く違う。
このように自然言語というのは囲碁や将棋のように決まった規則があるわけではなく、
従って「言い換え辞書」とか「概念辞書」とかは人力で作成するしかないと思われる。
また人間でも「女は子供を産む機械」(柳澤伯夫)とか、意味不明な発言をする場合もある。
辞書的には「女」の上位概念はあくまで「人間」「生物体」であって、「機械」とは相反する。
823デフォルトの名無しさん:2013/12/13(金) 16:16:03.04
http://japanese.ruvr.ru/2013_12_13/125824605/

>英語と国語では成績がかんばしくなかった。テキストの理解には深い理解が必要なため。

語学というのは囲碁や将棋や数学とは違って規則性が曖昧なので、この文はこう解釈する、
この文とこの文はこう繋がっているのだと、人力で十万通りくらいの構文解析をしインプットして、
コンピュータはそれをもとに推論するとか。

http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf

>ガ格の省略はこの選択選好に関する候補の絞り込みが難しく,
824デフォルトの名無しさん:2013/12/15(日) 01:41:37.86
Wikipedia、hatena以外に見出し語、キーワードダウンロード出来るとこ知らない?
GoogleやYahooはしてないのかな?
825片山博文MZコスモ ◆T6xkBnTXz7B0 :2013/12/16(月) 18:16:45.83
「人の嫌がることを進んでやります」

この文には2つの意味がある。
826デフォルトの名無しさん:2013/12/16(月) 22:49:50.30
twitterのBotがCabochaとProlog使ってると知って驚いてる
827デフォルトの名無しさん:2013/12/17(火) 20:11:51.71
828デフォルトの名無しさん:2013/12/17(火) 20:13:11.66
N-gram って日本語の論文で普通に登場するけど、シャノンの訳書でN-gram をそのまま使っているものは無いのかな

どれも n 重字とか n 字組とか訳しているみたいだ
829デフォルトの名無しさん:2013/12/17(火) 23:41:23.33
東ロボくんは画像処理が課題と言いつつ画像処理はほぼやってないのが謎
830デフォルトの名無しさん:2013/12/18(水) 05:02:43.92
あのさ、mecab使ってるんだけど、
Wikipediaやhatenaなど利用してる場合、
2つの方法で辞書登録したんだけど、
XperiaZを解析すると
一方では
X : ガンダム
peria :
Z :
となり、他方では
Xperia :
Z :
となった
前者は問題外だけど、後者も理解してXperiaを抽出しているような感じがしないんだよね
いずれにせよ、辞書登録の際は先に辞書登録されてる方が優先されるとかあるのかな?
X先だとX/periaに分割されて、Xperia先だとそのまま抽出されるとか

もしスレ違いだったら、どこで聞いた方がいいか教えてくれない?
831デフォルトの名無しさん:2013/12/18(水) 13:42:38.74
ちょっとなに言ってるのか分からない
ユーザー辞書のことなら文脈IDやコストを適切に設定しなければならないけど
そのあたりは理解している?
832デフォルトの名無しさん:2013/12/18(水) 17:18:01.70
>>831
ごめん、こっちも言ってることがよくわからない
知識不足で
そのコストとかIDとかその辺の事学習してみたいんで、オススメのサイトとかあったら教えてくれない?

自分はWikipediaとhatenaからキーワードをダウンロードして辞書を作ったんだけど、
一度目のはhatenaの方のカタカナ読みが文字化けしてしまって、別のやり方試した
で、一度目はXperiaを認識したけど、二度目は認識しなかった

自分で一からユーザー辞書を作っていければいいんだけど
重複もないだろうし

自分が疑問に思ったのは、XとPeriaとXperiaという文字が辞書に登録されていた場合、文章中のXperiaという言葉をどれで認識するのだろうかと思った
どれでもありえるんで
833デフォルトの名無しさん:2013/12/18(水) 18:15:12.69
あぁ、なるほど
つまり、文脈IDとコストで決まるってわけだね

今自分のHDDが壊れてどうにもならなくなって自分のを確認できないんだけど、
一般的にネット上にあるWikipediaとhatenaを使ったやり方ってコストとかの事まで考えられてたっけ?
マニュアル見ると、ID部を空にしてれば自動的にIDを付与するって書かれてるし、ネット上ではだいたい皆、0とか-1に設定しているようだね
コストに関しては計算式を入れてるようだけど、あれで厳密に計算されてるんだろうか?

でもこのIDやコストって厳密に設定してる人ってどうやって登録してるの?
IDも難しいけど自動でみてくれるっぽい、でもコストの設定は一番大事
手作業で何十万の言葉を調整していくわけにもいかないだろうし
暫く文章を解析しまくって、出現回数のデータを得てプログラミングで割り振っていくのも可能かもしれないけれど、
XやPeriaのコストが元々小さい場合はXperiaの出現数はカウントされにくくなってるだろうからね
N-gram併用しなきゃダメなのかな?
834デフォルトの名無しさん:2013/12/19(木) 08:40:44.90
>>833
信頼できる情報:
http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.html
http://chasen.org/~taku/blog/archives/2007/06/yahoomecab.html
コスト計算に関しては、ブログになどに書かれている計算式は間違っていると
作者の人がどこかで言っていたけどソースが見つからなかった。

経験的にだけど、すべて固有名詞でよいなら、
MeCabのモデルを学習した辞書から似た使われ方をするであろう固有名詞の行をコピってきて単語だけ変えればうまくいく。
例(naist-jdicの場合): YouTube,1360,1360,4975,名詞,固有名詞,一般,*,*,*,YouTube,,,,
文字化けする場合、MeCabの文字コードと辞書の文字コードが合ってないので
mecab-dict-indexの-f -tオプションで文字コードを指定する。
また作ったユーザー辞書は、mecabrcでuserdicに指定しないと使われないので忘れずに指定する。
835デフォルトの名無しさん:2013/12/21(土) 22:09:47.27
漠然過ぎて悪いんだけど、文章どうしを比較して類似性を判断する方法って
今どれが一番いいんですか?
レーベンシュタインとか色々あるけれども
例が難しいけれども、簡単な例で言えば、
東京都知事の辞任について扱っているニュースは沢山あるけれど、
それらを一気に類似と分類する場合など
教えてもらえないですか?
836デフォルトの名無しさん:2013/12/22(日) 03:57:22.22
リンゴを食べた。
ミカンを食べた。
ウンコを食べた。

さて上の3つの文で、仲間外れはどれでしょう?
837デフォルトの名無しさん:2013/12/22(日) 04:19:47.47
「ン」が真ん中にない「ミカン」が仲間はずれだな
838デフォルトの名無しさん:2013/12/22(日) 07:05:10.61
>>837
文字列だけで比較すればそうだが…
839デフォルトの名無しさん:2013/12/22(日) 13:50:02.24
>>835
trigramでtf-idfのコサイン類似度を比較するのが簡単で速い方法だな
編集距離は重過ぎる
分類はPAやSCWのような線形分類器で学習する
もっとよい方法を求めるならググれ
840デフォルトの名無しさん:2013/12/23(月) 01:42:55.63
 今の教育システムは、明治以後、人材を効率よく育てるため、労働力の質を向上させるため
に最適化されたシステムです。今日のような情報通信の発達を前提としていないので、現代に
合った内容に変えるべきではないでしょうか。
 また、今の教育は、計算が出来る、英文が訳せるなど、技能の習得に注力しているように思
えます。しかし、これからの時代は技能だけで は足りません。国語や数学、物理、生物などの
教科や科目の枠は、過去において効率よく教育を行うために人為的に作られたものです。コン
ピューターに代替できる技能はある程度、教える内容を絞り、物事の根源的な仕組みを考える
ことや、 異なる意見を聞いて意味を考えること、 横断的に物事を見る力を養うことも、科学技術
を基盤としたグローバル社会において必要な教育ではないでしょうか。
http://berd.benesse.jp/berd/center/open/kou/view21/2013/12/pdf/kou201312_mirai.pdf

東大特進コース
2013年版 合格体験記
東京大学 理科II類
■センター試験得点 806点/900点
■センター試験得点選択科目 化学・生物・倫理、政治経済
前期試験得点
開示得点 英語80+数学6+国語58+化学41+生物42=227/440点

417 番組の途中ですがアフィサイトへの転載は禁止です[sage] 2013/06/03(月) 21:12:51.34 ID:bXkX9Mng0
この人が一番すごいのは国語だろ
58/80ってえぐいわ
でも数学この点数ってことは、文系との共通問題すら落としてるってことだよな
流石に20-30点くらいはとってほしいわ

数学6点で東大に合格した神がいると話題に(448)
http://www.log-channel.net/bbs/poverty/1370135090/
841デフォルトの名無しさん:2013/12/23(月) 13:29:24.73
>>839
なるほど、ありがとございます
842デフォルトの名無しさん:2013/12/27(金) 06:33:05.22
難関大学の理科の図解問題は、過去問の図柄がそっくりそのままが出題されるケースは少ないので、
類似の部分だけを選択検出して考察比較するアルゴリズムが求められる。

我々のがん認識システムでは、まず正常な組織の画像データを学習する。具体的には、あらかじめ用意した
多数の正常な組織の画像に対して、HLACの特徴ベクトルを算出する。これが対象画像の性質を表現する特徴量となる。
これらに主成分分析などの統計処理を施すと「正常であること」の性質を得ることができる。この正常である特徴量と、
検査サンプル画像からも同様に抽出したHLAC特徴ベクトルとの逸脱量を定量化することで、高精度にがん部位を検出できる。
胃がん組織の識別予備実験を行ったところ、画像データ74件に対し、がんの見落としはゼロ、正常な組織をがん組織と
識別した過検出を4%に抑えることに成功した [2]。
従来の方法は画像から「がんの特徴を持つ細胞や組織」を探し出そうとしてきた。すなわち、画像中の細かな対象物を様々な
観点から形態的特徴を一つ一つ計測し、あらかじめ定めておいた異常条件(がん細胞や組織の持つ特徴)と照らし合わせて
判定していた。しかし細胞や組織には様々なバリエーションがあり、異常の条件を事前に全て定義しておくことは原理的に
不可能である。病理医は多くの正常組織を見ているために、「いつもと何か違う」ということを直感的に感じ、がんを発見する
ことができると言われている。我々のHLACによるアプローチは、この診断過程と同様の仕組みをコンピュータ上に実現
したものであると言うことができる。
http://itri.aist-go.jp/project/cancerhlac2.html

グラフカット(Graph Cut)Add Star
情報処理
ここで説明するグラフカットは、画像の領域抽出などで使用される手法の1つ。
■ 用途
たとえば、写真画像から背景と前景物を分離したいとか
http://d.hatena.ne.jp/Zellij/20131004/p1

どのように領域抽出するかについては、分割統治法で様々なバリエーションを用意しておく。
そしてその一つ一つに、細かく人力で意味づけ・タグ付けをインプットしておく。
843デフォルトの名無しさん:2013/12/27(金) 07:18:23.21
>>839
今やナイーブベイズやComplementタイプのやつは使われないの?
844デフォルトの名無しさん:2013/12/27(金) 12:12:22.45
>>843
類似性の指標にNBってどういう使い方を想定している?
845デフォルトの名無しさん:2013/12/27(金) 19:44:03.48
分類の話だろう
NBは悪くはないだろうけど、もっといい手法がたくさんあるから使わないな
846デフォルトの名無しさん:2013/12/27(金) 22:55:14.37
じゃぁ例えば?

分類であればナイーブベイズやベルヌーイ使ったやつやSVMが有名(と言うか基本か)、対数線形、カーネル法
クラスタリングはk-means法、PLSI、EMアルゴリズム
後は、ニューラルネットワーク
類似はコサイン、ユークリッドなどが基本だけど
教科書通り述べたようになったw
847デフォルトの名無しさん:2013/12/28(土) 06:44:06.64
少し前のレスくらい読めよ馬鹿
848デフォルトの名無しさん:2013/12/28(土) 13:03:24.05
自然言語処理で最も参考になる本を教えてください。
849デフォルトの名無しさん:2013/12/28(土) 14:57:19.01
自然言語処理も下火になったよな
一番熱気があったのは2年前だな

と言うかIT全体が下火になってるけど
色々とやり尽くされて、余地がなくなってきた
なんとかアップデートとかで食いつないでる感じだ
ダセェ
850デフォルトの名無しさん:2013/12/28(土) 16:40:38.03
最終的にはニューラルネットワークがいいんだろうけど、どんだけハードが必要になるのかと考えると恐ろしい
851デフォルトの名無しさん:2013/12/28(土) 22:22:23.84
東ロボくんで盛り上がってんじゃないの?
852デフォルトの名無しさん:2013/12/29(日) 05:45:40.00
>>850 そりゃない。
ニューラルネットワークは確かに夢のあった技術だけど、
deep learningで、ある意味底が見えちまった。

結局アーキテクチャの設計思想からして別物過ぎる。
どんなに頑張ってもニューラルネットワークで出来る事は、別の手法使った方が
効率よく効果的に分かりやすく出来てしまう。

なんらかのテスト段階で試行錯誤するときに、とりあえず打っておく手としては
とても良いと思うけど、原理やモデルが確立されたモノには適わないってのはやっぱり弱いよ。
それに、ハードよりもまともな技術者が少なすぎてブラックボックス化の上に、
まともな議論が成り立ってないしね。deep learningで盛り上がってくれれば・・・・・と期待してたけど、
結局はチョロ火で終わりそう。
853デフォルトの名無しさん:2013/12/29(日) 05:49:18.22
>>851
盛り上がるとして、あと数年先じゃない?
今の所は、サイコロ振らせた程度+αの回答能力じゃなかったっけ?
というか、たぶん一般の人には興味ないネタだと思うんだ、

IBMのワトソンプロジェクトじゃないけど、
最低限もっと人が普段から目にしてるようなモノでデモンストレーションしないと・・・・と。
854デフォルトの名無しさん:2013/12/29(日) 07:44:02.10
そう言えば、AZ-Prologの組込にニューラルネットワーク述語が入ったね。
855デフォルトの名無しさん:2013/12/29(日) 08:30:18.75
>>854
あの処理系の後ろ盾にソフトバンクがいるから。来年何かやろうって
いう事でしょ。自然言語処理以外考え難いが。
ソフトバンクがPrologで求人掛けるようなら本気と見てよいが・・。
856デフォルトの名無しさん:2013/12/29(日) 08:56:56.90
>>855
前回はADSLの故障診断です。自然言語処理、例えば音声応答システムとは
大分隔たりがあります。
857デフォルトの名無しさん:2013/12/29(日) 08:59:49.00
>>856
そうだね。
858デフォルトの名無しさん:2013/12/29(日) 10:31:16.00
自然言語処理って東ロボくんでいうと論理式に書き換えるところまでが自然言語処理だよな。
859デフォルトの名無しさん:2013/12/29(日) 16:14:18.43
東ロボくんの今年までの活動はとりあえず点数出すことで、ガチな研究は来年以降らしい
860デフォルトの名無しさん:2013/12/29(日) 20:14:32.02
>>847
レス、大変な思いして全部読んだぞ
書かれてなかったぞ
>>839のこと言ってるのか?
861デフォルトの名無しさん:2013/12/31(火) 08:17:17.66
>>852
word2vecは面白かったよ
分類でも精度よいらしいし
そういう結果があればやろうとする人も出てくるからこれからじゃね
862デフォルトの名無しさん:2014/01/01(水) 08:20:47.99
>>855
うまくいけば画像処理まで手が届くかもしれん
863デフォルトの名無しさん:2014/01/01(水) 19:21:25.99
http://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2007/zemi07-clustering.html
これ読んでみたんだけど、情報が古い
クラスタリングについて色々詳しく書かれていて参考にはなったけど
k-means法を主体にして派生させたものが載ってる
でも今クラスタリングで主流なのってどんな方法なの?
やっぱり未だに文書に対してはk-means法を元に、派生したものが使われてるのかな?
K個のクラスを前もって自分で決めるってやり方はあまり良くないと思ってるんだけど
まぁ上のレポートでも自動で個数を決めるってのもあるようだけど、2003年の時点では実用的じゃないみたい
864デフォルトの名無しさん:2014/01/01(水) 23:49:22.16
>>863
クラス数決めるのは難しい
AICでクラス数決める方法とかあるけどあまりうまくいかない
最近はクラスタリングではなくトピックモデルを使うことが多い
865デフォルトの名無しさん:2014/01/02(木) 01:49:29.85
おっ、素晴らしい情報ありがとう
そっかぁ、やっぱクラスタリングは、下火になったか
コンセプトが良くないもんなぁ
クラスタ数が知りたいのに自分で前もって決めないといけないなんて

トピックモデル、学習してみる
ありがと
866!omikuji:2014/01/02(木) 05:21:26.10
k-meansは再現性がイマイチだしなあ。
867デフォルトの名無しさん:2014/01/02(木) 14:46:20.10
トピックモデルをザッと調べてみたけど、結構複雑なんだね
LDAの事が良く出てくるので、LDAってのが一番人気なのかなぁ?
LSIやPSLIもトピックモデルに含まれるの?
自分はクラスタリングに含まれているのかと思ってたんだけど
868デフォルトの名無しさん:2014/01/02(木) 16:43:22.24
PSLIって実装は厳しいんじゃないの?
計算量が膨大になる為、速度が遅いって聞いた
今何が主流なのかは知らない
869デフォルトの名無しさん:2014/01/02(木) 16:45:02.79
>>867
基本的には、全部あってるよ。
LSIもPCAもLDAも、次元縮約手法。
そして、次元縮約はほとんどがクラスタリングとしても使える。
870デフォルトの名無しさん:2014/01/02(木) 16:45:50.20
>>868
もう、論文忘れたけど、高速にpLSIさせるのが出てたはず。
871デフォルトの名無しさん:2014/01/02(木) 20:51:21.73
クラスタリングとしても使える、じゃなくて、クラスタリングの下準備として使える、だろ。
872デフォルトの名無しさん:2014/01/02(木) 22:42:18.61
LSIやLDAの話が出ているので便乗質問させてほしいのですが、LSIもLDAも次元を縮約するんですよね
しかし、その縮約のためには、上で書かれているようにk-means法でクラスタ数を自分で決めないといけないのと同じで、自分でトピックス数を決めないといけないと思います
結局、こういう教師なし手法とかはどのようにして自動化するのがいいのでしょうか?
文書のまとまりなどを与えると、自動で分けてくれるというような意味です
873デフォルトの名無しさん:2014/01/03(金) 03:20:01.29
>871 ソフトクラスタリングって言葉を調べてみれば分かるよ
>872 日本語でおk?
正直、ナニヲしたいのか?どういった目的なのか?そもそも、何を答えて欲しいのかも分からんが、
機械学習は万能じゃない。ただ、当たり前だけど自動でトピック数を決めてくれる手法もあるし、
問題に対する解決モデルが既にあるのなら、適度にAICとかで試行錯誤してくれるようにすればいいよ。
もっとも、そんな部分的な問題解決法を一つ二つ知った所で大抵は意味ないと思うけど。
繰り返しになるけど、機械学習は万能じゃ無いし、思われてるほど汎用性が高いわけでも無い。
まぁ、だから様々な機械学習の手法が提案されてるんだけどさぁ。
874デフォルトの名無しさん:2014/01/03(金) 08:39:59.40
コンピュータに自動で分けてもらうには
この分け方とこの分け方どちらが優れているか?
ってのを評価できる式が必要で
それがあるならクラス数を指定するアルゴリズムでクラス数を変えながらいくつも試して
もっとも評価がいいパラメーターを採用すれば、自動で分けた事になるだろ
875デフォルトの名無しさん:2014/01/03(金) 08:45:36.81
なんかこのスレではやたらAICが出てくるけど
クラスタリングの情報基準はBICのほうが定石じゃないの?
876デフォルトの名無しさん:2014/01/03(金) 14:06:48.59
tfidfの方が色んなとこに使われてるけど、LDAで縮約した方がその後の計算少なくなるよね
次元数が小さくなるから
でも適用時に関しては、LDAの方が計算量や処理が多い
一概には言えないだろうけど、結果としては精度、速度どっちの方がいい?
与える文書の数が多いほどLDAと思うけど
877デフォルトの名無しさん:2014/01/03(金) 14:21:06.50
自分で言ってるように目的によるだろう。
検証して結論を出すのがいいのでは?
878デフォルトの名無しさん:2014/01/04(土) 17:19:35.80
頭のあまり良くない自分に教えて下さい
http://www.mathworks.co.jp/jp/help/stats/supervised-learning-machine-learning-workflow-and-algorithms.html
教師ありを検索すると、未だに上のような情報が出てきます
SVMや単純ベイズなど
で、SCWなどを見てみたのですが、ザッと見、SCWもSVMと同じ二値分類の手法に思えます
一つの文書を6つにカテゴリ分けした集合に分類するには、
やはりその文書をSCWによって6回計算し、その中で一番スコアの高かったカテゴリに入れるというやり方になるのでしょうか?
カテゴリ数と、計算させる文書の量が多くなってきたら毎回かなりの計算量になるなぁと思うのですが
879デフォルトの名無しさん:2014/01/05(日) 04:34:20.55
>>878
当たり前てかone versus the rest classifierが一番計算軽いんじゃね
使えるならsoftmax functionを使うと一度に学習できる
880デフォルトの名無しさん:2014/01/05(日) 04:57:54.76
SCWはPythonモジュールが無いからダメ
と言うか、プログラム、スクリプト書けるけど数学が理解出来ない俺が悪いんだけど...
誰かモジュール、ライブラリ作ってくれないかなぁ
881デフォルトの名無しさん:2014/01/05(日) 11:48:09.35
>>875
今更だけど、このスレでAICとか言ってるのは
AICがBICよりも優れてるとかじゃなくて、其れぐらいしか指標が無い時点で
「問題の切り分けに失敗してるか、アルゴリズムの選択がおかしいか、モデル化が出来てないか」
「そもそも、それナニをしたいの?自分で自分の目的分かってる?どういう風に其れが出来ると思ってる?」
って段階で間違ってるんじゃないの?という事だろ。

AICやBICで良いモデルを選んでも、大概の場合、やるほどの意味が無い。
(規準に対しての最適モデルが、いつも一番という保証は無いし、
 そもそも以外と多くの場合で求める条件に外れてたりで、使えなかったりするし)

むしろ、適切に問題をモデル化したり、問題切り分けて、各個を最適化させたり
交差検定した方が1000倍は意味ある。
882デフォルトの名無しさん:2014/01/05(日) 12:00:41.79
>>878
ちゃんとは読んでないけど・・・
(そもそも、そのリンクだとSCW出て来てないよね??)

Soft Confidence Weighted Learning
のことだよね?
だったら、 まず計算させる文章量が多くなってきたら・・・ってのが意味分からん。

それは置いとくとして、多クラス化については、
Multi-Class ConfidenceWeighted Algorithms
とかって論文もあるし、 Confidence Weighted関連のから探れば
多分色々と見つかるとおもうよ。
883デフォルトの名無しさん:2014/01/08(水) 01:12:40.37
「高麗人参がもつ機能性は...」
この場合、形態素で分けると高麗と人参になりますが、
これを高麗人参と認識させるにはどのようなプロセスで辞書に登録すればいいんですか?
そのまま形態素させてると、いつまで経っても学習しませんよね?
位置情報を登録し、高麗の後に人参が来る可能性、確率を出しておくって対応は出来るかもしれませんが
いわゆるチャンクのとこの考え方のように、形容詞の後に名詞が来る...とかありますがめんどくさいです

自分のイメージする限りでは、機械学習ではなく、人力で登録しメンテナンスしていかないとダメなんじゃないかと思います

高麗人参だと医薬品だと認識できると思いますが、
高麗と人参だと、歴史と農業だと認識してしまうかもしれません

どのようにすればいいのか教えていただけたらと思います
884デフォルトの名無しさん:2014/01/08(水) 09:45:07.34
今時の計算機資源なら、「高麗人参」を辞書に追加すればいいだけだろ。

政治的理由で嫌なら独力でなんとかしてくれw
885デフォルトの名無しさん:2014/01/08(水) 10:16:57.47
いやそうなんですが、大量に文書を読み込ませていると、
そういう連語がたくさん出てくるので処理しきれなかったり、気が付かなかったりするので
それが後々、クラスタリングや分類の処理で少し誤差が出てくる可能性もあるんじゃないかと
886デフォルトの名無しさん:2014/01/08(水) 12:51:53.25
参照: ベイズ階層言語モデルによる教師なし形態素解析
887デフォルトの名無しさん:2014/01/08(水) 13:57:04.78
ありがとうございます
888デフォルトの名無しさん:2014/01/12(日) 03:24:21.77
辞書データに語を追加するときコスト値をどうやって決めるのか悩んでます
googleの検索数「約 19,100 件」みたいな値を利用できないですか?
889デフォルトの名無しさん:2014/01/12(日) 06:16:01.37
>>888
よくわからんが、普通に追加用のコマンドとかあったような。
ちゃんとマニュアルなりヘルプなりみてみれば
890デフォルトの名無しさん:2014/01/12(日) 08:08:00.06
>>889
追加にはコーパスが必要かと思ってたら
modelとmecab-dict-index使ってコスト自動推定する場合は必要ないんですね
スレ汚し失礼しました
891デフォルトの名無しさん:2014/01/15(水) 12:55:09.81
機械分野の文章なら「内蔵」を上位に、医療分野の文章なら「内臓」を上位にするアルゴリズムは無理ですか。

アンドロイドのデバイスは「内蔵」か「内臓」か、それが問題
http://godwood.allnet.ne.jp/vioret/2013/09/06/android-internal-device-ja-naizo-or-naizo/

「メモリースロット」「充電端子」と前文にあるなら「内蔵」、「食道」「膵臓」が前文にあるなら「内臓」。
これくらい単純なアルゴリズムなら実用化されていてもしかるべきと思われるが、どうか。

端末操作スマートアシストソリューション
FUJITSU Software Simplewrite(シンプルライト)
http://jp.fujitsu.com/solutions/simplewrite/

過去の文章を登録しておくというやり方は既にあるそうだが、文脈によって同音異義語を使い分ける
日本語入力ソフトウェアというのは聞いたことが無いが、何が難しいのだろうか。
アルゴリズムが複雑になりすぎると動作が鈍くなってしまうのだろうか。けれども最新のPCならそうでもないはず。
892デフォルトの名無しさん:2014/01/15(水) 13:46:08.96
初歩的な質問で済みませんが、格文法と概念依存理論の違いってなんですか?
893デフォルトの名無しさん:2014/01/15(水) 14:20:17.08
ぐぐったらこれが分かりやすかった
http://homepage3.nifty.com/itako/hinshi_kaku.html
894デフォルトの名無しさん:2014/01/15(水) 14:28:12.95
http://pr.fujitsu.com/jp/news/2013/11/25-1.html

>(1-a) 単語の間の文法的関係の認識 (構文解析)
>(1-b) 単語の意味表現から文の意味表現を合成 (意味合成)
>(1-c) 文の間の論理関係の認識 (文脈解析)

入試問題というのは何十年もの中学入試高校入試大学入試の過去問が蓄積されており、このビッグデータを活用しない手はない。
といってもコンピュータは今のところ人間の言語を解する能力が無いので、こういうのは専ら『人力』でやるしかない。
だからそれらを元に『人力』で百万通りくらいの解釈例を作成しておいて、それを元にコンピュータが推論するというのはどうだろうか。
概念辞書・類似概念検索システムとも併用すれば、高い確率でコンピュータにも正しい文脈解析ができるようになるかもしれない。

http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf

>ガ格の省略はこの選択選好に関する候補の絞り込みが難しく,

こういうのも現段階では自動化は無理ゆえ、専ら人力でやるしかない。コンピュータは現実のものの概念を全く理解していないからだ。

極端な話、中学入試高校入試大学入試の数十年分の過去問を、一文一文『人力』でここはこう解釈する、こことことはこう繋がっていると人力でインプットする。
困難な含意認識にしても、過去何十年分もの膨大な入試過去問を一文一文『人力』で詳細分析して、これはこう解釈するのだと人力でインプットする。
またそれでも足りない部分があれば、ユーザーの要望を入れて更に『人力』で追加インプット・アップグレードしていけばよい。

http://cccpcamera.asablo.jp/blog/2010/04/14/5016766
 AOをはじめた時は、知識やテクニックに頼らない数学の本質を試すような問題を出そうと思ったのだろうけれど、出題者側が息切れしてます。

#入試数学で言えば、「知識やテクニックに頼らない数学の本質を試すような問題を出そう」と意気込んだところで、実態はこんなものだ。
#そういうわけで数学などは中学入試高校入試大学入試過去問合計10万題を『人力』で詳細に文脈解析してインプットすれば大きく伸びると思われる。
895デフォルトの名無しさん:2014/01/15(水) 14:31:07.96
>概念辞書・類似概念検索システムとも併用すれば、

あと問題の設定を多少変えられても対応できるように、類似問題・類似概念・類似解法検索システムを用意しておきたい。
896デフォルトの名無しさん:2014/01/15(水) 14:43:03.29
>>893
ありがとうございます
897デフォルトの名無しさん:2014/01/19(日) 09:34:53.34
http://ascii.jp/elem/000/000/856/856376/

>この文章に合うイラストを選びなさいというのは実際の写真を選ぶより難しい。すごく抽象化された図になっている。

コンピュータは我々人間にとってごく当たり前の日常生活を把握していないので、日常生活に関するイラストは理解
できなくて当たり前。物理はパターンが限定されるが、語学は日常生活のあらゆる状況を網羅しなければならず、難易度はより高い。

とはいえ人間にだって、解説抜きでは何を描いたかわからない美術作品も多い。
芸術家というのは日常生活に存在しないものを描く場合もあるからだ。

ピカソは、わからない絵をわざとかいた?
http://www1.bbiq.jp/~egapemoh01-21/art21sozo/artmuseum-q-a55-picasowakaranai.html
898デフォルトの名無しさん:2014/01/19(日) 10:50:14.46
仮想環境で人とロボットの共存社会をシミュレートする
http://www.nii.ac.jp/userimg/openhouse/2013/008.pdf
歩行者シミュレーションシステム「Sim-WalkerR(シム・ウォーカー)」の開発と展開
http://www.kajima.com/news/press/201309/2c1-j.htm
精密人間モデルを用いた集団避難シミュレーション
http://www.jsme.or.jp/publish/kaisi/131104t_.pdf
899デフォルトの名無しさん:2014/01/19(日) 12:28:12.57
http://www.jukushin.com/archives/16047

>ブルーベリーとホイップの配置が異なる4種類のショートケーキ

こういうのはブルーベリーの何たるか、ホイップの何たるかを考察させるのではなく、形状の違いだけを認識させる。
また図上のどの部分がブルーベリーでどの部分がホイップなのかは、領域分割アルゴリズムを組み込む。

一般物体認識の解
http://www.vision.cs.chubu.ac.jp/~hf/RoboticsSeminar2013.pdf
900デフォルトの名無しさん:2014/02/06(木) 12:15:31.67
「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、
目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、
名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
901デフォルトの名無しさん:2014/02/06(木) 13:51:04.21
そういうのパッケージとか、便利に使えるの公開されてないの?
902デフォルトの名無しさん:2014/02/06(木) 20:12:58.98
あるものもある。
ないものもある。
903デフォルトの名無しさん:2014/02/06(木) 20:43:19.03
は?
904デフォルトの名無しさん:2014/02/06(木) 21:53:07.84
>>894
>ガ格の省略はこの選択選好に関する候補の絞り込みが難しく,

日本文読み上げソフトを作るにしても、文の意味を把握しないで棒読みするだけでは不十分。類似概念検索システム
と類似構文検索システムと概念辞書を駆使したい。機械翻訳についても同様で。単語と文法だけに依存するのは心細い。
それとた一文ごとに閉じた翻訳というのも問題があり、京大入試の英語試験のように、前後の文脈を把握しながら
訳すシステムが望まれる。概念辞書はJAVA型の多重継承が良いだろう。類似構文検索システムは、
多くの例文を用意し。困難なガ各の省略にも対応できるよう、前後の文も含めて類似構文を検索できるように、
膨大な解釈例を用意しておきたい。また主語と述語と目的語だけでも文意は通じるので、形容詞や形容動詞は
類似構文検索システムではある程度は省略可能とする。。幸いにもパソコンやサーバーの性能は飛躍的に向上しており、
いくつかのアルゴリズムを同時に適用しても翻訳速度はそんなに落ちないだろう。
905デフォルトの名無しさん:2014/02/06(木) 22:15:31.93
20字以内で日本語入力すると高い確率で仮想世界シミュレータが動作するようにする。例えば「ボールを蹴る」と入力すると、
人がボールを蹴ってボールが飛ぶ情景が映し出されるとか、「朝飯を食べる」と入力するとパンをかじったり味噌汁を
すすっていたりする情景が出るとか。
"井戸ロボ"仮想世界シミュレータを、20字以内の日本語入力で動かせるようになれば、コンピュータはより身近な存在になる。
20字以内でも語の組み合わせは無数になるが、それでも高い確率でシミュレータが正しく作動するようになれば、
言語理解は非常に強固なものとなろう。
906デフォルトの名無しさん:2014/02/07(金) 15:06:14.35
>>900
>目新しい文章が出た時に文構造パターン認知できるようにしておくとか。

文と文の区切りは基本的には「。」だが、文章が長い場合は「、」で区切る。
907デフォルトの名無しさん:2014/02/07(金) 15:58:25.56
「象は鼻が長い」を登録しておけば、「私は足が短い」という文章も読み取れるはずだ。
908デフォルトの名無しさん:2014/02/08(土) 21:05:20.01
単一文章の摘出的手法を使った文章要約のstate of the artな手法は何でしょうか?
909デフォルトの名無しさん:2014/02/10(月) 11:54:30.41
象は鼻が長い(名詞+「は」+名詞+「が」+形容詞)、を一つ登録しておけば・・・

彼は目が大きい
中国は人口が多い
俺は成績が悪い
新幹線は速度が速い
我が家は金が無い
東大は試験が難しい
ダチョウは足が長い
熊は腕力が強い
彼女は髪が短い
ロシアは国土が広い
ソニーは経営が悪い
零戦は航続距離が長い
松屋は牛飯が旨い
原発はコストが高い
高速道路は危険が多い
国道一号線は渋滞が激しい
スピッツは鳴き声がうるさい
北朝鮮は食糧事情が厳しい

・・・このように、同じ構造の文をいつくもいくつも抽出して、まとめて整理することはできないのだろうか。
910デフォルトの名無しさん:2014/02/11(火) 18:28:19.98
>>909
普通に形態素解析して
総当りで探索したらいいんじゃないの
911デフォルトの名無しさん:2014/02/12(水) 12:06:51.59
誰か就活用の自己PR文を自動生成してよ
912デフォルトの名無しさん:2014/02/12(水) 12:11:57.05
学部、特技、資格を入れるだけで、例文を生成
面接官の質問に対する返事まで生成してくれたら最高
913デフォルトの名無しさん:2014/02/12(水) 14:30:06.43
『直子の代筆』
914デフォルトの名無しさん:2014/02/12(水) 16:24:42.27
将来的には、自然言語文の全てを「形式化」する。例えばインフレ状態だ⇔物価が上がっている
⇔商品の値段が総じて高くなっている⇔(commodity ↑)。こうすればどんな言い換え表現も
同一に解釈できるようになるし、自動要約も簡単になるはずだ。
915デフォルトの名無しさん:2014/02/12(水) 16:27:58.98
「私は彼女とケーキを食べた」と「私はせんべいとケーキを食べた」は、いずれも品詞的には同型文であるが、
「と」の用法が異なっている。こういうのはまた別に整理しておく。
916デフォルトの名無しさん:2014/02/13(木) 09:10:31.65
自然言語の形式化は、まずは「日本語能力試験 N5」または小学校低学年の「こくご」から。
そしてその上で、例えば「インフレ」とは何か、小学校低学年でも分かりやすいように説明した日本語辞書を構築する。
「日本語能力試験 N5」レベルでも、語の組み合わせ次第で意味は様々。

「インフレ」⇔(commodity ↑)and(money ↓)
917デフォルトの名無しさん:2014/02/13(木) 12:41:36.95
>>914
そういうこと出来るかもしれないけど、
結局は人の多い大企業だとか、大学の研究所とかだけが出来るんだろ?
そしていつものように自分達だけで利用する
世界のように公開して皆で技術を高めていくというようなことはないんだろ?
それじゃスピードも遅すぎる
世界と戦っていけない
918デフォルトの名無しさん:2014/02/13(木) 13:27:37.50
 プロジェクトのリーダー、新井紀子教授は「初挑戦で、なかなか良い結果を出せました」と振り返る。
しかし、「これは東大合格のみを狙った研究ではありません」とも。「入試というのは総合的な知力が問われます。
問題を読んで理解し、論理に置き換える。そして推論しなければなりません」。将棋ソフトがプロ棋士を負かすなど、
近年、人工知能の躍進は著しい。しかし、それはルールが限定された環境での話。入試問題を解く一連の作業を通して、
今、人工知能に何ができるのか、何が課題になるのかをはっきりさせるのが、プロジェクトの一つの目的でもある。

 人工知能研究はこの10年以上、ビッグデータ派が主流を占めてきた。例えば機械翻訳では、膨大な言葉の出現頻度データ
などを駆使して結果を導き出している。意味を理解するのではなく、言葉の言い換えデータに当てはめるというやり方だ。
「けれども、それでは解決しないこともある。数学の問題を解くには、問題文を一度、論理式に置き換えなければなりません」。
課題をあぶり出し、弱点を補強していく。
 目指すところは、万能の人工知能だろうか。「いいえ。世の中、コンピューターに向いていること、まだできないこと、
人間がやる方が効率が良いことがあります。私はそのベストバランスを探りたい」。そうした考え方は、数理研究者になる
以前に学んだ社会科学の素地から来ているという。「今でも、何が人間社会にとっての利益なのか考えるとき、
リカードやケインズまで立ち戻って考えますね」。科学を愛する現実主義者は、そう言って優しくほほ笑んだ。

東大模試、偏差値60の成果「人工知能に必要なもの探る」
新井 紀子 国立情報学研究所 教授、数理論理学者
http://pc.nikkeibp.co.jp/article/interview/20131224/1116269/
919デフォルトの名無しさん:2014/02/13(木) 14:39:27.25
>>916
せんせい、「おまんこ」ってなんですか?
920デフォルトの名無しさん:2014/02/14(金) 04:29:25.24
文章分類ぐらいしかやってないんだけど
word2vec使うと性能上がるの?
921デフォルトの名無しさん:2014/02/15(土) 04:34:54.70
922デフォルトの名無しさん:2014/02/19(水) 01:31:51.79
やる気ない学生の適当な日本語卒論を
自動修正するツール
1ヶ月ぐらいあれば作れると思うんだが
時間がなかなか作れない
923デフォルトの名無しさん:2014/02/20(木) 19:11:01.60
自然言語処理は、文の修飾関係さえ把握できれば、あとは語句の「概念辞書」をいかに充実させるか。
辞書登録だけされていても説明が不十分ならダメ。「英英辞典」は既に出まわってるが、
これからはボキャブラリー貧弱な小学校低学年にも懇切丁寧な説明した「日日辞典」こそが必要。
924デフォルトの名無しさん:2014/02/21(金) 00:42:16.90
>>922
skkに卒論のLatexを大量に学習させて
skkの示す候補語だけ使うように指示
925デフォルトの名無しさん:2014/02/21(金) 15:58:18.14
「ドラマ化・映画化された小説」はいくらでも出てる。これを参考にコンピュータ上でいくつもの仮想世界を構築し、
20字以内の日本語入力で仮想世界を動かせるようにできないだろうか。自動化が無理でも、10000通りくらいは人力インプットできるはずだ。
926デフォルトの名無しさん:2014/02/23(日) 14:13:18.37
>>922,924
論文作成ツール等に関する質問スレッド
http://engawa.2ch.net/test/read.cgi/linux/1038780916/
927デフォルトの名無しさん:2014/02/25(火) 07:11:53.39
研究室内でcanna server立ち上がってて
全員で同じcannaの辞書を共有してるとこが前にあった
あれって全員で同じ辞書を共有することで表記揺れを阻止してたんだな
928デフォルトの名無しさん:2014/02/25(火) 21:21:21.10
>>927
どれだけ昔の話?
929デフォルトの名無しさん:2014/03/07(金) 16:52:53.12
文書解析の場合って、皆さんは名詞の他にどの品詞を利用されますか?
助動詞、助詞なんかはストップワードで省けると思いますが、動詞、形容詞とかはどうすればいいかなと思いまして
名詞だけでいいなら計算も一番早いでしょうが、
特に文書の分類、クラスタリングなんか自分で挙動を制御しにくいものではきちんと分けられるのかなと
類似性に関しては、名詞だけだと、他の品詞も含む場合より次元が少なくなり整合性が高くなっていると思いましたが
930デフォルトの名無しさん:2014/03/09(日) 20:35:39.31
どういう品詞が重要な素性になるかは場合による
931デフォルトの名無しさん:2014/03/09(日) 20:53:11.31
では一応全部抽出して解析へ送り込んでいるのですか?
932デフォルトの名無しさん:2014/03/10(月) 03:59:12.45
形容詞、動詞は基本形に変換してから使う
分類の場合、不要な素性が0になるようにL1正則化すればいい
933片山博文MZジェバンニ ◆T6xkBnTXz7B0 :2014/03/20(木) 18:42:26.60 ID:QOw6XajR
ReactOSというWindowsクローンのOSについてWindows互換の日本語入力システム(IMM+IME)を作ってくれる人はいませんか?
アマゾンギフト券の報酬あり(1万円程度)。
興味がある人、メール下さい。ゼロから指導します。
[email protected]
934デフォルトの名無しさん:2014/03/21(金) 09:02:12.86 ID:4EMe5dpg
100万円でも作らねーよ
がんばって移植しろ
935デフォルトの名無しさん:2014/03/21(金) 21:49:25.00 ID:yZ2dHoTg
HEEEEEELP MEEEEEE!!!!!!
936デフォルトの名無しさん:2014/04/07(月) 18:02:34.54 ID:X8NEjEHC
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!
937デフォルトの名無しさん:2014/04/07(月) 18:11:59.61 ID:cPHU7Y9F
>>936
氏ねホモ野郎
938デフォルトの名無しさん:2014/04/08(火) 00:06:18.48 ID:1cdjmKJQ
>>936
理系全般板にほとんど同じ文体で連投してる人がいる
同じ人かな
939デフォルトの名無しさん:2014/04/12(土) 13:56:48.38 ID:S8NF4uah
今日は?めが?った
から
今日はあめが降った
を復元するようなタスクって自然言語処理であります?
940デフォルトの名無しさん:2014/04/12(土) 14:17:20.48 ID:eRCa1Gq5
今日はかめが勃った
941デフォルトの名無しさん:2014/04/12(土) 16:39:54.32 ID:huvVZ2om
今日はじめが喋った
   ―― バカボンパパ
942デフォルトの名無しさん:2014/04/12(土) 17:24:57.28 ID:XLXSm3as
今日は、めがねった。
   ーー明日はツインテールでヌこう
943片山博文MZバグロボ ◆T6xkBnTXz7B0 :2014/04/16(水) 14:50:08.34 ID:/cD6mxuW
>>939
クイズ番組の問題作成
944デフォルトの名無しさん:2014/04/16(水) 15:57:18.04 ID:GW7Ecnun
ここまで読むの面倒だから有用なレスまとめてよs
945デフォルトの名無しさん:2014/04/16(水) 19:08:50.31 ID:KCaQTglB
今日こめがたった
今日うめがちった
946デフォルトの名無しさん:2014/05/14(水) 08:20:44.49 ID:5f+nIn4Y
含意認識の精度を高めるには、最終的にものの概念全てを、物理シミュレータや論理式に帰着させるしかないと思う。

>庭に洗濯物を干したとたんに雨が降ってきた

「庭に雨が降る」=「無数の水滴が庭に落下する」(物理シミュレータで表現)、庭⊂屋外、濡らす≒湿る(「自由水」増加)⇔「干す≒乾く」(「自由水」減少)。
947デフォルトの名無しさん:2014/05/14(水) 11:28:25.76 ID:KEbdqWzg
物理シミュレータだと単に原子間力計算してるだけだから何が「庭」なのか分からない
948デフォルトの名無しさん:2014/05/14(水) 13:15:48.73 ID:5f+nIn4Y
>>947
>何が「庭」なのか分からない

<ウィキペディア 庭>(庭(にわ)は、住宅などの施設の敷地内に設けられた、建造物のない広場である。)

だが、住宅とは何か、施設とは何か、敷地とは何か、建造物とは何か、広場とは何か、コンピュータは何も理解していない。
Google画像検索するといくつか出てくるが、コンピュータは何十枚の画像を見ても、それが何かを理解できるわけではない。
それぞれ全てについて、住宅とは施設とは敷地とは建造物とは設けるとは広場とはこうだ、という物理シミュレータと論理式が必要。

この人間社会のあらゆる概念をコンピュータに教え込まなければならないのだから、実に大変なことだ。
949デフォルトの名無しさん:2014/05/14(水) 21:58:14.97 ID:4KB6AGyc
シミュレーションは関係ないだろ
あれは演繹系だ。
論理式探索は機械学習の本懐
950デフォルトの名無しさん:2014/05/14(水) 22:00:46.22 ID:4KB6AGyc
動作するのは動画像処理とか画像処理系だよ
あっちの学習データと自然言語処理の学習データを繋げないと
951デフォルトの名無しさん:2014/05/15(木) 03:34:32.19 ID:0OuQaePV
>>949
>シミュレーションは関係ないだろ
>あれは演繹系だ。

実世界の状況を理解するには、物理シミュレータしかないとのこと。

 物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/

「目玉焼きが焼けた」と言ったら、台所のガスコンロの上にフライパンがあってその中に程よく焼けた目玉焼きが入ってる、
というくらいの推測能力は必要。少なくともトイレの便器に鍋をひっくり返すと目玉焼きが飛び出したなんて状況は考えられない。
また風呂に入っているといったら、寝室でドラム缶風呂に入っているという設定も不可能というわけではないが、現実味は乏しい。

>転がっているものを認識できても、物理の法則に従ってそれがテーブルから落ちることまでは予測できません。

「ビリヤードテーブル」ならそんなことは考えられないはずだが、それは職場や家庭で一般的な状況ではない。
952デフォルトの名無しさん:2014/05/15(木) 07:33:40.11 ID:2eh1rZdp
人間はテーブルの上を転がる物体の未来を物理法則から演算してるの?
単に経験から類推してると思ってた。
953デフォルトの名無しさん:2014/05/15(木) 09:11:31.13 ID:W+Bjj2Ja
経験からだろ。
動画像処理だ。
マリオがジャンプしたら落下するのは物理法則か?
954デフォルトの名無しさん:2014/05/15(木) 09:26:08.33 ID:W+Bjj2Ja
http://www.nikkei.com/article/DGXNASDG1101Y_R10C13A6000000/
人間はまだイシダイ程度の知能すら実現できていない
955デフォルトの名無しさん:2014/05/15(木) 13:08:55.44 ID:0OuQaePV
 言語モデルの欠点を補うべく数理モデルの後に登場したのがシミュレーションモデルである。シミュレーションモデルの利点
と欠点については既に多くの指摘がある(e.g.,Taber & Timpone, 1996)。ここで強調しておくべきは、社会科学者の言語的
アイディアをシミュレーションモデルに移植することは、数理モデルに移植するより容易である、という事情である。社会科学者
が考える人間の行動のメカニズムは、数式としてよりも if ...then〜型のルールの複合としてモデル化しやすい。また、
人間行動への様々な刺激(例えば「○○さんは△△をした。」といった情報)はビット列のコーディングが適している(e.g., Smith, 1988)。
 シミュレーションモデルの仕事は思考実験である。その真骨頂はモデルの前提の含意(予測)を効率的に導出することにある。
その意味でシミュレーションモデルは derivation machine といってよい。シミュレーションモデルの正統な利用目的は経験的なデータ
を再現するようなモデルを見出すことである。例えば Stasser (1988)は集団討議モデルの構築にあたり、討議参加者の発言や記憶、
および他の参加者の発言による影響を前提として導入した。そして実際の実験結果をよく再現するモデルを見出している。だがこうした
「正統」な方法以外にもシミュレーションモデルには有効な使い途がある。特定の要因だけを意図的に取り出してモデル化し、
そのモデルがいかなる帰結を導くかを検討することである。Kalick & Hamilton (1986) のモデルでは、一定数の男女がランダムに接触し、
相手の外見水準だけに応じてプロポーズしたりその受諾をする。こうしたモデルは現実からはほど遠い。しかしそのモデルの帰結は
現実のデータを解釈する上での多くの情報を伝えている。こうした「非現実的」なシミュレーションも isolating simulations (Kliemt, 1996)
として理論上の価値を持つといえる。
http://www.kyy.saitama-u.ac.jp/~etakagi/download/t000713/takagi99.rtf
956デフォルトの名無しさん:2014/05/15(木) 13:23:11.40 ID:0OuQaePV
数学文章題では、「跳ぶ」「飛ぶ」といったら軌跡と滞空時間、「走る」「動く」といったら速度と距離、
「接する」といったら接線と接点、「転ぶ」は停止時間と場所、と連想できるようなオブジェクト変数を予め用意しておきたい。

□問 1)距離-速度-時間の文章題
最初の飛行機がデンバーから東に 1 時間 200 マイルの速さで出発します.3 時間後,2 番目の飛行機が並
行するコースで,デンバーから東に1時間250マイルの速さで出発します.2番目の飛行機が最初の飛行
機を追い抜くのに何時間かかるでしょう.
? 問 1 の命題リスト [van Dijk and Kintsh 1983]
命題 1 出発する [飛行機 1, デンバー, 時間 1]
命題 2 速度 [命題 1, 毎時 200 マイル]
命題 3 方角 [命題 1, 東]
命題 4 後 [命題 1, 命題 5, 3 時間]
命題 5 出発する [飛行機 2, デンバー]
命題 6 方角 [命題 5, 東]
命題 7 位置 [命題 5, 命題 8]
命題 8 並行 [コース]
命題 9 速度 [命題 5, 毎時 250 マイル]
命題 10 何時間 [命題 11]
命題 11 追い抜く [飛行機 2, 飛行機 1] (top-level)
? 相当する状況モデル(個人間で異なるかも)
- 並行する2 機の飛行機,2 番目の飛行機が 1 番目を追い抜く瞬間 ... の表現
- 「追い抜く」に関する情報がない→状況モデルから「出発点から同じ距離にある」
[van Dijk and Kintsh 1983; Weaver,Kintsh 1987]
- 解法に必要な量的記述によらず,質的に関係することがらを表現する傾向 [Nathan 1988]
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf

動く/移動する/進む/到達する(主体,回数/時間,現地点,前提条件,移動条件,移動先)。何がいつどこでどう動くか。

場合の数(確率) ランダムウォーク問題
http://love-su-gaku.com/data/top/ranreidai.pdf
957デフォルトの名無しさん:2014/05/15(木) 13:52:36.13 ID:W+Bjj2Ja
決め打ちでやる技術ってなんかもう限界見えてるよ
958デフォルトの名無しさん:2014/05/15(木) 20:36:48.51 ID:AHCN3ZxT
Kintsch先生の名前を20年ぶりに見た。長年コピペされているうちに
名前からcが抜けちゃったようだな
959デフォルトの名無しさん:2014/05/16(金) 06:22:17.87 ID:gkYbcqq1
Kintsch先生、10年前チラ見した時はお元気だったぞ。
960デフォルトの名無しさん:2014/05/16(金) 15:55:13.83 ID:dib3tSA5
>>951
>実世界の状況を理解し、物理法則に従って変化する事象を物理シミュレーションによってモデル化し、

本モデルにおける空間は,家,病院,学校,駅である.それぞれの空間を集合を用いて以下のように定義する.
・家空間の集合Ω Home :
?_???? ∈ ?,Ω Home = {????!,?,????!_!!"#}.
・病院空間の集合Ω Hospital :
?_???????? ∈ ?,
Ω Hospital = {????????!,?,????????!_!!"#$%&'}.
・学校空間の集合Ω School :
?_?????? ∈ ?,
Ω School = {??????!,?,??????!_!"!!!"}.
・駅空間の集合Ω Station :
Ω Station = {???????}.
・空間の集合Ω Space :
Ω Space = Ω Home ∪Ω Hospital ∪Ω School ∪
Ω Station .
すべての空間????? ∈ Ω Space には,中心部・郊外部・プールのいずれかの場が割り当てられ,これによって
空間が存在している場が定まる.また,すべての家空間???? ∈ Ω Home は,世帯構成リスト,夫婦構成リ
スト,世帯主エージェントを状態変数として保持し,家(世帯)の世帯構成に関する情報を持つ.ここで,世
帯構成リスト(HouseholdMemberList)とは,その世帯を構成するエージェントからなる集合である.また,夫
婦構成リスト(CoupleMemberList)とは,その世帯の内の夫婦を構成するエージェントの集合である.また,世
帯主エージェント(HouseholdAgent)とは,その世帯の世帯主のエージェントである.ここで,Table 2 に家空間
の持つ状態変数とそのとりうる範囲をしめす.なお,power()は冪集合を取る操作を表す.

http://journals.socsys.org/symposium004/pdf/004-005.pdf
961デフォルトの名無しさん:2014/05/21(水) 00:37:01.07 ID:QyYNKmpk
ネットにある自然言語処理の入門用資料教えてください
962デフォルトの名無しさん:2014/05/21(水) 16:55:14.18 ID:ev9GTUVp
963デフォルトの名無しさん:2014/05/21(水) 21:54:09.82 ID:1se3kHpY
もっと良いのお願いします
964デフォルトの名無しさん:2014/05/21(水) 21:57:24.89 ID:YgR7gj8h
965デフォルトの名無しさん:2014/05/22(木) 14:39:23.15 ID:/uNpiS1A
このスレのAIは言語能力が低いんですね!
966デフォルトの名無しさん:2014/05/25(日) 16:47:26.83 ID:i4MNOuY/
てすぽ
967デフォルトの名無しさん:2014/05/26(月) 14:32:45.16 ID:TvuebtZz
自然言語処理のスパース表現について教えて下さい
968デフォルトの名無しさん:2014/05/26(月) 15:06:50.45 ID:9ULsdgt2
パンパースはいてから考えよう
969デフォルトの名無しさん:2014/05/26(月) 17:48:15.09 ID:YKQOK9mn
そうだね、プロテインだね
970デフォルトの名無しさん:2014/05/27(火) 22:40:45.72 ID:Ic9XwEQT
970
971デフォルトの名無しさん:2014/05/28(水) 21:13:41.60 ID:St2mZNey
971
972片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/05/29(木) 18:06:39.02 ID:e6bXYJlR
ひらがな電卓CalcH
http://katahiromz.web.fc2.com/calch/
Windows用ソフト。
ひらがなで計算できるぞ。これはおもしろい!!
973デフォルトの名無しさん:2014/05/29(木) 19:24:00.65 ID:vMIt9icY
>>972
何これ、初めてみたw
974デフォルトの名無しさん:2014/05/29(木) 19:43:29.42 ID:0fKb/qNE
面白くない
975デフォルトの名無しさん:2014/05/29(木) 20:21:29.38 ID:e6bXYJlR
これは世界初なのか?
それとも前例があるのか?
976デフォルトの名無しさん:2014/05/29(木) 21:49:30.65 ID:hGrR3Csk
音声入力だと必然的に同じことをやる
そっち方向へ進めるのもいいかも
977デフォルトの名無しさん:2014/05/29(木) 22:11:21.08 ID:3vKJnOmW
全然わからないや
978デフォルトの名無しさん:2014/05/29(木) 22:33:41.82 ID:e6bXYJlR
>>976
音声入力できるPG、転がってない?

>>977
何が分からないの?
979デフォルトの名無しさん:2014/05/29(木) 23:33:02.50 ID:3vKJnOmW
てすぽ
980デフォルトの名無しさん:2014/05/30(金) 05:32:40.13 ID:bCvuos4l
自然言語処理って、アスキーアートみたいなただの文字の羅列と意味のある文章を区別判断できたりするの?
981デフォルトの名無しさん:2014/05/30(金) 05:46:41.91 ID:fAx5Tsbo
>>980
アスキーアートみたいな意味不明の文です、とか答えることくらいはできるだろう。
982デフォルトの名無しさん:2014/05/30(金) 07:04:37.00 ID:DKrGMHzs
次スレ

前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
983デフォルトの名無しさん:2014/05/30(金) 07:52:17.29 ID:t9L11UzZ
次スレは必要なさそう
984デフォルトの名無しさん:2014/05/30(金) 23:04:35.12 ID:t9L11UzZ
984
985デフォルトの名無しさん
>>982
乙。それでいいのでは?