拠り所にする文法規則ってあるじゃん
めかぶならIPAとか
でも諸説あってどれか定められない
どの文法が機械処理に向いてるんだろう
ってずっと考えてるだけで実装が進まない
//
/ / パカッ
//⌒)∩__∩
/.| .| ノ ヽ
/ | | ● ● |
/ | 彡 ( _●_) ミ まピョーん☆
/ | ヽ |∪| /_
// │ ヽノ \/
" ̄ ̄ ̄ ̄ ̄ ̄ ̄(..ノ
mecab の ipa (naist-jdic) は文法体系ってか品詞体系だと思うけど、
あの体系自体は機械処理に向けて作られたものなので、
考えて進まないくらいならあれでやっていいと思うが。
7 :
デフォルトの名無しさん:2009/03/06(金) 14:05:39
文書の重要度 (まともらしい、スパムらしいなど) はどう計ればいいですか。
人間が学習させると、未知の文書、外国語の文書に対応できません。
圧縮してサイズが激減する物は、重要でないと言えると思いますが
減らない物が重要とは言えないです。JPGが重要文書になってしまいます。
もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
人間が認識可能であるらしいこと、価値ある文書であるらしいことを判別したいんです。
無理
9 :
7:2009/03/06(金) 14:27:54
無理って事は無いと思うんです。
たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
教師付き学習でもカオスになりそうだな
11 :
デフォルトの名無しさん:2009/03/06(金) 14:38:32
もともとの目標を書きます。
全文検索エンジンを作ろうとして、その性能を評価したいんです。
重要文書が上位に検索されるように、インディックス作成時のパラメータを調整したいんです。
そこで重要文書を別の方法で得点づける必要が出てきます。
>もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
特定の言語に最適化するつもりは無いんだろ?
>たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
>平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
だったら特定の言語の特徴は関係ないだろ。
ランダムに打たれた文字、AA、普通の文書くらいの判別ならできるが
スパムとまともな文書(これらは主観的な判断)を見分けるには
重要度について客観的に評価できる形で厳密に定義する必要がある
14 :
デフォルトの名無しさん:2009/03/06(金) 14:44:11
>>12 それは、例で出したんです。 多言語でも、頻出する語がある程度の割合ででるはずです。
「a」「the」「is」など。
>圧縮してサイズが激減する物は、重要でない
うそ臭いな
14のいうスパムは意味のない文書のことではなくて
言語の体をなしていない文書のことなのか?
それだとDMや文章系のコピペは重要で詩性の強い文学や歌詞は
重要ではないことになるぞ
17 :
デフォルトの名無しさん:2009/03/06(金) 15:30:45
想像する重要でない文書は、同じ単語、文が頻繁に現れる物、どんな人間も理解できない文書です。
コピペ文も理解できるなら重要と見なします。
コピペが同一文書に連続すれば、たとえば圧縮することで情報量が少ない事がわかります。
歌詞や文学もほぼ誰にも理解できないなら、価値を減らしたいです。
古代文字で現在解読されていなくても、古代人には理解できるなら価値を高めたいです。
仮に可能であったとして完成したとしたら
これほど無用なものは無いな
19 :
デフォルトの名無しさん:2009/03/06(金) 15:41:43
下準備として、辞書無しで単語分割したいのですが良い方法ありますか。 あと類似単語を見つける方法ありますか。
類似文書については、たとえば3byteの固定長語の出現回数を測定してベクトル空間法を使えば簡単そうです。
20 :
デフォルトの名無しさん:2009/03/06(金) 15:45:06
>>18 グーグルの方法だと、リンクの入力を計測しますから
新規の文書の価値は低く、名の知れたサイトの価値は高いです。
新規の文書や、リンクのない検索で使えると思いますが。
エントロピー次第って事か
重要度とかいう俺様指標をきちんと定義しろよな。
あとは情報検索の入門書でも読め。
23 :
デフォルトの名無しさん:2009/03/06(金) 18:36:44
文書の重要度ではないのですが、自分で考えた重要単語( indexに登録すべき語 )の求め方を書きます。
3-gramで全文検索して、不要単語は登録しない物を目指してます。
たとえばabcが、全100万文書中20文書出現するとします。x=100万/20 or log(100万/20)とおきます。
abcが多くの文書で出現すればxは小さい値になり、abcはそれを含む文書を特徴づける単語ではありません。
もし大きい値であれば、abcは重要単語と見なせます。そしてその周囲の語も重要である可能性が高いです。
本来の区切りが3バイトとは限らない為です。そこでbを中心に左右に (線形的に) 値を減らながら値を割り振ります(加算します)。
これを全単語に対して行うことで、indexに登録すべき文書範囲が決まります。
24 :
デフォルトの名無しさん:2009/03/06(金) 18:47:19
23の方法である単語に対し、文書ごとの重要度が求められるのですが
この結果がホントに重要文書順を出力するのか調べたいんです。
たとえば、x = C + (100万/20) ^ r とした方がいいとか、
値を割り振るときに等比的に減少された方が良いとか、
考慮すべき所があります。
頼む。
辞書無しで単語分割すること。
辞書無しで類似単語を見つけること。
知識無しで文書がスパムでないことを定量化すること。
文書の分類(言語、エンコード、分野などで分類)すること。
単語分割にはViterbi 、A*がいいらしい。
全文検索するにはエンコードを特定しないと駄目だな。
SJISとEUCでN-gramで登録しても一方の検索がHITしない。
登録時はそのままにして
検索時に、全てのエンコードに変換して検索かけるという手はあるが
世界各国対応とすると検索回数が10回以上になる。
エンコードを決めて、N-gramするなら全ての言語の知識がいる。
どうすればいい?
知識無しでエンコードする方法考えた。
ベクトル空間法で文書を分類し、つながりの確率から単語分割する。
頻出単語の昇順に番号を付ける。
もし同一言語でエンコードが異なる物は、単語のつながり方に関係があるはずで
上で付けた番号どおしで変換できる。
しかし手間かかるから現実的でない。自動判別できるソフトを使うべきか
サポートする全言語の知識はどうやろうが必要だと思うけど……。
スパムかどうかは普通読む人次第(読む人に関係なくスパムと見なされて
いるのはアダルトかアフィリエイトかな、現在のところ。)だから、
読む人と無関係な基準を作れたとして、それが意味あるとは思えない。
「重要度」というオレオレ単語をどうにかしる
文書、言語として成り立っている物は正常なんです。
アダルトでも文法が正しく読めるならいいんです。
日本人の多くはアラビア語はわかりませんが、文法が正しく理解可能ならいいんです。
JPGファイルは情報量は多いですが、人間が理解できません。
適切なエントロピーである事が一つの条件になると思いますが厳密な定義はわかりません。
いま試しに、言語の知識なしで、まともな文書を生成する事をやってます。
文書データは使いますが、文法や分かち書き辞書などは使いません。
よー分からんが
Colorless green ideas sleep furiously.
というのは文法的には正しいのに意味をなさない文として有名だけど、
これは OK ってことだよね。
単語分割くらいならがんばればできると思うけど、それ以上は難しいかも。
単語分割はエントロピー的なもので教師なしに分割するという話は腐るほど
あるので、検索すれば出てくると思うけど……
最近の話だったら
ttp://nl-ipsj.r.dl.itc.u-tokyo.ac.jp/NL190program.html ベイズ階層言語モデルによる教師なし形態素解析
○持橋大地, 山田武士, 上田修功(NTTコミュニケーション科学基礎研究所)
言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの
出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いな
い形態素解析を可能にする。これにより, 教師データの存在しない古文や
話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。
だと思う
たとえば、 私 俺 わたくし オレ が似ていることを決定することもなかなか難しい。
プログラマは、国語学の知識は無いとして、品詞分解や文法として正しい文を組み立てられる物か。
>>33 それは周辺の文脈を使って単語クラスタリングすればある程度分かるし、
そこまで言語学の知識なくても、周辺の N 単語を使うとか、
bag-of-words を使うとかすればいいし。
品詞を決めようとすると正解タグづきコーパスがないと難しいんじゃないかなぁ
35 :
デフォルトの名無しさん:2009/03/08(日) 13:32:09
品詞名は決まらなくて良いんです。
本来、動詞、名詞と分類されるグループに含まれるっぽいという事がわかれば。
そのほか、英文とドイツ語が混在している文書ならは、英語っぽい、ドイツ語っぽいとかいう分類もあります。
でも今は単語分解してます。 辞書無しで短時間で分解したいんですが難しいです。
たとえば2バイトごとのつながりの計測はすぐに済みますが、
その統計を使ってabcdeというつながりが高確率であり得ると出ても、2語しか比較してないので
実際に文書から出現回数を求めてみないとわかりません。 このチェックを毎回していたら大分時間掛かります。
36 :
デフォルトの名無しさん:2009/03/08(日) 14:45:46
繋がる部分は長めになるけど、分割部分は2バイトあればわかるか。
たとえば、abcxyが、本来abcとxyにわかれるならば、bcとxyのつながりに比べてcxのつながりは弱い。
だから品詞名が必要ないなら単語分割したあとクラスタリングすればいい、
って言っているんだが。。。それが動詞っぽいクラスタであるか名詞っぽい
クラスタであるかは人間が見て分かるだけで、クラスタリングでは自動で
クラスタのラベルはつけないし。
あと前も書いたけど辞書なしで単語分割する手法も研究レベルでは
たくさんあるし、そういうの参考にすればいいんじゃないの?
短時間でできるかどうかは自分で実装したことないので分かんないけど。
どちらかというと暗号解読系の技術に近いことがしたいのかもね。
サイモン・シンの「暗号解読」はちょうど未知の言語の判別問題について
どんな手法があるか書いてあるね。古代の言語(文字)の解読の話題も
書いてあったと思うので、そういうの読んでみたらいいんじゃない
重要度順に並べるとどうなるか脳内でシミュレーションできない?
たとえばこのスレで重要度が高くなって欲しいレスと低くなって欲しいレスは
どういうの?
39 :
デフォルトの名無しさん:2009/03/08(日) 15:11:53
ほとんど空白ばかりの文書、JPGの中身をコピペした文書は重要でありません。
エントロピーが適度で、人間が先を予測出来る文書が重要らしいと思うのですが厳密にはわかりません。
そこでまず人間に重要らしいと思わせられる文書を自動生成されてみようと思いました。
>>37 トン。 サイモン・シン読んでみます。
もともとの目標が全文検索エンジンを作る事なので、知識0のままで高速にindexを作りたいんです。
言語と絵の境界は曖昧だよ。
>>39 ああ、そうするとデータ圧縮系の話が興味あると思う。
どのように符号化すれば圧縮限界に近づくかとかそういうことだよね。
でも自然言語はあえて冗長な部分があったり
(70% 削っても人間は元の文が復元できるとかいう実験結果があった。
数字はいいかげん)、一次元の尺度ではうまくいかないんじゃないかなぁと思う。
機能語は単純な頻度とか圧縮率で抽出できると思うけど、
内容語は頻度もそんなにないし曖昧性もあるし。
機能語だけに着目して言語判定できるかというとそういうものでもないし。
前文字コード判別でバイト列の N グラムを作って判別したことあるよ。
この場合単語分割する必要すらないんで……。
知識ゼロで作るのは研究としては意味あるけどねー
精度的にはまだまだなんで、かなりブラッシュアップが必要だと思うよ
スレ違い
は?
45 :
デフォルトの名無しさん:2009/06/19(金) 04:51:03
つながりの確率を求めて単語分割したいんだけど2バイト同士のつながりの統計を取ろうとすれば、
4バイト(int) * 2の32乗 の記憶域が必要になる。(出てこない文字を削れば減るが)
単語は、2語より長くなるから、もっと記憶域を使うことになる。
たとえば、「プログラ」のあと、「ム」「ミング」が来やすいという統計を取ろうとすれば
相当の記憶域が必要。 どうすればいいんでしょうか?
x,y,z,v,wを16bit数とし、「プログラム」の個数を数えるには sum[x][y][z][v][w]という配列にアクセスするようなものと思うのですが。
46 :
デフォルトの名無しさん:2009/06/19(金) 04:55:45
全角で8語くらいまでの統計が求められれば、たくさん自動学習させることで、
どんな既存の辞書も使う事無しに精度はかなり良いと思います。
PPM圧縮を調べたのですが、長い単語の対処方法がわかりません。
47 :
デフォルトの名無しさん:2009/06/19(金) 13:52:06
頻出する (2語、4バイトの) 単語が求め、それに2バイトを割り当てて
再び、4バイトの単語の統計をとれば、長い単語が求められそうです。
48 :
デフォルトの名無しさん:2009/09/12(土) 07:03:04
特徴語、重要語の求め方教えて。
辞書による単語分割は使わず。
中国語、漢語でも可能な方法。
49 :
48:2009/09/12(土) 08:07:55
何度もデータを読みに行くのは辞めたい。 一度のロードで済ましたい。時間食うので。
例えば、一度目の読み込みで単語辞書を決定し、2度目で単語の回数を測定するとか。
5Gのデータ群だと、2回読めば10Gになり時間食う。
読み込みは、一度だけでいい方法ありますか。
>>49 64bitOSで32GBくらいRAMを積めばOK。
51 :
48:2009/09/12(土) 17:38:28
再読み込み、巨大メモリを使って
試行錯誤せず (計算多くせず) 済む方法が知りたいです。
辞書無しの方法がいいです。
5Gを全て使わずとも適当にさっぴいてやればいい
53 :
48:2009/09/12(土) 20:54:34
具体的には、500Mを利用して単語辞書を作成するとかですか?
5Gは複数ファイルの合計値です。
各ファイル毎に特徴語を求めたいです。
辞書に漏れた単語のランク付けがうまくいかないと思うのですが?
54 :
デフォルトの名無しさん:2009/09/12(土) 20:58:45
単語辞書だと、「単語」「辞書」に分かれますが、「語辞」と間違えて抜き出したら
「単語」や「辞書」が一つも出現せず、「語辞」が多く出る文書の特徴語と同じになってしまいます。
これをどのように回避するのかが重要と思うのですが?
クラスタリングで、文書のドメイン特定してから
そのドメインにおいて、単語辞書 を 単語 辞書 とすべきか 単 語辞 書 にすべきかを
HMMなり使って最大になる分割を決めればいい。
と、素人ながらに思ったが。
特徴語が同じになるって話だから、そもそもクラスタリングがうまく行かない可能性が高いかw
56 :
デフォルトの名無しさん:2009/09/12(土) 21:47:51
短時間、辞書無し、何言語でも、特徴語を抜き出したいです。
HMMは、確率的に最も有り得る単語分割を決定するって事でしょうか。
これを行ってからだと相当時間食いそうなのが難点です。
それは無理。
辞書ありの形態素解析器ですら、使ってるんですから。
確率使わずに、最適な分割例を決めるとか、無理でしょw
58 :
デフォルトの名無しさん:2009/09/12(土) 23:11:23
確率は使うのは良いんですが、膨大な時間を使うのを回避したいです。
59 :
デフォルトの名無しさん:2009/09/12(土) 23:15:43
特徴語を決定するのに、全ての単語の単語分割が必要なのかどうかも疑問です。
60 :
デフォルトの名無しさん:2009/09/13(日) 03:53:43
まずビタピ(ビーム)サーチやってみます。 ABCDはそれぞれ1語(16bit)としたとき
分割方法は8とおりありますが、Aが1000回出現してABは5回出現ならABが繋がる確率は1/200でしょうか?
一方でBが10回しか出現しないとすれば1/2になりますが、これは少ない方(確率の高い方)を採用すれば性格でしょうか?
ABCD
ABC-D
AB-CD
AB-C-D
A-BCD
A-BC-D
A-B-CD
A-B-C-D
61 :
60:2009/09/13(日) 06:16:05
2語の統計とっても、ABCDなど3語以上の出現確率が不明だ。
3語、4語、5語と統計取るのはメモリ容量から実現難しい。
2語(16bit)でやる人は多いと思いますが、3語以上の確率はどう求めますか?
>45辺りから全力で間違った方向に進んでいるような気がする。
疎行列とか連想配列とか使えよ。
便乗の質問です
>>60 A 1000回
AB 5回
B 10回
こんな場合だとAとABとBを単語として認識することになるんでしょうか。
もしABがあった場合、これはどの単語が出現したとカウントするんでしょう。
AとABとB、三つともカウントですか?
64 :
60:2009/09/13(日) 15:07:26
>>63 カウントは、出現したやつは全部カウントしないと統計取る意味ないじゃないですか。
よく繋がる語を、単語と見なすんです。
同じ語の繋がりでも文意によっては変わるんです。日本語変換と同じです。
なるほど。
語Aと語Bの複合語ABがあった時にもA, B, ABを全部カウントですね。
辞書ありの形態素解析なんかでは最長一致の事が多いから、ABだけですよね。
66 :
デフォルトの名無しさん:2009/09/18(金) 08:41:15
必要と思うので、グーグルのメモリ管理、mapとicuの導入方法をここに記す。
いまから調べる。 windows XP 32bit visual c++ 2008を元にする。
文章のクラスタリングをするために適当な固定次元の特徴ベクトルで表現できないかと思っています
どんなベクトル表現が適切でしょうか
日本語処理はrubyが充実しててpython使ってる人があまりいない気がする
それは完全に気のせいです
I18Nのハンドリングは自然言語処理と基本的に関係ありませんから。
71 :
デフォルトの名無しさん:2009/09/27(日) 12:21:03
>>67 2文字か3文字(32-48bit)ごとの統計を取って、2の32乗のベクトルと見なす。
そのベクトルのうち直交しているものをいくつか選び出す。
たとうば、20個選べば、20次元の座標に、それぞれの文書を特徴づけられる。
自然語処理って強化学習と相性よさそうなのに
あんまり話を聞かないのは,ダメだってことかな
73 :
71:2009/09/28(月) 08:03:50
>>67 一緒に作るか?前から文書分類しようと考えていた
ベイジアンスパムフィルタは、判定結果(あるいはその判定を人間がさらに判定した結果)に
もとづいて学習させてるじゃない?
76 :
71:2009/09/28(月) 14:14:58
>>75 ABCDEFG・・・は2バイト文字とする。
ABC、BCD、CDE・・はそれぞれ一回ずつ出現する。出現した物をカウントする。
すると、2の48乗次元ベクトル空間が得られる。
似ている文書では、同じ箇所がカウントされやすくそのベクトルの類似がはかれる。
これでは、計算量の点から、クラスタリングが困難なので
直行している基底をいくつか選んで射影をとってクラスタする。
すると、20次元くらいなどにおさえられる。
文字コードが一文字nビットm文字単位だとだと(mn)^2次元ですか。
どうしてそう無駄なパラメータ入れるかな。
78 :
デフォルトの名無しさん:2009/10/09(金) 10:16:43
高速クラスタリング考えた。偶然良いクラスタに入る法、良いクラスタを選択する法の2つ。
※クラスタの中心を求めるコストは無視できるとする。
前者。
データを100個、1000個など一定数になるように等分する。N等分されたとする。
クラスタnの中心を求めてそれと離れている (関係が薄い) ものをクラスタn+1へ移す。
n=Nのときだけ、クラスタ0へ移すか、新規クラスタへ移すかを選択する。
次クラスタへ移す条件=悶値を徐々に上げていくことで分割が完了する。
後者。
始めにクラスタの中心を関係が薄いもの (直行しているベクトル) 同士で選び出す。
0 < a < b < 1を適当に設定して、クラスタの中心との内積値がbを超えたら、そのクラスタに属すものとする。
すべてのクラスタの中心との内積値が、a未満ならどこにも属さない新規クラスタとする。
こっちは一度の走査で分割が完了する。
79 :
78:2009/10/09(金) 10:23:47
後者は、内積値が最大になるクラスタへ移すのが最善だけど、
時間食うので、bを超えたらそこにしてしまいます。
より良いクラスタがある可能性はあります。
後者で荒く分割 (a,bは0に近い) してから前者を用いるのもいいかもしれません。
81 :
78:2009/10/09(金) 11:01:06
前者をK-means法と比較すると、
クラスタに合わないもの(悶値以下のもの)は、そのまま次のクラスタへ入れてしまう所。
たまたまそこが良かったらそのままにする。
K-means法は合うところを試行錯誤して選ぶ。
後者は、一度の走査で入る場所を確定できる。
>>81 前者は収束が鬼のように遅くなるだけの気がするけど?
83 :
デフォルトの名無しさん:2009/10/09(金) 12:19:02
文書分類するやついま作ってる。それを動かしてもらうとわかりやすいはず。
85 :
デフォルトの名無しさん:2009/10/09(金) 17:40:07
まちがえて似た字を当てはめたかも?
86 :
デフォルトの名無しさん:2009/10/09(金) 17:42:28
スマン
いきち = 閾値 は、字だけみた事あって読みを知らなかった。
87 :
デフォルトの名無しさん:2009/10/09(金) 17:45:25
閾値の読み方
閾値の本来の読み方は「いきち」で、「しきいち」は慣用読み。「閾」の字は日本人になじみが薄く、第二次大戦後、当用漢字外とされたため、字義である「敷居(しきい)」の語を当てたものと思われる。「閾」の訓読みは「しきみ」。
しきい値 - Wikipedia
88 :
デフォルトの名無しさん:2009/10/20(火) 10:36:29
日本語の判定テストレポート
対象ソフト。
universalchardet-1.0.3
http://code.google.com/p/juniversalchardet/ icu4c-4_2_1
http://site.icu-project.org/ nkf-2.0.9
http://sourceforge.jp/projects/nkf/releases/ libguess-0.2.0-d7
http://www.honeyplanet.jp/download.html 対象サンプル。
一部文字化けを含むネット上ニュースまたはwindowsXPのバイナリファイル。
個数 バイナリ 2300、 UTF8 5200、 SJIS 4100、 JIS 3800、 EUC-JP 2000
速度。
libguessがもっとも速くこれを1としたときの比較。 ICU 185、 nkf 30、 universalchardet 10
正解率。
libguess 0.99971(5個)、 ICU 0.9996(6個)、 nkf 0.998567(25個)、 universalchardet 0.969221(537個)
まとめ。
libguess( 関数 guess_jp)とnkfは日本語限定の判定。
ICUとuniversalchardetは判定可能な全ての言語での判定。
ICUは一致率60未満でバリナリと判定しこのとき4つのバイナリが西ヨーロッパ言語、2つのEUCが中国語となった。中国語と判定されたケースはもともと漢字が多く言語判定ではICUがもっとも正確といえる。
nkfの25個はSJISをバイナリと誤認した。universalchardetは、バイナリを言語、言語をバイナリなど間違えるケースが多発した。
日本語限定であればlibguess。 世界各国語が対象なら判定速度は遅いがICUがいい。
89 :
デフォルトの名無しさん:2009/10/20(火) 10:43:02
↑
正解率の括弧は、間違えた個数です。
90 :
デフォルトの名無しさん:2009/10/24(土) 18:54:24
アイデアのみで実装してないけど、自然言語処理にウェーブレット
使ったらどうだろう?
92 :
デフォルトの名無しさん:2009/11/05(木) 09:17:25
>>90 クラスタリングは諦めた。
それほど関連のある文書は多くない。
正しい分類が出来たところでほとんどは関連がない。
対象はたとえば世界中の文書。
ある一つの文書を指定したとき、関連する文書をサーチするのでいいや。
これは少ししたら上げる
やっと悪金解除された・・・
>>92 それはデータが少ないからじゃないのか?
どの位のデータなんだ?
94 :
デフォルトの名無しさん:2009/11/11(水) 05:16:35
100万件を10個程度ずつ10万個に分類したところで意味があるか。
人間にとって価値がないと思う。
いかに速く分類できたという数値測定は意味あるだろうが・
95 :
デフォルトの名無しさん:2009/11/11(水) 05:22:36
100万件の分類には相当時間かかるから、人間がデータを与えたら
それと似た文書を高速で検索できれば十分という考えになった。
100万などやったら、数時間〜一日とかかかるだろ。ずれなく分類使用した場合。
96 :
デフォルトの名無しさん:2009/11/16(月) 16:17:41
>>90 重要そうな文書を指定個数だけ勝手に判断して、
それと類似する文書を抜き出すのは出来た。
クラスタリングは全てを分類しなければならず大変だが
これなら短時間で可能。
ふう、悪金解除されたと思ったらまたされて、ようやく解除された・・・
お、ちゃんと進めてるみたいじゃん。
それってk-NN検索だね。
でもそれを効率良く(高速に)行なおうとすると索引が必要になって、
索引作りって半ばクラスタリングしてるようなもんになってない?
ところで100万文書というとかなりのもんだけど、やっぱウェブ?
昨日まちがえて Tully's cafe でキャラメルマキアート頼んでしまったが
店員さんは適当にキャラメルトッピングのホットコーヒーを作ってくれた
99 :
デフォルトの名無しさん:2009/11/23(月) 09:51:13
特徴ベクトルを抜き出す部分までは言語処理だけど
クラスタリングは別分野になるな。
画像でも、ベクトルさえ抽出できていたら
分類するのは言語でも共通するから。
100 :
デフォルトの名無しさん:2009/11/23(月) 11:04:56
ファイル群の特徴ベクトル抽出に一時間掛かったとしても
ほぼ無視出来るほどの時間だろう。
これに比べて分類は数倍-数十倍掛かるだろうから。
あと、クラスタリングより類似画像抽出のほうが困難と思った。
大きな分類だけではなく、ひとつひとつの対応まで必要だから。
これを高速で行えれば言語でも使える。
101 :
デフォルトの名無しさん:2009/11/23(月) 11:10:51
基底となるベクトルを3つ、4つなど数個を設定して
それとの類似度を計算して3次元、4次元座標に移し替えれば
クラスタリングしやすいと思った。
これを計算量は3n、 4nで分類に比べた無視出来る程度。
これで距離が近い物は元々似ている可能性があり
離れていれば、元々似ていないことが決定する。
102 :
デフォルトの名無しさん:2009/11/27(金) 00:39:26
わかち書きってどのようなアルゴリズムでやるんですか。
辞書は与えられたとして最長一致にしたいのですが。
103 :
102:2009/11/27(金) 05:21:43
簡単かと思っていたら、LZH ZIPなど圧縮法と関係あるみたいですね。
圧縮は辞書から最長一列を求めることなので。
ChaSenのソース読めばわかるよ。
色んなやり方があるけど、
基本的には当然、辞書の中の単語で文を切っていく
切っていくときに、単語の出現頻度を加味しながら、評価関数をmax(min)する組み合わせを探すだけ。
ChaSenなんかは、単語の頻度だけじゃなくて、品詞も見てて、
ある品詞が来たときに次の品詞は何になるかって情報を使ってるのね。(条件付き確率ってやつ)
(もしかすると、品詞情報を使って解くと言うより、品詞を当てるために使ってるのかもしれんが・・・)
で、ここまで書いてて俺がわかんなくなったんだけどw
あれってHMMをモデルに使ってるらしいけど、一体何を隠れ状態にしてるの?
品詞?単語?
あと、HMMつっても、解くときってどうやってるの?
確かMeCabがViterbiを使って高速に解くように改良したってどっかで書いてたけど
逆に、ChaSenの時は、HMMを何で解いてたの?まさか全探索してないよね?w
105 :
デフォルトの名無しさん:2009/11/27(金) 05:48:33
それは最もあり得る探索では
最長一致を高速に求めたいのですが
最長一致を高速に求めるなら、全文検索のお話じゃだめなの?
多分、SuffixTree(or Array)なりを作るような感じになると思うけど・・・
多分そっちだと、どうやって高速に作って、枝刈りしてリソース押さえるかって問題になるけど・・
でも、ちょい研究としては古いかな・・・。
107 :
デフォルトの名無しさん:2009/11/27(金) 06:01:01
ほほー、これは知らなかった。
BWT法とかよりいけそうなのか・・・。
うちはSuffixArrayで色々やってきたんだけど、
Treeに比べればメモリ的には優しいけど、それでも大変なんだよな・・・
なんせ一切端折らずに全ての位置情報を付加すれば、
文字数分のintなりlongの位置情報が必要になっちまうから・・・
109 :
デフォルトの名無しさん:2009/11/27(金) 06:10:01
全文検索に使いたいんですけど、結局の所、
分かち書きしなくても、辞書に登録と検索は可能なんですよね。
N-gramでやれば。
分割して無駄省けば、辞書サイズと検索精度は上がりますが。
検索目的で考えれば、品詞分解にやってる人は無駄だと思います。
それ以外で、MeCabやChaSen使うのはかなり少数な気がします
110 :
デフォルトの名無しさん:2009/11/27(金) 06:24:07
SuffixArrayやBWT法は一時期きょうみ持ったけど、
大きな欠点として新規データの追加が行えないので離れた。
構築時間も掛かるし。zipなど定番と同程度、同圧縮になれば
全文検索出来る分のメリットはあるけど。
これ実現したら、世界標準の圧縮になり得るけど。
111 :
デフォルトの名無しさん:2009/11/27(金) 06:34:58
Suffix Array、BWTは、O(n)で実現できるようですけど、
10nでも100nでも、O(n)ですからね。
圧縮と書き込み完了までの合計がコピーの5倍以内だったらいいけど。
┏┓┏┓ ┏━━━━━━┓ ┏┓ ┏━━━━┓┏━━┓
┃┃┃┃ ┗━━━━━┓┃ ┃┃ ┗━━┓┏┛┃┏┓┃
┏━┛┗┛┗━━━┓ ┏━━━━━┛┗┓┃┃ ┏━━┛┗┓┃┗┛┃
┃┏┓┏┓┏━━┓┃ ┗━━━━━━┓┃┃┃ ┗━━┓┏┛┗━━┛
┃┃┃┃┃┃ ┃┃ ┏━━━┓ ┃┃┃┃ ┏━━┛┗┓
┃┃┃┃┃┃┏━┛┗┓┃┏━┓┃ ┃┃┃┃ ┃┏━┓┏┛
┃┃┃┃┃┃┃┏┓┏┛┃┃ ┃┃ ┃┃┃┃ ┃┃ ┃┃
┃┗┛┗┛┃┃┗┛┃ ┃┗━┛┗━━┛┃┃┗┓┃┗━┛┃
┗━━━━┛┗━━┛ ┗━━━━━━━┛┗━┛┗━━━┛
形態素解析も依存構造解析も構文解析の一種
ここって随分低レベルになったり、
逆に、自然言語処理の研究者(M、Dr含む)が書き込んでるっぽいなぁってレスがあったりで
波がすごいなw
>>114 ありがとう。同じグループとして繋がりました。
>>115 すみません。まったくの素人です。
たまたま検索エンジンでこちらががヒットして、気になったことを質問しました。
大量にある文書から個人情報の箇所を自動的に隠蔽したく (例: 鈴木様 <<人名>>様)、
そういう技術を探していました。 市販の商品もあるようですが、手元のマシンで動かして確かめ
たり、理解を進めたいと思っています。
もし形態素解析で「人名」が特定できるなら、その部分を除去して元に戻すことで望む動作に
ならないかと期待しています。
実データを用いてどこまでできるか、何はできないか知りたいと思っています。
>>101 よくあるのは特異値分解していくつかの特異ベクトルを基底に選んで低次元に投射するってのだね。
そういうオーソドックスな事はやってみた?
(つд⊂)エーン
dosita
俺も今泣きたい。
nasite?
なにが
部外者です。
つまらない質問なんですけど、例えば「住んでいて」という言葉を「住んでて」と略したりしますよね?
これは文法的には間違っているけど、通じますよね?
こういった言葉の翻訳の場合、どのような処理をするもんなんでしょうか?
普通に考えると、辞書的な処理とか、略す規則を求めるとかなんでしょうけど、
もっと別の方法ってあるんですかね?
い抜き言葉とか、ら抜き言葉とか
一応決まった規則があるから、それで処理するだけかと
もっと本気で分析するなら、音素関係を見て
どういう音素の繋がりがあった時に、どの音を抜くかとか
そういうのもあるとは思うけど
>>123 間違ってないよ。
君の知らない文法があるってだけ。
127 :
デフォルトの名無しさん:2010/01/23(土) 13:22:01
>>117 特異値分解が、クラスタリングで重要なことがわかったけど
これを実行することが難しい。
128 :
デフォルトの名無しさん:2010/01/23(土) 14:23:24
でかい疎行列の特異値を計算するライブラリないですか?
129 :
デフォルトの名無しさん:2010/01/23(土) 14:33:59
特異値分解が、全ての相関度を計算するコストより
かかったら意味ないな。
経験的に、多くのベクトルと関連があって直行に近い数個のベクトル
を選んでおく方が良いか。
130 :
デフォルトの名無しさん:2010/01/23(土) 14:38:18
特異値分解できれば、相関度に影響の少ない次元を
数値的に削れるけど、時間がかかりすぎる気がしてきたから
これはやめるか。
っていうか、どうやってお前ら特徴ベクトル作ってんの?
片方の軸は単語として、もう片方は各文?
中身は頻度かtf・idfだと思うけど・・・
132 :
129:2010/01/23(土) 15:53:03
直交基底を始めに適当に作って
その基底でいくつかのサンプルをプロットしたときに
良く分布するものを選ぶことにした。
これなら次元を落とす作業の準備はほぼ一瞬ですむ。
おっとすまん、そこの「SVDPACKCとその語義判別問題への利用」という論文だ。
135 :
デフォルトの名無しさん:2010/01/24(日) 09:48:06
サンクス
136 :
デフォルトの名無しさん:2010/01/24(日) 16:47:18
SVDPACKCの使い方みたのですが大規模疎行列は無理みたいでした。
1-3万 * 2000くらいが限度だと厳しいです。
シュミットの直交化を使って、正規直交基底を沢山作っておき、そこへサンプルをプロットして
分散(標準偏差)の良い上位k個を選んで、k次元に落とすことにしました。
研究屋が言う「大規模」と、実務屋が必要とする「大規模」は
字面は同じでも意味が全然違うというわな
まったく、ほんとに出来の悪い学生だな。
ちったぁ自分で工夫しろ。
仮にsvdpackcをそのまま使うにしても、25000x2000でダメだったのは512Mのメモリの場合と書いてあるだろ。
今時数十GB位のメモリ使えるだろ。
>>137 計算機の世界では数字さえ出てくれば意味は同じですよ。
賢い実務屋さんなら人をクサすような事ばかりじゃなくて、こういう時にはみんなどうしているのか教えてやってよ。
とりあえず64bit環境用意しないと、話が進まないけどな
>>138 単一のハードウェアに数十GB単位のメモリが仮に載せられたとして
それをそのまま利用できると思ってるのは所詮解説論文しか書けない実装出来無い奴の頭だ
どこかの頭の悪い文系SEと同じ
ちなみに、大規模計算機の数十GBは、分散型だから、単一ではせいぜい数GB程度のメモリ
これを分散型にする場合、SVDをそういうアルゴリズムに落とさないといけないと言う問題が待っててだなry
おっとそれは俺が4年前に通った道だ
141 :
136:2010/01/24(日) 18:40:46
個人のPCで他アプリを同時に動かす環境で使いたいのですが。メモリは多くて200Mが限度と思います。
>>141 誰かが答えを呉れるのを待ってるのかもしれないけど、自分で調べた事柄と
自分の考えたをそれぞれ説明して、疑問点を明確にしないと
もう誰も答えないと思うよ。
メモリが200しかないんだろ?
200しかない所に300はつっこめないだろ?
じゃあどうするの?
魔法使いじゃないんだから、メモリにツッコむには
・データを何らかの前処理で圧縮する
・メモリ以外を活用する
・サンプリング
の3つしか無いと思うんだが
メモリを買ってくる
仮想記憶?
146 :
129:2010/01/25(月) 19:35:04
疎な10万次元ベクトルを、100次元以下に縮めたら、
0ベクトルになる率が多くて使えなかった。
何の変換もしない元のデータのままて゜頻度の少ない単語を無視して
次元圧縮するのが確実に有効っぽい。
目的が何か知らないけど(潜在的な意味繋がりを使いたいとかならともかく)
次元圧縮そのものが目的なら、頻度で切って
そこから更に次元圧縮するのって、何か無駄に見えるが・・・
頻度で切るなら圧縮意味なくね?
148 :
129:2010/01/26(火) 10:33:44
100万 - 1000万件ほどの文書のクラスタリングをしたいのですが。
計算量を減らすために次元を減らしたいのですが。
この分野を勉強してみたいと思うのですが、入門書とかおすすめのサイトを教えていただけませんか?
とりあえず、ずばり「自然言語処理」がタイトルに入ってる本が何冊かある。
自然言語処理って、ぶっちゃけ何でも屋だからなぁ・・・
漠然と自然言語処理を勉強するっていったって・・・
ちなみに、今世間で騒がれてる
検索エンジン、日本語入力、機械翻訳、なんて言うメジャーな自然言語処理の応用例と言われてるツールは
どっちかと言うと、この分野じゃ本流じゃないからな。
> 日本語入力、機械翻訳
これが専門の人から教わったので、俺にとっては自然言語処理というとこれなんだがw
最近はGoogleや集合知ブームのせいか知らないけど
統計的な言語処理が流行ってるなぁ・・・
統語的な話しとか、生成文法とかの話はどこへやら・・
「計量」言語学なんて用語もあるように、統計的な手法も歴史はあるんだけどね。
155 :
デフォルトの名無しさん:2010/01/29(金) 18:41:06
こんな線形代数の初歩しかやってない事が2001-2003年頃まで知られて無かったらしい。当たり前すぎて誰も論文かかなかっただけかも。
157 :
デフォルトの名無しさん:2010/01/29(金) 19:02:22
158 :
デフォルトの名無しさん:2010/01/29(金) 21:39:33
逆に言うとK-meansが正確に高速にとけると
固有値、ベクトル計算できるってことだな。特殊なやつだけだけど。
いまかんがえたやつだけど、1万個なら100クラスタ*100個に分けて
クラスタの中心とそのノルムを計算して、
ノルムはクラスタの散らばり度を表すから
その小さい物を、ほかのクラスタの散らばり度を無くす様に配置転換していけばいとおもうな。
ここで、良い場所がなければ101個目のクラスタを作って良いとする。
1つのクラスタが一番散らばりが少なくなるからどこかで止めないといけないが。
みなさん、どれくらいの機械使ってるもんなのかな。
スペック足りないからもっとゴツいの買ってほしいんだが、
「お前のコードがヘボいからだ!」と言われそうだ。
ヘボいのは(たぶん)事実だから、あんまり強気に出られない。
運用の方のスペックは割と情報があるけど、開発の方のスペックがどうなっているのか
見たことがない。
>>159 用途やデータの規模によるところが大きいかと。
いやそりゃ重々わかってるんだけどさ…
162 :
149:2010/02/01(月) 14:36:40
趣味である言語の自分用の機械翻訳ツールを作ってみようと思ってるんですが、
どこから勉強すべきか分からないんです。
自然言語処理の基礎から勉強するのは遠回り過ぎますか?
164 :
デフォルトの名無しさん:2010/02/04(木) 11:46:45
>>153 日本語限定のことはあまり価値無い
全世界や未知語や宇宙語でも共通するのが良い
165 :
デフォルトの名無しさん:2010/02/04(木) 14:32:23
671番さん
57行目でclassまたはinterfaceがありません。
です。
すみませんがよろしくおねがいします。
対話コーパスの隣接対について、自動的にタグ付けするアルゴリズムってどこかで研究されてる?
>>139 今時数十GBがそんな特別なもんかよおい・・・
ていうか、それをそのまま使えない環境なんて捨てちまえよ、おい・・・
いずれにせよサーベイしなさすぎだな、みんな。
168 :
162:2010/02/05(金) 00:42:53
>>163 レスが遅れましたがありがとうございます。
読んでみます
ググることをしないIR専門家(自称)
むしろググるな
論文探すって言う意味なら良いけど、
それなら、もっと良い方法あるだろ。
IR専門家なら、参考にするのは、査読付き論文のみにするだろjk
>>167 サーベイでどうにかなるもんだいじゃないだろ
元論文だって、結果の裏で細かい実装上の苦労があんだよ
そのノウハウ蓄積無しに、サーベイサーベイ言ってもなぁ・・・
サーベイばっかしてて研究進まない香具師
サーベイと言ったらとりあえずはIEEE-CS DLとACM DLは常識だと思った俺が悪かった。すまん。
>>173 そいつら、やたら使い難いじゃん。ググルスカラのほうが遥かにマシ。
>>159 Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。
もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる?
やっぱMPI?
>>148 亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの?
>>177 ???あまりにも疎だから次元減らしたいんじゃね?
>>178 疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。
表現がコンパクトなだけで空間としては全然コンパクトじゃない罠
知識なし、形態素分解なしでキーフレーズ抽出できるもの?
まず候補の分解までいければ、統計的手法で重要語を選べそうだけど。
知識なしで、単語分解と連結する語の特定するにはどうすればいい?
文書から学習したら連結する単語のいくつかは判明するけど
すべて網羅は無理。漢字・カタカナのみで最長部分を選べばよさげだけど。
ひらがな・数字をどうするか。漢数字でない数字を含むキーワードやひらがなを含むものもある。
1月18日などはスルーしたいところ。
辞書もコーパスもなしなら文字種の変わり目で区切るしかないんじゃないの
まあ「できる。」とか「のだった。」が最頻出になるのがオチだとおもうけど
>>181 ぱっと思いついた方法。
まず、n-gramをN=1からN=10ぐらいまで取る。
次に、低位の出現率のchainと高位の出現率を比べてみて
大きな差があったらそいつは単語っぽいと思っていいのでは。
ちゃんと論文読めw
ノンパラメトリックの形態素解析はもう研究され尽くしてる
今更そんなレベル低い事やっても意味がない
>>185 自分は言語処理やってる人間じゃないんだが、とある事情で形態素解析をやる必要が出てきた。
もちろん辞書の類は無しで。
もしよかったら参考になる文献か論文を教えてほしい。
そのまま実装に持っていけるくらいのアルゴリズムまで示されているとさらにありがたい。
>>185 機械学習だろ。
文書が1つ〜10つくらいの少しでも出来るのか。
出来るか出来ないかはともかく
既に先行研究がたくさんあるのに、今更1から原始的な方法を取る意味はない
少ない文書で知識なしで分解するソース上げてから言ってもらおう
ベイズなんとかを有意に計算できるくらいにはコーパスが必要なんじゃないの
何でもいいから一冊くらい本を通読してから質問しろよ。
とある企業のサーバシステムをまかされました。良い本を教えてください。
とか言われて、まともな回答ができると思うのか。
技術屋によくいるタイプなんだけど、ちょっと質問すると「うーん」とうなって「それだけじゃなんとも…あれは?これは?それは?」と逆に質問されまくる。
そういう時は「あんたコミュ能力不足だね」と言ってやる。
>>192 お客様扱いされたいなら、コンサルに金を払え、池沼。
>>192 コミュ能力不足は、一発で回答を期待してるのに、十分な情報を与えてないおまえだ。
つーか、「とある事情で形態素解析をやる必要が出てきた」だけなら
「めかぶでも使っとけお前の仕事なんてねーよ」で終わるレベル
>>195 > もちろん辞書の類は無しで。
コミュ力不足w
辞書不可とか「辞書作るのとかめんどくせーし」ってだけだろ。おまえのコミュ力が心配だわ
>>197 そういう決め付けはコミュ不足の典型例だな
>>185 といいながら、具体的なアルゴリズム名や文献を例示できるほどには詳しくないのですねw
決めつけも何も事実だし
事実と推測の区別がつかない人がコミュ力とかwww
久々に見たらなんか盛り上がってて嬉しいぞ
論理的には同じことを言っている文章を検出する方法はないのでしょうか
日本語を論理式に変換するようなものがあるといいのですが
あるといえばあるしないといえなくもない
>>204 検索キーワードだけでも教えていただけませんでしょうか
専門業者に頼んだほうがいいんじゃないの
自分で同義語辞書作ってたら何年かかることやら
I'll be back.
と
See you later.
は論理的には同じ?
最後は人出で探すから大まかに検出できるだけでいいんだ
mecabを日本語のhtmlにかけると、htmlのタグまで処理してしまうんだけど
日本語文字列だけ判別して処理する方法はないの?
kakasiはあったみたいだけど
京都大霊長類研究所(愛知県犬山市)人類進化モデル研究センターで昨年
3月〜今月までに、飼育中のニホンザル15頭が急死していたことが28日、
かった。
死因は不明で、感染症の疑いもあるという。
同センターによると、死んだニホンザルは昨年6頭、今年9頭。いずれも血液中の
血小板や赤血球、白血球の数が減少する「再生不良性貧血」を発症していた。ただ、
病気と急死の因果関係がはっきりせず、死因は特定できていないという。
また、一つの飼育室で複数のサルが発症していることなどから、感染症の疑いも
あるという。2001〜02年にも再生不良性貧血の症状があった6頭が急死したが、
死因は分かっていない。
同センターでは約1000頭を飼育しているが、ニホンザル以外での発症例はなく、
平井啓久センター長は「今夏以降、死因を本格的に調べている。分かり次第、
公表したい」と話している。
読売新聞 2009年12月28日19時56分
http://www.yomiuri.co.jp/science/news/20091228-OYT1T01061.htm
いまこのスレ見つけて、wktkしながらみてみたのだが、、
質問してるやつらが、痛すぎるなあ。
2chはそんな場所。そこが面白いところでもある
未知言語に対して、ほぼ必ず区切りになる部分の見つけ方わかりますか?
例えば、英語だと空白やDOT、日本語だと、。が区切りなりますが。
たとえば 「。」 → 「丸」 と置き換えた場合でも、言語の構成・仕組みから
「丸」は特別で区切りと判明できる方法です。
あげます。
ABCと語が出現したとき。
Aの総数と、ABの総数
Bの総数と、ABの総数
Bの総数と、BCの総数
Cの総数と、BCの総数
などを比較して、
ABとBCはどちらも繋がりにくい事を判定すればいいか。
= AB、BCは単語を構成しない(らしい)としてBが区切りと判定する。
上のほうで辞書なしとかノンパラメトリックとかいってるのがそれだ。あとはぐぐれ。
サンクス
周辺確率でぐぐれ
221 :
人工痴脳:2010/06/26(土) 22:01:07
遅レスですまん。
>>123 > つまらない質問なんですけど、例えば「住んでいて」という言葉を
> 「住んでて」と略したりしますよね?
> これは文法的には間違っているけど、通じますよね?
補助動詞「行く」「置く」「居る」の三つは省略がある。
ex.「ずっと住んでく」「とりあえず住んどく」「いま住んでる」
>>181 > 知識なし、形態素分解なしでキーフレーズ抽出できるもの?
可能ではあるが精度が上がらんから、辞書作ったほうが早い。
頭っから見てって、ひらがなから非ひらがなに変わるところで切り、
ひとつ前を見て「お」「ご」だったら接頭語かどうかチェックする、
という手で相当いける。
まあ、そこまでやらんでも、すでにフリーの辞書があるから
それ使え。
ゲーム製作技術板の『人工知能or人工無脳作ろうぜ』スレ参照。
>>203 > 論理的には同じことを言っている文章を検出する方法はないのでしょうか
> 日本語を論理式に変換するようなものがあるといいのですが
様相論理が役に立つかもしれん。
坂井秀寿『日本語の文法と論理』勁草書房とか。
224 :
デフォルトの名無しさん:2010/07/03(土) 11:20:19
UTF16LE UTF16BEを検出出来るソフトはないようだ。
判定方法判ったので、ソフトで間違えた場合の応急処置として使ってみてくれ。
このyの値が1/2より下回ればUTF16LE、上回ればUTF16BE。
int n; int cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<s.size(); n++) cnt[n%2]+=s[n]<32?1:0;
double y=(double)cnt[0]/cnt[1];
cout<<y<<endl;
225 :
224:2010/07/03(土) 11:22:29
訂正。
このyの値が1/2より
→
このyの値が1より
上位ビット、下位ビットが不均衡になる所に注目する。
226 :
デフォルトの名無しさん:2010/07/03(土) 11:55:48
UTF16LEとUTF16BEが間違えるな。
文字化けがあれば大小関係がかわるし。
227 :
デフォルトの名無しさん:2010/07/03(土) 12:57:55
ボム無しUTF16LEとUTF16BEの判定方法判りますか
228 :
デフォルトの名無しさん:2010/07/03(土) 13:29:00
UTF16の判定は0の個数だけ判定したらうまくいった。ただし英数字が十分にあること。
int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[0] > 0.7*cnt[1] ) return 2; // UTF-16BE
return 0; }
ヒューリスティックだねぇ
230 :
デフォルトの名無しさん:2010/07/03(土) 14:32:02
修正
int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if(cnt[0]==0 || cnt[1]==0 ) return 0;
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[1] < 0.7*cnt[0] ) return 2; // UTF-16BE
return 0; }
連続した文字が「同じ文字区分に属している確率」を見ればいいんじゃない?
232 :
デフォルトの名無しさん:2010/07/06(火) 04:51:26
>>227 察するにCかなんか使ってるようだが、
Javaかなんかに乗り換えたほうが
たぶん長期的に見れば楽だと思うぞ。
Cの文字列はヌル・ターミネートだから、
文字列の中にヌル文字が入ってると結構ややこしいことになるし、
文字列のような可変長データの動的割当を気にしていると
開発効率があまりよろしくない。
Javaが厄介な点も一つだけあって、
char が signedで あって unsigned じゃない。
高速ですべての部分文字列の辞書引き(直積検索という)を
行なうとき、Google でも使われてる
「ダプル配列法」(本当は、もっと素朴なトリプル配列法のほうが
面倒臭くないし効率もいいのでおれはそっちを使ってる)を
使おうとすると、配列の参照点→配列の参照点+バイアスという
相対移動が出てくるときにマイナスの移動が生じ、
範囲外参照で落ちるということがある。
まあ、そこに配慮してコードを書けばいいだけの話なんだが、
文字コードのせいでプログラムとアルゴリズムの対応が直感的に
取りづらいというのはあまり気分がよろしくない。
Javaのcharは符号無しですが何か?
>>233 ごめん byte だ。
char はでかすぎてダブル配列法を使うと場所食ってたまらん。
235 :
デフォルトの名無しさん:2010/07/07(水) 17:43:13
文書の類似度計るのに多く出る単語は価値を低くして
滅多に出ない単語も価値を低くしたいのですが。
後者は、前者と対立して価値を高くすべきと思われますが、ここを無視すれば計算時間が短縮出来ます。
価値が一定値以下の単語はカットしたいのですが、上側と下側をカットするにはどうしたらいいですか。
w_i = 0
これでバッチリ。
普通にヒストグラム取って25パーセンタイルと75パーセンタイルでカットするとかじゃ駄目なのか?
238 :
デフォルトの名無しさん:2010/07/07(水) 21:06:19
サンクスです。
上と下も同一パラメータでカットしたかったのですが。
総量と分散でに分けてカットすることにします。
どの文書にも10個ずつ現れるなら分散0でカットして
合計数が少なすぎ多すぎでカットします。
239 :
デフォルトの名無しさん:2010/07/07(水) 21:10:21
>>237 二十年以上昔から
駄目っぽいことが判ってるらしい。
上側は用言や副詞や動名詞
下側は固有名詞と
だいたい傾向が分かっていて、
類似度を計るときは、通称「百科語」と呼ばれる
単語を使うことになっているのだが、
ここんとこに漢語の合成語が入ってくるのが難物なのだ。
漢語の合成語を自動検出するシステムを作って
ふるいに掛けてみたら、
二十万語を越しても一向に頭打ちになる様子がないので
怖くなってやめたと、たしか高橋秀俊先生が
書いていらっしゃった。
最近ではシソーラスを作るのが基本だが、
手間が半端じゃねぇというので
あまり好かれない。
>>235 もたぶんそういった流れなんだろうと思う。
240 :
デフォルトの名無しさん:2010/07/07(水) 21:14:30
自分の場合は、単語は普通の単語でなくN-gramなんですが。
HTMLをテキストとして読み込むと、文書を特徴付けないタグ関連が上位にきて
ここら辺が精度のためにカットして、下位は精度より計算量削減のため削ります。
241 :
デフォルトの名無しさん:2010/07/07(水) 21:20:29
普通の単語では、長いものは短い物より現れにくく
経験としての単語同士の価値の補正が必要になり不便です。
いまは、UTF16 (上のレスは自分です) で2語または3語で回数数えてやってます。
>>239 今時の計算機ならいけるかもしれんな。
IPADICから合成語を除いた上で、2語で1語になるものを、ウェブ上で端から集めるとか
そんな方法ででけるかな。
>>242 辞書がこなれてくるまでに
多少人手で編修する必要はあると思うが、
基本いけそうに思う。
「割愛する」が「割+愛する」と
解析されてしまうとかいった類の
不測の事態っつーのがけっこうあったりするので。
割礼
MeCabってどういう仕組みなんですか?
文字列abcがあり、辞書に[a], [b], [c], [a, b], [b, c], [a, b, c]の形態素情報があった場合、
もっとも繋がりの高い形態素の連鎖状況を見てそれを出力するんですか?
(例えば[a][b][c]よりも[a, b][c]となっている確率の方が高い場合、後者を選択)
品詞情報からp(x|y)を判断する方法もあると思いますが、特定の形態素に対してp(x|y)を算出するのに辞書情報を用いる方法が分かりません。
c++でmecab使ってるんだけど
直接stringを解析ってできないの?
今はいちいちstringからcharに変換してる
>>248 なかったはず。
いちいち変換と言っても tagger.parse(str.c_str()) くらいだし、ユーティリティのマクロでも書けば?
>>249 ありがと!
そうしてみる
それにしてもmecabをc++で書いてる人ってあんまいないね
みんなperl使ってるわ
統計ならR
画像ならOpenCV
みたいな定番があるけど
自然言語処理でこれが定番みたいなものはないの?
Python
ツールが揃ってるのが大きい。
Perlはもう時代遅れ気味で
新しいツールはPythonばかり。
>>252 質問(
>>251)しているのは、プログラミング言語ではなくて
アプリケーションあるいはミドルウェアに属すソフトウェアだと思うんだが?
>>252 日本語でも大丈夫なのかな?
もしよかったら日本語OKなライブラリを教えて。
でもネットに転がってるソースってまだPerlが全然多ないか?
参考にしたいから勉強しようと思ってたけど
遅れ気味って言われると今からやるのは抵抗あるな
今からperlやるのは
今からwin95使うようなもんだろ
そりゃあ最近まではPerlが主流だったから既存のソースは多いよ。
ただ、これからはPythonが主流なので最先端の実装はPythonでリリースされるのが多い。
Perlでは新しいツールはあまり作られなくなるだろうね。
POPFileを今も使ってる
perlはまだまだ現役
別にどっちでもいいよ。目的は、所望の処理ができることだから。
とりあえず自然言語処理ではmatlabやRに相当するものはないということでいいんだね
>>261 日本語ならNAISTが開発している一連の形態要素解析/言語解析ライブラリ群、
コーパス/辞書管理ツール群がmatlabやRに相当するものになるのではないかと。
ちなみに既出の形態要素解析ライブラリMeCab(そしてChaSen)もNAIST生まれ。
ただ、数学に無知な人がmatlabやRを使いこなせないのと同じ理由で、
統語的意味論とか統計的言語解析みたいな言語理論を理解していないと使えないけどね。
NAISTの成果物 (MeCab, ChaSen等) と、京都大学の成果物 (JUMAN, KNP等) は
どちらが優れる?
アイちゃん
265 :
262:2010/09/18(土) 11:59:16
>>263 ナゼそこで個別のパッケージを比較せずに開発元組織を比較しようとする?
お前は本物のサルだな
mecabをc++で使ってて、解析したnode->surfaceから表層系を取り出したいんだけど
charから指定した文字数を吐くような関数ってある?
char型の文字を指定した文字数だけstring型に移す関数でもいいんだけど
やっぱstrncpy使わないとダメか?
質問がよく判らんが、sprintf(destination, "%.*s", length, source)という話なのだろうか
Natural Language Processing with Pythonの和訳本がようやく出るね
twitterでは5月ころ出るって言ってたのにw
でも日本語処理の章も追加されてるししょうがないのか
269 :
デフォルトの名無しさん:2010/12/15(水) 02:04:41
緊張浮上
日本語処理に関する、ゴミみたいな記事が追加されただけだろ
とゴミが言いました。
読んだけどいい本だったよ
基本的に英語での処理?
英語ってスペースで区切れば簡単に英単語抽出できそうだよね。
そう思ってる椰子はステマーの奥深さを知らない初学者。
ステマー?
動詞の活用とか副詞のlyとか接頭語接尾語に関する用語か?
ってかこの分野って需要ある?
機械翻訳の技術について書かれた本とかサイトとかないかな?
今どんなことが問題になっててどんなアプローチされてるのかとか知りたいんだけど
ググレ
ググれは最強だからな
>>278 誰かまとめてくれ。
自然言語処理の分野で。
自然言語処理では、
造語とか、略語とか、若者言葉とか、
特殊な言葉はどうやって処理してるんだ?
特別な辞書(キーワードリスト)でも作っておけばいいのか?
文部省的な「文法」(橋本文法とかね)に従ってきっちり処理できるような文は、
現実に通用してる文のごく一部でしかないので、自然言語処理ではもっと適当に
現実に合わせて処理しています。
つまり特殊な言葉とかそういうくくりはなくて、単に処理する必要がある(ありそうな)
単語は片っ端から辞書に登録されているわけ。
誤字脱字があっても平気?
みんな言語処理でどんなことしようとしてるの?
金儲け
人工無能
英語の勉強に活用。
ステマーの奥深さを知らないのか
>>290 たとえば、
nltk.chat.chatbots()
を使うとbotと会話できるw
どのアルゴリズムもパラメータサーチは結局は手動で勘なのか
全然進歩してないな
そんなことないだろ。
四ヶ月ぐらい取り組んできた成果が出てきた
日本語限定だが自然言語処理を根本からひっくり返せるかもしれぬ
どこで発表すべき迷うな
ここでもいいよ
すごそうだぬ
入門書の良い本紹介してくれませんか?
入門自然言語処理
CRFって離散変数しか扱えないの?
本屋にpythonでテキストマイニングする本が積まれてた
ここみるとみんなrubyのような気もするんだけど
pythonの方が実は使われてたりするの?
>>300 少なくとも国際的には圧倒的にpythonが主流。
Pythonは機械学習・データマイニングなどのライブラリが充実してる
そういえばRってあんまりみないね
pythonなんだ
入門自然言語処理って面白い?
おいしいよ
どういうこっちゃねん
人工無能botを作りたいんですがおすすめの本とかありますか?
誰でもできるtwitterbotの作り方。
310 :
デフォルトの名無しさん:2011/09/08(木) 23:46:18.94
tf,idfのidfの式に+1する理由って何ですか?
0にしないため?
ラプラスさんに訊け
表記は tf*idf じゃないのかな?
tf☆idf
しょうもないことをいってすまんかった。話を続けてくれ。
315 :
デフォルトの名無しさん:2011/12/13(火) 23:33:05.83
皆さんは使っているのは
距離:コサイン類似度
クラスタリング:k-means
分類:SVM
って感じなのでしょうか?
どんなもの使用しているのか教えていただけませんでしょうか?
目的によるんじゃないの? どうしてそう特定できるのだろう?
317 :
片山博文MZ ◆0lBZNi.Q7evd :2011/12/17(土) 14:37:13.95
他のスレでも書いていますが、小学校2年生ぐらいの算数の文章問題を
解析して答えを導きたいとき、どのような処理を行えばよいのでしょうか。
単純な計算は解けます。困っているのは日本語の処理です。
数学者が扱うようなかっちり定義された問題なら
まだわからなくもない
すずめが 5わいます。 そこへ2わとんできました。
すずめは みんなで なんわに なったでしょう。
りんごが 3こ あります。
さとしくんは 1こ たべました。
りんごは のこり なんこに なったでしょう。
322 :
片山博文MZ ◆0lBZNi.Q7evd :2011/12/17(土) 16:18:38.32
おすしを2こたべました。
今、さらに3こをたべました。
ぜんぶでなんこたべたことになりますか?
しかもひらがなかよ!!
>>322 それは難しすぎる
高騰プログラミング技術が必要だ
論理命題に落としこむとか対応付けたり出来ないか
食べる → マイナス
飛ぶ → マイナス
みたいに
>>321 食べる→マイナス
>>322 食べる→プラス
プログラミングじゃなくて言語学を専門でやらないと無理
ちなみに
>>322 の「さらに」は皿のことだからな、間違うなよ!!!
いったん人の読める形に変換するとか。
おすしを2こたべました。
↓
私は2個のお鮨を食べた。
小学校低学年向けだとすると
文脈情報を極端にカットしてるケースも多いと思われ
あらかじめ問題作成者と連携を取って
使用可能な単語リストや文型が完全に定義された状態からのスタートなら
わからなくもない
329 :
片山博文MZ ◆0lBZNi.Q7evd :2011/12/18(日) 12:18:55.16
少なくとも時系列記憶ができないといけない。
330 :
デフォルトの名無しさん:2011/12/19(月) 22:35:08.20
今、自然言語の本を読んでいるのですが、質問させてください
PythonでNLTKを使った解説がありますが、このモジュールは日本語でも使えますか?
関数など見ていると、英語圏のように、スペースにて文字を区切ることを前提にしている様ですし、
品詞タガーだけでなく、N-gram関数でさえも一単語(英語)と一文字(日本語)で、
日本語の場合と(仕方ないですが)挙動が違ってきますし
・日本語を解析する際にもNLTKが使用できるのか
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
を教えて頂けませんでしょうか?
>>330 ・日本語を解析する際にもNLTKが使用できるのか
自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
日本語用のNLTKみたいなのはないと思うので大体は自分で書く
なにをするのかによるけどngramとかなんかだったらmecab + pythonですぐ書けるし(速度は別にして)
333 :
デフォルトの名無しさん:2011/12/19(月) 23:38:01.74
>自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
なるほど、やはりそうですか
本を読んでいて、「これ日本語で使えるか?」と思っておりました
ストップワードを削除するとか言うRTEFeatureExtractorは元より、他の関数達も、(日本とかは世界では独特でしょうから当然ですが)欧米型の文書構造を考えているので
使うのは厳しいだろうなとは思いました
中には日本語でも使えるものもあるとは思いますが
自分は元々PHPでN-gramとかMecabとか書いたり使ったりしていたのですが、めんどくさくなってきた&自然言語はPythonみたいなものがあってPythonを学習しました
しかし、となるとPython使う意味がなくなったような気もしますが、Pythonは統計計算系のライブラリなど充実していると聞きました
自然処理として、入門的な所で言うと、ナイーブベイズなどのライブラリとかそういうのはやはり皆さんは使われているのでしょうか?
関係ないとは思いますが、この場合(ライブラリを使う場合)も日本語の問題はやはりあるのでしょうか?
334 :
デフォルトの名無しさん:2011/12/19(月) 23:41:01.14
>>332 ありがとうございます
ネットにて検索いたしました
まぁ、読めば分かるのかもしれませんが、そのように形態素とNLTKを連携させた場合、上記で書きましたようなNLTKの関数などはやはり使えないのでしょうか?
(´・ω・`)シランガナ
>>333 python以外あんまやったことないんで、間違った意見かもしれないけど
確かにライブラリは充実してると思う(自分はあまりつかわないけど)
ナイーブベイズくらいなら自分で書いちゃうけど、例えばSVMだったらlibsvmとか使う
まあこれはPHPでも使えるけど
だから、自分が使いやすければ言語はなんでもいいと思うよ
ただ、言語処理だとpythonとかrubyを使ってる人が多いから、
ネットに転がってるソースを見るときに楽ってのはある
337 :
デフォルトの名無しさん:2011/12/20(火) 00:26:51.64
でもPythonやRubyってVBと同じくらい糞言語に見えると思うんだよな。
PHP使ってるところからして。
質問させてください
N-gramを使用した場合、形態素解析と違い、
自分で品詞タガー、チャンキングなど作成する実装をしないといけないと思うのですが、
それらのように、N-gramのその後に行うべき処理はどういうものがあるのかを教えていただけませんでしょうか?
N-gramを行えというのはどの本や資料でも書かれていますが、そのままだと、品詞も分からず、
そもそも["今日”, "日か", "から", "から"]など単語として成り立っていないので、
どのようにかして結合し、単語にしなければいけないと思います
欧米の場合はN-gramを使えば単語に分かれているのでそのままでもいいのでしょうが、
日本語の場合はそのように、N-gram後の事が書かれていません
N-gram後に何をどういう手順で行えばいいのかアドバイスを頂けないでしょうか?
また、そのような事の書かれているサイトや書籍などありましたら教えていただきたいと思います
文字に対するngramなのか、単語に対するngramなのか、
まずそこをはっきりさせないと。
>>339 一般的にN-gramアルゴリズムでは文字N-gramが書かれていると思いますので、文字N-gramです
で、文字ngramを使ったPOS taggerを作りたいの?
それとも文字ngramを使ったchunkerを作りたいの?
最終的に何をしたいのか不明のままでは
taggingやchunkingが必要かどうかすら不明なんだけ
>>341 まずN-gramから単語に・・・と思ったのですが、
そもそもの問題として質問させてください(すみません)
皆さんはN-gramの後に単語に作り直さないのでしょうか?
タガー、チャンク作成は必須なのかなと勝手に思っていたのですが
Mecabなども品詞は出てきますし
例えば、ナイーブベイズとかピアソンなどで類似性をはかるにはまず単語にしなければいけないと思うのですが
違うのでしょうか?
自分は、ある文章をクラス(ジャンル)分けしようと考えているのですが、
その為には品詞、特に名詞(後は動詞)を使うのがいいと思いました
Mecabならば出来ますが、N-gramでやろうとすると、文字に分割した後が何をすればいいのかいまいち分かりませんで
とにかく、N-gram -> 相関性やクラスタリングなどの式に送る ということをしたいと思っております
品詞使いたいなら素直にmecab使えよ
なんでn-gram使いたんだ?
mecabがいいと自分は楽だと思ったのですが、新語や他国後を扱う機会が想定されまして
辞書の追加、インデックスなど後々めんどうだと思いまして
で、N-gramを使った実装をテストしてみようと思ったのですが、分割したものを単語にまとめなおすという情報が、検索の仕方が悪いのかもしれませんが出てきませんでした
単にN-gram テキストマイニングとか、その後処理とかいくつかやってはみたのですが
まず単語に直せさえすれば欧米のようにチャンク文法とかへ繋げる事が出来るとは思ったのですが
色々と考えてみたのですが非常に難しいでした
日本語でN-gramを使っている人やGoogleを始め、他の検索エンジンでもN-gramを採用しているところもあるという事実から出来ないことはないとは思うのですが
N-gramは漏れなしで全て登録が基本。
知識なしの統計のみで単語分割はN-gramとは別の話題。
なんでもかんでもN-gramで解決すると思うな。
翻訳やIMEを作るのでなく、容量食ってでも漏れなし検索したいときに全パータンを登録するのがN-gram
そもそもやりたいのは文章分類なんだよね?
それなら新語はそんなにクリティカルじゃないと思うんだけど
どうしてもn-gram使いたいんだったら、2から5くらいでn-gram作ってやって
それぞれでSVMで分類してやれば?
形態素で分類したほうが精度いいと思うけどね
長くなってすみません m(_ _)m
教えて頂きたいのですが、「漏れなしで全て登録が基本」というのがちょっと分からなかったのですが、
日本語の場合は欧米系と違い、N-gramで単語単語が取得できません
で、自分など読んでる本とか、Web上の情報など欧米系のものが主になってきてしまっているので、
その感覚で考えてしまっているので混乱または難しく考えているのかもしれませんが、
日本語の場合はそもそも単語に戻す処理をするのでしょうか?
それとも、欧米系とは根本から異なり、上記のように["今日”, "日か", "から", "から"]のような構造を保持し、
それを(単語として戻さずに)検索などの処理に当てるのでしょうか?
その根本的な部分がまず分かっていないと思います
ただ、戻さないとナイーブベイズとか後処理へ持って行けないので訳が分からなくなります(苦笑)
形態素解析だけでは本当の意味でのテキストマイニングなど出来ないんじゃないかと思います
351 :
350:2011/12/20(火) 21:52:48.13
おおっ、350書いてる間に大量の返答ありがとうございます
先にお礼を述べさせていただきたいと思います
今からレスを一つ一つ確認いたします
353 :
350:2011/12/20(火) 22:07:13.91
なるほどッ!
皆さん、レスありがとうございます
自分の場合、まず検索エンジンの文章を読んだために形態素とN-gramが比較の対象になっていたのですね
(自分は検索エンジンを作るつもりではありませんでしたが)
形態素よりもN-gramの方がいいと書かれていた(メリットが強調されていた)為に、
まずN-gramが先に来てしまっていたのだと思います
それと何度も書いていますが、欧米系の処理方法が頭にあったので
日本語の場合はクラスタリングとか統計的に使う場合は形態素解析がメインで、N-gramは殆どないという事ですね
教師なし形態素解析というのは少し前に知って、ネット上でザッと目を通したのですが、
良く分からないから後回しにしようと思っておりました
関連にてやはりきちんと読んでみようと思います
"人間が理解可能な言語構造のない検索対象"というのは言葉の表現を聞いただけでとてつもなく難しそうな
感じがしますが、読んでみます
1〜N Gramが最も確実な検索。
形態素は、そのうちで登録しないものを取り除いた検索。
検索されないだろう物を除外。
日本語相手にngramを使う場合、
検索なら文字ngram
分類なら形態素解析した後で単語ngram
ただし、文字ngramでも自動分類に使うことはできる。
もちろん形態素解析したほうが精度いいけどね。
多国語を同じスキームで処理することが目的なら、
文字ngramで自動分類やクラスタリングするのも
頭から否定してかかるほど的外れでもない。
この場合は文字ngramの種類数が莫大になるから
うまくfeature selectionしてやる必要があるだろうね。
がんばれ。
特徴
KyTeaには以下の機能が揃っています:
単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。
読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。
線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。
<a href="
http://www.phontron.com/kytea/index-ja.html">KyTea (京都テキスト解析ツールキット)</a>
>>356 ついこないだからknp使い始めたにわかがマジレスすると、係り受け木を利用することで単語列よりは文の意味的なものを扱いやすくなります。
まず、係り受けっていうのは、語の修飾関係を表している、情報を付け足す向きを表しているものです。
私が本を読んだ、という文の係り受けは
私が→読んだ
本を→読んだ
これを木の形にするとknpとかの出力になります。
そのうえで大量の文書の特定の固有名詞への係り受けをクラスタリングすると、特定の固有名詞に対する評価が分析できるとかじゃないかな
>>358 なるほど
レスありがとうございます
私が→読んだ
本を→読んだ
のようなものの精度を上げるのは難しい仕事だと思いますが、コンピュータに文脈の意味を誤解させない・・・というか、
品詞分解などなどで間違わせないようにする機能と理解して宜しいのでしょうか?
>>359 なるほど
関連性、親密性のようなものも判断できるということですね
361 :
デフォルトの名無しさん:2011/12/27(火) 17:28:18.65
かな漢字変換の実装を行なっていて
後ろ向き探索をA*アルゴリズムで行い、n-best解を求めたいのですが
どのように実装すればよろしいのでしょうか。
現在、前向き探索をコスト最小法で行なっていて、
ある文字で終わるノードのコストはわかっています。
できれば、Rubyでの実装法を教えていただけるとありがたいです。
スレ違いでしたら申し訳ございません。
>>361 A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まるが?
363 :
デフォルトの名無しさん:2011/12/27(火) 17:54:34.37
>>362 A*の実装法がよくわからないのです。
前向き探索を一度やっていると効率よくA*を出きるというのですが
具体的にどのように書いていけば良いのかわからなくて…
Ruby(というか、プログラム)初心者なもので、ご教授いただけるとありがたいです。
自分の読んだ本には例えば「僕は今日高校生になります」と「僕は今日川に泳ぎに行きました」という2文があった場合、(簡単な為名詞、動詞だけにします)
x(今日) = (n("僕"), n("高校生"), n("川"), n("泳ぐ")) = (1, 1, 0, 0)
とか、(n("今日"-1), n("今日"+1), ...) = ()
という様な色々な表現法でベクトルで表し、それらに文書の類似性として、ピアソン相関係数とかコサイン類似度などを使用するようですが、分からない点があります
文書の群があった場合、それらをまずクラスタリングや分類器にてクラス分けし、その後で類似性を上記の様に計算するのだと思いますが、
例えば、10個の文書群でも相互に計算する場合、9+8+....+1通りありますし、
文書自体も1000語とかあれば類似度計算自体も大変だと思います
これがもし文書が何千個もあれば、膨大な類似計算が必要になると思います
こういう場合、どのようにして対処すれば宜しいのでしょうか?
何か他にいい類似度を測る計算法だとか、アルゴリズムとかありましたら教えていただきたいのですが
>>364 n個の到達解S1,...,Snを得た後で残された全ての可能な経路について
h()がadmissibleであれば、あとは自明だよね?
368 :
デフォルトの名無しさん:2011/12/29(木) 07:11:16.75
テイラー展開がある大域的な領域の各点で可能な関数は、その領域において解析的である(またはその領域上の解析関数であるという)。
大方収束したと考えてよろしいのでは。
A*もダイクストラもたいしてかわらない。
まずダイクストラで組むんだ。
違いは最短距離を予測するヒューリスティック関数の作り方が難しいだけ。
A*よりもそれを適用するためのかな仮名漢字変換用データの収集・選択が難しいだろ。
371 :
デフォルトの名無しさん:2011/12/31(土) 00:23:59.89
361です。皆様、解説ありがとうございます。
まだ、全部に目を通せていない&実装できる環境にしばらく行けないのですが
参考にまた、勉強してみようと思います。
372 :
デフォルトの名無しさん:2011/12/31(土) 04:01:16.07
373 :
片山博文MZ ◆0lBZNi.Q7evd :2011/12/31(土) 15:55:06.49
自然言語処理を1から勉強したいです。
いい本とかサイトとかあったら教えてください。
>>373 ネットで探してみなよ
私は大卒じゃないけれど、何とか勉強していけそう
あなたも興味があるなら、頑張って
>>375 最初はいいんだけど、おそらくある程度のところになると大学で学ばないときつい
特に、プロの実践の場での使用となると・・・
>>373 とりあえず、「入門自然言語処理」を読んで、自然言語処理の勉強会にいけ。TokyoNLPとか、DSIRNLPとか。
赤ちゃんプレイでしたら申し訳ございません。
379 :
デフォルトの名無しさん:2012/01/01(日) 02:03:48.30
勉強会はありがたいですよねー。
詰まったときは、聞くことも出来るしさ
大学行くか、独学か…お好きな方を
どちらにしても、目標あるって良いよね ;)
381 :
デフォルトの名無しさん:2012/01/02(月) 12:24:14.38
>>376 大学がじゃないと厳しいと思えるのは何ですか?
何か一つでもあげてもらえば参考になります
>>381 最終的に何がしたいかにもよるけど、基礎をやろうとすると独学や企業では難しいかもしれない。
言語学よりな話とか、論文の読み方、研究の仕方、とかね。機械学習とかはよほどマニアックな話でなければ企業でもやれるんでないの。
あと、独学だとモチベーションの保ちかたとか趣味レベルを超えた時の目標とか難しそう。
何でみんなUnicodeを使わないの? Lispで使えなかったから?
どう考えても企業の方が上だろ。
アメリカのようにビジネス、実践を重視して、即戦力になる大学なら別だが。
日本の大学は、ちょっと知識がある程度になるだけ。
即戦力、リーダーなどに抜擢されたりしない。
社会人厨は巣に帰れよ。
だいたいの日本の企業はアメリカのように先端の研究をしない。
ほとんどの企業は世界と競争できる研究なんて全くしてない。
ジャストシステムとか
富士通とか
NTT系のどっか
日本企業が世界で戦えないレベルとしたらいまごろ外資に占領されてるだろう。
今自然言語の練習でニュースサイトの分類などしようと思っているのですが、この場合、クラスタリング、分類器などどんなものを使うのが一番いいのでしょうか?
ニューラルネットワークが一番いいのかもしれませんが良く分かりません
例えば、「野田総理が辞任しました」のような記事を同類にまとめるとか、スポーツ記事の中でもサッカーや野球にわけるとかです
SVMはナイーブベイズよりも精度が高いようですが、ある程度の記事数になると処理の重さなどにより逆にナイーブベイズの方が有利とかあるようです
自分はSVMがカーネルの所がまだハッキリと理解できないでいるのですが
今日R言語でのテキストマイニングの本を読んでみたのですが、なんとユークリッドで分けていました
ユークリッドで大丈夫なのかなとか思ったのですが、上記の場合どのようなアルゴリズムを使用するのが一般的には有利なのでしょうか?
実装や環境にもよるとは思うのですが、一応アドバイス頂けたらと思います
自分の名前も知らないアルゴリズムが最適だったりするかもしれないと思いまして
>>388 内容からすると、分類よりもクラスタリングがしたいようなので、まずはk-meansから試してみるとよいのでは。
>>388 アルゴリズムは主に速度を向上させるだけ。分類するための基準づくりが重要。
まったく違う物を同一と判定したらどんなアルゴリズムでも分類できない。
たとえば類似画像検索で、どれを類似と見なすかを設定すれば
あとは効率悪くても総当たりで比較可能。
アルゴリズムで分類の効率化はできても、どれも同一と見なすかは人間の判断・指定がいる。
自然言語処理を1から勉強したいです。
とりあえず
>>390-391は自然言語処理もアルゴリズム論も全くの無知であることはわかった。
潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較(データ・クラスタリング、文書分類、など)
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す(言語間検索)。
用語間の関係を探す(類義性や多義性)。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す(情報検索)。
潜在意味解析 - Wikipedia
TF-IDFで遊んでみた - uncertain world
http://d.hatena.ne.jp/rin1024/20090926/1253940572
文書を特徴付ける語の選択が分類精度を決めるから
それがダメだったらどんなに高級なアルゴリズムを使ったとしても正確な分類はできない。
アルゴリズムは主に計算量、速度の差につながる。
>>369>>370と似通っているが、言語処理はアルゴリズムの優劣だけでは決まらないんだ。
ヒューリスティックな部分、機械的にはできそうにない特徴付けが本質的に重要。
と言われていた将棋で、非ヒューリスティックが圧倒的に出し抜いた例を見ちゃったからなぁ
>>397 ありゃでかい突破だよなあ。
言語学主流派のグランドセオリーからすりゃ、同じように機械的にいけるはずなんだよねえ。
ボナンザは特徴の重みを機械的に決定したのであって、特徴抽出は手動だぞ。
ボナンザは元にした6万局の棋譜データから、評価関数のパラメータを自動生成している。
ただし、パラメータは自動生成だが、何を評価するかは保木自身が決めている。
棋譜からパラメータを自動生成することで、開発者の主観を排除した評価関数は強みでもあるが、同時に弱みでもある。
当初、Bonanzaは序盤で大駒を切ることが多かったが、これは大駒の点数が他のソフトに比べて低く設定されているためであり、
人間の感覚に反するこの設定は、自動生成に由来するものであった。
Bonanza - Wikipedia
402 :
デフォルトの名無しさん:2012/01/06(金) 23:51:53.36
で?
特徴量なんか、とりあえず考えられるだけ全部突っ込めよ。今の学習アルゴリズムは人が一つ一つ作った程度の特徴の数じゃ悪影響なんてまず出ない。それでだめなら特徴選択考えてみればいいだろ。
重要な特徴を入力し損なえば失敗だ。
機械学習でもヒューステリックが必要。
あと単語・品詞分解がほぼ正確にできたとして、そのあとどうやって学習させるんだ?
文書の種類ごとに、単語の重要度は変化する気はするが。
学習させる方法が難しい。
406 :
デフォルトの名無しさん:2012/01/18(水) 10:04:55.40
寒中見舞いは、寒さのために相手の健康を気づかうたよりですが、
賀状の返礼や喪中の方への挨拶、賀状をくれた方への欠礼の知らせ
にも適しています。
モノの応用
ドキュメント中に含まれる特定の単語2つの関連性を数値化したいんですが良い方法が思いつきません。
よければアドバイスお願い致します
このスレはおまえのお勉強ノートじゃねぇんだ
平仮名にすると区切るのが難しいと思うけど辞書なしでできる物なのか。
蜂は花の蜜を吸う
はちははなのみつをすう
文書の1〜4バイトの出現回数をしらべてどこで区切るかの方法=アルゴリズムが判らん。
416 :
片山博文MZ ◆0lBZNi.Q7evd :2012/02/05(日) 13:50:34.97
「iPhoneとiPadで動作するスマートな日本語入力システムを2013年までに
Appleに提案せよ。さもなくば日本人の生産性を10%低下させる。」
という脅迫状がJ社に届いた。あなたはJ社の営業部社員である。
あなたならどうする?
JUST SYSTEMは、iPad用のIMEを開発できるのかなぁ。
418 :
デフォルトの名無しさん:2012/02/06(月) 10:53:32.79
IDEの間違いじゃないの
「かな漢」って言えばいいやん
420 :
デフォルトの名無しさん:2012/02/06(月) 18:13:38.32
ウェブサイト向け「NRI連想検索(銘柄)」サービスを開始
http://www.nri.co.jp/news/2008/080321_2.html >ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
>上場企業との関連度及びキーワード間の関連度を定義したデータベース(連想辞書)を作成します。
動詞は語尾変化も含めて、助詞や助動詞(「〜である」「〜から」)も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。
『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する(図5)。』
http://it.impressbm.co.jp/e/2012/01/16/4163?page=0%2C2 それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。
『レンマ化とは,基本形(base form)あるいは辞書に載っている語形に,語尾変化している
語をまとめることである.レンマとは,つまり,語尾変化をする部分を除いて,変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず,本研究では,共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った.これはすべての語の組み合わせを対象とするため,レンジを広げると計
算が複雑すぎるからである.』
http://homepage3.nifty.com/yukie-k/publication/23.pdf
なにがしたいん
ステマだろ
423 :
デフォルトの名無しさん:2012/02/07(火) 19:39:45.45
動態保存
424 :
デフォルトの名無しさん:2012/02/08(水) 14:28:18.04
425 :
デフォルトの名無しさん:2012/02/09(木) 08:34:43.52
ただのステマ
嫌儲にカエレ(・A・)
427 :
デフォルトの名無しさん:2012/02/10(金) 16:15:24.87
単語の重要度は一意的でないな。
たんなる「A」と「血液型はA」ではAの重要度が違う。
これを正しく認識できないものは駄目だな。
20周くらい周回遅れの人が来たよ
NTTソフトウェア 猪尾(いお)です。
お世話になっております。
このたびはお問い合わせいただきまして、ありがとうございました。
下記質問について確認いたしましたが、
弊社テキストマイニング製品(Knowledgeocean:ナレッジオーシャン)では、
簡易な共起抽出機能しかありませんので、
下記質問していただいた分析をできる機能がありません。
申し訳ございませんが、
よろしくお願いいたします。
IME作れって言われても。専門外だもんなぁ。。。
スーパーコンピュータを使って、百万冊の書籍を、文節単位に区切って、それら全ての共起関係を調べられないだろうか。
シソーラスやオントロジーがあると話しましたが、実はそれを作ること自体が大変なのです。
世の中には無数の単語があります。1万〜 2万ではなく、100万以上の単語がありますし、
フレーズの意味的関係も考えなくてはいけません。
フレーズまで考えだすと、恐らく億単位では収まらないくらいの表現があると思います。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf また共起関係と一口に言っても、どちらが主格でどちらが目的格になるのかについての統計も必要。
例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
>例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
窮鼠猫を咬むの喩えでも判るように、有り得ないとは限らないから困る。
実際、ヌーなどの大型の草食動物は(撃退するために)ライオンを襲う。
435 :
デフォルトの名無しさん:2012/02/18(土) 08:33:22.85
>>434 >>433 千に一つ万に一つの稀有な例は除外ということで良いと思う。
とりあえず「ウサギ」と「ライオン」の関係についての、一般的な共起データベースを作っておきたい。
自然言語処理では、千に一つとか万に一つぐらいなら、
「いつも起こる」と同義なぐらい高い確率ですよ。
ところで本当にライオンは「ウサギ」を狩ることがあるんでしょうかね。
「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
「太陽が雲に隠れる」はあっても、「雲が太陽に隠れる」はありえない。
「机の上にリンゴを置く」はあっても、「リンゴの上に机を置く」はありえない。
「壁に貼られたチラシ」はあっても、「チラシに貼られた壁」はありえない。
共起関係と一口に言っても、動詞を介した主格と目的格についての区別ができたら良いと思う。
主格・目的格・動詞の三角関係を明らかにした共起データベースが見たい。
>>438 あなたの言う「あり得ない」は、自然言語処理では十分にあり得る話ばかり。
せいぜい「十分なコーパスがあれば統計的に有意な差が出るだろう」程度です。
>>438 形式概念分析(Formal Concept Analyze, FCA)でググると、ヒントが見つけられるよ
>>438 頭の中で考えればそうかもしれないが、実際のデータは別だよ。
極端に言えば 「意図的に作られた情報」 として「あり得ないと考えたケース」が
登場するかもしれない。やると分かるが、それほど千差万別なので難しい。
お、情報処理学会誌の特集が「不自然言語処理」だ
443 :
デフォルトの名無しさん:2012/02/18(土) 12:43:10.17
>>438 >「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
下剤入りの正露丸
お昼のモーニングショー
イルカのわき毛
しっぽの無いヘビ
カバのかば焼き
夜中になると 台所を這い回る タワシ
ミミズの骨折
カエルのクロール
アジの開き直り
七三にわけた オシリ
脱毛に悩む毛虫
毛の生えたミートボール
つぶつぶ入りマムシドリンク
あったら怖い あったら怖い
三三七拍子を打つ心臓
この世にそんな恐ろしいものが あったら怖いよ
あったら怖い あったら怖い あったら怖いセレナーデ
あったらコワイセレナーデ 嘉門達夫:作
http://www.geocities.co.jp/MusicHall/6654/attarakowai.htm
白い恋人とケーキを食べた
>>444 「先生とケーキを食べた」は、
女教師をスイーツに誘った後でホテルにいったんだろ?
鴎の玉子を食べた
固有名詞と一般名詞でだいぶ事情が異なる
>>446 そりは「先生を食べちゃった」という解釈っすか?w
それなら
>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる
これ、単なるダジャレやらヘリクツという意味で終わらず、
「自然言語処理における暗喩(あんゆ)の解釈」という難しい問題を提起することになるね
>>448 そういうこと。
自由文には隠喩とか皮肉とか、単なる述語論理や係り受け構造では掬い取れない要素がいっぱいだよな。
それを分析できないというのは構わない。
しかし、ある手法を提案する時に隠喩や皮肉が無いことを前提にした手法というのは、
自然言語処理の技術としては、ちょっと不味い。
人間が一番安価なセンサー
問題はノイズ除去
2ちゃんねるやツイッターからノイズが除去出来れば
ゴミ情報を紛れ込ませることに喜びを感じるバカが必ず出てくるから、それをどう排除するか、だね。
古くからある手法としては、そもそも参加者を限定する(サロン、アカデミア、ギルド等)とか、
出来ては消える新しいネット利用メディアのように、バカが集まるまでの時間を利用して、
焼畑農業的にやる、という方法(金と手間はかからないが、心が折れる人間が一定数出る、
という人材焼畑という側面がある)、
2ちゃんねるのようにある程度の規模にできれば、良情報の絶対数がそれなりに
あるんだからいいじゃん、と開き直る、etc
>>453 最近知ったんだけど、Amazon のレビューも、「Amazon Vine 先取りプログラム」 という招待制が導入された
みたいだ。詳細は次の解説のとおり。これも評判の質を向上させようという試みなのだろうね。
>
ttp://www.amazon.co.jp/gp/vine/help > Amazon Vine 先取りプログラム?(以下、「本プログラム」)とは、お客様に予約商品や新商品のサンプルを
> ご利用いただき、ご意見やご感想をカスタマーレビューとして投稿いただく、招待制プログラムです。
> 本プログラムのメンバーとなるお客様は、他のお客様の役に立つ率直なカスタマーレビューを投稿している
> 実績があります。Amazon.co.jpでは、各仕入先から提供されたサンプルを、メンバーに無料でお送りします。
> 投稿されたレビューは、レビューガイドラインに違反している場合を除き、修正、編集されません。そのため、
> メンバーは商品に対する意見を自由に書くことができます。
455 :
デフォルトの名無しさん:2012/02/20(月) 09:58:41.32
とりあえず「子なし女性」についての、一般的な共起データベースを作っておきたい。
456 :
デフォルトの名無しさん:2012/02/21(火) 02:17:39.73
>>451 それ自体はもう既に2ちゃんネラーがノイズ元になってることがはっきりしてるから、
2ちゃん用語を元に元から除去すればノイズがなくなることは実証実験済みだな。
そして2ちゃんには元々信号なんてなかったことが実証される。
458 :
片山博文MZ ◆0lBZNi.Q7evd :2012/02/23(木) 11:29:08.96
social-ime.imeのソースはどこにあるんだ?
問題はノイズを発生させる馬鹿じゃなくて
情報の品質を確認しない馬鹿をどう取り扱うかだ
天気予報を100%うのみにする馬鹿は冷たい雨に打たれるがよい
ベイジアンフィルタでスレをフィルタできる2chブラウザはある。
語彙概念構造の仕様ってどっかに無い?
>>460 ニュース速報のスレを話題のジャンルごとにカテゴライズしてある
アンテナ・まとめサイトを作ればアフィリエイトでウハウハだなと、
スレタイ偽装スレも含めて95%くらいの精度で振り分けるところまで作ったものの
例の件で無かったことにしたのを今思い出したぞこの野郎
463 :
デフォルトの名無しさん:2012/04/13(金) 14:33:34.33
■多様な表現から主語・目的語等を判別する述語項構造解析技術
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データ
から自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する
主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。
この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。
■国内最大級のシソーラス「日本語語彙大系」等の言語資源
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は
「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。
http://www.kecl.ntt.co.jp/rps/research/innovative/research_innovative04.html
464 :
デフォルトの名無しさん:2012/04/14(土) 08:46:19.73
「する」の例で考えると,「トランプをする」「調査をする」のヲ格の意味は,「す
る」の具体的な内容であり,「彼を叩く」「ケーキを食べる」のようなヲ格とは異
なる。一方で,フィルモア(1975)に「判断,想像のような心理事象の内容」が
対象格にあることを考えると,このような「動作の内容」が対象格の範疇であっ
ても整合性がないわけではない。ところが,「青い目をしている」のヲ格は意味
を抽出することが難しい。動作の内容でも,動作の対象でもなく,このヲ格名詞
句は動詞に対して対等な要素として存在するとは考えられない。あえて言うなら
ば,「述語の表す状態の具体的内容」である。この他に「問題とする」「医者にす
る」のト格,ニ格は事柄の認定の目標,変化の結果を表すので,目標格とした。「頭
痛がする」のガ格は動作の表す具体的な内容とすれば対象格となる。ただし,こ
こで断っておきたいのは,これらを既存の意味格の中に位置づけようとすると些
かはみ出す形となり,特異な存在であることが浮き彫りにされることである。こ
れが「する」という動詞の特質でもある。
http://libir.soka.ac.jp/dspace/bitstream/10911/3244/1/nn21-033.pdf
465 :
デフォルトの名無しさん:2012/04/14(土) 09:41:01.59
2009年7月現在、収容語数は42万語で最多と考えている。
ボトムアップでの作成により名詞のみでなく動詞、形容詞、形容動詞、副詞、代名詞、
擬態語さらに慣用句までを収容している。時事的な用語の積極採択、地名を除いて固有名詞
は含めない編集方針としている。言葉を探すのを目的とする人間の感覚に沿った分類とした。
色の分類時に、「はでな色」、「暖かい色」とする例が挙げられる。言葉の意味空間は、
1次元ではなく、例えば、「料理」は、材料・地域・調理法の3次元でありこの様に複数の
観点で分類している。「現在」に対する、「明日」、「翌日」、「過去」に対しては、
「翌日」が意味を持つ様に分類作業における揺れを吸収している。
http://www.issj.net/mm/mm0406/mm0406-3-9s.html ここではオントロジー技術の動向把握をテストすることを目的とするため、「オントロジー」
と共起する用語の共起関係ネットワークだけを示す (図 4)。図から分かるように、
オントロジーに関連しそうな「セマンティックWeb」や「テキストマイニング」「情報抽出」
などの技術用語、「構築」「検索」などの関連語が関係付けられている。しかし、必ずしも
すぐにその関係の意味を推測できない用語も多く、この図によってオントロジー研究の
全体像が分かったとは言い難い。
http://sigswo.org/papers/SIG-SWO-A701/SIG-SWO-A701-02.pdf この候補数は,かな漢字変換の候補選択に比較すれば少ない値であるが,理想的な自動訂正を
目指すならば,提示候補数は1に近いほどよい.したがって,この平均候補数を自動訂正の評価基
準にすることが可能だと言えよう.
今回の実験に用いた格フレーム辞書は,自動抽出した直後では,「が格」が欠落しているものが
ほとんどであった.これは,実際の文章では主語の省略が頻繁に起こるためであると考えられる.ま
た,「が格」に前置される名詞の意味素性は,「人間」,「団体・組織」,「システム」,「プログラム」
がほとんどであった.このことから,「が格」の欠落を自動補正することが可能だと思われる.
http://dspace.wul.waseda.ac.jp/dspace/bitstream/2065/425/12/Honbun-05_03.pdf
あらまし 本稿では,タグの共起と類似画像を利用して,画像に対して有効なタグをユーザに提示するシステムを提
案する.十分にタグ付けされた Web 画像のデータベースから,タグの共起に加えて類似画像の関連語も抽出すること
で,多様で精度の高い関連語をユーザに提示する.また,ユーザが新たに付与したタグを入力のタグに含め,関連語
の再検索を行うことで,さらに新しい関連語を抽出することができる.16002 枚の画像を対象にして,タグの共起の
みを用いる手法,また類似画像のみを用いる手法と比較実験を行った結果,提案手法はより多くの有効な関連語を抽
出できることがわかった.また,これらの有効なタグを入力タグに追加し,関連語の再検索を行うことにより,新た
に有効な関連語を抽出できることも明らかになった.
http://www.ieice.org/~de/DEWS/DEWS2008/proceedings/files/e10/e10-5.pdf ?Webに関するオープンな標準を開発しているW3Cは、データの意味を記述する為の言語(正確にモデルと構文ですが、
分かり易くする為に言語と言います)として、RDF(Resource Description Framework)を開発しました。
?RDFは、主語と述語と目的語とから構成される意味モデル(トリプル、日本語では「三つ組み」と言います)を有し、意味モ
デルを記述する為の構文と語彙とを規定しています。
(注)トリプルのモデルは、非常に単純な様に思えますが、RDFでは、開集合、閉集合、トリプルを主語又は目的
語とするReification等の複雑なモデルを包含しています。
?RDFで記述された情報は、RDFの意味モデルと一対一に対応する様になっています。
?即ち、RDFで記述された情報の意味を、RDFの仕様に則して、解釈するならば、誰もが同じ意味として把握する事が可能
となります。
http://s-web.sfc.keio.ac.jp/conference2012/0202-shimizu.pdf
467 :
デフォルトの名無しさん:2012/04/17(火) 19:11:42.06
少なくとも二つ以上の Infobox に現れる属性は全体の 3 割程度(8,612 個)であるが,その
ような属性の共通性に基づく Infobox 間の関係性を示したのが図 3 である.二つの Infobox
間に共通属性があれば,Infobox 間につながりがあるとみなす.つながりの重みは Jaccard
係数で求め,図では上位 10,000 本のエッジを示している.ネットワーク図は Cytoscapeを
用いて,ばねモデルで描画している.図から,類似した Infobox がクラスターを形成して
いることがわかる.つまり概念的に類似した Infobox は共通属性を多く持つことを示している.
http://www-kasm.nii.ac.jp/papers/takeda/11/hamasaki11gnsw.pdf
CKY法で構文解析するブログラムをつくっています。簡単な文法はできたので、英語に挑戦しようとネットで文法探したけど、バークレイ大?の確率文脈自由文法しか見つからず頓挫しています。とりあえず解析ができれば良いので、手頃な文法があれば教えてください。
469 :
デフォルトの名無しさん:2012/04/28(土) 19:50:45.94
ドラエモンをドラエモン絵描き歌でスクリプト化するように、この世の全ての物体をスクリプト化できたらいいなと思う。
470 :
デフォルトの名無しさん:2012/04/28(土) 20:00:04.16
「ドラエモン」は未来のロボットとして描かれた架空のアニメキャラクターであるが、
後に「ドラエモン絵描き歌」が考案され、誰もがドラエモンを描くことができるようになった。
あの絵描き歌は偉大だったな
当時いろいろアニメの絵描き歌があったけど、実際に描けたのはドラえもんだけだった
ポイントは歌よりもキャラ造形なのだろうけど
472 :
デフォルトの名無しさん:2012/05/02(水) 17:33:06.58
4.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前
方にくる.この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義
語を集めたのと同じような効果を持たせることができる.
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される.
狭義語 「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
ノイズ 「竹トンボ」「尻切れトンボ」「極楽トンボ」
漏れ 「オニヤンマ」「ギンヤンマ」
「トンボ」という言葉を比ゆ的に用いている場合にノイズになる.
http://www.gengokk.co.jp/the_gengo_NLP.pdf
473 :
デフォルトの名無しさん:2012/05/02(水) 17:37:24.14
474 :
デフォルトの名無しさん:2012/05/03(木) 20:01:32.44
結局自然に処理するにはどうすればいいの?
自然を処理するんだよ
477 :
デフォルトの名無しさん:2012/05/18(金) 18:08:51.24
それが正しいかどうかの判定はどうするの?
2ちゃんねるで「日本語でおk」と言われちゃう奴が
毎日幾人も現れるようなこの世の中で...
480 :
デフォルトの名無しさん:2012/05/19(土) 07:53:25.24
>>478 「ことばのきまり」を小中学校で学んでおれば、百点満点中で70点くらいは取れるはず。
デジタルヘルス 1 (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/3/25)
新品: ¥ 31,500
4 中古品 ¥ 30,173より
デジタルヘルス 2――いざ新産業創出へ医療・健康・介護が変わる (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/11/22)
新品: ¥ 31,500
http://www.tsutaya.co.jp/works/41011503.html
2チャンネラーって本当は何人?
そんなどうでもいいことで2ちゃんねらー百万人が動員できるわけないだろ
現実を見ろ
484 :
デフォルトの名無しさん:2012/05/19(土) 20:33:48.82
セマンティックウェブ(笑)
もう残念でしたとか言いようがないだろ
なんでもかんでも残念って決めつける人って、残念だよねw
RDFは筋が悪い。もう結論は出ている。
少なくとも自然言語を相手にするには決定的にダメ。
>>486 セマンティックウェブという1例しか出していないのに
「なんでもかんでも残念って決めつける人」と決めつける残念な人だったか
489 :
デフォルトの名無しさん:2012/05/21(月) 15:57:53.43
>>487 >少なくとも自然言語を相手にするには決定的にダメ。
2ちゃんねらー百万人では、まだ足りないのか?
ツイッターとフェイスブックを合わせて500万ではどうだ?
突然コーパスの話にすり替える
>>489の負け犬っぷりw
話変わるけど皆さん大学で体系的に言語処理を学んだ感じですか?
独学でヒッソリみたいな人はいないのだろうか
まぁ、>489は面白くないんだけどね。
あれ、もしかして、地球人全員動員すれば可能じゃね?
>>493 自然言語処理は、通り一遍のこと以上を教えられる先生はまだそんなに多くないので、
それ専門にやってる先生がいない大学のレベルなら、独学でもいけるように思う。
最近は機械学習とn-gramだけ分かればいいからな
>>499 自然言語処理が専門だけど、n-gramとか難しすぎてさっぱりだよ。
501 :
デフォルトの名無しさん:2012/05/24(木) 15:04:22.30
>例:水は水素と酸素の化合物である。
例えば「水」「氷」「水蒸気」については、「凍る」「溶ける」「蒸発する」「気化する」など、
様々な動詞を挟んでRFDデータベースが作成される。「凍る」と「溶ける」は反対語、
「蒸発する」と「気化する」は類義語であるが、「蒸発する」は「人間が行方不明になる」の意味もある。
けれども人間は蒸発はしても気化はしない。RFDデータベースにより、類義語の微妙な違いを理解させる。
「同一ではないが類似」について、共通点と相違点を、RFDデータベースにより明らかにしていきたい。
「たけし」と「たけし軍団」は違うけれど、「イェニチェリ」と「イェニチェリ軍団」は同じであることが分からないといけません。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf これもRDFデータベースが充実していれば、「たけし」と「たけし軍団」ではRDFデータベースは全く違うが、
「イェニチェリ」と「イェニチェリ軍団」は似たようなRFDデータベース関係となることが理解されよう。
更に言えば百万冊の書籍について一文一文、いつ何処で誰が何をしたか、あるいは何が何にどうしたかを、
2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
言語観がナイーブすぎ
>2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
この一文だけで妄言だと分かる
>>420 > ご利用いただきまして、ありがとうございます。
> また、こちらからの返信が遅れましたことをお詫び申し上げます。
>
> お問い合わせの件でございますが、担当者より下記の回答がございましたので、ご
> 確認いただけますようお願いいたします。
>
>
> 膨大なテキストデータの圧縮にVF符号化を使うと、データの符号化・復号化のための
> オーバーヘッドが発生するため、高速で質問応答の計算を行う状況では、こういっ
> た手法は用いないのが一般的です。
> このため十分なディスク容量と、インメモリで解答を計算できるような大容量メモ
> リを搭載したシステムを利用します。
>>500 俺の知ってるn-gramは学部生で分からなかったら
アホレベルだと思うんだけどなぁ
専門の奴でも難しく感じるくらいの
n-gramが他にあるのか?
むしろ簡単すぎ、役に立たな過ぎで
逆にわからないと感じてしまうとか
自然言語処理でN-gram以上に役立つものなんて存在しないだろ
最初にオライリーの自然言語処理入門買ったけど選択ミスだった
妙に分厚いのでなんでも網羅してるだろうと思ったら大間違い
何ら本質的な事は書いてなくて、ツールの使い方がダラダラ続くだけ
その後確率的言語モデル系の本に出会ってようやく言語処理の取っ掛かりが掴めた
折角だからその役に立った本をステマしてってよ。
確率的言語モデルでググってみたら?
テキストマイニングみたいなものではなく
係り受け解析や述語項構造解析をがんばってほしい
>>505 n-gramはただ出現数を数えただけでもSVMに放り込むか検索のキーに使うかって感じでもちろん使えます。
でも、文の出現確率をうまく近似するためのスムージングとか、巨大なn-gramモデルを扱うためのデータ構造やらプルーニングやらで、面倒で奥深く最近もまだ研究が続いているのですよ。
とは言え、使うだけならSRILMとかあるので、理解する必要かあるかはやりたいこと次第だけれど。
【要望】
手書きのOCRは誤認識が多いが、原稿用紙のようにマス目を設定したり、あるいは文
脈から誤認識を検出するシステムが求められる。
実験では、文字誤りモデルの有効性を検証するためにOCR 誤り訂正システムを実装し
た。実験の結果、文字正解率 97.2% の高いベースラインに対して 12.5% の認識誤り
を訂正することができた。
http://www.phontron.com/paper/neubig09nlp.pdf 図形についてもこれは楕円なのか円なのかというのも、解答記述の数式から推測する
アルゴリズムとか。上の証明問題は「円周率」と書いてあるから、関連する曲線図形
も「円」であることは認識できるはず(あるいは楕円や放物線や双曲線を用いて円周
率を証明する方法が考えられるか)。また「閾値」が怪しいようなら、いくつかの選
択候補を提示するとか。
========================
<回答>
仰る通り数式入力パネルを使用してのデジタルでの数式入力は可能(対応アプリが必要)です。
弊社、または現時点での弊社パートナー様のシステムで
クラウド上でデジタル数式をやりとりするといったサービスはございません。
数式のデジタル化は文字認識という意味では可能ですし、通常の文字も文字認識変換は
Windows7(またはVista)の機能で可能です。
ただ、それに「連携」という意味でのクラウドサービスについては分りかねます。
実際に弊社の液晶ペンタブレットの実機をお貸出しして検証いただくことは可能です。
大変恐れ入りますが、差し支えなければ篠田様のご職業を伺ってもよろしいでしょうか?
本件の対応につき、直接お電話などさせていただければ幸いでございます。
もしよろしければご連絡先お電話番号をおしらせいただけますでしょうか。
何卒よろしくお願い申し上げます。
>>515 日本語でOK w
以下は、私が気に入った変更点、新機能、ChangeLogからの抜粋です。
程度の訳でいいのかな。
>>517 なぜここにgoogle翻訳なんか投げる必要が
自然言語処理スレだから自然言語処理の力を使ったのだろう
「自分の作ったドックフードを食え」
の精神に則ったよい心がけだと思うわ
生成文法ってやつあるけど
自然言語処理と何か関係あったり役立つことありますか?
自然言語処理の基礎としてたいてい生成文法の話はやるけど?
522 :
デフォルトの名無しさん:2012/06/17(日) 00:29:43.78
やるけど、役に立つのか?
否が応でも勝手に頭にたたき込まれているから問題ない。
というか、文系の言語学の連中より我々の方があれをまともに使っている。
何が「問題ない」で、何が「というか」なんだ?
正直やればわかるとしか言いようがないな
>>520 研究として自然言語処理をするなら知っておくとよいかもしれません、という程度です。視野を広げる意味で。
言語学で使われているような生成文法を使ってどうこうする、ということは今のところ無いです。
そう思うなら好きにしろ。
あとで「そんな便利なものがあったのか」と泣く自由はあるからな。
529 :
デフォルトの名無しさん:2012/06/21(木) 21:56:17.12
LFGも生成文法?! これはMicrosoftが
自然言語処理エンジンに使用している。
チョムスキーのは,言語学者の遊び。
違うよ。
チョムスキーの理論を唯一まじめに使っているのは我々だけだということ。
言語学者にいぢめられたバカが必死、なのか?
>>531 頭が悪いやつだな。
言語学者の仕事と我々の仕事は違うんだよ。連中は実装しない。
無知なやつだな。
>>532 もしかして、HPSGパーザーを作ってる方でしょうか。であれば、生成文法は基礎として必要なのは確かですね。
前に生成文法が自然言語処理に必要ないと言ったのは、別にHPSGを否定したかったのではなく、自然言語処理一般では使わないという意味でした。ただ他には目立った用途がない以上、当面必要ない人にまで勉強するべきとはいえないと思います。
hello worldを書くのに必要ないから、プログラミングに数学はいらない、みたいな意見だな。
>>535 パーザーはhello world ほど、誰もがかける必要があるプログラムではありませんし、生成文法は数学ほど重要ではないと言う意見です。
荒れたおかげでまともな人も来たようだな
538 :
デフォルトの名無しさん:2012/08/02(木) 00:11:20.73
LDAてなんですか?
なんか最近よく聞くのですが
トピックなんて短い文解析してどうするのですかね?
特にMalletて何してるんですか?
だれか教えてください
もう夏休みか?
トピックごとの特徴語を素性にしてトピックにクラスタリングする処理を生データの入力からひとまとめでやるものだろ
普通の文章分類とどう違うの?
>>538 今からそんなんじゃ卒論に間に合わないぞw
どうせ受かりもしない就活なんかにかまけてるからww
543 :
デフォルトの名無しさん:2012/08/05(日) 01:16:06.63
お願いです。LDAがわかりません
もう少し、わかりやすく説明してください。
説明してくれたらとっておきのエロビデオをxvideoにうpします。
ものすごいビデオです。
よくわからないのですが、どなたか試しに自分で作成されたアルゴニズムで
なにか文章を吐かせていただけませんか?
お題は「インスタントラーメン」でお願いします。
どれくらい自然になるか興味があります。
不活性気体主義?
546 :
デフォルトの名無しさん:2012/09/11(火) 17:13:43.37
国立情報学研究所(注1)(以下、NII)の人工頭脳プロジェクト『ロボットは東大に入れるか』
(以下、東ロボ)に、本年度から株式会社富士通研究所(注2)(以下、富士通研究所)は、
『数式処理・計算機代数』技術をベースに、数学チームとして参画します。
「東ロボ」はNIIの新井紀子教授を中心にして、1980年以降細分化された人工知能分野の研究
を再び統合することで新たな地平を切り拓くことを目的に、2011年にスタートしたものです。プロジェクト
としての目標は、2016年までに大学入試センター試験で高得点をマークし、2021年に東京大学入試
を突破することです。本プロジェクトでは、教科ごとにチームで担当する体制をとっており、数学につい
ては「数学チーム」での活動が進められています。
富士通研究所では数理的な分析や最適化技術をはじめ、数学の問題を正確に解くために必要と
なる『数式処理・計算機代数』の研究を長年行っています。そこで、本年度からその技術をベースに、
東ロボの数学チームに参画することとしました。
富士通研究所は、「東ロボ」(数学)を通して、NIIと共同で人間中心のITを実現するために必要な
技術の開発を行います。これにより、高度な数理解析技術が誰でも容易に使えるようになり、さまざまな
現実世界の問題解決のための高度な数理的な分析や最適化などが自動化されることを目指していきます。
国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
富士通研究所が“数学チーム”として参加
http://pr.fujitsu.com/jp/news/2012/09/10.html
547 :
デフォルトの名無しさん:2012/09/14(金) 14:21:20.02
ツイッターのムードは株式市場を予測出来きるか?
導入
株式市場の予測は学会と同様ビジネスの世界でも関心をもたれている
しかし、株式市場は本当に予測可能だろうか?
株式市場の初期の研究においてランダムウオークとEMHにもどづいて行われてた
548 :
デフォルトの名無しさん:2012/09/26(水) 15:16:25.23
549 :
デフォルトの名無しさん:2012/09/26(水) 15:41:15.36
でも「象の鼻は長い」と「象は鼻が長い」は、同じ意味なんだよね。
コンピュータで解析するとしたら、どういうアルゴリズムになるのだろう。
550 :
uy:2012/09/26(水) 18:38:55.10
バカには無理
は の前にある単語を主語
の の前にある単語を主語装飾語
最後にある単語を意味決定語
として組めばいいと20秒で結論づいた
まず品詞推定がそのとおりになるアルゴリズムからだな
格助詞 接続助詞 副助詞 終助詞 全出現
の 2909 50328 1 0 53238
を 32949 0 0 0 32949
は 3 0 0 32231 32234
に 30562 437 0 0 30999
が 23812 3273 0 0 23085
と 21980 25 1 0 22006
で 13369 2 1 2 13374
も 0 8 9139 2 9149
表 1: 京都大学テキストコーパスに含まれる高頻度助
詞とその品詞細分類別頻度
http://nlp.nii.ac.jp/tawc/papers/C10_uematsu.pdf 用いた用例 意図する用法
a) 私が林檎と桃を食べる 体言の並列
b) 「話す」と「聞く」 用言の並列
c) 私が彼と握手する 体言を取る補語
d) 山と積まれた桃を食べる 体言を取る修飾
e) 「林檎」と子供 体言を取る補語 (述部省略)
f) 林檎がおいしいと答える 用言を取る補語
g) 雪が降ると犬が走る 用言を取る接続
h) 仕事が終わったと喜ぶ 用言を取る修飾
i) 「おいしい」と子供 用言を取る補語 (述部省略)
j) やっと終わった、と 文末
k) 彼は思った。おいしいと 転置
l) わんわんと犬が吠える 副詞・修飾
m) というのも、 文頭
表 2: 助詞「と」の用法アノテーションで用いたカテゴリ
http://nlp.nii.ac.jp/tawc/papers/C10_uematsu.pdf
553 :
デフォルトの名無しさん:2012/09/29(土) 10:44:25.65
「反対の賛成」なんて日本語を使うやつはいない
記号論理学でもやれば?
バカボン「パパェ...」
556 :
デフォルトの名無しさん:2012/09/29(土) 17:57:09.26
「反対」が賛否の否ではなく「一方俺はお前と違って」の意味なら
賛成の反対: 賛成に相対する『反対』を主張するものである
反対の賛成: (お前は賛成するのか?)俺は(その)反対に位置する『賛成』を主張する
と、まあコンテキスト依存だが意味のある解釈は可能だと思った。
「反対に賛成」を言い間違えたと言う解釈ではどうだろう。
それが自然言語処理なの?と言いたいわけだが
「反対の賛成」という文字列が書き込まれその意味を解釈しなければならない事例が
どのくらいの確率で起こる?
無理やり解釈しようとすれば意地悪な日本語なんていくらでも作れる
そういった文も解釈できたほうがいいのは確かだが
今のところ明らかに意味の通る文の意味解析さえ微妙な精度なのだから
まだそんな例外について考える段階ではないだろ
例外を考えないクリーンな状況において考えられた理論が
実問題に適用しようとすると役に立たなかった、なんて事今まで散々あっただろうに
>>562 それ自体が例外だろ
工学で例外を全て考えるとかありえないし
理論だけ考えるのが間違い
実験すればいい
>>560 > それが自然言語処理なの?と言いたいわけだが
> 「反対の賛成」という文字列が書き込まれその意味を解釈しなければならない事例が
> どのくらいの確率で起こる?
>
それを言うなら、大学入試問題なんて、入試問題特有のわかりにくい表現ばかりだ。
大学入試をするなら受験勉強をするし
受験勉強をすると「入試問題特有のわかりにくい表現」が
「入試問題にありがちな表現」になるでしょ
567 :
デフォルトの名無しさん:2012/10/06(土) 16:30:42.51
なぜ俺は「チンボ『が』シコシコ」するのか
http://kohada.2ch.net/test/read.cgi/prog/1342488636/ 高度な自然言語処理を行なう際には、構文情報のみならずさまざまな語と語の関連情報が重要となってくる。
我々は「トマトなどの野菜」といった定型表現を用いて、新聞記事から、名詞の下位概念を自動的に抽出する
手法を提案する。7種の定型表現を作成し、6年分の新聞記事をコーパスとして下位概念を抽出した。
その結果、ほぼ6割以上の正解率で下位概念が得られた。また、抽出した下位概念と、人間が連想した
下位概念との比較をおこない、2人以上の被験者が連想した下位概念のうち、平均85%の下位概念を
コーパスから自動抽出することができた。
http://ci.nii.ac.jp/naid/110002948748/ 本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類
システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、
さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、
対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。
本システムは、この2つの課題を3つ組{対象物,属性,評価}のモデルと情報抽出の手法を用いて解決する。
本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82%,再現率52%であり、
システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。
http://ci.nii.ac.jp/naid/110002949320/
568 :
デフォルトの名無しさん:2012/10/06(土) 16:54:01.82
さらに必要な機構は,各名詞概念が保持する属性情報(名詞概念やその他の定数)の集合であり,
これを名詞属性フレームと呼ぶ.動詞概念とその格要素から成る事象が動詞概念のためのフレームだとすれば,
これはその名詞概念版に当る.名詞属性フレームを構成する属性情報に関して,[熊谷2010]は小説の分析
を通じて人物に関する属性スロットの素案を示した(表 1).今後はこれを拡張して行く予定である.
http://kaigi.org/jsai/webprogram/2012/pdf/487.pdf ? 「雪國」は川端康成の作品として知られている
この場合「川端康成」が作者であり,「雪国」が作品名である.この意味を「作成する」という動作概念の述
語項構造でと記述してみると
(a1) [Pred: 作成する, Agent: 川端康成, Theme: 雪国 (head)]
であろう.つまり「作品」の意味構造を「Y は X の作品」の項構造で捉えて規格化する意味記述法である.
この時,「作品」という言葉自体は「作成した物」でありこれは上記の述語項構造の意味役割における
Theme(「作成する」のヲ格) となるので,そこに head という情報を記述しておく.
http://nlp.nii.ac.jp/tawc/papers/W03_takeuchi.pdf Web ページや車のナビ,携帯電話のメニューなど,世の中のあらゆるところにメニュー階層構造が用いられており,
我々は日常的にメニュー階層構造の操作を行っている.操作の分かりやすいメニュー階層構造を開発するためには,
メニュー階層全体での繋がりの分かりやすさを定量的に客観評価できる指標が必要である.そこで,本研究では,
メニュー階層構造の分かりやすさの評価に用いるため,2 単語間の連想関係,関連関係
の自動判定,および,連想度,関連度の指標化を検討した.
ここで,連想関係とは,全体-部分関係,上位-下位概念,装置-機能を含む親子関係である.関連関係とは,
ある全体に対する部分集合,ある上位概念に対する下位概念の集合,ある装置に対する機能の集合を含む兄弟関係である.
また,連想度とは,ある 2 単語に関して,心理的に連想関係があると感じる度合いである.関連度は,ある 2 単語に関
して,心理的に関連関係があると感じる度合いである.
http://kaigi.org/jsai/webprogram/2012/pdf/281.pdf
>人間は顔じゃねえよ
STEP2: 係助詞「は」が着くとすると,どのような名詞に着くかといった構文上のルールによって,
各切片の「主題」を書きだす.また,日本語の新聞記事で主題を明確にするために利用されている
「目理方結(目的・理由・方法・結果)」あるいは,「現原対変(現実・原因・対策・変化」をプロパティ
として用いる.ディメンジョンは,これらプロパティに対する値を入れる.
http://www.issj.net/journal/jissj/Vol7_No2_Open/A4V7N2.pdf 抽出した対を用いた含意認識の例
入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした
?イリノイ生まれ-チャールズ
?チャールズ-俳優
27歳-俳優
入力仮説: チャールズはイリノイで生まれた
?チャールズ-生まれ
?イリノイ-生まれ
抽出した対:
含意要因表現:イリノイ生まれのチャールズ
イリノイ生まれ-チャールズ
仮説:チャールズはイリノイで生まれた
チャールズ-生まれ
?イリノイ-生まれ
http://dl.dropbox.com/u/2152477/slide/12/12NLP-udaka.pdf ある現象を分析した場合,その現象に関連する現象には,特定の実行順序が規定される場合が多くある.
そして,特定の実行順序で規定される現象概念間において,現象概念間の上位下位・全体部分等の関係に拘らず,
各現象が言及する意味内容が相互伝搬される場合がある.例えば,「浜松に行った.ホテルに泊まった」という
文を考えた場合,「移動行為」と「宿泊行為」は,それら自体はまったく異なる現象であり,それらの間で意味内容
が相互に限定されるか否かは,文脈・知識・状況に依存する.ひとつの解釈としては,この「移動行為」と「宿泊行為」とが,
ある行為現象の部分を構成している場合,そして更に「移動行為」と「宿泊行為」とが連続して引き起こされると解釈される
場合には,「移動行為」概念の「移動場所終点」属性と「宿泊行為」概念の「宿泊場所」属性との間で意味の伝搬が引き起こされる.
http://kaigi.org/jsai/webprogram/2012/pdf/445.pdf
570 :
デフォルトの名無しさん:2012/10/06(土) 17:52:07.78
「図のように」、「正三角形を」「9つの部屋に」「辺で区切り」、
「部屋P,Q」を定める。「1つの球が」「部屋Pを出発し」、「1秒ごとに」、
「そのままその部屋にとどまることなく」、「辺を共有する隣の部屋に等確率で移動する」。
「球がn秒後に部屋Qにある確率を求めよ」。
http://meploblog.kawai-juku.ac.jp/kinki/2012/09/002851.html >しかし、赤線部分を自ら理解するでしょうか?
「そのまま」「その部屋」「に」「とどまることなく」
まず「その部屋」というのが具体的に何を指しているのかがわかりにくい文章だ。
「そのままその部屋にとどまることなく」は挿入文であり、その挿入文を切り離して、
それから「1つの球が」「1秒ごとに」「辺を共有する隣の部屋に等確率で移動する」、
というふうに解読される必要がある。
「その部屋」=9つの部屋のうちのいずれか1つ、と解読できるか。
部屋Pなのか部屋Qなのか、いくつかの「候補」を挙げて、妥当性を検証するとか。
>「その部屋」=9つの部屋のうちのいずれか1つ、
「その部屋」=9つの部屋のうちのいずれか1つで、かつ1秒ごとに変化する。
こういうのはわかりやすい言葉に直していく必要がある。
572 :
デフォルトの名無しさん:2012/10/06(土) 18:06:09.46
>>566 >受験勉強をすると「入試問題特有のわかりにくい表現」が
>「入試問題にありがちな表現」になるでしょ
数学の文章題など、入試ではわかりにくい意地悪な日本語はいくらでも出てくるので、
「反対の賛成」=「賛成の反対」くらいは解読できてしかるべき。
「そのままその部屋にとどまることなく」
反対の賛成なんて受験問題に出したら謝罪レベルの意味不明な日本語だろ
まあ問題にとって必要ならやればいいと思う
多くの場合は必要ないというだけ
機能表現とは,「にあたって」や「をめぐって」のように,2 つ以上の語から構成され,全体として1つの機能的
な意味をもつ表現である.一方,この機能表現に対して,それと同一表記をとり,内容的な意味をもつ表現が
存在することがある.例えば,文 1 と文 1には「にあたって」という表記の表現が共通して現れている.
(i) 出発する にあたって,荷物をチェックした.
(ii) ボールは壁 にあたって,跳ね返った.
文 (i) では,下線部はひとかたまりとなって,「機会が来たのに当面して」という機能的な意味で用いられている.
それに対して,文 (ii) では,下線部に含まれている動詞「あたる」は,動詞「あたる」本来の内容的な意味で
用いられている.このような表現においては,機能的な意味で用いられている場合と,内容的な意味
で用いられている場合とを識別する必要がある.
http://nlp.iit.tsukuba.ac.jp/member/utsuro/papers/utsuro/NLP2012-C3-1.pdf
576 :
デフォルトの名無しさん:2012/10/12(金) 12:18:53.61
$ bundle exec ruby dadot.rb run "戦うと元気になるなあ、ローラ。死を意識するから、生きることが実感できる"
# => create '#{Time.now.strftime("%Y%m%d%H%M%S")}.png'
Yahoo!JAPAN 日本語係り受け解析API を Graphviz で表示するものでさぁ
https://github.com/gongo/dadot
577 :
デフォルトの名無しさん:2012/10/12(金) 12:33:48.73
578 :
デフォルトの名無しさん:2012/10/12(金) 13:22:00.90
完全にSSRI特有の攻撃性がでてる。
トラブル起こさない内に貴方の前にぶら下がってるその粗末な物を切断することをオススメする。
579 :
デフォルトの名無しさん:2012/10/12(金) 14:10:14.58
>>466 >RDFは、主語と述語と目的語とから構成される意味モデル
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
>>567 >なぜ俺は「チンボ『が』シコシコ」するのか
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
580 :
デフォルトの名無しさん:2012/10/13(土) 16:21:46.62
>>578 >貴方の前にぶら下がってるその粗末な物
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ。
581 :
デフォルトの名無しさん:2012/10/13(土) 16:52:02.94
>>549 >「象は鼻が長い」
ならば『私はチンボがシコシコする』というのもアリだよな!
>>580 ズキズキは受動的
シコシコは能動的
チンコは自ら意思を持ちシコシコすることはない
よって用例の誤り
ぼくはうなぎだ
584 :
デフォルトの名無しさん:2012/10/14(日) 01:27:44.46
>>国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
はっきり言います。無理です。100%。
うまくいって1,2題でしょ。
しかも、どっかの見た問題があればですが。
予算の無駄です。
だだし、DQN大学なら可能ですがw
585 :
デフォルトの名無しさん:2012/10/14(日) 01:28:31.28
東大なんかよりセンター試験にしてください。
そのほうがコンピュータには難しいはず
>>584 30年も経って未だにオモチャ程度のリニアモーターカーと比べれば、まだ始まって一年も経っておらず、
また開発費用も安価な「ロボットは東大に入れるか」のほうが期待できる。
税金のムダというのなら、まずリニアモーターカーと原子力発電から先に撤退すべきだ。
>>584-586 絵本もろくに読めないのに東大の入試なんて
一見すごそうに見えることを利用して予算獲得目的だし
入試のデータマイニングになるだけだろう
> 30年も経って未だにオモチャ程度
自分の事実認識が壊れてることを自覚しようなw
ついでに言うと中央リニアはJR東海が100%で作ろうとしてるのに、税金のムダとかw
590 :
デフォルトの名無しさん:2012/10/14(日) 20:48:43.19
それはいいんだが、なにか自然言語処理の面白いアイデアない?
なんだ、JRのリニアと日航HSSTすら識別できないバカかw
593 :
デフォルトの名無しさん:2012/10/16(火) 14:21:38.46
入試のデータマイニング以外に何者でもないなw
東大はこの単語が出やすいですよとか
で、LDAで東大の入試問題解析した人いる?
594 :
デフォルトの名無しさん:2012/10/16(火) 16:19:49.78
>>589 リニアは何十年も「作ろうとして」、全く何もできなかった。
これに対し「ロボットは東大に入れるか」は、
一年も経たないうちに、富士通が参加することになった。
富士通は現実に京速スパコンを完成させた優良企業なので、口先だけの原発やリニアよりは期待できる。
原発とリニアは即刻中止して、「ロボットは東大に入れるか」に予算を集中させるべき。
595 :
デフォルトの名無しさん:2012/10/16(火) 16:23:57.12
>>592 JRのリニアはまだ計画だけで何もできてない白紙状態だが、何を期待するの?
リニア鉄道で完成したのは、日航のオモチャだけ。
>>595 山梨実験線を見て、「何もできてない白紙状態」と言えるキチガイだと証明されたね。
【韓流】ブームがいきなり終焉!? K-POP「江南スタイル」がYouTubeランク外に消える“珍事"が勃発[10/16]
http://awabi.2ch.net/test/read.cgi/news4plus/1350366216/ 992:<丶`∀´>(´・ω・`)(`ハ´ )さん :2012/10/16(火) 16:30:03.73 ID:kdSMXng1
★まとめ★
1:チョーセン人が不正で異常な閲覧数を稼ぎレディガガ記録を抜く
2:気づいた奴が4ch(アメリカ版の2ch)で暴露
3:「アイツら本当にうぜーな」と4chねらーが PSYのwiki(英語版)で死んだことにする
4:チョーセン人かその関係者がwiki(英語版)での死亡を直す
5:4chねらーが PSYのwiki(英語版)で死んだことにする、チョーセン人が直す(無限ループ)
6:「こりゃ祭りだ」と4chねらーがYoutubeに”お悔やみ”(RIP)を書き込む
7:「物足ねーな、Koreanが嫌うことって何だ? 日本を褒めることか!」と4chねらー考える
9:「PSYは最高の日本人、死んで残念」「J-POP最高!」などの書き込みが始まる
10:おそらくアメリカ留学中のタイ人やマレーシア人がFaceBookで母国に拡散
11:タイ語の書き込みまで出てくる
12:「◯◯人の私もPSYのファン」というネタで意味もなく国名を目立つように書く
13:火星、木星、天国からもメッセージが届く
14:Youtube再生数より視聴時間重視に変更後ランキング1位から圏外に ←今ここ
スパコンでありったけの「仮想物体」を作成しておいて、文入力するとシミュレーションというわけにはいかんですか。例えば「机の上にミカンを置く」と入力すると、仮想物体と仮想動作が自動選択されるとか。「物理はイメージ」(橋元流解法の大原則)とはよくいったもの。
オモチャ程度と連呼すれば、みんながそうだと信じてくれるだろうw
池田信夫がよく使ってますねw
日本語の助詞の種類
・格助詞 … 体言につき、意味関係(格)を表す。 「私のもの」
・並立助詞 … 2つのものを並立させる。 「赤と白」
・終助詞 … 文や句の末尾について疑問・禁止・感動の意味を付加する。 「雨かしら」
・間投助詞 … 文節末尾につけて語調の変化、感動などの意味の付加をする。 「そうだよね」
・副助詞 … 体言や副詞、格助詞の後などにつき副詞的働きをさせる。 「明日まで」
・係助詞 … 意味を添えて語を強調する。 「彼でさえ」
・接続助詞 … 文と文の間の意味関係を表して接続する。述語間の関係を表す。 「〜けれども〜」
・準体助詞 … 用言の後について体言相当の意味を表す。 「〜に着いてから」
(ウィキペディアフリー百科事典「助詞」、
http://homepage3.nifty.com/を参考)
http://www.jnlp.org/iwase/wen-fano-hua/pin-ci-yi-lan
省略 主語や目的語,動詞,助詞などの省略.節や文ごと省略される場合もある.
照応表現 「それ」などの指示詞など.
倒置表現 「切符が欲しいんです,札幌までの」
非文 文法的におかしい,または意味的にずれた表現.よほどひどくずれてなければ,聞き
手は常識的に判断して修正して解釈.
言いよどみ・
言い直し
論理立てて考える前に話し出して誤ったり,無意識の心理状態がつい口に出てしまう
間投詞 「おお」「ええっと」「はい」「うん」など.あいづちは,聞き手の理解を示す.イントネー
ションを加え,理解,疑問,嘲り,満足,不満足など様々な心理状態を伝達.
視点表現 「やる」「くれる」など,視点に依存した表現.空間的な位置,社会的な立場も含む.
http://www.brl.ntt.co.jp/people/fujita/2012ai/materials/AI12.pdf
604 :
デフォルトの名無しさん:2012/10/17(水) 15:04:35.53
>>587 >臓器やゼリーなどのレオロジー物体を仮想空間で表現し,シミュレーションをおこなうためには
仮想空間を用いて、仮想土俵に仮想力士を置いてシミュレーションするしかないと思う。
例えば,下記の例は相撲の取組の説明だが,「いつも相手の〜」の文で「若乃花」が
「フワッと 立って、胸で 受けてしまった」後で,「そこへ〜」の文から「最高の出足で
突っ込み、左右を 差す」行為を行ったのが「琴錦」であることを理解するためには,
この状況が明確に理解でき,ある行為を行った場合にそれと対となる他の行為は他者が
行うといった複雑な知識とそれに基づく推論が必要になると考えられる.
http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf
605 :
デフォルトの名無しさん:2012/10/17(水) 19:55:15.05
606 :
デフォルトの名無しさん:2012/10/18(木) 18:04:16.70
>>604 『これ』とか『その』とかの代名詞をどうするかだが、照応解析は今のところかなり困難。
607 :
デフォルトの名無しさん:2012/10/24(水) 12:25:27.07
>>607 テキストマイニングは文章を理解しようとしていないだろ
コンピュータビジョンは視覚という原始的な機能が目標だから今の方向でもいいと思うが
自然言語処理が今の統計手法のまま東大に合格したところで
検索システムを東大の問題に特化させたくらいの意味しかなく人工知能には程遠いよ
ワトソン関係の論文って公開されてるっけ?
顕在化された情報のうち 30 事例を人手で分析したところ,23 事例は談話の内容と整合した内容であった。
例えば,1番の問題のText \As a result of these weaknesses,computer systems and the operations that rely on..."
からは「computer と systems が part of の関係にある」という情報が顕在化できていることがわかった。次に,
本稿の談話解析モデルを含意関係認識 (RTE-2 テストセット) の正解率で試験的に評価したところ,60.4%
(Bag of Words: 59.4%) の正解率を得た。
http://www.cl.ecei.tohoku.ac.jp/~naoya-i/resources/nlp2012_paper.pdf これに対し,日本語を対象とした照応関係のアノテーションでは,主に省略された照応詞(ゼロ代名詞)を検出し,
そのゼロ代名詞に関して先行詞をアノテーションするという試みがなされている.日本語では読み手(聞き手)
の推論可能な照応詞は頻繁にゼロ代名詞として省略されるため,ゼロ代名詞を検出し,そのゼロ代名詞の先行詞
を同定するゼロ照応解析がさまざまな応用処理に必須な処理である.
http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf
深層格と表層格
¨ 表層格
? ガ格,ヲ格,ニ格など,表層?格助詞と基本的に対応
? 「?」,「も」,「しか」?付加的な意味を表す?で
曖昧性解消が必要
n ?: 文?主題 「日本?経済状況が深刻になっている」
対比 「太郎が帰った?に対し,次郎?続けて練習した」
n も: 「りんごも私?食べる」
¨ 深層格
? 文や節における役割
n 帰る(動作主:太郎,終点:NULL)
n 練習する(動作主:次郎,対象:NULL)
http://www.cl.cs.titech.ac.jp/~ryu-i/class/nlp4.pdf
613 :
デフォルトの名無しさん:2012/10/30(火) 10:41:52.96
>>613 画像認識は解ける問題を設定しないと使えないよ
パンならあらかじめ分類したいパンの種類を決めて種類ごとに教師データを使って学習すると
パンが入力された時にどの種類のパンかを当てることができるってだけだし
特定物体認識なら保持している同じ見え方のサンプルのうちどれかにマッチするか判定出来るだけ
任意の絵本を入力して描かれている物体を当てるなんて無理だよ
このスレにスパムみたいに論文を張り続けてるやつ
全く内容を理解していないだろ
MeCabで出てくる品詞の全種類ってどこでわかりますか?
>>617 MeCab\dic\ipadic\pos-id.def
それでも今のままでは、東大入試の数学問題には太刀打ちできない。人間は問題文を読んだら記憶を頼りにすぐに
計算に入る。だが人工知能は言語や数式のある問題文の意味がまず理解できない。数式ならば「ソルバー」と呼ぶ
プログラムを幾つも作り、対応はできる。「方程式や三角関数などはソルバーの拡張などで解ける。だが数列や確率
の問題は、意味の解析がまだ難しい」(穴井さん)
国立情報学研の新井紀子教授は若手研究者の士気が高まると東大入試への挑戦を待ち望む。跳ね返されても、
人工知能の実力が分かり、次の課題が見つかる 。
人工知能は同じリンゴでも形が違うと戸惑う。常識や暗黙知、意味の深い理解は人間が上回る。創造力やコミュニケ
ーション能力をもっと磨く必要がある。
http://blog.goo.ne.jp/fukuchan2010/e/e5276f5528e2615071b5c34db3d9fef5
./bin/opennlp Parser ./en-parser-chunking.bin
A dog, a cat, and a rat is cute.
(TOP (S (NP (NP (DT A) (NN dog,)) (NP (DT a) (NN cat,)) (CC and) (NP (DT a) (NN rat))) (VP (VBZ is) (ADJP (JJ cute.)))))
これなんでカンマとかピリオドが単語とくっついて品詞にされてるの?
おかしくね?
OpenNLP
http://opennlp.apache.org/ 他になんか良いの無い?Javaとかで叩けてタダで使えるやつで!
コンマ要らないなら、取ればいいだけだろ、ばーかw
Mr. とかの.もある
.は普通は文末記号かその他の用法かを前処理するだろ
機械学習とか形態素解析とか使わずに手っ取りはやく単語を抽出する方法ってないか?
IDFの計算をやってみたいだけで「連続するカタカナは単語である」とかその程度の規則で構わないんだけど。
とりあえずn-gramでやってみれば
>>625 試しにその方法で自分の書き込みを分割して使い物になるか考えたら
Fong Po Poうぜええよ
ちっとは自分で調べろよ
英文の構文解析器ってフリーだと何が最強なの?
NLTKだけ使えばよい
それはやだあ
NLTKって、どこが駄目なの?
NTLKは使ったことがないけど、MATLABほどに離せないものなのか?
もうMATLABなんて捨ててNumPyを使うようになってきてるから
高価なMATLABが使えるからNumPyは調べてもいなかった。
Toolboxがもし充実してるなら乗り換えてもいいけど。
MATLABだと実験以上のことはできないからな
ただMATLABが使いたいなら
NLTKで特徴抽出してMATLABで読めるファイルを書き出して
あとMATLABでやればいいんじゃね
638 :
デフォルトの名無しさん:2012/12/26(水) 02:39:47.04
>>448 >それなら
>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる
人肉食の可能性は現実論として完全否定はできない。
けれども以下の記述については、「絶対にありえない」と断言できる!
タナトス
<中略>
神であるだけにその力は凄まじく、ポセイドンが星矢たちに送った黄金聖衣を一瞬にして破壊するなど、
一時は星矢たちを死地に追い込んだ。また身に着けている冥衣の防御力も高く、完全に凍結させるには
絶対零度の数百倍の凍気が必要だと彼自身が公言している。
http://ja.wikipedia.org/wiki/%E5%86%A5%E9%97%98%E5%A3%AB 絶対零度の数百倍の凍気が必要だ
絶対零度の数百倍の凍気が必要だ
絶対零度の数百倍の凍気が必要だ
PGをクビになった感がする人の怨念みたいなコピペで見たけれど、matlabってcのコード吐くはず。
kenlmの人って顔長いよね
俺が出た糞大学のアホ教授には真似のできない出来栄えw
お前がアホというのは分かった
CS学科の教授たちって、大学が潰れたら何処で働くんだろう
BPやDP、gnuplotの使い方みたいな論文が転がってる時点で進学すべきでなかった
けどさ、けどさ、皆、自然言語処理なんて専攻を選らんでおいて、
それらしい就職先が見つからなかったら、すごく時間の無駄だよね
3ヵ月ほどインターンに参加して、ほんのちょっと何か実験しただけで大手ITに就職して、
プログラミングなんて作業とはお別れしたヤツが勝ち組なんだってスグに判るよ
どーせ、人事なんて何をドレだけ努力したかなんて面接でしか判断できないんだからw
自己PRだけウマくやれば良いんだよ。
や自糞
647 :
デフォルトの名無しさん:2013/01/23(水) 02:24:54.05
アーロン・シュワルツの自殺に面して、自分が書いた屑論文を
オープンに出来る教授がドレだけ居るかって本当に興味深いよ
651 :
デフォルトの名無しさん:2013/01/31(木) 18:00:31.28
2.4 考察
実空間にいるユーザが仮想物体の操作指示に対して用いる言語・非言語情報を観察するという目的のため,言語指示のみで
は意図を伝え難くなるよう家具配置を設定した.しかしいずれの参加者についても言語情報による指示が多くを占め,指差し
以外の非言語行動の頻度は参加者により大きく差が見られた.参加者にはできるだけ参考図通りになるよう家具を配置す
ることを念頭に置いて指示を出してもらったが,実験後の配置の状態は人により様々であった.指示の内容が細かくなってく
ると,言語・非言語情報のいずれを用いても意図を伝え難くなり,操作者としてもその解釈が難しくなるため,ある程度似て
いると思われる配置で妥協するという様子がよく見られた.そのため,微調整のためには指示者,操作者間の通話を介さず,
指示者が直接家具を操作できるようなシステムが必要と感じられた.
https://kaigi.org/jsai/webprogram/2012/pdf/644.pdf 1. 研究概要
認知科学の分野において,人間の理解過程は現在でも大きな研究テーマである.近年でも言語,特
に物語文の理解過程に関する研究が盛んである. Kintsch ら[1]や Zwaan ら[2]によると,人間は物
語を読む際,まず記述されている状況についての言語的な手掛かりを抽出する.そして,これらの情
報と過去の知識や経験を頭の中で結びつけて活性化させ,状況モデルと呼ばれる心的小世界(イメー
ジ)を作ることで物語文に記述された内容を理解しているとされる.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf 「 0(ゼロ)」という概念は、6世紀ごろ、古代インド人によって生み出されたと伝えられている。
古の人々は存在の無いものを「 0」として存在させることで、
世の中の仕組みをよりわかりやすいものにした。
もちろん、それ以前に「 0」がなかったわけではない。
あまりに当然のことであったため、見過ごされていただけなのである。
http://www.aichi-pu.ac.jp/campus_guide/joho2013.pdf
text miningには優れた書籍やツールがあり、集めたcorpusに対して形態素解析をかけたり、TF-IDFにかけたりすることはできますが、そもそもcorpus収集が分かりません。
私は金融のnews miningがやりたいので、自動的にnews記事を集めて、銘柄ごとtime stampごとに分けて、分析にかけたいのです。
news記事収集softは今のnewsを集めるだけで、reuters等のarchiveから記事を引っ張れません。
自分でcrawlerを作ろうと思いましたが、本が皆無で難しく頓挫しました。役に立つtoolや日曜programmerでも読める本があれば教えていただけないでしょうか。
crawler なんか web 上にいくらでも情報転がってると思うんだが。
古い本だけど Spidering hacks は crawler 本だね。Perl だけど。
HTTP/1.1とHTMLとXPathについて学べば分かる
657 :
デフォルトの名無しさん:2013/02/26(火) 15:32:32.13
4. まとめと今後の課題
Web 文書やブログ文書,チャット(対話)ログなどをテキス
ト解析し,様々な知識を抽出または発見する研究が盛んに行わ
れている.しかしながら,Web テキストに限らず,近年のテキ
スト文書中には既存の形態素解析器にとって未知である語の割
合が非常に増えて来ており,未知語に対しては既存の形態素解
析器を用いた品詞推定が必ずしも正確ではないため,有益な知
識の元を逃してしまっている.この問題に対して我々は,既存
の形態素解析器のラッパーとして,形態素解析器が有する辞書
に未登録である未知語に対しても,その未知語を含んだ入力文
の品詞列パターンを適度に条件強化・緩和することで用例コー
パスから類似用例を検索し,その結果を用いて未知語の品詞を
推定する手法を提案した.品詞の分類法,未知語に隣接する品
詞列の形態素数が未知語品詞推定に与える効果(精度および実
行速度)を検証した結果,形態素解析器「MeCab」の未知語品
詞推定手法の平均精度を約 14%改善し,かつ,これまでの我々
の手法[14] よりも約 1000 倍高速化して実用的な計算時間(入
力文 1 件当たりの平均処理時間約 10 ミリ秒)を実現できてい
る.平均では形態素解析器「MeCab」の精度をわずかに上回っ
た程度であり,計算時間が大きく掛かってしまうため,依然と
して未だ不十分であると考えるが,名詞以外にも動詞や感動詞,
助詞,助動詞の未知語も精度良く取得することができること,
また,抽出したい品詞の種類に合わせてパラメータを最適化す
ることも可能であることの 2 点において優れている.
http://db-event.jpn.org/deim2012/proceedings/final-pdf/e5-1.pdf
658 :
デフォルトの名無しさん:2013/02/26(火) 16:09:29.06
この問題は特別な読解能力を必要としているのではなく、英語で書かれた文章を正しく理解できているかどうか
が求められています。ここで「正しく理解できている」というのは、日本語と同じように理解できているということですが、
その中には「一般社会での常識を知っている」ことが含まれています。人間であればだれでも分かることを前提として、
ちゃんと理解できているかどうかを試験しているわけですが、コンピュータにとっては「人間であればだれでも
分かること」が分からないため、そこが逆に難しい問題になってしまいます。
今までの分析では、英語の問題はこのように人間の常識に依拠する部分が多く、効果的な解答方法はまだ
見つかっていません。常識の問題は、今までの人工知能研究でも非常に難しいことが知られており、
現在の多くの研究ではいかにこの問題を避けるかが一つのポイントともなっています。このプロジェクトでは、
試験で出題される限られた範囲の中で、上記のような理解のしくみを考えていきます。今後、意味理解や
常識がどのようなメカニズムで運用され、試験問題に解答しているのか、さらに分析を進めていきます。
http://21robot.org/%E8%8B%B1%E8%AA%9E/
659 :
デフォルトの名無しさん:2013/02/26(火) 16:54:54.64
660 :
デフォルトの名無しさん:2013/02/28(木) 11:39:30.86
1. 研究概要
認知科学の分野において,人間の理解過程は現在でも大きな研究テーマである.
近年でも言語,特に物語文の理解過程に関する研究が盛んである.
Kintsch ら[1]や Zwaan ら[2]によると,人間は物語を読む際,まず記述され
ている状況についての言語的な手掛かりを抽出する.そして,これらの情
報と過去の知識や経験を頭の中で結びつけて活性化させ,状況モデルと呼ばれる
心的小世界(イメージ)を作ることで物語文に記述された内容を理解しているとされる.
また Zacks らの EST(event Segmentation theory) [3]によれば,人間は状況
モデル構築の過程で, 物語内で起きる特徴的な次元の変化によって,
物語の分割を行っているとされる.例えば,時間/空間の次元に関連した変化による
セグメンテーション,その下での人物の次元に関わる変化によるセグメンテーション
というように,いくつかの階層でセグメントを行い,それぞれを意味の単位と
してまとめ,文の内容の統合,理解をしているとされる.
これら状況モデルや EST の理論を用いることで,状況モデルの構造や言語的な
手掛かりを決定することが出来る.しかし,これらの情報から視覚的イメージを
生成するためには,心的小世界の範囲や視野,それらを定義する視点の情報を補完す
るための知識が必要であると考えられる.
これに関し,Zwaan ら[4]は,状況モデルを構築する際の視点の存在についても
言及している. 人間は心的小世界の中に視点を置き,あたかもその状況の中に自分自身
が没入しているような,経験的なシミュレーションを行うとされる.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf
661 :
デフォルトの名無しさん:2013/02/28(木) 11:54:16.88
>アメリカ人の多くが「従軍慰安婦」=「旧日本軍性奴隷」と、史実と異なった認識をしている
70年も前の時代の状況を、言葉だけで説明しようとしても、説得力は今ひとつだ。
米国のエリート外交官がいかに頭脳明晰でも、70年も前の時代の状況を把握することはできない。
「売春婦だ」と反論しても、旧日本軍はイランや北朝鮮と同じ「悪の枢軸」と一方的に決めつけられて、
従軍慰安婦問題は旧日本軍が売春という口実で婦女子を強制連行して性奴隷にしたとしか理解されない。
662 :
デフォルトの名無しさん:2013/02/28(木) 13:36:35.34
僕の身内にもロボットの研究開発に携わった人がいるのだけれど、やはり人間がいかに精巧にできているのか、
ということを言っていた。その身内が言うには、人間は数百万年かけて進化してきたのであり、自分が数十年研究
したところで追いつけるわけもない、と。
そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109
>>661 >「売春婦だ」と反論しても、旧日本軍はイランや北朝鮮と同じ「悪の枢軸」と一方的に決めつけられて、
>従軍慰安婦問題は旧日本軍が売春という口実で婦女子を強制連行して性奴隷にしたとしか理解されない。
(4) (前略)そして、これに加えるに、そのころまでには、ドイツ連邦共和国、アメリカ合衆国、カナダにおいて、第二次世界大戦中
の各国家の行為によって犠牲を被った外国人に対する謝罪と救済のための立法等がなされた事実もまた明らかになっており
(別紙一及び二のとおり、当事者間に争いがない。)、これら先進諸国の動向とともに従軍慰安婦制度がいわゆるナチスの蛮行
にも準ずべき重大な人権侵害であって、これにより慰安婦とされた多くの女性の被った損害を放置することもまた新たに重大な
人権侵害を引き起こすことをも考慮すれば、遅くとも右内閣官房長官談話が出された平成五年(一九九三年)八月四日以降の早い段階で、
先の作為義務は、慰安婦原告らの被った損害を回復するための特別の賠償立法をなすべき日本国憲法上の義務に転化し、
その旨明確に国会に対する立法課題を提起したというべきである。そして、右の談話から遅くとも三年を経過した平成八年八月末には、
右立法をなすべき合理的期間を経過したといえるから、当該立法不作為が国家賠償法上も違法となったと認められる。
http://d.hatena.ne.jp/asobitarian/20120913/1347530601
664 :
デフォルトの名無しさん:2013/03/04(月) 19:56:38.41
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html >25万2千語を収録
ではその25万2千語全ての単語について、百万冊の書籍をスパコン「京」で形態素解析し、
さらにコンピュータの「誤読」と「理解不能表現」を分析抽出し、これらを「人力で修正」し、
「属性フレーム」と「意味ネットワーク」と「RDFトリプル」を作成というわけにはいきませんか。
コンピュータには何が理解できて何が理解できないのかも、ここではっきりさせられませんか。
そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109 あるいは現在の技術では、未だにコンピュータの「誤読」と「理解不能表現」が多すぎて無理なのですか。
けれどもそれなら2チャンネラー百万人を動員して、人力でオントロジー作成という手もあると思われますが。
665 :
デフォルトの名無しさん:2013/03/10(日) 02:51:38.02
>>私は金融のnews miningがやりたいので、自動的にnews記事を集めて、銘柄ごとtime stampごとに分けて、分析にかけたいのです。
>>news記事収集softは今のnewsを集めるだけで、reuters等のarchiveから記事を引っ張れません。
>>自分でcrawlerを作ろうと思いましたが、本が皆無で難しく頓挫しました。役に立つtoolや日曜programmerでも読める本があれば教えていただけないでしょうか。
じゃ、これ使えよ
ロイターの日本語版をデータベースのアクセスにDLしてくれる
http://kie.nu/RI4 使い方はVBのダウンロードしてF5で実行
コマンドラインに
開始年 開始月 終了年 終了月 パス名
コードもあるので自分で改良してくれ
666 :
デフォルトの名無しさん:2013/03/10(日) 03:01:44.06
667 :
デフォルトの名無しさん:2013/03/10(日) 12:52:41.49
ナイーブペイズについて教えてください
今、文書d1、d2、d3がありワードw1、w2、w3、w4、w5、w6、w7があります
以下の回数が文書に現れます
D= w1 w2 w3 w4 w5 w6 w7
d1 1 2 1 0 1 0 0
d2 0 2 0 0 1 1 1
d3 1 0 1 1 0 2 0
668 :
デフォルトの名無しさん:2013/03/10(日) 12:55:34.37
(続き)
このうちd1,d2は広告でd3は普通とわかっています(事前確率)
k=0を広告k=1を普通として
p(k=0)=2/3 p(k=1)=1/3 p (w|k=0)=[0.1 0.4 0.1 0 0.2 0.1 0.1]
p (w|k=1)=[0.2 0 0.2 0.2 0 0.4 0]
しかしp(d1|k=0)=2/3(1/10×4/10×4/10×1/10×2/10)
が全くわからません低能な私を助けてだれか解説してくれませんか?
669 :
デフォルトの名無しさん:2013/03/29(金) 20:10:26.35
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html >25万2千語を収録
では、252000?252000=63504000000(635億4百万)通りの「概念間の2項関係の集合」について、
大学教授と東大生と京大生(院生含む)合わせて60万人を動員して、「意味ネットワーク」を作成するというわけにはいきませんか?
意味ネットワークとは本質的には概念間の2項関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
http://www.nm.cs.uec.ac.jp/assets/files/JinkouChinouRon/ai02.pdf 一人あたり一日100通り、60万人なら一日あたり6000万通り、このベースなら千日くらいで可能と思われますが、
もしかしてこれってただのギャグですか?
670 :
デフォルトの名無しさん:2013/04/09(火) 11:56:03.18
いくらコンピュータの計算能力を上げても、自然言語処理については、
形態素解析されたその一つ一つについて、「意味ネットワーク」と、
「is-a(一般-特殊)関係」と「RDF」が用意されていなければどうにもならない。
それはいくら中国人を沢山集めても、また中国人がどれだけ大勢でがなり立てても、
彼らの脳裏に「水道」の概念が理解されていないのではどうにもならないのと同じに思える。
RDF信者でウヨとか、この特定日本人、ほとんど特定可能だろw
673 :
デフォルトの名無しさん:2013/04/20(土) 17:33:04.55
>>659 >従って入試問題を解答するだとかの自然言語処理技術や画像認識技術を発展させるにあたっては、
>現実物体を仮想物体に置き換える「シミュレーション化」が不可欠になってくる。
3 シミュレーションを用いた物理問題解答
大学入学試験における物理の問題は多くの場合,ある特定の状況において発生した物理現象に関して,
そのときの物理量を問うという形式になっている.例えば,図 1 に示す問題では,最初に状況についての記述があり,
続いてその状況に対する操作とその結果となる物理現象が記述されている.そして,問題では一連の物理現象のうち
" 物体が止まった" 時の位置が解答すべきものとして指定されている.
一般的には,このような問題を解答する際にはその現象の背後にある物理法則を推測し,それに関する公式を
用いて計算し解を求める.このような解法に対し,我々は問題に記述されてある状況をシミュレータ上に再現し,
そこで問題と同じような操作をシミュレーションすることによって物理量を観測し,それを用いて問題を解答する
ことを目指す.このアプローチは大きく分けて以下の 3 つの要素からなる.
(1). 問題テキストからの状況理解
(2). シミュレーション
(3). シミュレーション結果を用いた問題解答
本論文での議論は (3) に関するものである.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P6-8.pdf
674 :
片山博文MZパンク ◆0lBZNi.Q7evd :2013/04/21(日) 09:17:35.79
【映画「日本語崩壊」あらすじ】
ある日突然、日本語だけが機械に高精度でコンピュータに認識されるようになる。何者かが日本語認識プログラムをwebに公開したからだ。
たちまち全世界的に日本語の爆発的ブームが起こり、日本語会話の活用が大ビジネス活用がされるようになる。
しかしとんでもない悪用が蔓延。東京では72%の家庭にロボット盗聴機が仕掛けられ、
日本語の日常会話が闇ビジネス、ストーカー、殺戮マシン、ポルノ、成りすまし詐偽などに脅かされるようになる。
礒野家ではとんでもない事件が度々起こる。パパ、フランス語知ってるよね。僕に教えてよ。礒野家はめちゃくちゃなフランス語会話を受け入れるはめに。
未来が来ることを拒むことはできない。今のうちに考えておきたいことがある。
1 はじめに
歴史の試験問題などに見られる客観式問題ではしば
しば、記述された文の真偽を判定させることによって
受験者の理解度を測る。この種の真偽判定問題を機械
的に直接解こうとすると、閉世界を仮定できるだけの
網羅性をもった知識が必要となるが、出題の幅広さに
対応させることは現実的とはいえない。言い換えると、
命題が「偽」である根拠を情報源から明示的に見つけ
ることは困難である。そのためか、ファクトイド型を
中心とした質問応答が成果を挙げている一方で、大規
模な知識源を用いて真偽を判定する研究は少ない。
そこで、真偽判定問題を、定理証明のアプローチと
は異なる見方で捉えるべく、以下の例をもとに1、知識
を確認するための命題の作られ方について考えてみる。
(1) Chirac was the president of France in 2000.
(2) Chirac was the president of Germany in 2000.
(2) のような偽の命題はしばしば、(1) のような真の
命題をもとにして、一部の要素(この場合は国名)が
入れ替わることによって作られる。本稿ではこれに着
目し、命題の中に現れる語句を問うような質問文を生
成し、それを解くことによって真偽の判定を行うアプ
ローチを試みる。(1)(2) の例の場合、下線部を上位語
で置き換えることにより、文 (3) を生成する。
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/B2-3.pdf
未定義語や未定義文をどうやって解釈するかって問題があるけど、特徴分析とパーサコンビネータで何とかならないか?
(1) 太郎が公園に戻ってくるとさきほど 見かけた女の子はいなくなっていた。
たとえば上記のような文があった場合,省略された項を考慮しない解析,すなわち,
デフォルトの構文・格解析では,「見かけた」が「女の子」を連体修飾しているということ
は正しく解析できるものの,「女の子」は「見かけた」のガ格であると解析されてしまう.
しかし,文頭に出現した「太郎」も考慮に入れ,新たに「女の子」が「見かけた」のヲ格である
可能性も含めて述語項構造解析を行うことにより,「太郎」が「見かけた」のガ格であり,
「女の子」は「見かけた」のヲ格であると正しく解析することができるようになる.
http://www.lr.pi.titech.ac.jp/~sasano/paper/nlp13.pdf
679 :
デフォルトの名無しさん:2013/04/30(火) 12:53:13.25
新井
小学校の段階から、すべての科目において、論理的に考えて表現しなければ達成できな
いような活動を意識的にすることでしょう。それはまず、それぞれの学年、成長の過程に合わ
せて、より多くの“説明活動”をさせることです。
「大学数学基本調査」からわかっていることは、論述式の問題を解く訓練を経ているかどうかで、
大きな差が出ているということです。論述式の入試を目指して勉強した人と、それは必要ないと切り捨
て勉強した人では、勉強の仕方が根本から違ってしまって、それが能力の差につながってしまっているのです。
また、教え方でも、例えば放物線を教える時に、x軸との交点はこうで、y軸の交点はこうで、
頂点はこうですよと説明して済ませてしまう。その数値を求めよというのが問題ということで、
その求め方を教えるだけで終わらせてしまう。では、なぜ3点なのか。それがなぜ重要なのかという
ところまで生徒はイメージが及びません。しかし、放物線は3点がわかればそれが決定される、
と頭に入れさえすれば、何か現象を観たときに全容を理解するパースペクティブを得ることができるでしょう。
微分方程式なら微分方程式といった名前がわざわざ付いているのはなぜか。それはその概念
がほかに使える重要なものだからに決まっているわけで、それを理解させれば、当たり前の勉強をしていても、
コンピュータが苦手とするような力がついていくだろうと思います。
http://www.gakuryoku.gakken.co.jp/pdf/articles/2013/6/p2-5.pdf
680 :
デフォルトの名無しさん:2013/05/01(水) 17:13:53.52
>>671 >いくらコンピュータの計算能力を上げても、自然言語処理については、
>形態素解析されたその一つ一つについて、「意味ネットワーク」と、
>「is-a(一般-特殊)関係」と「RDF」が用意されていなければどうにもならない。
●リンゴが木から落ちるのを見て、式を思いつくように
どんな言語でも、名詞や動詞があったり、主語や述語があったりと、結構似たような構造があり
ます。すると単語がどういう順で並び、どう組み合わさって文全体の意味ができるのか、そこに何
らかの規則性があるはずなんです。そこで文法学者の理論をひもとき、いざ式に書き起こそうとす
るのですが、これまでの理論には矛盾が潜んでいることも多く、コンピュータが理解できるような
形式的な規則にまとめようとすると、実は大変な難題であることがわかります。
自然言語処理という分野では、最近はむしろ膨大なデータを利用してコンピュータで統計的に処
理し、意味を獲得する方法が広く行われています。ところがデータからすべて自動的に学習させよ
うとしても、それはまだコンピュータにはできないところなんです。自然言語もニュートン物理学
と同じように、まずは自然現象のように観察し、やっぱり自分の手で言語の規則性を明らかにして
いかなければならないと考えています。
http://www.nii.ac.jp/userimg/intro/jp/miyao.pdf
681 :
デフォルトの名無しさん:2013/05/01(水) 17:37:51.32
>>679 > また、教え方でも、例えば放物線を教える時に、x軸との交点はこうで、y軸の交点はこうで、
>頂点はこうですよと説明して済ませてしまう。その数値を求めよというのが問題ということで、
>その求め方を教えるだけで終わらせてしまう。では、なぜ3点なのか。それがなぜ重要なのかという
>ところまで生徒はイメージが及びません。
これは「放物線」の概念や定義について、コンピュータが正確に把握していなければならない。
※ 放物線の方程式は,中学校と高校数学Iで2次関数のグラフとして習う.
中学校3年 : y=ax2
高校数学I : y=ax2+bx+c
■ 方程式
y2=4px …(1)
で表わされる曲線は,右図1のような放物線になる.
○ (1)を放物線の方程式の標準形という.
○ この曲線は「定点 F(p , 0) と定直線 x=?p からの距離が等しい点の軌跡」となっている.
(解説は次の項目↓)
○ 点 F(p , 0) を放物線の焦点といい,直線 x=?p を準線という.
○ 点 O(0 , 0) を放物線の頂点という.
○ (1)の放物線は x 軸に関して対称となっている. この対称軸を放物線の軸という.
すなわち,軸の方程式はy=0
放物線の方程式の標準形
http://www.geisya.or.jp/~mwm48961/kou3/quadratic_3.htm
(5) 正しいことを確認してください。
(正解:CT+,出力:U)
(5) では,親の述語である「確認する」につけられた事実性Uを伝搬させたことにより,事象「正しい」の事実
性を U と出力している.しかし,「確認する」は先行する文脈を前提する述語であるため,「正しい」の事実性
はCT+となるべきである.これは,手がかり表現辞書に「確認する」が存在しなかったため,うまくいかなかっ
た問題である.
今回分析した,文末以外の事象における誤り1,483事例のうち,手がかり表現辞書中のない用語が関与してい
たものが422事例あった.ところが,内容語に関する誤りはわずか9事例であったことから,内容語の曖昧性の
問題は,ほとんどないことが明らかになった.また,分析したコーパス領域中の正解事例2,207件のうち,手が
かり表現を使って正解できたものは,628 件であった.これに対し,手がかり表現が辞書に登録されていないこ
とが原因となっている誤りは,わずか38件であった.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/B2-2.pdf (i) いくつかの単語が緊密に連結して 1 つの機能語として働くものは、1 つの助詞 (P) として扱う。
これは、最終目的である文意味解析の便宜のためである。この中には、「として」「について」「に対して/
対する」「に関して/関する」等が含まれる。このうち、「として」「について」には助詞プラス動詞テ形として
の用法もあり、構造的にあいまいなものとして取り扱う。また、通常形式名詞とされる「ため」「おかげ」「せい」
「あまり」についても、「のために」のように 1 つの機能語に相当する用例については、1 語の P とする。
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/B6-2.pdf 4. 係り受け解析が誤っている (False Negative)
「煙草の臭いが苦手な私には 本当にありがたかったです。」では,「煙草の臭いがありがたい」という
誤った係り受けが生じた,これにより,As と Bs の差が大きくなり,「煙草の」という評価条件文節を
誤って負例と予測した.もし「臭いが」という評価条件文節の次の係り受け先が「苦手な」になってい
れば,正しく分類された.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/A4-2.pdf
次に、3・1節(2)の生テキストに関してである。適応分野の生テキストは、まず実際に解析してみて、
解析精度がどの程度かを目視で推測することに用いられる。その結果、解析誤りが散見され、
大部分が単語分割ツールの未知語に起因することに気付く。この誤りの対処として、
未知語を単語分割ツールの辞書に追加する。多くの応用研究での分野適応は、この作業までである。
未知語に起因しない誤りもあるので、単語分割精度を十分に向上させるには、生テキストへの情報付与
が必須である。すなわち、文の全ての文字間またはその一部に人手で単語境界情報を付与する。
こうして得られる以下の言語資源を用いて、自動単語分割ツールのモデルを再学習する。
?フルアノテーションコーパス
例: 電-極|端-部|と|対-向|す|る
?部分的アノテーションコーパス
例: 電 極|端-部|と 対 向 す る
ここで、例の中の文字間の記号「|」と「-」と「 」は、順に、単語境界が有る、無い、有るか無いか不明を表す。
このような言語資源には文脈情報があるので、すべての部分文字列が単語となる「上端部」のような文字列
を文脈に応じて単語に分割することが可能となり、単語登録のみの場合よりも精度が高くなる?4
http://plata.ar.media.kyoto-u.ac.jp/mori/research/public/JSAI12Jul.pdf 「法令等に定めがあるとき、又は長沼町個人情報保護審査会の意見を聴いた上で」
「法令等に定めがあるとき、又は池田町個人情報保護審査会の意見を聴いた上で」
この場合は、「長沼」を「池田」に書き換えるだけなので、編集距離は2である。しかしながら、次の場合は異なる。
「法令等に定めがあるとき、又は倶知安町個人情報保護審査会の意見を聴いた上で」
この場合は、「長沼」や「池田」を「倶治安」に換えることになるので、自治体名の長さの違いから、
長沼町や池田町の条文の文面と比較すると、編集距離が3になってしまう。
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/16943/1/08_%E8%A7%92%E7%94%B0%E7%AF%A4%E6%B3%B0%E6%A7%98.pdf
685 :
デフォルトの名無しさん:2013/05/02(木) 22:42:17.68
686 :
デフォルトの名無しさん:2013/05/06(月) 14:15:44.30
687 :
デフォルトの名無しさん:2013/05/06(月) 14:42:29.27
688 :
デフォルトの名無しさん:2013/05/06(月) 14:56:33.56
>具体物を使ってシュミレーションする
モデリングの過程では 問題を解くために必要な事項のみに注目し,他の情報は捨てる
? 体長 体重 羽の色 甲羅の模様などは無視
? 「足の合計本数」と「全部で何匹か」のみに注目
? 「足の合計本数」と「頭の合計数」に注目してもよい
? 問題の見方を変えた方が良い場合もある
? そんなの数える暇があったら,最初から鶴と亀を別々に数えた方が簡単だろう!
http://www.is.titech.ac.jp/~etsuya/lecture/cs/2007/02.pdf >体長 体重 羽の色 甲羅の模様
このへんはランダムかつ最も標準的なモデルを採用したらいい。
新入荷!! 2013/04/30
■オオアタマガメ
■ラオスモエギハコガメ
■ベトナムモエギハコガメ
■クロハラモエギハコガメ(Pr)
■ムオヒラセガメ
■オプストヒラセガメ
■ニシキマゲクビガメ
■インドシナスッポン”アルビノ”
■マレーニシクイガメ
http://www.dizzypoint.co.jp/
689 :
デフォルトの名無しさん:2013/05/07(火) 12:21:14.75
690 :
デフォルトの名無しさん:2013/05/13(月) 23:54:29.67
>>548 >それから一見するとよく似ている文章でも、全く違う内容という場合もある。
>「人間は顔じゃねえよ」は、人間の価値は顔で決まるわけではない、と解釈できる。
>けれども「人間の顔じゃねえよ」と「人間は顔じゃねえよ」は、全く違う。
係り受け解析や固有名抽出の技術がある程度成熟した現在、述語項構造解析や 照応省略解析,
種々の意味関係の抽出といった高次の解析技術を実用レベル に押し上げる研究の素地が整ってきた。
機械学習技術と言語学的知見を 組み合わせることによって頑健な項構造・照応解析を実現する
研究を進めている。 また、これらの研究を推進するために語彙概念構造に基づく動詞意味辞書の
開発および照応タグ付きデータや項構造の用例データの構築を行っている。
http://cl.naist.jp/index.php?%BC%E7%A4%CA%B8%A6%B5%E6%C6%E2%CD%C6
691 :
デフォルトの名無しさん:2013/05/14(火) 16:14:00.02
2021年までに「人工知能」が東大の入試を突破する可能性があります。
東京大学の安田講堂(東京・本郷キャンパスで)
東京大学の赤門(東京・本郷キャンパスで)
国立情報学研究所(東京都千代田区)が、「ロボットが東大に入れるか」というプロジェクトを進めています。
チェス、クイズ、将棋、そして…
といっても、ホンダのアシモのような人間の姿をしたロボットが、鉛筆を持って筆記試験を受けるわけではありません。
研究所が開発しているのは、ロボットの頭脳部分にあたる「人工知能」、つまりコンピューターのソフトウエアです。
東大の試験問題を入力すると、高い確率で正解を出すソフトをつくろうとしているのです。
IBMの人工知能が、チェスの世界王者に続き、米国のクイズ王も負かしました。日本の将棋ソフトの実力は、
プロ棋士に勝つレベルまで上がっています。次は、難関の東大合格を目指そうというわけです。
http://www.yomiuri.co.jp/job/biz/qaetc/20130507-OYT8T00687.htm
692 :
デフォルトの名無しさん:2013/05/20(月) 12:53:37.30
693 :
デフォルトの名無しさん:2013/05/20(月) 13:14:20.21
694 :
デフォルトの名無しさん:2013/05/20(月) 13:20:36.60
>>690 >係り受け解析や固有名抽出の技術がある程度成熟した現在、述語項構造解析や 照応省略解析,
>種々の意味関係の抽出といった高次の解析技術を実用レベルに
固有表現抽出も最大エントロピー法が成功した応用例である 。 固有表現抽出とは人名や会社名
などの固有表現をテキストから抽出することであり、情報抽出の前処理として必要な処理である。
固有表現抽出も分類問題に変換できる。例えば、人名を抽出するには、入力文の各単語に以下の
5種類のク ラ スを割り当てればよい。
OP-CL : その単語自身が人名
OP-CN : 人名が複合語でその最初の単語
CN-CN : 人名が複合語でその中間の単語
CN-CL : 人名が複合語でその最後の単語
none : その単語は固有表現と は無関係
http://nlp.dse.ibaraki.ac.jp/~shinnou/papers/aamt_exp.pdf
久しぶりに小学生の国語辞典を眺めてたら、ほとんどが言葉の言い換えだった
696 :
デフォルトの名無しさん:2013/05/22(水) 14:28:47.09
>>673 >シミュレーションを用いた物理問題解答
3.1.1. 状況モデルとは
本研究では,物語テキストから言語的手がかりを抽出する過程のモデルとして,状況モデルとい
う考え方を導入する.状況モデルとは,人間が物語理解の際に頭の中で構成する心的小世界,
すなわちイメージとその構成過程のモデルである.Zwaan[2]らによると,状況モデルを構築するた
めには 5 つの重要な状況的次元,時間(time),空間(space),主人公(protagonist),意図(motivation),
原因及び因果(causation)があり,読者が物語を読む際には,これらの要素に注目しているとされる.
本研究では,Zwaan の主張する状況モデルを構成する要素のうち,主人公を登場人物とし,そして
新たに状況に登場する物あるいは対象(object)を人物と分ける.また文脈解析の困難さから意図を除き,
主人公の目標に沿って物語が進むという仮定から,意図を潜在的に含むと考えられる行為/状態の
次元を加え,時間,空間,人物,物及び行為/状態の 5 つの次元を,状況モデルを構築する要素とした.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf
3.1.1. 状況モデルとは
本研究では,物語テキストから言語的手がかりを抽出する過程のモデルとして,状況モデルとい
う考え方を導入する.状況モデルとは,人間が物語理解の際に頭の中で構成する心的小世界,
すなわちイメージとその構成過程のモデルである.Zwaan[2]らによると,状況モデルを構築するた
めには 5 つの重要な状況的次元,時間(time),空間(space),主人公(protagonist),意図(motivation),
原因及び因果(causation)があり,読者が物語を読む際には,これらの要素に注目しているとされる.
本研究では,Zwaan の主張する状況モデルを構成する要素のうち,主人公を登場人物とし,そして
新たに状況に登場する物あるいは対象(object)を人物と分ける.また文脈解析の困難さから意図を除き,
主人公の目標に沿って物語が進むという仮定から,意図を潜在的に含むと考えられる行為/状態の
次元を加え,時間,空間,人物,物及び行為/状態の 5つの次元を,状況モデルを構築する要素とした.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf >状況モデルとは,人間が物語理解の際に頭の中で構成する心的小世界,
>すなわちイメージとその構成過程のモデルである.
脚本から直接、シミュレーション人形劇を作成できたらよいと思う。
連続人形劇 プリンプリン物語
https://www.youtube.com/watch?v=S4h_dKUv3lY ここでの状況モデルは「舞台」、そしてその中でキャラクターが会話しながら動いていくということ。
>>695 言葉の元素108個を見つける作業に戻るんだ
699 :
デフォルトの名無しさん:2013/05/30(木) 12:00:10.36
700 :
デフォルトの名無しさん:2013/05/30(木) 19:38:06.50
3.1 作業内容
シソーラス上に定義されている動詞の事例拡張の観
点から作業者の手順を記述する.
ap1シソーラスで定義されておりかつBCCWJにも
存在する動詞を選択
ap2例文を選択
ap3動詞の語義を選択(語義無し可)
ap4係り元の文節や句,文を同定
ap5係り元動詞の意味役割を選択
上記各項目について,簡単に説明する.まずap1では
作業システムで動詞のリストと動詞が例文に含まれて
いる数などが付与されている.そのうち,シソーラス
に登録されている動詞を選択する.
次にap2ではシソーラスでの意味概念が3以下なら
10例文,4種以上なら20例文として例文を選択する.
例えば「測定する」などは1概念しかなく,「上がる」
ならば15概念ある.例文選択は,本来ならば必要と
する概念を幅広く獲得すべきであるが,事例付与の最
初の段階であり,時間をかけ1ると付与がほとんど出
来ない恐れがある.簡単な事例でもまず量を出す必要
から,こうした簡単化した指示を行った.現段階では
人手で行ったが,統計的手法などを利用した補助シス
テムが必要であろう.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/X2-3.pdf
701 :
デフォルトの名無しさん:2013/05/30(木) 19:54:14.07
3.2 処理の単位
文書の意味構造を考えた場合,処理単位を考えないと
時間の前や後,因果といった計算は難しいように思える.
よって処理の単位はなにか時間ステップの基準となるべき
であるがその単位は文より短い複合名詞,節の単位となる.
例を挙げて説明する.
? 空港閉鎖が解除された
? 空港が閉鎖されていたが,解除された
? 発車した電車を追いかけた
? 彼は車を降りた.今ここに立っている
? 彼は車を降りて,今ここに立っている
まず最初の2文であるが,事態を含む複合名詞であるが,
文に展開された文書と同様の意味を持っていると考えられ
る.つまり「空港閉鎖」という複合名詞が事態の1単位で
あり,これに対して,「解除」という2つ目の事態が起こっ
たように扱う意味解析モデルが必要である.
次に3番目の例であるが,「電車」に対する修飾句に「発
車(完了)」という事態が指定されており,これを1独立単
位にする必要がある.
最後に4番目以降の例であるが,2文で現れている内容
も複文でほとんど同様の意味を述べることが出来る.よっ
て,こうした表現の違いを吸収する意味構造が必要である.
つまり,事態の単位として事態1「降りる」の次に事態2
「立つ(状態)」が来ても同様の構造になるように意味記述
を構築する必要がある.
http://ousar.lib.okayama-u.ac.jp/Detail.e?id=4987120130510095148
702 :
デフォルトの名無しさん:2013/05/30(木) 22:10:34.78
6. 結論と展望
本稿では,「機械によって数学問題を解く」という行為を (1)
問題文の ZF の式への翻訳,(2) ZF の式から現実的に機械に
よる推論が可能な体系 (RCF++PA) の式への変換,(3) 「解
けている」と認められる項・式を得るための推論の実行,とい
う流れとして明確化し,これに基づく解答システムについて
(1) の自然言語処理のステップを中心に概説した.言語処理部
について理想化した実験設定ではあるが,RCF-QE ソルバー
を用いてテストデータの約 7 割に現段階で正答が得られたこ
とは,上記の方針について明るい見通しを与えるものである.
http://kaigi.org/jsai/webprogram/2013/pdf/622.pdf 2. 数式処理による数学入試問題の解法
数式処理は, 入力された数式に対して計算機上で代数的な記
号演算を行い数式を出力する.多くの計算では浮動小数ではな
く任意多倍長の整数または有理数を用い,誤差のない結果を返
す.例えば,数式処理により多項式の最大公約因子や因数分解
などの計算ができる.数式処理を実現する商用の数式処理シス
テムとしては Maple や Mathematica, フリーでは Risa/Asir
などがある. 数学入試問題では誤差のない計算が要求されるた
め,数式処理システムの活用は有効な手段であると考えられ
る.本章では数式処理アルゴリズムのひとつである QE によ
る入試問題の解法について紹介する.
https://kaigi.org/jsai/webprogram/2013/pdf/347.pdf
703 :
デフォルトの名無しさん:2013/05/30(木) 22:14:15.97
>>688 >モデリングの過程では 問題を解くために必要な事項のみに注目し,他の情報は捨てる
3.1 問題文の意味解析
自然文で記述された問題からそこに書かれている内容を理
解する.物理の試験では,記述された状況において起きた物理
現象に関する理解が問われる.そのため,必要となる情報は物
理現象に関わるもののみに限定することができ,その他の要
素は無視できる.例えば,\探査機を惑星に着地させる" や \
ボールを床に落とす" という状況を考えたとき,\探査機" や
\ボール" がどういうものか,ということを考える必要はなく,
これら両方の事象が \物体が落下する" という物理現象におけ
る \物体" であることが理解できればよい.従って,定義すべ
き述語の数は限定できる.
本研究では,a) 物体,b) 物体の属性,c) 操作,d) 物理現象
の 4 種類に対する述語を定義する.表 1 に述語の一部を示す.
物体に対する操作と物理現象は時間軸に沿って順番に発生する.
これらを意味する述語に対して,イベント変数ei[Davidson 80]
を導入し,この変数の順序関係 (ei < ej i? i < j) によって事
象間の時間的な順序関係を表す.例えば,\車が出発して,点
p に到着した" という文は以下のように表すことができる.
https://kaigi.org/jsai/webprogram/2013/pdf/632.pdf
704 :
デフォルトの名無しさん:2013/05/31(金) 13:51:09.45
>>688 >モデリングの過程では 問題を解くために必要な事項のみに注目し,他の情報は捨てる
https://kaigi.org/jsai/webprogram/2013/pdf/347.pdf >しかし,センター試験に対して高得点をとるという観点ではこの手法のみでは不十分で,
>一般に整数に関する問題や三角関数・指数関数・対数関数の問題に対して適用できる QE アルゴリズムは存在しない.
過去のセンター試験で、QE法では解答できなかった問題を、いくつか挙げてもらえますか。
整数問題についても、コンピュータでは解答困難だった問題を、いくつか挙げてもらえますか。
整数問題に関しては「互いが素数」とかの条件を駆使して絞り込むか、あるいは帰納法を用いるとかが考えられる。例えば、
「2X+3Y=n<nは整数>で、この式を満たす<正の整数X,Y>がちょうど10組になるようなnを全て求めよ。」は、
まず「2X+3Y」という左辺の式の係数がいずれも素数であることに着目し、これを利用できないかを考える。すると、
2X+3Y=n<nは整数>⇔2(X+n)=3(Y+n)<nは整数>、よって(X+n)は3の倍数で、(Y+n)は2の倍数、と絞り込める。
なお問われている変数は専らnであって<正の整数X,Y>ではなく、 問題を解くために必要な事項のみに注目し、他の情報は捨てる。
そこでX+n=pとなるような整数pを新たに変数として定義して、(X,Y)=(3p-n,-2+n)と置き換える。
3p-n>0,-2+n>0、よってn/3<p<n/2と絞込み、あとはpは整数と定義したからということで、n=6Q+K(Qは整数、K=0,1,2,3,4,5)と絞って、あとは計算。
705 :
デフォルトの名無しさん:2013/05/31(金) 14:10:51.16
死ねゴミクズw
ここはマジキチの日記帳だから
レスつける馬鹿は、自作自演ですか?
そうですよ
709 :
デフォルトの名無しさん:2013/06/05(水) 08:19:48.28
710 :
デフォルトの名無しさん:2013/06/23(日) 19:12:08.12
固有値分解でページランクが求まるように
特異値分解で単語OR文書の重要度が求まると思うんですが。
理論的に説明してあるところはありませんか。
711 :
710:2013/06/23(日) 20:32:04.45
ページランクを調べた。
どこからどこへ移動するかを表現する行列をAとするとき
任意のベクトルxを繰り返し移動させたとき(A^n・x)、これが収束するとすると、
そのベクトルが、どのページへ移動したかの確率分布を表すという仕組みだな。
収束するためには、最大固有値がちょうど1でなければいけないがそのあたりの調整が必要なんだとおもった。
712 :
デフォルトの名無しさん:2013/06/23(日) 21:22:54.02
713 :
デフォルトの名無しさん:2013/06/23(日) 21:51:04.01
714 :
デフォルトの名無しさん:2013/07/18(木) NY:AN:NY.AN
3.9 問題文の理解
2 節で述べたように,当面の研究課題は,典型的な問題タイプについて個別の解法システムを開発し,
その基盤となる言語処理技術を向上させることである.しかし,試験問題として問われうる全ての問題
タイプを網羅することは不可能であるため,将来的な課題として,想定外の問題に対しても問題文を理解し,
蓄積した解法システム・基盤技術を適切に組み合わることで解法システムを自動生成する手法を開発
することが考えられる.これを達成するためには,上述の様々な解法システム・基盤技術の相互運用性を高め,
言語処理技術とその入出力に関するオントロジーを整備することで,大学入試タスク全体を分析・形式化
しなければならない.もしこれが実現されれば,3.1 節や 3.3 節の技術を,問題文の要求を言語処理
ワークフローへと翻訳するという一段階抽象的な処理に適用することが可能になる.
http://www.anlp.jp/proceedings/annual_meeting/2012/pdf_dir/D4-5.pdf 宮尾 たとえば、「1日に3台の車をつくる工場があったとして、12台つくるには何日必要ですか?」という文章から、
コンピュータは人間のように瞬時に数式を立てることができません。車や工場といった概念がわからないので、
関係性が理解できないのです。それに比べれば積分の計算のほうがずっと簡単です。
http://www.nii.ac.jp/userdata/results/pr_data/NII_Today/60/all.pdf
715 :
デフォルトの名無しさん:2013/07/24(水) NY:AN:NY.AN
自分は英語が母国語ではないので、
自分の書く英文はネイティブから見たら多分不自然なところがある
どのくらい不自然なのか、どの部分が不自然なのかを知りたい
自然言語処理で、ある英文がどの程度自然かを判定することはできる?
そして、どの部分が不自然さを生みだしているか解析できる?
もしできたら外国語を学ぶ上で便利で強力なツールになると思うんだが
解析するのは無理
ビッグデータを使って「ありきたりの表現」にマッチするかを
計量することならできるかも知れん
717 :
デフォルトの名無しさん:2013/07/27(土) NY:AN:NY.AN
自然かどうかは、「ありきたりの表現」にマッチするかどうか、でOK
でも、登場頻度が高い≒自然な表現、とはいいにくいか…
(保守的に見ると)間違った用法が流行して使われることもあるしな
そうか、コーパスに新聞データとか書籍データとかの
「堅い」文章だけに限って収集すればいいか
文全体に対して計量できれば、文の一部に対しても同じ処理で計量できそう
そうするとどの部分が不自然なのか計量できそうだが、甘い考えか?
ginger とかそんなサービスじゃね?
ginger試した
あんまりビシバシ赤ペンいれてくる感じじゃないな
自分の英文だからいっぱい変な所あるはずだがスルーされる感じ
正しい所を間違いと判断してしまう誤動作を防ぐために
しきい値高くとってるのかな?
720 :
デフォルトの名無しさん:2013/08/20(火) NY:AN:NY.AN
721 :
デフォルトの名無しさん:2013/08/20(火) NY:AN:NY.AN
死ねゴミ共がw
死ねゴミ共がw
722 :
デフォルトの名無しさん:2013/08/27(火) NY:AN:NY.AN
午前中にはメインホールにおいて,宮尾祐介氏(国立情報学研究所・准教授,総合研究大学院大学・
准教授)に,「試験問題に解答することから見える人工知能の課題」と題した基調講演をいただきました.
小学校の問題と東京大学入試問題を比較され,コンピュータが解く視点から問題を分析すると,
現在の情報処理レベルでは東京大学入試問題の方がはるかに易しいことを示されました.さらに,
数学,英語,国語,世界史,物理や化学など試験科目別に,コンピュータが問題を入力してから出力
するまでの自然言語処理のプロセスをお話いただききました.入出力とそれをつなぐアルゴリズムは
はっきりしているものの試験科目ごとに異なる問題が生じていること,それについてのまだ完全なる
解法はないことなどの現時点での課題のお話のあと,今後の展望も示していただきました.
http://www.jsims.jp/kenkyu-taikai/12.html
tf-idfを高速に計算したいんだけど
文字列をハッシュ値に置き換えてから計算した方が速いよね?(誤差はあっていい)
素性ベクトルにする段階で素性にID割り当てていれば
誤差なし文字列比較なしで計算できるだろ
文字列からIDへのテーブルの永続化が面倒くさい
なら糞重い処理を無駄に繰り返しやっていればいい
727 :
デフォルトの名無しさん:2013/09/10(火) 10:29:52.22
6. 結論と展望
本稿では,「機械によって数学問題を解く」という行為を (1)
問題文の ZF の式への翻訳,(2) ZF の式から現実的に機械に
よる推論が可能な体系 (RCF++PA) の式への変換,(3) 「解
けている」と認められる項・式を得るための推論の実行,とい
う流れとして明確化し,これに基づく解答システムについて
(1) の自然言語処理のステップを中心に概説した.言語処理部
について理想化した実験設定ではあるが,RCF-QE ソルバー
を用いてテストデータの約 7 割に現段階で正答が得られたこ
とは,上記の方針について明るい見通しを与えるものである.
https://kaigi.org/jsai/webprogram/2013/pdf/622.pdf
第五世代の亡霊だな。筋悪。
729 :
デフォルトの名無しさん:2013/09/11(水) 18:40:44.65
プロジェクトの説明をするまえに,RTEというタスクの説明をしておこう.
このタスクは,国語の問題によくある,「次の選択肢のうち,上の文章と当てはまるものを選びなさい」という問題だ.
つまり,問題として,テキストのペアを与え,あるテキストAが,別の仮説となるテキストBを意味的に内包して
いるか(合っているか)否かを認識する.
例えば,「アベノミクスはインフレを起こす.」というテキストAを与えたとして,
@ アベノミクスは物価の上昇を引き起こす.
A アベノミクスはデフレを起こす.
B アベノミクスは物価を下落させる.
C アベノミクスはインフレを起こさない.
という4つの仮説文があったとすれば,この場合に正解(含意)となるのは@だけだ.
少し考えれば分かる通り,「インフレ=物価の上昇」という知識が無ければこの問題は解けない.
またいくらでも表現のバリエーションが考えられるので,言い換え表現というものを網羅しなければならなくなり,
極めて難しい問題となる.
http://yamanekou.blog.fc2.com/blog-entry-49.html
730 :
デフォルトの名無しさん:2013/09/12(木) 20:04:16.75
1 言語表現の多義性と同義性
言語は曖昧性であふれている.いや,正確には,言語を機械的に解析し,例えば翻訳するプログラムを作ろう
とすると,言語は曖昧性であふれているように見える.「彼女の手を握る」の「手」は英語の “hand” に訳せ
ても,「他に手がない」の「手」に “hand” は使えない.「英語と数学を教える」と「親父と酒を飲む」はどちら
も「〔名詞1〕と〔名詞2〕を〔動詞〕」の形をしているが,前者の「と」は等位関係を表す接続助詞,後者の
「と」は随伴を表す格助詞である.どの場合の「手」がどの意味で,どの場合の「と」がどの意味を表すかは人
間にとっては多くの場合易しい問題だが,計算機にとっては大問題である.
このように,言語を計算機で解析する際に,入力文に見かけ上いくつもの解釈があるように見えることを言語
処理研究者は「曖昧性がある」あるいは「多義性がある」と言い,それらの解釈の中から書き手が意図した「真の」
解釈を推定する問題を曖昧性解消あるいは多義性解消と呼んできた.言語処理研究を黎明期から長く牽引してき
た機械翻訳では,何よりもまずこの多義性が問題になる.その意味で,言語処理研究の歴史はその大半が多義性と
の戦いの歴史だったと言える.
自然言語処理と言い換え
http://www.cl.ecei.tohoku.ac.jp/~inui/papers/0711Nihongogaku.pdf
731 :
デフォルトの名無しさん:2013/09/12(木) 20:19:25.04
〔講演A〕(招待講演) 「行間を読む」自然言語処理への挑戦
東北大学大学院情報科学研究科
乾 健太郎 教授
私たち人間は、省略だらけの文章を難なく読みこなし、「庭に洗濯物を干したところに雨が降ってきた」と聞いて登場人物
のガッカリした様子が瞬時に目に浮かびます。このように、言葉を理解するには単語や文法を知っているだけでは不十分
で、常識的知識を使いこなして省略を補ったり、何がなぜ起こったのかを推論したりと、「行間を読む」高度な知能が求め
られます。自然言語処理がこうした深い言語理解をめざすとき、これまでの最大の障壁は「知識獲得のボトルネック」、す
なわち思考に必要な常識的知識がコンピュータには決定的に欠けているという問題でした。しかしこの問題は、ネット上
の膨大な文章を自動解析し、コンピュータ自身がそこから常識的知識を吸収することで解決できる可能性が見え始めて
います。近い将来に相当量の常識を含む巨大な知識ベースが利用可能になるとすると、その先の課題は何か? 「行間
を読む」自然言語処理、そのための推論技術の構築を目指す東北大の取り組みを紹介しながら、今後の展開を考えます。
http://www.toyota-ti.ac.jp/kenkyu/2013CSseminar.pdf
732 :
デフォルトの名無しさん:2013/09/12(木) 21:43:56.34
(1) 太郎が公園に戻ってくるとさきほど 見かけた女の子はいなくなっていた。
たとえば上記のような文があった場合,省略された項を考慮しない解析,すなわち,デフォルトの構文・
格解析では,「見かけた」が「女の子」を連体修飾しているということは正しく解析できるものの,「女の子」
は「見かけた」のガ格であると解析されてしまう.しかし,文頭に出現した「太郎」も考慮に入れ,新たに
「女の子」が「見かけた」のヲ格である可能性も含めて述語項構造解析を行うことにより,「太郎」が「見かけた」
のガ格であり,「女の子」は「見かけた」のヲ格であると正しく解析することができるようになる.
http://www.lr.pi.titech.ac.jp/~sasano/paper/nlp13.pdf
733 :
デフォルトの名無しさん:2013/09/13(金) 02:56:16.30
高校や大学などにおける学校教育において,試験問題の解法を学習する際には,過去に出題された問題から
類題を収集して重点的に取り組むことにより,効果的な学習を行っている.また,教員など試験を実施する側の人
が試験問題を作成する際,過去に類題が出題されていないかを効率的に検査することが求められる.本研究は,
日本語で記述される数学の問題文を対象とした検索手法を開発することを目標とする.本稿では,大学入試
センター試験における数学の試験問題を対象にする.数学の試験問題は,大問を単位としてまとめられた複数の
小問文から構成されている.我々は,問題から類題を探すとき,大問の構造が多少異なっていても,小問文が
クエリと類似していれば,その問題を学習に有用な類題とみなす.したがって,効果的な類題検索を行うためには,
大問同士の比較ではなく,ひとつの大問を構成する小問文の集合を抽出した上で,小問文を単位として比較を
行うことが有効であると考えられる.本研究では,小問文に相当する文をクエリとして,大問単位で与えられた
問題データから入力文と類似する小問文を検索する手法を提案する.
https://kaigi.org/jsai/webprogram/2013/pdf/643.pdf
734 :
デフォルトの名無しさん:2013/09/27(金) 08:42:39.75
4.3. アニメーション作成から見た動詞概念の
特徴の分類
動詞概念における「物理的行動」の範疇における,1.身体全体,
2.物全体,3.身体全体と物全体,これら三つのパターンの空間的
な移動を伴う動詞概念,並びに,4.それぞれのパターンが反復す
る動詞概念,5.それぞれのパターンの組み合わせによる動詞概念
の 5 種類からなる 3078 個の動詞概念に対しては,以上の方法に
よってアニメーションを定義した.しかし残りの物理的行動3186
個に関しては以上の方法のままではアニメーション定義は不可
能であった.その理由を考える中で,物理的行動の動詞概念の特
徴を以下の三種類に分類した――(1)詳細な動作への分割を必要
とする抽象的な動詞概念,(2)特定の物や場所に依存する意味を含
む動詞概念,(3)頭部や四肢等身体部位の動きを必要とする動詞概念.
http://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P6-14.pdf
735 :
デフォルトの名無しさん:2013/09/27(金) 08:45:32.57
3.2 意味を拡張する数直線
整数の乗法は、「同数累加」の意味を用いていた。例えば、3×2は、3+3(3を2個たす)という意味である。ところが、
乗数が小数になると「同数累加」の意味は適用できない。例えば、3×2.4は「3を2.4個たす」とはいえない。そこで、
乗数が小数の場合の意味を新たに考える必要がでてくる。いわゆる「意味の拡張」である。
そこで、乗法の意味を「基準量×割合」の意味づけにする。この割合の意味づけは、乗数が整数の場合も小数の場合にも通用する。
例えば、乗数が整数の3×2は、「3を1とみたときの2にあたる大きさ」となる。同様に、乗数が小数の3×2.4は、「3を1とみたとき
の2.4にあたる大きさ」となる。
この「基準量×割合」の意味づけを、数直線に表すことで、整数、小数、分数の乗法を統一的に見ることができる。
整数や小数の乗法を数直線に表す。例えば、3×2や3×2.4は、次のようになる。
0 3×3/4 3×1 3×2 3×2.4 3×3
├─┼──┼────┼─┼──┼─
├─┼──┼────┼─┼──┼─
0 3/4 1 2 2.4 3
http://www.edu.yamanashi.ac.jp/~ntakashi/cho9901.htm
736 :
デフォルトの名無しさん:2013/09/27(金) 10:57:17.31
■資源配分(配分先に区別が無い場合)の数 / ボールと箱のモデル
ボールと箱のモデルを使って
「区別しない5 個のボールを,区別しない3 個の箱に最低1 個は配る場合の数」
を求めてみよう.
箱に区別はないが,数を数えやすくするため,とりあえず区別して考えていく.つまり,箱に区別のある普通の『資源配分』 に一度戻して考えていく.
ボールは区別しないので,それを○ とし, ,箱はとりあえず区別するので番号をつけておく.
下の図は 1 に 1 個, 2 に 2 個, 3 に 2 個のボールを配った場合を表したものである.
http://www.ravco.jp/cat/view.php?cat_id=6187&PHPSESSID=
問題5
Q>0 を正の有理数の集合、Rを実数の集合とする。f:Q>0→Rを次の3つの条件をみたす関数とする:
(i) すべての x, y∈Q>0 に対して、f(x)f(y)≧f(xy),
(ii) すべての x, y∈Q>0 に対して、f(x+y)≧f(x)+f(y),
(iii) ある有理数 a>1 が存在して、f(a)=a.
このとき、すべての x∈Q>0 に対して、f(x)=x となることを示せ。
http://rara-avis.sblo.jp/article/71466037.html
数学オリンピックの問題は、一般的な学校の数学の問題に比べれば、「拡散思考」が要求されるようには思えます。しかし、
難問を解くための色々な「戦略」も存在しています。仮にそういった戦略を学んだわけではないにしても、ある独特の
傾向を持った問題群であることは否めません。
まず一つ言えることは、「ちまちました思考」を要求されるということです。ダイナミックな図形的な感じは全くしません。
また直感的というよりは、非常に試行錯誤を要求される問題だと言えます。ああいった問題を直感で捉えられる人も
いるかもしれませんが、捉えられない人もいると思います。現に、アインシュタインは直観力に優れていたとされますが、
当時の数学者には「彼は数学を全く理解していない」と評されるほど数学者から見れば、違った思考様式をしていたのです。
http://nowsmartsoft.blog121.fc2.com/blog-entry-101.html
2. 統合物語システムにおける「状態」の位置付け
統合物語生成システムにおける物語内容は,事象を終端要
素とし,それらを結ぶ談話的・物語論的な関係を中間要素とす
る木構造により表現される.事象は,動詞的概念により表される
出来事を意味し,動詞概念とその深層格(主体や対象等)から
なる格構造により表現される.これを構成する動詞概念や名詞
概念は概念辞書[Oishi 2012]が提供する.また,各事象はその
背後にある「状態」に結び付いている.状態は物語内容に現れ
る人物,物,場所の各要素の属性的情報を時間軸上で管理す
る知識体系に相当し,複数の属性スロットからなるフレーム形式
で表現される.事象と状態の関係においては,事象はある状態
を別の状態に推移させる動的情報に相当する.
状態は,事象列から状態列を生成する「状態管理機構」
[Akimoto 2013]により管理される.これは,動詞概念辞書に含ま
れる各動詞概念に対して,それが引き起こす状態変化を定義し
たルールに基づき,事象前後で状態情報を書き換える処理に
よる.例えば,「[agent]が[object]を食べる」 という意味の動詞概
念「食べる 2」に対応する変換ルールには,(事象後の状態にお
いて)「[object]が存在しなくなる」という意味の状態変化が定義
されている.現状で,人物を主体とする物理的な行為を表す動
詞概念 2391 個に対応する変換ルールが定義されている.
https://kaigi.org/jsai/webprogram/2013/pdf/641.pdf
740 :
デフォルトの名無しさん:2013/09/30(月) 12:54:47.99
741 :
デフォルトの名無しさん:2013/09/30(月) 13:08:08.67
4.2 関係ラベル毎の精度評価
2013 年 1 月 9 日-16 日の RITE-2 フォーマルラン7におい
て、15 チームが、本データを各自のシステムに認識させ、精
度を算出した。表 3 に関係ラベル毎の平均精度一覧を示す。
「語順入れ替え」、「修飾句削除」が平均精度が 90%程度と高
い精度を出した。また、元々の関係ラベル数が少ないものの、
「集合・リスト」の精度も 90%程度となった。一方、精度が低
かったラベルとして「時間の不一致」、「モダリティの不一致」、
「その他の推論」「空間の推論」、「同格」が挙げられ、それぞれ
50%以下となった。また、「単語の不一致」、「フレーズ:品詞
の変換」、「単語:全体・部分」は 50-70%の精度であった。こ
こで挙げた、精度が 70%以下のラベルは全て出現回数が 3 回
未満であり、ラベルが 3 回以上出てきたものはすべて 70%以
上の精度を出しているため、ラベルの出現頻度が精度に関連し
ている可能性がある。出現頻度が低いラベルに関しても正確に
認識するシステムを構築するにはどうすべきか、を今後検討す
る必要があると考えられる。
https://kaigi.org/jsai/webprogram/2013/pdf/388.pdf (7) a. 鯨の数は十分に回復している
b. 鯨の数は回復からはほど遠い状況にある
(8) a. マイナスイオンはトルマリンから生成します
b. トルマリンがマイナスイオンを放出するとされる
が、それはあり得ないことである
この問題に対し我々は,従来の機能表現辞書(例えば松
吉らの辞書 [14])に加え,より多様なムード表現を識別
するための計算モデルを新たに開発中である [8].ただ
し,ムード情報の分類体系やタグ付きコーパスの作成方
法など残された課題も多く,言語学研究との密な連携が
必要であると考えている.
http://www.cl.ecei.tohoku.ac.jp/~inui/papers/0806Gengo.pdf
742 :
デフォルトの名無しさん:2013/09/30(月) 13:28:53.32
7. 結果と考察
二つの物語テキストに対し,システムによるシミュレーションを行ったところ,どちらの物語におい
ても物語テキストからの状況モデルを構築する5つの次元の情報の抽出や,それに基づくセグメンテー
ション,さらには視覚的イメージ化のための構図の決定に成功した.「桃太郎」では,ほぼ想定通りの違
和感のないアニメーションの生成にも成功した.
「鶴の恩返し」においては,現状ではTVMLファイルへの変換部が「桃太郎」を想定して作られている
ため,モデルが存在しない空間や人物については既存の物で代用し,表示出来ないイベントもいくつか
出現する結果となった.しかし,移動や発話等の共通であり,かつ物語の多くの部分を占める行為につい
ては,同様に違和感のないアニメーションの生成に成功した.完全とは言えないものの,物語テキストか
らのアニメーション生成に成功したことにより,メンタルシミュレーションに必要な情報,ひいては人
間の物語理解に必要な情報の指針を確認することが出来たのではないかと考える.
ただし,これは非常に限定的な状況下での成功であり,現状では自然言語処理の困難さ,アニメ
ーションに必要な 3D モデルの不足といったことがボトルネックとなっている.テキストから
の情報導出の改良,汎用 3D モデルの導入等により, 様々な物語,または物語以外のテキストに
も対応できるようにした上で,さらなるシミュレーションを行う必要があるだろう.
http://www.jcss.gr.jp/meetings/JCSS2012/proceedings/pdf/JCSS2012_P1-7.pdf
○整数問題…因数分解をする解法
○整数問題の倍数の問題(剰余系、合同式)と連続2整数と連続3整数
○合同式≡と剰余類の説明と応用問題
○整数問題…不等式の操作で解く解法
○背理法の説明と√2は無理数の証明
○a+b=1の時、a,bは互いの素
○3で割り切れる数、4で割り切れる数の見分け方
○3の倍数になる組み合わせの場合の数の求め方
○a,bを互いに素な自然数とする。 0以上の整数m,nを用いてX=am+bnとあらわすことできる自然数Xをすべて求めよ。
○一次不定式、am+bn=dの整数解の求め方
若干お話系
○中国式剰余定理
○ユークリッドの互除法の証明
○10進法とn進法の変換方法
http://kazuschool.blog94.fc2.com/blog-entry-195.html
3.1 問題文の意味解析
自然文で記述された問題からそこに書かれている内容を理解する.物理の試験では,記述された状況において起きた物理
現象に関する理解が問われる.そのため,必要となる情報は物理現象に関わるもののみに限定することができ,その他の要
素は無視できる.例えば,\探査機を惑星に着地させる" や ボールを床に落とす" という状況を考えたとき,\探査機" や
\ボール" がどういうものか,ということを考える必要はなく,これら両方の事象が \物体が落下する" という物理現象におけ
る \物体" であることが理解できればよい.従って,定義すべき述語の数は限定できる.
https://kaigi.org/jsai/webprogram/2013/pdf/632.pdf
テキスト含意認識に関する既存研究が利用する知識の形態は様々であるが,その中に WordNet [Tatu 05] や
FrameNet[Aharon 10],Web[Glickman 05] の様な言語資源を用いて,T の H に対する意味類似度を計測し知識
として活用しようというものがある.T と H の間に高い意味類似度が見られれば,それは T と H の間に含意
関係が生じている根拠になりえるかもしれない.例えば,(1) と (2) は多くの単語を共有している.さらにオントロ
ジーや複合語処理技術等を用いれば,「wild animals」と「animals」の類似度も計測可能である.結果として (1)
と (2) の間には高い意味類似度を評価でき,この事実は(1) が (2) を含意していることを示唆しているようにも見える.
しかしながら,2 つのテキスト間の高い意味類似度は必ずしも含意の根拠とはならないことに注意しなくてはならない.
http://cgi.csc.liv.ac.uk/~danushka/papers/yokote2013.pdf そこで,NMF における目的関数を改良することで,なるべくクラスタリングの最適解に
収束するように制御し NMF 単体のクラスタリング精度向上を目指す.ここで改良する概念
として類似度の高い文書ベクトル同士は各クラスタとの関連度も類似し同じクラスタに収
束するであろうという考えを用いる.具体的には,単語を要素とする文書ベクトル同士の類
似度とクラスタと文書の関連度を要素とする文書ベクトル同士の類似度の差のノルムを既
存の NMF における目的関数に追加することで,その目的関数が最小になるにつれてクラス
タリングの精度がよくなることを目的とする.
https://www.ipsj-kyushu.jp/page/ronbun/hinokuni/1001/B-4/B-4-2.pdf IndexSearcher, TermQuery, TopDocs
このシステムでは見出し語とその説明から抽出した名詞で構成される類義語候補の類似度を計算します。
そして類似度がある閾値より大きいときは、その候補が見出し語の類義語であると判定してCSVファイルに出力します。
しかし、見出し語とその類義語候補の類似度はどうやったら計算できるでしょう。このシステムでは見出し語の説明文Aaと、
類義語候補を使って書かれた辞書エントリの説明文の集合{Ab}の類似度を計算することで近似しています。
http://soleami.com/blog_ja
748 :
デフォルトの名無しさん:2013/10/06(日) 19:39:19.29
文における述語の意味は単語が違っていても共通する意味概念があり,ほとんど同じ意味であることがある.
例えば,「社長が太郎を一人前に育てる/仕立てる/鍛えあげる」では,ある対象「太郎」に対して動作主
「社長」がある働きかけをして成長させたことを意味している.こうした意味概念をクラスタ(例えば [成
長] という意味概念) としてまとめておき,自他の違いなどを整理しておくと,例えば,「太郎が一人前に
育つ/成長する」も同じ意味概念として扱うことができる.さらに,前文の「社長が」は「育てる」という
動作の動作主体であるのに対して,「太郎を」は「育つ物」であり,それは後文の「太郎が」と同じである
という関係付けができると,文内の要素同士の対応も容易に取ることが出来る.こうした述語間の関係を同
定するために,各述語の語義どうしで共通する意味概念でまとめて,その述語に係る要素(主に項と呼ばれ
る) に対して意味関係のタイプ分けである意味役割を付与しておく述語項構造辞書が必要である.
本研究室では Lexeed辞書の動詞,形容詞,形容動詞を対象にこれらを人手で分析してまとめ,
述語項構造シソーラス (以降シソーラス)として内部でまとめている1.シソーラスでは一つの語義に対して
ほぼ一例文しかないため例文の拡張が,自動付与システムの構築[5, 4]に必要である.
http://cl.it.okayama-u.ac.jp/study/data/takeuchi_nlp2013.pdf
30年後には翻訳家・通訳が要らなくなっているのかなあ?
750 :
デフォルトの名無しさん:2013/10/07(月) 06:00:32.62
ありえない。このプロジェクトは結局失敗すると思う。
せいぜい、教科書レベルの問題しかとけない。
または難問の類似問題。100年後はしらんが5年程度でできるわけない。
国語なんてどうするんだよw翻訳もまともにできないのに
教科書レベルが解ければ十分という気もするが。
ゼロから教科書レベルまでのほうが、教科書レベルから東大レベルよりもよっぽど険しい道のりでしょう。
これはただの質問応答システムだから
想定している形式の問題さえ解ければ十分なんだよ
753 :
デフォルトの名無しさん:2013/10/07(月) 23:42:25.71
>>想定している形式の問題さえ解ければ十分なんだよ
それじゃ東大合格できないじゃないかw
754 :
デフォルトの名無しさん:2013/10/07(月) 23:50:16.92
このスレの天才たちに聞きたいがLDAやナイーブベイス分類にしろ
機械学習は名詞だけをとって統計とってるだけのように思う。
助詞や指示語など文書解析に重要な要素をどうやって
プログラミングするんだ。また、そんなツール見たことないぞ。
(指示語を具体的に表示するツールとか)
755 :
デフォルトの名無しさん:2013/10/07(月) 23:53:13.27
大昔、5世代コンピュータという大失敗のプロジェクトで
優秀な研究者がPrologでたくさん作ったがほとんど使い物に
ならなかったように感じるがどうだろう?
だいたいprologなんて本当に使われているのかw
KL/Cてどうなったんだろ。LISPマシーンなんてあるのか?
まず、機械学習の手法と扱う言語的な特徴は基本的にあまり関係ない。 LDAなんかはやや拡張が難しいところがあるけど、まあ用途次第。
助詞については、単純にはn-gramとかでも目的次第で助詞は扱ってることになるが、KNPとか使ってガ格とかニ格とかの格解析すれば、助詞が表す名詞や動詞との関係を取り出すことができる。
指示語が指す内容を取ってくるのは照応解析で、ただこっちはやたら難しいのでまだまだこれから。
>>727,746あたりはprologで頑張ってた頃の遺産を引き継いでるんだろうけど
自然言語から論理式を抜き出す部分が実用にはならないんじゃないかね
第五世代コンピュータは来るのが早すぎたんだ
>>755 今日考えれば、論理計算機大学院(または研究所)のようなものを
設立して持続して研究するべきだった。PIMだけに大半の資源を
費やしてしまった結果になったことはさすがに残念なことだった。
>>757 自然文を論理式に変換する研究は最近すごい流行ってる。英語限定だけど。
ただ、prologの遺産を今現在みかけることはほぼないので、技術的にその延長上にあるかというとどうでしょう。
760 :
デフォルトの名無しさん:2013/10/08(火) 12:38:19.79
だから論理式では破綻するだろ。
意味解析なんてどうするんだよ
761 :
片山博文MZコスモ ◆T6xkBnTXz7B0 :2013/10/09(水) 19:35:03.15
意味解析どうするかなんて誰も知らないだろ。意味って何だよ。
gentoo linuxから
cbochaのパッケージが消えてたのだけど
何があったんだ?
765 :
デフォルトの名無しさん:2013/10/18(金) 02:54:21.84
東大の受験マニアが喜びそうだ課題だ。w
どうせ、受験時代を回顧しながら使い物にならないシステムを作るだろうな
過去、20年後にやっと実用化されるような研究の、20年前の重要な到達点を見たとき、
そういう反応をした奴を数多く見てきたw
767 :
デフォルトの名無しさん:2013/10/20(日) 11:09:21.31
20年でできると思えないw
>>766みたいな反応も、第5世代ナントカの時代に聞いたな。
もし実用化できたらそれはシステムの進歩ではなく
入試問題作成技術の停滞を示すに過ぎないw
将棋とかに置き換えてみれば、どれだけバカなことを言っているか自覚できると思うよw
772 :
デフォルトの名無しさん:2013/11/01(金) 11:18:46.85
>>582 >チンコは自ら意思を持ちシコシコすることはない
ならば「チンコは自ら意思を持ちシコシコすることはない」という、「概念辞書」の構築が不可欠だな。
773 :
デフォルトの名無しさん:2013/11/10(日) 21:43:24.31
120%失敗する
Mecab
Cabocha
ってコマンドラインやパイプから使えないような複雑な入出力ってありますか?
入力が単純なテキストで
出力もテキストですよね
例えばgrepにパイプする様な使い方で全ての機能使えますよね?
775 :
デフォルトの名無しさん:2013/11/25(月) 12:12:41.95
135 名前:名刺は切らしておりまして[sage] 投稿日:2013/11/24(日) 19:05:37.14 ID:kW12vZ42
悪い意味で糞ワロタww
現状の人工知能は、こんなものなんだな。
>具体的には、質問文にあることばの中から「邪馬台国」といった固有名詞や
>それに関係がありそうな「統治」や「人物」といった単語をキーワードとして選び出します。
>そのうえで、東ロボくんは、選び出した複数のキーワードが教科書の中で最も多く出現する場所を段落の単位で探し当てます。
>そのうえで、探し出した段落と最も関連性が高い文章をセンター模試の4つの選択肢の中から見つけ出し正解として回答します。
このやり方、F欄しか受からない程度の高校生が、あてずっぽで試験問題を解く方法と、ほぼ同じ。
低学力層の高校生に、英文和訳をさせると、まさにこの方法で「謎の和訳」をでっち上げてくる。
知ってる単語だけピックアップして、適当に文意を推し量って、謎の日本語文を捏造する。
マーク式の場合は、知ってる単語同士を適当に参照して、一番似ていそうな選択肢をマークする。
まだまだ、人工知能は自然言語のロゴスを追って理解解釈するレベルには、到底達していない。
【科学】人工知能「東ロボくん」、センター試験模試で900点満点中387点…全国400以上の大学でA判定[13/11/23]
http://anago.2ch.net/test/read.cgi/bizplus/1385265247/ 【ロボット】人工知能「東ロボくん」、センター模試の偏差値は45、中堅私大よりやや下のレベルであれば十分合格可能
http://anago.2ch.net/test/read.cgi/scienceplus/1385212565/
ていうかそんなのを人工知能と呼ぶのは詐欺
芝エビがどうの言ってる場合やないっちゅうねん
こういう簡単に説明したものを真に受けて馬鹿にするようなやつにはなりたくないな
>>774 CaboChaは木構造を出力するから解析が面倒じゃないかな
できるかもしれないが良い方法ではない
コマンドラインツールの出力をshellで解析するくらいならCやRubyから使ったほうがいい
779 :
デフォルトの名無しさん:2013/11/26(火) 05:47:29.34
IT革命と呼んだ頃からそんなことは自明
雇用が増えるとか言ってペテン師が大臣やったりしたけどな
おまえがバカであることが自明
782 :
デフォルトの名無しさん:2013/11/26(火) 12:56:08.72
人間はより創造的な仕事へシフトすればいいと考えたが。そもそも創造的な人間が少ないことを忘れてた。
機械学習の知識が既にある人向けの自然言語処理の教科書として
お勧めって何がありますか?
質問が曖昧すぎ。それだけの知識があるなら
自分で何が必要かは探せるだろうに。
>>783 自然言語処理のための機械学習入門
で機械学習がどういう風に使われてるか勉強すれば?
自然言語は2つの領域に分けられる
1つはアスペの領域で、通常の科学や工学の領域。
1つは定型の領域で、既存システムを利用するコンピュータウィルスの領域
つまり、相手を攻略するための会話が定型の会話
定型の場合、相手の感情あるいはクオリアを操作するのがおおかたの目的
ちなみに、学校で教える国語はアスペの領域まで
言い換えると、攻撃ウィルスを想定しない科学・工学までの言語
んで、社会にでるとそれらを利用するサイコパスらが
ウィルス同様におまえらを操作して儲けるわけ
>>786 言いたいことはわかるけど中二病こじらせて陰謀論に染まってるなw
>>788 まだ洗脳が解けてない方ですね?
この世界の慣習も文化も多くはサイコパスや自己愛らが作ったものですよ
まず、挨拶から考えるといいでしょう
なぜ挨拶をするのですか?
挨拶をしないとなぜ怒ったり嫌がらせをしたりするんです?
Rとpythonどっちが便利ですか?
nltkのあるpythonもいいけど統計一般はRが充実
お好みで
それより、聞きたいことがあるんだよ
>>786 のウィルスの領域を扱う学問は言語学上存在しているのかい?
存在しているならその分野を知るのに適切なキーワードなり参考書なりURLが欲しい
CRFで隠れ状態に離散値だけじゃなくて連続値も混ぜる事できないのでしょうか
キチガイに触るな
かまってもらえると思って居着くだろ
>>792,786
犬などの家畜を躾ける方法論を人間に適用してるだけだから
動物の訓練方法を探すといいかもしれない
合理的に脆弱性を見つけるアルゴリズムを見つける学問は
現在のところ存在していないということでよろしいでしょうか?
実際対立してるよ。アスペと定型の会話が対立そのものさ
だが、二重思考ではない
なぜ生物が免疫系を保有し
戦争において敵味方識別装置がなぜ必要なのか
を考えればよいだけだ
ちなみに、生物は核酸やタンパク質という言語でできている
804 :
デフォルトの名無しさん:2013/12/07(土) 02:19:46.16
805 :
デフォルトの名無しさん:2013/12/07(土) 02:52:12.90
まずは貴様がオナニーを2ちゃんねるに書き込むのをやめろ屑
807 :
デフォルトの名無しさん:2013/12/08(日) 19:18:26.04
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
違うか?
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!
くだらなすぎて誰も述べないだろう。
809 :
デフォルトの名無しさん:2013/12/08(日) 20:45:44.46
自然言語処理の面白いとこって
言葉の持つ法則性を解き明かすことにある気がする
言語だけに拘りすぎるとその先ができなくなる。
お前の目指しているのは文法の先生さ、
日常会話で文法がまちがっているよと忠告するキチガイ機能を目指せ!
811 :
デフォルトの名無しさん:2013/12/08(日) 21:47:54.07
>>809 なら「チンボがシコシコする」ってのはどうだ?
美少女と排便について述べる奴は無尽蔵にいるのに不思議だな。
俺がこのスレLive2chで開いた時、
>>412からだったw
約2年だな
自然言語処理は日本語でやる場合は相当難しいという話を聞くな
研究ってどこまで進んでんだろうか
難しいぞ
アルファベットタイプの言語からすると大変
確かに、何かいい論文とかあればいいんだけどな
誰か知らない?
まず普通に入門書なり教科書なりは読んであるわけ?
Googleって日本語解析どうやってるのかな?
形態素やN-Gramとかあるけど何使ってるんだか
普通に考えれば、ひらがな入力で漢字や英文のオートコンプリートや検索結果ってかなり難しいんじゃないかと思うんだけど
IMEと一緒だよ
GoogleにはMeCabの作者もいてGoogle IME作ってるしな
そうなのか?
作者京大の教授じゃないのか?
それは点推定の人じゃね
そもそも古文と現代文では、語句の意味が全く違っている場合も多く、
また現代文においても、状況によっては標準語と全く異なる場合もある。
例えば相撲部屋で言う「かわいがる」は、標準語のそれとは全く違う。
このように自然言語というのは囲碁や将棋のように決まった規則があるわけではなく、
従って「言い換え辞書」とか「概念辞書」とかは人力で作成するしかないと思われる。
また人間でも「女は子供を産む機械」(柳澤伯夫)とか、意味不明な発言をする場合もある。
辞書的には「女」の上位概念はあくまで「人間」「生物体」であって、「機械」とは相反する。
823 :
デフォルトの名無しさん:2013/12/13(金) 16:16:03.04
Wikipedia、hatena以外に見出し語、キーワードダウンロード出来るとこ知らない?
GoogleやYahooはしてないのかな?
「人の嫌がることを進んでやります」
この文には2つの意味がある。
twitterのBotがCabochaとProlog使ってると知って驚いてる
828 :
デフォルトの名無しさん:2013/12/17(火) 20:13:11.66
N-gram って日本語の論文で普通に登場するけど、シャノンの訳書でN-gram をそのまま使っているものは無いのかな
どれも n 重字とか n 字組とか訳しているみたいだ
829 :
デフォルトの名無しさん:2013/12/17(火) 23:41:23.33
東ロボくんは画像処理が課題と言いつつ画像処理はほぼやってないのが謎
あのさ、mecab使ってるんだけど、
Wikipediaやhatenaなど利用してる場合、
2つの方法で辞書登録したんだけど、
XperiaZを解析すると
一方では
X : ガンダム
peria :
Z :
となり、他方では
Xperia :
Z :
となった
前者は問題外だけど、後者も理解してXperiaを抽出しているような感じがしないんだよね
いずれにせよ、辞書登録の際は先に辞書登録されてる方が優先されるとかあるのかな?
X先だとX/periaに分割されて、Xperia先だとそのまま抽出されるとか
もしスレ違いだったら、どこで聞いた方がいいか教えてくれない?
ちょっとなに言ってるのか分からない
ユーザー辞書のことなら文脈IDやコストを適切に設定しなければならないけど
そのあたりは理解している?
>>831 ごめん、こっちも言ってることがよくわからない
知識不足で
そのコストとかIDとかその辺の事学習してみたいんで、オススメのサイトとかあったら教えてくれない?
自分はWikipediaとhatenaからキーワードをダウンロードして辞書を作ったんだけど、
一度目のはhatenaの方のカタカナ読みが文字化けしてしまって、別のやり方試した
で、一度目はXperiaを認識したけど、二度目は認識しなかった
自分で一からユーザー辞書を作っていければいいんだけど
重複もないだろうし
自分が疑問に思ったのは、XとPeriaとXperiaという文字が辞書に登録されていた場合、文章中のXperiaという言葉をどれで認識するのだろうかと思った
どれでもありえるんで
あぁ、なるほど
つまり、文脈IDとコストで決まるってわけだね
今自分のHDDが壊れてどうにもならなくなって自分のを確認できないんだけど、
一般的にネット上にあるWikipediaとhatenaを使ったやり方ってコストとかの事まで考えられてたっけ?
マニュアル見ると、ID部を空にしてれば自動的にIDを付与するって書かれてるし、ネット上ではだいたい皆、0とか-1に設定しているようだね
コストに関しては計算式を入れてるようだけど、あれで厳密に計算されてるんだろうか?
でもこのIDやコストって厳密に設定してる人ってどうやって登録してるの?
IDも難しいけど自動でみてくれるっぽい、でもコストの設定は一番大事
手作業で何十万の言葉を調整していくわけにもいかないだろうし
暫く文章を解析しまくって、出現回数のデータを得てプログラミングで割り振っていくのも可能かもしれないけれど、
XやPeriaのコストが元々小さい場合はXperiaの出現数はカウントされにくくなってるだろうからね
N-gram併用しなきゃダメなのかな?
>>833 信頼できる情報:
http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.html http://chasen.org/~taku/blog/archives/2007/06/yahoomecab.html コスト計算に関しては、ブログになどに書かれている計算式は間違っていると
作者の人がどこかで言っていたけどソースが見つからなかった。
経験的にだけど、すべて固有名詞でよいなら、
MeCabのモデルを学習した辞書から似た使われ方をするであろう固有名詞の行をコピってきて単語だけ変えればうまくいく。
例(naist-jdicの場合): YouTube,1360,1360,4975,名詞,固有名詞,一般,*,*,*,YouTube,,,,
文字化けする場合、MeCabの文字コードと辞書の文字コードが合ってないので
mecab-dict-indexの-f -tオプションで文字コードを指定する。
また作ったユーザー辞書は、mecabrcでuserdicに指定しないと使われないので忘れずに指定する。
漠然過ぎて悪いんだけど、文章どうしを比較して類似性を判断する方法って
今どれが一番いいんですか?
レーベンシュタインとか色々あるけれども
例が難しいけれども、簡単な例で言えば、
東京都知事の辞任について扱っているニュースは沢山あるけれど、
それらを一気に類似と分類する場合など
教えてもらえないですか?
836 :
デフォルトの名無しさん:2013/12/22(日) 03:57:22.22
リンゴを食べた。
ミカンを食べた。
ウンコを食べた。
さて上の3つの文で、仲間外れはどれでしょう?
「ン」が真ん中にない「ミカン」が仲間はずれだな
838 :
デフォルトの名無しさん:2013/12/22(日) 07:05:10.61
>>835 trigramでtf-idfのコサイン類似度を比較するのが簡単で速い方法だな
編集距離は重過ぎる
分類はPAやSCWのような線形分類器で学習する
もっとよい方法を求めるならググれ
840 :
デフォルトの名無しさん:2013/12/23(月) 01:42:55.63
今の教育システムは、明治以後、人材を効率よく育てるため、労働力の質を向上させるため
に最適化されたシステムです。今日のような情報通信の発達を前提としていないので、現代に
合った内容に変えるべきではないでしょうか。
また、今の教育は、計算が出来る、英文が訳せるなど、技能の習得に注力しているように思
えます。しかし、これからの時代は技能だけで は足りません。国語や数学、物理、生物などの
教科や科目の枠は、過去において効率よく教育を行うために人為的に作られたものです。コン
ピューターに代替できる技能はある程度、教える内容を絞り、物事の根源的な仕組みを考える
ことや、 異なる意見を聞いて意味を考えること、 横断的に物事を見る力を養うことも、科学技術
を基盤としたグローバル社会において必要な教育ではないでしょうか。
http://berd.benesse.jp/berd/center/open/kou/view21/2013/12/pdf/kou201312_mirai.pdf 東大特進コース
2013年版 合格体験記
東京大学 理科II類
■センター試験得点 806点/900点
■センター試験得点選択科目 化学・生物・倫理、政治経済
前期試験得点
開示得点 英語80+数学6+国語58+化学41+生物42=227/440点
417 番組の途中ですがアフィサイトへの転載は禁止です[sage] 2013/06/03(月) 21:12:51.34 ID:bXkX9Mng0
この人が一番すごいのは国語だろ
58/80ってえぐいわ
でも数学この点数ってことは、文系との共通問題すら落としてるってことだよな
流石に20-30点くらいはとってほしいわ
数学6点で東大に合格した神がいると話題に(448)
http://www.log-channel.net/bbs/poverty/1370135090/
842 :
デフォルトの名無しさん:2013/12/27(金) 06:33:05.22
難関大学の理科の図解問題は、過去問の図柄がそっくりそのままが出題されるケースは少ないので、
類似の部分だけを選択検出して考察比較するアルゴリズムが求められる。
我々のがん認識システムでは、まず正常な組織の画像データを学習する。具体的には、あらかじめ用意した
多数の正常な組織の画像に対して、HLACの特徴ベクトルを算出する。これが対象画像の性質を表現する特徴量となる。
これらに主成分分析などの統計処理を施すと「正常であること」の性質を得ることができる。この正常である特徴量と、
検査サンプル画像からも同様に抽出したHLAC特徴ベクトルとの逸脱量を定量化することで、高精度にがん部位を検出できる。
胃がん組織の識別予備実験を行ったところ、画像データ74件に対し、がんの見落としはゼロ、正常な組織をがん組織と
識別した過検出を4%に抑えることに成功した [2]。
従来の方法は画像から「がんの特徴を持つ細胞や組織」を探し出そうとしてきた。すなわち、画像中の細かな対象物を様々な
観点から形態的特徴を一つ一つ計測し、あらかじめ定めておいた異常条件(がん細胞や組織の持つ特徴)と照らし合わせて
判定していた。しかし細胞や組織には様々なバリエーションがあり、異常の条件を事前に全て定義しておくことは原理的に
不可能である。病理医は多くの正常組織を見ているために、「いつもと何か違う」ということを直感的に感じ、がんを発見する
ことができると言われている。我々のHLACによるアプローチは、この診断過程と同様の仕組みをコンピュータ上に実現
したものであると言うことができる。
http://itri.aist-go.jp/project/cancerhlac2.html グラフカット(Graph Cut)Add Star
情報処理
ここで説明するグラフカットは、画像の領域抽出などで使用される手法の1つ。
■ 用途
たとえば、写真画像から背景と前景物を分離したいとか
http://d.hatena.ne.jp/Zellij/20131004/p1 どのように領域抽出するかについては、分割統治法で様々なバリエーションを用意しておく。
そしてその一つ一つに、細かく人力で意味づけ・タグ付けをインプットしておく。
>>839 今やナイーブベイズやComplementタイプのやつは使われないの?
>>843 類似性の指標にNBってどういう使い方を想定している?
分類の話だろう
NBは悪くはないだろうけど、もっといい手法がたくさんあるから使わないな
じゃぁ例えば?
分類であればナイーブベイズやベルヌーイ使ったやつやSVMが有名(と言うか基本か)、対数線形、カーネル法
クラスタリングはk-means法、PLSI、EMアルゴリズム
後は、ニューラルネットワーク
類似はコサイン、ユークリッドなどが基本だけど
教科書通り述べたようになったw
少し前のレスくらい読めよ馬鹿
自然言語処理で最も参考になる本を教えてください。
自然言語処理も下火になったよな
一番熱気があったのは2年前だな
と言うかIT全体が下火になってるけど
色々とやり尽くされて、余地がなくなってきた
なんとかアップデートとかで食いつないでる感じだ
ダセェ
最終的にはニューラルネットワークがいいんだろうけど、どんだけハードが必要になるのかと考えると恐ろしい
851 :
デフォルトの名無しさん:2013/12/28(土) 22:22:23.84
東ロボくんで盛り上がってんじゃないの?
>>850 そりゃない。
ニューラルネットワークは確かに夢のあった技術だけど、
deep learningで、ある意味底が見えちまった。
結局アーキテクチャの設計思想からして別物過ぎる。
どんなに頑張ってもニューラルネットワークで出来る事は、別の手法使った方が
効率よく効果的に分かりやすく出来てしまう。
なんらかのテスト段階で試行錯誤するときに、とりあえず打っておく手としては
とても良いと思うけど、原理やモデルが確立されたモノには適わないってのはやっぱり弱いよ。
それに、ハードよりもまともな技術者が少なすぎてブラックボックス化の上に、
まともな議論が成り立ってないしね。deep learningで盛り上がってくれれば・・・・・と期待してたけど、
結局はチョロ火で終わりそう。
>>851 盛り上がるとして、あと数年先じゃない?
今の所は、サイコロ振らせた程度+αの回答能力じゃなかったっけ?
というか、たぶん一般の人には興味ないネタだと思うんだ、
IBMのワトソンプロジェクトじゃないけど、
最低限もっと人が普段から目にしてるようなモノでデモンストレーションしないと・・・・と。
そう言えば、AZ-Prologの組込にニューラルネットワーク述語が入ったね。
855 :
デフォルトの名無しさん:2013/12/29(日) 08:30:18.75
>>854 あの処理系の後ろ盾にソフトバンクがいるから。来年何かやろうって
いう事でしょ。自然言語処理以外考え難いが。
ソフトバンクがPrologで求人掛けるようなら本気と見てよいが・・。
>>855 前回はADSLの故障診断です。自然言語処理、例えば音声応答システムとは
大分隔たりがあります。
自然言語処理って東ロボくんでいうと論理式に書き換えるところまでが自然言語処理だよな。
859 :
デフォルトの名無しさん:2013/12/29(日) 16:14:18.43
東ロボくんの今年までの活動はとりあえず点数出すことで、ガチな研究は来年以降らしい
>>852 word2vecは面白かったよ
分類でも精度よいらしいし
そういう結果があればやろうとする人も出てくるからこれからじゃね
>>855 うまくいけば画像処理まで手が届くかもしれん
>>863 クラス数決めるのは難しい
AICでクラス数決める方法とかあるけどあまりうまくいかない
最近はクラスタリングではなくトピックモデルを使うことが多い
おっ、素晴らしい情報ありがとう
そっかぁ、やっぱクラスタリングは、下火になったか
コンセプトが良くないもんなぁ
クラスタ数が知りたいのに自分で前もって決めないといけないなんて
トピックモデル、学習してみる
ありがと
k-meansは再現性がイマイチだしなあ。
トピックモデルをザッと調べてみたけど、結構複雑なんだね
LDAの事が良く出てくるので、LDAってのが一番人気なのかなぁ?
LSIやPSLIもトピックモデルに含まれるの?
自分はクラスタリングに含まれているのかと思ってたんだけど
PSLIって実装は厳しいんじゃないの?
計算量が膨大になる為、速度が遅いって聞いた
今何が主流なのかは知らない
>>867 基本的には、全部あってるよ。
LSIもPCAもLDAも、次元縮約手法。
そして、次元縮約はほとんどがクラスタリングとしても使える。
>>868 もう、論文忘れたけど、高速にpLSIさせるのが出てたはず。
クラスタリングとしても使える、じゃなくて、クラスタリングの下準備として使える、だろ。
LSIやLDAの話が出ているので便乗質問させてほしいのですが、LSIもLDAも次元を縮約するんですよね
しかし、その縮約のためには、上で書かれているようにk-means法でクラスタ数を自分で決めないといけないのと同じで、自分でトピックス数を決めないといけないと思います
結局、こういう教師なし手法とかはどのようにして自動化するのがいいのでしょうか?
文書のまとまりなどを与えると、自動で分けてくれるというような意味です
>871 ソフトクラスタリングって言葉を調べてみれば分かるよ
>872 日本語でおk?
正直、ナニヲしたいのか?どういった目的なのか?そもそも、何を答えて欲しいのかも分からんが、
機械学習は万能じゃない。ただ、当たり前だけど自動でトピック数を決めてくれる手法もあるし、
問題に対する解決モデルが既にあるのなら、適度にAICとかで試行錯誤してくれるようにすればいいよ。
もっとも、そんな部分的な問題解決法を一つ二つ知った所で大抵は意味ないと思うけど。
繰り返しになるけど、機械学習は万能じゃ無いし、思われてるほど汎用性が高いわけでも無い。
まぁ、だから様々な機械学習の手法が提案されてるんだけどさぁ。
コンピュータに自動で分けてもらうには
この分け方とこの分け方どちらが優れているか?
ってのを評価できる式が必要で
それがあるならクラス数を指定するアルゴリズムでクラス数を変えながらいくつも試して
もっとも評価がいいパラメーターを採用すれば、自動で分けた事になるだろ
なんかこのスレではやたらAICが出てくるけど
クラスタリングの情報基準はBICのほうが定石じゃないの?
tfidfの方が色んなとこに使われてるけど、LDAで縮約した方がその後の計算少なくなるよね
次元数が小さくなるから
でも適用時に関しては、LDAの方が計算量や処理が多い
一概には言えないだろうけど、結果としては精度、速度どっちの方がいい?
与える文書の数が多いほどLDAと思うけど
自分で言ってるように目的によるだろう。
検証して結論を出すのがいいのでは?
>>878 当たり前てかone versus the rest classifierが一番計算軽いんじゃね
使えるならsoftmax functionを使うと一度に学習できる
SCWはPythonモジュールが無いからダメ
と言うか、プログラム、スクリプト書けるけど数学が理解出来ない俺が悪いんだけど...
誰かモジュール、ライブラリ作ってくれないかなぁ
>>875 今更だけど、このスレでAICとか言ってるのは
AICがBICよりも優れてるとかじゃなくて、其れぐらいしか指標が無い時点で
「問題の切り分けに失敗してるか、アルゴリズムの選択がおかしいか、モデル化が出来てないか」
「そもそも、それナニをしたいの?自分で自分の目的分かってる?どういう風に其れが出来ると思ってる?」
って段階で間違ってるんじゃないの?という事だろ。
AICやBICで良いモデルを選んでも、大概の場合、やるほどの意味が無い。
(規準に対しての最適モデルが、いつも一番という保証は無いし、
そもそも以外と多くの場合で求める条件に外れてたりで、使えなかったりするし)
むしろ、適切に問題をモデル化したり、問題切り分けて、各個を最適化させたり
交差検定した方が1000倍は意味ある。
>>878 ちゃんとは読んでないけど・・・
(そもそも、そのリンクだとSCW出て来てないよね??)
Soft Confidence Weighted Learning
のことだよね?
だったら、 まず計算させる文章量が多くなってきたら・・・ってのが意味分からん。
それは置いとくとして、多クラス化については、
Multi-Class ConfidenceWeighted Algorithms
とかって論文もあるし、 Confidence Weighted関連のから探れば
多分色々と見つかるとおもうよ。
「高麗人参がもつ機能性は...」
この場合、形態素で分けると高麗と人参になりますが、
これを高麗人参と認識させるにはどのようなプロセスで辞書に登録すればいいんですか?
そのまま形態素させてると、いつまで経っても学習しませんよね?
位置情報を登録し、高麗の後に人参が来る可能性、確率を出しておくって対応は出来るかもしれませんが
いわゆるチャンクのとこの考え方のように、形容詞の後に名詞が来る...とかありますがめんどくさいです
自分のイメージする限りでは、機械学習ではなく、人力で登録しメンテナンスしていかないとダメなんじゃないかと思います
高麗人参だと医薬品だと認識できると思いますが、
高麗と人参だと、歴史と農業だと認識してしまうかもしれません
どのようにすればいいのか教えていただけたらと思います
今時の計算機資源なら、「高麗人参」を辞書に追加すればいいだけだろ。
政治的理由で嫌なら独力でなんとかしてくれw
いやそうなんですが、大量に文書を読み込ませていると、
そういう連語がたくさん出てくるので処理しきれなかったり、気が付かなかったりするので
それが後々、クラスタリングや分類の処理で少し誤差が出てくる可能性もあるんじゃないかと
参照: ベイズ階層言語モデルによる教師なし形態素解析
ありがとうございます
辞書データに語を追加するときコスト値をどうやって決めるのか悩んでます
googleの検索数「約 19,100 件」みたいな値を利用できないですか?
>>888 よくわからんが、普通に追加用のコマンドとかあったような。
ちゃんとマニュアルなりヘルプなりみてみれば
>>889 追加にはコーパスが必要かと思ってたら
modelとmecab-dict-index使ってコスト自動推定する場合は必要ないんですね
スレ汚し失礼しました
891 :
デフォルトの名無しさん:2014/01/15(水) 12:55:09.81
892 :
デフォルトの名無しさん:2014/01/15(水) 13:46:08.96
初歩的な質問で済みませんが、格文法と概念依存理論の違いってなんですか?
894 :
デフォルトの名無しさん:2014/01/15(水) 14:28:12.95
http://pr.fujitsu.com/jp/news/2013/11/25-1.html >(1-a) 単語の間の文法的関係の認識 (構文解析)
>(1-b) 単語の意味表現から文の意味表現を合成 (意味合成)
>(1-c) 文の間の論理関係の認識 (文脈解析)
入試問題というのは何十年もの中学入試高校入試大学入試の過去問が蓄積されており、このビッグデータを活用しない手はない。
といってもコンピュータは今のところ人間の言語を解する能力が無いので、こういうのは専ら『人力』でやるしかない。
だからそれらを元に『人力』で百万通りくらいの解釈例を作成しておいて、それを元にコンピュータが推論するというのはどうだろうか。
概念辞書・類似概念検索システムとも併用すれば、高い確率でコンピュータにも正しい文脈解析ができるようになるかもしれない。
http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf >ガ格の省略はこの選択選好に関する候補の絞り込みが難しく,
こういうのも現段階では自動化は無理ゆえ、専ら人力でやるしかない。コンピュータは現実のものの概念を全く理解していないからだ。
極端な話、中学入試高校入試大学入試の数十年分の過去問を、一文一文『人力』でここはこう解釈する、こことことはこう繋がっていると人力でインプットする。
困難な含意認識にしても、過去何十年分もの膨大な入試過去問を一文一文『人力』で詳細分析して、これはこう解釈するのだと人力でインプットする。
またそれでも足りない部分があれば、ユーザーの要望を入れて更に『人力』で追加インプット・アップグレードしていけばよい。
http://cccpcamera.asablo.jp/blog/2010/04/14/5016766 AOをはじめた時は、知識やテクニックに頼らない数学の本質を試すような問題を出そうと思ったのだろうけれど、出題者側が息切れしてます。
#入試数学で言えば、「知識やテクニックに頼らない数学の本質を試すような問題を出そう」と意気込んだところで、実態はこんなものだ。
#そういうわけで数学などは中学入試高校入試大学入試過去問合計10万題を『人力』で詳細に文脈解析してインプットすれば大きく伸びると思われる。
895 :
デフォルトの名無しさん:2014/01/15(水) 14:31:07.96
>概念辞書・類似概念検索システムとも併用すれば、
あと問題の設定を多少変えられても対応できるように、類似問題・類似概念・類似解法検索システムを用意しておきたい。
896 :
デフォルトの名無しさん:2014/01/15(水) 14:43:03.29
900 :
デフォルトの名無しさん:2014/02/06(木) 12:15:31.67
「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、
目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、
名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
そういうのパッケージとか、便利に使えるの公開されてないの?
あるものもある。
ないものもある。
は?
>>894 >ガ格の省略はこの選択選好に関する候補の絞り込みが難しく,
日本文読み上げソフトを作るにしても、文の意味を把握しないで棒読みするだけでは不十分。類似概念検索システム
と類似構文検索システムと概念辞書を駆使したい。機械翻訳についても同様で。単語と文法だけに依存するのは心細い。
それとた一文ごとに閉じた翻訳というのも問題があり、京大入試の英語試験のように、前後の文脈を把握しながら
訳すシステムが望まれる。概念辞書はJAVA型の多重継承が良いだろう。類似構文検索システムは、
多くの例文を用意し。困難なガ各の省略にも対応できるよう、前後の文も含めて類似構文を検索できるように、
膨大な解釈例を用意しておきたい。また主語と述語と目的語だけでも文意は通じるので、形容詞や形容動詞は
類似構文検索システムではある程度は省略可能とする。。幸いにもパソコンやサーバーの性能は飛躍的に向上しており、
いくつかのアルゴリズムを同時に適用しても翻訳速度はそんなに落ちないだろう。
20字以内で日本語入力すると高い確率で仮想世界シミュレータが動作するようにする。例えば「ボールを蹴る」と入力すると、
人がボールを蹴ってボールが飛ぶ情景が映し出されるとか、「朝飯を食べる」と入力するとパンをかじったり味噌汁を
すすっていたりする情景が出るとか。
"井戸ロボ"仮想世界シミュレータを、20字以内の日本語入力で動かせるようになれば、コンピュータはより身近な存在になる。
20字以内でも語の組み合わせは無数になるが、それでも高い確率でシミュレータが正しく作動するようになれば、
言語理解は非常に強固なものとなろう。
906 :
デフォルトの名無しさん:2014/02/07(金) 15:06:14.35
>>900 >目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
文と文の区切りは基本的には「。」だが、文章が長い場合は「、」で区切る。
「象は鼻が長い」を登録しておけば、「私は足が短い」という文章も読み取れるはずだ。
単一文章の摘出的手法を使った文章要約のstate of the artな手法は何でしょうか?
象は鼻が長い(名詞+「は」+名詞+「が」+形容詞)、を一つ登録しておけば・・・
彼は目が大きい
中国は人口が多い
俺は成績が悪い
新幹線は速度が速い
我が家は金が無い
東大は試験が難しい
ダチョウは足が長い
熊は腕力が強い
彼女は髪が短い
ロシアは国土が広い
ソニーは経営が悪い
零戦は航続距離が長い
松屋は牛飯が旨い
原発はコストが高い
高速道路は危険が多い
国道一号線は渋滞が激しい
スピッツは鳴き声がうるさい
北朝鮮は食糧事情が厳しい
・・・このように、同じ構造の文をいつくもいくつも抽出して、まとめて整理することはできないのだろうか。
>>909 普通に形態素解析して
総当りで探索したらいいんじゃないの
誰か就活用の自己PR文を自動生成してよ
学部、特技、資格を入れるだけで、例文を生成
面接官の質問に対する返事まで生成してくれたら最高
『直子の代筆』
914 :
デフォルトの名無しさん:2014/02/12(水) 16:24:42.27
将来的には、自然言語文の全てを「形式化」する。例えばインフレ状態だ⇔物価が上がっている
⇔商品の値段が総じて高くなっている⇔(commodity ↑)。こうすればどんな言い換え表現も
同一に解釈できるようになるし、自動要約も簡単になるはずだ。
「私は彼女とケーキを食べた」と「私はせんべいとケーキを食べた」は、いずれも品詞的には同型文であるが、
「と」の用法が異なっている。こういうのはまた別に整理しておく。
916 :
デフォルトの名無しさん:2014/02/13(木) 09:10:31.65
自然言語の形式化は、まずは「日本語能力試験 N5」または小学校低学年の「こくご」から。
そしてその上で、例えば「インフレ」とは何か、小学校低学年でも分かりやすいように説明した日本語辞書を構築する。
「日本語能力試験 N5」レベルでも、語の組み合わせ次第で意味は様々。
「インフレ」⇔(commodity ↑)and(money ↓)
>>914 そういうこと出来るかもしれないけど、
結局は人の多い大企業だとか、大学の研究所とかだけが出来るんだろ?
そしていつものように自分達だけで利用する
世界のように公開して皆で技術を高めていくというようなことはないんだろ?
それじゃスピードも遅すぎる
世界と戦っていけない
918 :
デフォルトの名無しさん:2014/02/13(木) 13:27:37.50
プロジェクトのリーダー、新井紀子教授は「初挑戦で、なかなか良い結果を出せました」と振り返る。
しかし、「これは東大合格のみを狙った研究ではありません」とも。「入試というのは総合的な知力が問われます。
問題を読んで理解し、論理に置き換える。そして推論しなければなりません」。将棋ソフトがプロ棋士を負かすなど、
近年、人工知能の躍進は著しい。しかし、それはルールが限定された環境での話。入試問題を解く一連の作業を通して、
今、人工知能に何ができるのか、何が課題になるのかをはっきりさせるのが、プロジェクトの一つの目的でもある。
人工知能研究はこの10年以上、ビッグデータ派が主流を占めてきた。例えば機械翻訳では、膨大な言葉の出現頻度データ
などを駆使して結果を導き出している。意味を理解するのではなく、言葉の言い換えデータに当てはめるというやり方だ。
「けれども、それでは解決しないこともある。数学の問題を解くには、問題文を一度、論理式に置き換えなければなりません」。
課題をあぶり出し、弱点を補強していく。
目指すところは、万能の人工知能だろうか。「いいえ。世の中、コンピューターに向いていること、まだできないこと、
人間がやる方が効率が良いことがあります。私はそのベストバランスを探りたい」。そうした考え方は、数理研究者になる
以前に学んだ社会科学の素地から来ているという。「今でも、何が人間社会にとっての利益なのか考えるとき、
リカードやケインズまで立ち戻って考えますね」。科学を愛する現実主義者は、そう言って優しくほほ笑んだ。
東大模試、偏差値60の成果「人工知能に必要なもの探る」
新井 紀子 国立情報学研究所 教授、数理論理学者
http://pc.nikkeibp.co.jp/article/interview/20131224/1116269/
919 :
デフォルトの名無しさん:2014/02/13(木) 14:39:27.25
>>916 せんせい、「おまんこ」ってなんですか?
文章分類ぐらいしかやってないんだけど
word2vec使うと性能上がるの?
やる気ない学生の適当な日本語卒論を
自動修正するツール
1ヶ月ぐらいあれば作れると思うんだが
時間がなかなか作れない
923 :
デフォルトの名無しさん:2014/02/20(木) 19:11:01.60
自然言語処理は、文の修飾関係さえ把握できれば、あとは語句の「概念辞書」をいかに充実させるか。
辞書登録だけされていても説明が不十分ならダメ。「英英辞典」は既に出まわってるが、
これからはボキャブラリー貧弱な小学校低学年にも懇切丁寧な説明した「日日辞典」こそが必要。
>>922 skkに卒論のLatexを大量に学習させて
skkの示す候補語だけ使うように指示
925 :
デフォルトの名無しさん:2014/02/21(金) 15:58:18.14
「ドラマ化・映画化された小説」はいくらでも出てる。これを参考にコンピュータ上でいくつもの仮想世界を構築し、
20字以内の日本語入力で仮想世界を動かせるようにできないだろうか。自動化が無理でも、10000通りくらいは人力インプットできるはずだ。
研究室内でcanna server立ち上がってて
全員で同じcannaの辞書を共有してるとこが前にあった
あれって全員で同じ辞書を共有することで表記揺れを阻止してたんだな
文書解析の場合って、皆さんは名詞の他にどの品詞を利用されますか?
助動詞、助詞なんかはストップワードで省けると思いますが、動詞、形容詞とかはどうすればいいかなと思いまして
名詞だけでいいなら計算も一番早いでしょうが、
特に文書の分類、クラスタリングなんか自分で挙動を制御しにくいものではきちんと分けられるのかなと
類似性に関しては、名詞だけだと、他の品詞も含む場合より次元が少なくなり整合性が高くなっていると思いましたが
どういう品詞が重要な素性になるかは場合による
では一応全部抽出して解析へ送り込んでいるのですか?
形容詞、動詞は基本形に変換してから使う
分類の場合、不要な素性が0になるようにL1正則化すればいい
933 :
片山博文MZジェバンニ ◆T6xkBnTXz7B0 :2014/03/20(木) 18:42:26.60 ID:QOw6XajR
ReactOSというWindowsクローンのOSについてWindows互換の日本語入力システム(IMM+IME)を作ってくれる人はいませんか?
アマゾンギフト券の報酬あり(1万円程度)。
興味がある人、メール下さい。ゼロから指導します。
[email protected]
100万円でも作らねーよ
がんばって移植しろ
HEEEEEELP MEEEEEE!!!!!!
936 :
デフォルトの名無しさん:2014/04/07(月) 18:02:34.54 ID:X8NEjEHC
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
違うか?
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!
>>936 理系全般板にほとんど同じ文体で連投してる人がいる
同じ人かな
今日は?めが?った
から
今日はあめが降った
を復元するようなタスクって自然言語処理であります?
今日はかめが勃った
今日はじめが喋った
―― バカボンパパ
今日は、めがねった。
ーー明日はツインテールでヌこう
ここまで読むの面倒だから有用なレスまとめてよs
今日こめがたった
今日うめがちった
946 :
デフォルトの名無しさん:2014/05/14(水) 08:20:44.49 ID:5f+nIn4Y
含意認識の精度を高めるには、最終的にものの概念全てを、物理シミュレータや論理式に帰着させるしかないと思う。
>庭に洗濯物を干したとたんに雨が降ってきた
「庭に雨が降る」=「無数の水滴が庭に落下する」(物理シミュレータで表現)、庭⊂屋外、濡らす≒湿る(「自由水」増加)⇔「干す≒乾く」(「自由水」減少)。
物理シミュレータだと単に原子間力計算してるだけだから何が「庭」なのか分からない
948 :
デフォルトの名無しさん:2014/05/14(水) 13:15:48.73 ID:5f+nIn4Y
>>947 >何が「庭」なのか分からない
<ウィキペディア 庭>(庭(にわ)は、住宅などの施設の敷地内に設けられた、建造物のない広場である。)
だが、住宅とは何か、施設とは何か、敷地とは何か、建造物とは何か、広場とは何か、コンピュータは何も理解していない。
Google画像検索するといくつか出てくるが、コンピュータは何十枚の画像を見ても、それが何かを理解できるわけではない。
それぞれ全てについて、住宅とは施設とは敷地とは建造物とは設けるとは広場とはこうだ、という物理シミュレータと論理式が必要。
この人間社会のあらゆる概念をコンピュータに教え込まなければならないのだから、実に大変なことだ。
949 :
デフォルトの名無しさん:2014/05/14(水) 21:58:14.97 ID:4KB6AGyc
シミュレーションは関係ないだろ
あれは演繹系だ。
論理式探索は機械学習の本懐
950 :
デフォルトの名無しさん:2014/05/14(水) 22:00:46.22 ID:4KB6AGyc
動作するのは動画像処理とか画像処理系だよ
あっちの学習データと自然言語処理の学習データを繋げないと
951 :
デフォルトの名無しさん:2014/05/15(木) 03:34:32.19 ID:0OuQaePV
>>949 >シミュレーションは関係ないだろ
>あれは演繹系だ。
実世界の状況を理解するには、物理シミュレータしかないとのこと。
物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/ 「目玉焼きが焼けた」と言ったら、台所のガスコンロの上にフライパンがあってその中に程よく焼けた目玉焼きが入ってる、
というくらいの推測能力は必要。少なくともトイレの便器に鍋をひっくり返すと目玉焼きが飛び出したなんて状況は考えられない。
また風呂に入っているといったら、寝室でドラム缶風呂に入っているという設定も不可能というわけではないが、現実味は乏しい。
>転がっているものを認識できても、物理の法則に従ってそれがテーブルから落ちることまでは予測できません。
「ビリヤードテーブル」ならそんなことは考えられないはずだが、それは職場や家庭で一般的な状況ではない。
人間はテーブルの上を転がる物体の未来を物理法則から演算してるの?
単に経験から類推してると思ってた。
953 :
デフォルトの名無しさん:2014/05/15(木) 09:11:31.13 ID:W+Bjj2Ja
経験からだろ。
動画像処理だ。
マリオがジャンプしたら落下するのは物理法則か?
954 :
デフォルトの名無しさん:2014/05/15(木) 09:26:08.33 ID:W+Bjj2Ja
955 :
デフォルトの名無しさん:2014/05/15(木) 13:08:55.44 ID:0OuQaePV
言語モデルの欠点を補うべく数理モデルの後に登場したのがシミュレーションモデルである。シミュレーションモデルの利点
と欠点については既に多くの指摘がある(e.g.,Taber & Timpone, 1996)。ここで強調しておくべきは、社会科学者の言語的
アイディアをシミュレーションモデルに移植することは、数理モデルに移植するより容易である、という事情である。社会科学者
が考える人間の行動のメカニズムは、数式としてよりも if ...then〜型のルールの複合としてモデル化しやすい。また、
人間行動への様々な刺激(例えば「○○さんは△△をした。」といった情報)はビット列のコーディングが適している(e.g., Smith, 1988)。
シミュレーションモデルの仕事は思考実験である。その真骨頂はモデルの前提の含意(予測)を効率的に導出することにある。
その意味でシミュレーションモデルは derivation machine といってよい。シミュレーションモデルの正統な利用目的は経験的なデータ
を再現するようなモデルを見出すことである。例えば Stasser (1988)は集団討議モデルの構築にあたり、討議参加者の発言や記憶、
および他の参加者の発言による影響を前提として導入した。そして実際の実験結果をよく再現するモデルを見出している。だがこうした
「正統」な方法以外にもシミュレーションモデルには有効な使い途がある。特定の要因だけを意図的に取り出してモデル化し、
そのモデルがいかなる帰結を導くかを検討することである。Kalick & Hamilton (1986) のモデルでは、一定数の男女がランダムに接触し、
相手の外見水準だけに応じてプロポーズしたりその受諾をする。こうしたモデルは現実からはほど遠い。しかしそのモデルの帰結は
現実のデータを解釈する上での多くの情報を伝えている。こうした「非現実的」なシミュレーションも isolating simulations (Kliemt, 1996)
として理論上の価値を持つといえる。
http://www.kyy.saitama-u.ac.jp/~etakagi/download/t000713/takagi99.rtf
956 :
デフォルトの名無しさん:2014/05/15(木) 13:23:11.40 ID:0OuQaePV
数学文章題では、「跳ぶ」「飛ぶ」といったら軌跡と滞空時間、「走る」「動く」といったら速度と距離、
「接する」といったら接線と接点、「転ぶ」は停止時間と場所、と連想できるようなオブジェクト変数を予め用意しておきたい。
□問 1)距離-速度-時間の文章題
最初の飛行機がデンバーから東に 1 時間 200 マイルの速さで出発します.3 時間後,2 番目の飛行機が並
行するコースで,デンバーから東に1時間250マイルの速さで出発します.2番目の飛行機が最初の飛行
機を追い抜くのに何時間かかるでしょう.
? 問 1 の命題リスト [van Dijk and Kintsh 1983]
命題 1 出発する [飛行機 1, デンバー, 時間 1]
命題 2 速度 [命題 1, 毎時 200 マイル]
命題 3 方角 [命題 1, 東]
命題 4 後 [命題 1, 命題 5, 3 時間]
命題 5 出発する [飛行機 2, デンバー]
命題 6 方角 [命題 5, 東]
命題 7 位置 [命題 5, 命題 8]
命題 8 並行 [コース]
命題 9 速度 [命題 5, 毎時 250 マイル]
命題 10 何時間 [命題 11]
命題 11 追い抜く [飛行機 2, 飛行機 1] (top-level)
? 相当する状況モデル(個人間で異なるかも)
- 並行する2 機の飛行機,2 番目の飛行機が 1 番目を追い抜く瞬間 ... の表現
- 「追い抜く」に関する情報がない→状況モデルから「出発点から同じ距離にある」
[van Dijk and Kintsh 1983; Weaver,Kintsh 1987]
- 解法に必要な量的記述によらず,質的に関係することがらを表現する傾向 [Nathan 1988]
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf 動く/移動する/進む/到達する(主体,回数/時間,現地点,前提条件,移動条件,移動先)。何がいつどこでどう動くか。
場合の数(確率) ランダムウォーク問題
http://love-su-gaku.com/data/top/ranreidai.pdf
957 :
デフォルトの名無しさん:2014/05/15(木) 13:52:36.13 ID:W+Bjj2Ja
決め打ちでやる技術ってなんかもう限界見えてるよ
Kintsch先生の名前を20年ぶりに見た。長年コピペされているうちに
名前からcが抜けちゃったようだな
Kintsch先生、10年前チラ見した時はお元気だったぞ。
960 :
デフォルトの名無しさん:2014/05/16(金) 15:55:13.83 ID:dib3tSA5
>>951 >実世界の状況を理解し、物理法則に従って変化する事象を物理シミュレーションによってモデル化し、
本モデルにおける空間は,家,病院,学校,駅である.それぞれの空間を集合を用いて以下のように定義する.
・家空間の集合Ω Home :
?_???? ∈ ?,Ω Home = {????!,?,????!_!!"#}.
・病院空間の集合Ω Hospital :
?_???????? ∈ ?,
Ω Hospital = {????????!,?,????????!_!!"#$%&'}.
・学校空間の集合Ω School :
?_?????? ∈ ?,
Ω School = {??????!,?,??????!_!"!!!"}.
・駅空間の集合Ω Station :
Ω Station = {???????}.
・空間の集合Ω Space :
Ω Space = Ω Home ∪Ω Hospital ∪Ω School ∪
Ω Station .
すべての空間????? ∈ Ω Space には,中心部・郊外部・プールのいずれかの場が割り当てられ,これによって
空間が存在している場が定まる.また,すべての家空間???? ∈ Ω Home は,世帯構成リスト,夫婦構成リ
スト,世帯主エージェントを状態変数として保持し,家(世帯)の世帯構成に関する情報を持つ.ここで,世
帯構成リスト(HouseholdMemberList)とは,その世帯を構成するエージェントからなる集合である.また,夫
婦構成リスト(CoupleMemberList)とは,その世帯の内の夫婦を構成するエージェントの集合である.また,世
帯主エージェント(HouseholdAgent)とは,その世帯の世帯主のエージェントである.ここで,Table 2 に家空間
の持つ状態変数とそのとりうる範囲をしめす.なお,power()は冪集合を取る操作を表す.
http://journals.socsys.org/symposium004/pdf/004-005.pdf
961 :
デフォルトの名無しさん:2014/05/21(水) 00:37:01.07 ID:QyYNKmpk
ネットにある自然言語処理の入門用資料教えてください
963 :
デフォルトの名無しさん:2014/05/21(水) 21:54:09.82 ID:1se3kHpY
もっと良いのお願いします
965 :
デフォルトの名無しさん:2014/05/22(木) 14:39:23.15 ID:/uNpiS1A
このスレのAIは言語能力が低いんですね!
てすぽ
967 :
デフォルトの名無しさん:2014/05/26(月) 14:32:45.16 ID:TvuebtZz
自然言語処理のスパース表現について教えて下さい
パンパースはいてから考えよう
そうだね、プロテインだね
970
971
972 :
片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/05/29(木) 18:06:39.02 ID:e6bXYJlR
面白くない
これは世界初なのか?
それとも前例があるのか?
音声入力だと必然的に同じことをやる
そっち方向へ進めるのもいいかも
全然わからないや
てすぽ
自然言語処理って、アスキーアートみたいなただの文字の羅列と意味のある文章を区別判断できたりするの?
>>980 アスキーアートみたいな意味不明の文です、とか答えることくらいはできるだろう。
982 :
デフォルトの名無しさん:2014/05/30(金) 07:04:37.00 ID:DKrGMHzs
次スレは必要なさそう
984