自然言語処理スレッド その4

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
2片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/06/04(水) 00:23:39.07 ID:qVJRsv3N
1乙
3片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/06/06(金) 16:12:41.21 ID:dyn5MnFB
人工言語の構文解析ではたいていの場合、文法は固定されてるよね。
動的に解析する文法を変えたいときは、実行時にパーサジェネレータや
コンパイラを使わないといけないのか?
4デフォルトの名無しさん:2014/06/09(月) 11:47:07.19 ID:PtiKDSQ8
研究職でもなければどうせ使い道ないのに
どいつもこいつもword2vec試しやがる
唯一金になりそうなのはparagraph vectorぐらいだな
5デフォルトの名無しさん:2014/06/09(月) 15:08:04.19 ID:HHhmYyTe
ユージーン君はどんな技術つかってるの?
6デフォルトの名無しさん:2014/06/09(月) 15:33:05.97 ID:PtiKDSQ8
仕事で使ってるのはbag-of-wordsかn-gramだよ
word2vec試しただけの糞記事書いてるカスは消えろ
7デフォルトの名無しさん:2014/06/09(月) 17:49:36.60 ID:HHhmYyTe
人工知能の13歳の少年、チューリングテストに“合格”

英レディング大学は6月8日(現地時間)、アラン・チューリング博士没後60周年に当たる7日に同校が
英王立学会で開催した「Turing Test 2014」において、チューリングテストの初の合格者が出たと発表した。

合格したのはウクライナ在住の13歳の少年、ユージーン・グーツマンくんという設定のプログラム。
ユージーンくんは2001年にロシア人のウラジミール・ヴェセロフ氏(米国在住)、ウクライナ人の
ユージーン・デムチェンコ氏(ロシア在住)らが構築した。これまでも多数のチューリングテストイベントに
参加して改良を重ねられてきた。

チューリングテストは、「コンピュータの父」と呼ばれる20世紀の英数学者、アラン・チューリング博士が提案した、
人工知能を知的と呼べるかどうかを判断するためのテスト。人間が人工知能と対話して、
相手が人工知能か人間か判断できなければ、その人工知能は思考しているといえるというもの。
チューリング博士は、5分間のテストで人間の審判の30%をだませれば、人工知能は思考しているといえるとした
(Wikipediaより)。

今回のテストで、審査員の33%(審査員の人数は不明)がユージーンくんを人間だと判断した。

http://image.itmedia.co.jp/news/articles/1406/09/yu_turing.jpg
http://www.itmedia.co.jp/news/articles/1406/09/news049.html
8デフォルトの名無しさん:2014/06/13(金) 22:56:37.05 ID:qhg9plHy
馬鹿
9デフォルトの名無しさん:2014/06/14(土) 00:57:41.13 ID:O/sWuNjK
お前がなw
10デフォルトの名無しさん:2014/06/14(土) 09:49:46.90 ID:C3RmOQgD
1. 言語の背景にある知識は書ききれないぐらい深い
つまりなにか抽象化した意味を記号化した瞬間に背景の実世界から離れてしまい,
人間がするような言語理解は記号化では不可能なように見受けられる.
2. 名詞や動詞の意味は組み合わせで理解されている
いわゆる「名詞の構造」や「動詞の構造」と独立して綺麗に書けない.
3. 自然言語処理システムは分野・タスク依存の情報が必要
クイズを解くならクイズの知識が必要.言語学だけの中立的知識だけではシステムはできない.
4. 汎用的な言語理解システムは難しいように見える
上記 3. と同様で分野依存の知識をいれて初めて使えるようになるので汎用は難しい.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/E6-2.pdf

代数学や幾何学などは、最も抽象的な集合のもとに理論を積み上げ、さらに、集合の元同士
の関係が複雑になることから、記述する手段として、文字や記号が頻繁に用いられる。もちろ
んその内容は抽象的であり、意味を理解するには、何かしらの具体例に置き換える必要がある。
ところがこのように抽象化が進んだ内容を、具体的にイメージし、その意味を理解することが
できない、あるいは、そもそも記号で書かれている一語一語の意味がまず読み取れない学生が
非常に多く、このことが大学の数学をわからなくする一つの重大な要因となっているのである。

http://satsuki.ex.osaka-kyoiku.ac.jp/~j129307/miyazaki2.pdf

Project Euler に公開されている問題は数百問であり, 以上によって得られる関数と仕様書の対も
同程度の量にしかならない. このため, 解いた問題に対してその問題の解法に含まれる部分問題を考え,
部分問題を解くコードも同様に作成するように指示した. 例えば「1000 未満の自然数で,
3 の倍数となるものの和を求める」という問題があった場合, 「1000 未満の自然数の集合を求める」
「ある自然数 x が3 の倍数であるかどうか調べる」「与えられた自然数の集合x に含まれる要素の総和を求める」
などが部分問題として考えられる.
http://www.phontron.com/paper/oda14nl05.pdf
11デフォルトの名無しさん:2014/06/14(土) 10:04:31.11 ID:C3RmOQgD
人物の行動を簡単なパラメータで表現する場合,頭部の位置・姿勢に着目することは,
人物の位置や注視先を推定することを考慮すれば合理的といえる.本研究では,予め人物
頭部のサンプル画像を用意しておくことで,モデルベースの位置・姿勢推定を行い,ほぼ
実用的な精度で人物の移動経路を追跡することが可能であることを示した.
そして,その移動軌跡において一定の傾向を維持する区間に分割し,それぞれの区間
ごとに人物の姿勢や周辺の物体との相対的な位置関係などの意味素性を数値的に評価し,
合成することで,自然言語の事象概念との対応付けを行うという基本的な考え方を提案した.
これは従来のテンプレートによる自然言語生成と比較して,より拡張性の高い柔軟な手法であるといえる.
http://www.las.osakafu-u.ac.jp/~ark/publication/kojima-thesis.pdf

これまでの考察で明らかとなった「認める」の別義は、以下の通りである。
・別義1:<ある範囲に注意を払うことにより><対象を><捉え>
<(あらかじめ持っている)対象に関する知識と同定する>
・別義2:<外部の状況(他者の意見・指摘なども含む)を><妥当なものとして><受け入れる>
・別義3:<他者の能力や(能力の反映である)作品を><価値のあるものとして><受け入れる>
・別義4:<他者の未実現の行為を><妥当なものとして><受け入れる>
http://www.lang.nagoya-u.ac.jp/nichigen/issue/pdf/5/5-09.pdf

例えば、「引っ越す」という動詞の語彙概念構造は、次のように規定される。
「X が Y に引っ越す」→ <X オブジェクトが自分の住所アトリビュートの値を Y に変更する>
上記の規定により、「X が引っ越す」という場合、「X オブジェクトは可変の住所アトリビュートを持
たねばならない」ことが導かれる。これにより、組織も可変の住所アトリビュートを有するので、
組織も引っ越し可能であることが導かれる。これは、従来の意味論における意味役割の概念よりも
精密に述語(動詞等)と項(名詞等)の間の意味関係を規定できることを示している。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B1-1.pdf
12デフォルトの名無しさん:2014/06/14(土) 12:47:56.94 ID:2GCCkitO
サンプルコードあくしろよ
13片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/06/14(土) 13:18:14.77 ID:TMbzloys
「ひらがな電卓」Windows用フリーソフト。

ひらがなで無量大数までの四則演算、分数計算、小数計算、ルート、
三角関数、余り、パーセント計算ができます!!!
http://katahiromz.web.fc2.com/calc-h/
14デフォルトの名無しさん:2014/06/14(土) 14:59:25.78 ID:C3RmOQgD
例えば、こんな問題はいかがでしょうか。
ちなみにこれは昨日、ラジオで聞いた問題です。
「300円もって買い物に行きました。そして、100円のお菓子と
40円のお菓子と60円のお菓子を買いました。
おつりはいくらでしょう?」
という問題です。

これを聞いて100円と答える時、その思考は以下のようなものではないでしょうか。
300ー(100+40+60)=100

間違っていませんね。
買ったお菓子の合計は200円なので、300?200は100としているわけです。

これを、図を使って場面をイメージしてみるのです。

このようにお金が図として描ければ見えてきませんか。

そうなんです。
これはいわゆるクイズなので、実は・・・「おつりなし」が答えなんです。
300円持っていって、200円のお菓子を買ったところで、
200円を出すわけですから、おつりはありませんよね。

ずるい!という声が聞こえそうですが、
でも、これを「いや、おつりはないでしょ!?」と答えられるかどうかって
文章問題がイメージできているかという大切なところであると思うのです。
問題文を与えられて、見た数字だけで演算決定をしてしまうから間違えるのです。

http://mhidetoshi.exblog.jp/22011978
15デフォルトの名無しさん:2014/06/14(土) 15:34:15.93 ID:h7hlzhCn
レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

普通、子供にお使いに行かせるなら余裕を持ってお金を預けて
戻ってきたときに残額をおつりとして受け取る。なので、おつりが100円と言う答えもあり得る。
16デフォルトの名無しさん:2014/06/14(土) 16:09:45.04 ID:C3RmOQgD
割り算というのは、実生活では特殊な演算だと思う。

今年入学した402人の小学1年生を10組に分けるとどうなるか。

402人を、できるかぎり等しい人数になるよう分けるなら、40人の組が8組、41人の組が2組。
(402÷10=40余り2、40人ずつ分けた後で、残りの2人を分ける)

でも他の場合を考えると(例えば「少なくとも十人以上」とか)、数え上げは難しいものとなろう。
17デフォルトの名無しさん:2014/06/14(土) 16:20:00.41 ID:C3RmOQgD
>>15
>レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
>40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

それでも、(10円玉が30個で合計)300円もって買い物に行きました、だとおつりは0になる。
それから政府が新たに「300円玉」を発行したともなれば、話は別となろう。
18デフォルトの名無しさん:2014/06/15(日) 13:44:13.39 ID:0Xbi4t4E
word2vecで使われてるhierarchical softmaxって
教師信号をハフマン符号にしただけ?
19デフォルトの名無しさん:2014/06/15(日) 14:36:22.47 ID:0Xbi4t4E
そんな単純じゃなかったわ
https://gist.github.com/kokukuma/85bebedb0635485e4f5b
20デフォルトの名無しさん:2014/06/15(日) 18:21:24.22 ID:r1yj7QX5
http://www.phontron.com/paper/oda14nl05.pdf

x1がx2で割り切れなくなるまでx1をx2で割り→x1がx2で割り切れなくなるまで(繰り返して)x1をx2で割り

(繰り返して)があれば、容易に「while文」に翻訳できる。

文脈から自動的に省略語を補って、翻訳しやすい形に自動変形するアルゴリズムも必要。
21デフォルトの名無しさん:2014/06/16(月) 10:59:25.96 ID:4kD5cm9H
せいぜい機械的にできる処理って形態素解析くらいまでだろうな。形態素解析ならスパース表現でできそうだ。
めくらでも会話できるけど、音以外の五感がないわけではないし
22デフォルトの名無しさん:2014/06/16(月) 11:07:05.33 ID:4kD5cm9H
形態素解析ができてから、回りの状況と自然言語の関係を照らしあわせて単語ごとに構文を学習する。
回りの状況はテキストだけじゃ表現が難しい
23デフォルトの名無しさん:2014/06/16(月) 11:56:09.75 ID:xNeMvzgG
割り算・分数は、「平均」または「単位あたり」と理解されるべき概念と思う。「平均点」は数の総和を人数で割って得られた数。
「速度」は物体や波が単位時間あたりに動いた距離。
24デフォルトの名無しさん:2014/06/16(月) 11:57:19.39 ID:xNeMvzgG
900 :デフォルトの名無しさん:2009/02/20(金) 20:46:21.00
「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、
目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、
名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
25デフォルトの名無しさん:2014/06/16(月) 13:00:19.74 ID:xNeMvzgG
(1) ◆新銀行4,1 の中身
(e4,2:ガ)13 (e4,3:ガ)14 十七日に大蔵省の銀行免許を取得、14 (e4,4:ガ)15 二月上旬までに 増資して15 (e4,5:
ガ)16 資本金を 四百億円とし、16 三月二十日をめどに、開業する。13
この点を考慮するために,参照表現の出現位置を人手で修正し,その結果に対して人手で参照表現を選択する.
ただし,任意の表現を許してしまうと問題が発散するため,今回の評価では「参照表現を省略する」「参照表現を主題化し
て明示的に記述する(つまり,助詞 “は” もしくは “には”をともなって表現する)」「主題化せずに明示的に記述する
(つまり,助詞 “が/を/に” をともなって表現する)」の 3 種類から選択してもらい,人手生成の傾向を分析する.

http://www.cl.cs.titech.ac.jp/~ryu-i/papers/NL206-15.pdf

(58) a. 学生が3人この鍵でドアを開けた
b. ?? 学生がこの鍵で3人ドアを開けた
(58a-b) は、遊離数量詞が、隣接する名詞句を修飾することを示す。12
(58b) では、「3人」と
「学生」が隣接していないため、意図された修飾関係が成立しない。この観察をふまえて、
Miyagawa (1989) は、(59) の文法性が非対格仮説の証拠となることを指摘する。
(59) ドアがこの鍵で3つ開いた
非対格仮説によれば、(59) の「開く」が非対格動詞であることから、「ドア」は、(60) に示
すように、目的語の位置で主題の役割を得た後に、主語の位置に移動する。

http://www.ic.nanzan-u.ac.jp/LINGUISTICS/staff/saito_mamoru/pdf/saito.2013.pdf

日本語の省略がわかる本 誰が?誰に?何を?
成山 重子 著 / 明治書院(810.7ナ)
日本語の特徴である省略を文化と文法から捉えた本。語らいの制約から省略
の順序の制約まで体系的に解説。文法が苦手な人や中級者以下の学習者のため
に「省略のインスタント文法」も収録。
https://www.ishikari-lib-unet.ocn.ne.jp/html/%E3%81%82%E3%81%8B%E3%81%9F%E3%81%BE72.pdf
26デフォルトの名無しさん:2014/06/17(火) 11:34:59.62 ID:sceXYbna
(5)「意味されるもの」と「意味するもの」を分離することにより、この二つのそれぞれに適した表
現形式を独自に発展させることができる。「意味されるもの」の表現方法は、談話分析や語用論の研究成
果を取り入れることによってさらに発展させることが可能である。また、「意味するもの」の表現形式としては、
制限自然言語と RDF/OWL 以外にも様々なものを使用することができ、「意味されるもの」の内容に応じて最も
適した表現形式を選択することができる。様々な形式の情報を一体的に扱うシステムの開発も可能であろう。
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-04.pdf

h4i 前文脈の事態が後文脈の事態の前提となる : 「〜れば」のような条件節は前文脈の事態が後文脈の事態が成
立するための前提条件となる.この際,パタン中の名詞句が「こと」のような明確な事態を導入する表現の場合
であっても,「可能性」などの前文脈の事態にモダリティの情報を付与する表現であっても,同様に前提となる関
係を表すことになる.例えば,例 (9) では,「これ(=途上国向けの環境分野の援助)を引き上げる」ことが「事
態が改善する」ことの必要条件となっている.
(9) これを向こう5年間、30%台後半、5000億円程度に 引き上げることをすれば、事態は大きく 改善される。


http://www.cl.cs.titech.ac.jp/~ryu-i/papers/nlp2014_ryu-i_discrel.pdf

実際のところ"this"や"is"だけでもその意味は多数あり、文章が長くなるほど意味の組み合わせは多くなり、
「組み合わせの爆発」という現象が起きコンピュータは止まってしまう。さらに、40 代のドリフ世代にとって
"This is a pen."はまた別の意味がある。
http://ed-www.ed.okayama-u.ac.jp/~shinri/terasawa/files%5Cthinking_new_theory_of_thinkingV5.pdf
27デフォルトの名無しさん:2014/06/19(木) 03:03:30.38 ID:xTtna/5L
「まわるまわるよ、時代は回る」
「 地球は回る、君を乗せて 」

上の二つの「回る」は、同じ意味ですか?
28デフォルトの名無しさん:2014/06/19(木) 07:49:02.24 ID:66eAVPNK
>>27
>まわるまわるよ、時代は回る

「明治時代は栄光だったが、昭和時代は暗黒だった」(司馬遼太郎)というふうに、時代は回るという意味。

>地球は回る、君を乗せて

「地軸」を中心にして回転している、という意味。
29デフォルトの名無しさん:2014/06/19(木) 11:47:01.23 ID:7DkBqMX+
>>28
>地球は回る

太陽の回りを公転して回っている、というのも有りだろ?
30デフォルトの名無しさん:2014/06/20(金) 05:49:29.43 ID:408WaNYH
4.1.1 第 1 問
後半の問いに対して,点 P 自体を (x, y) として解くことはできなかったため,
点 P の像を (x, y) として命題を記述した.変数の導入方法には,試行錯誤が必要である.
4.1.2 第 2 問
知識 (e) を受験数学で学ぶことはないと思われるが,MaxValue[] や MinValue[] を利用するためには,
このような,プログラムではなく数式で表現するための知識が有用であろう.
知識 (f) を用いずに,面積を三角関数で記述したままでは,MaxValue[] や MinValue[] で最大値や最小値を
求めることはできなかった.三角関数を含む式に関する問題では,このような変数変換が有力なテクニックである.
 難問として有名な本問だが,数式処理システムを利用すれば,比較的簡単に解ける.しかしその解法は,
文献 [小島 89]などに掲載されているような,人間が手で解く方法とは大きく異なっている.
4.1.3 第 3 問
a についての 3 次方程式になることがわかって初めて知識(b) が利用できる.このように,具体的な方針を事前に決める
のが難しい場合がある.本手法における第 3 問の結論は図 1(a) だが,模範解答は図1(b) のように,曲線の式や交点の座標,
曲線自体や点自体を含むかどうかも描いたものになる.
4.1.4 第 4 問
Mathematica では,馬 i=1 x i−1 のような簡単な計算が,特殊な仮定(この場合は x ̸= 1)の下に行われる危険があること
を知っておかなければならない.Reduce[] の引数の {a, s, b} を {a, b, s} にすると解けない.変数の順番が大切である.
4.1.5 第 5 問
接平面を (x − 1) + ay + b(z − 1) = 0 の形で記述すると,計算時間は 68 秒から 3300 秒に,利用記憶容量は 21 MB から
230 MB に増加する.このように,得られる結果は同等でも,変数の導入方法によって計算時間は大きく異なる場合がある.
4.1.6 第 6 問
問題をそのまま定式化しても,現実的な時間では解けない.(a),(b) のような知識によって,計算量を減らす必要がある.
体積 f を,t の関数と u と v の関数に分けずに,MaxValue[]で最大値を求めることはできなかった.f を 2 つの部分に分
けられることは,解いている途中で初めてわかることである.
https://kaigi.org/jsai/webprogram/2014/pdf/768.pdf
31デフォルトの名無しさん:2014/06/20(金) 16:45:06.34 ID:Egd9IXkN
7.3 数学モデルは現実世界と論理世界を結ぶ架け橋の一つ
 私は企業に勤務していた頃、いろいろな分野のプラントの制御システムの開発や動特性シミュレーション
に従事してきましたが、そこで数学モデルの有効性を痛感しました。
 それは、いったん数学モデルが作成できれば世界がまったく変わってしまうことです。現実世界では、
対象の挙動は構成、材料、形状や動作環境などいろいろな条件に左右され、それを大きく変えることは
物理的に難しいことが多く、我々の思考もそれに縛られることが多いのも事実です。
 数学モデルが生成できれば、論理世界に入ることができ、そこでは禁止されているのは論理的な矛盾だけです。
数学理論はもちろん、関連した数値解析、コンピュータ・グラフィックや種々の計画法が応用できます。
それにより、現実世界にとどまっている限り得られない新しいアイデアが出てくる可能性があります。
数学モデルは現実世界と論理世界を結ぶ架け橋となります。これを一般化すると、「モデルは現実世界
と仮想世界を結ぶ架け橋」と言えるかもしれません。
 ただ、論理世界で得られた結果を現実世界で実現するためには、それが現実世界で有効かまた実現可能
なものなのかを調べる必要があります。しかし、それは論理世界の中では不可能です。現実世界に戻すためには、
別の方法が必要です。それがシミュレーションです。数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
http://www.wind.sannet.ne.jp/masa-t/semioeng/modeling/modelasim/mas07/mas07.html
32デフォルトの名無しさん:2014/06/23(月) 11:54:56.02 ID:wCGes4Or
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)
これら 2 文は,同一の文構造であり,違いは absences か,
employees のみである.he には John も Dave も入りうるため,
統語的な特徴および意味的な特徴は役に立たない.
ここで重要な手がかりとなるのは,「fire する側は従業員を抱える立場」
「欠勤が多い人は fired される」といった,事象間の関係知識である.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A5-2.pdf
33デフォルトの名無しさん:2014/06/23(月) 17:07:41.81 ID:Z0nKY4vk
完全に形態素解析したいんだけどできない。
小野 名詞,固有名詞,人名,姓,*,*,小野,オノ,オノ
妹 名詞,一般,*,*,*,*,妹,イモウト,イモート
子 名詞,接尾,助数詞,*,*,*,子,シ,シ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
遣 動詞,自立,*,*,五段・ラ行,体言接続特殊2,遣る,ヤ,ヤ
隋 名詞,一般,*,*,*,*,隋,ズイ,ズイ
使 名詞,接尾,一般,*,*,*,使,シ,シ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
になる。mecabで辞書パラメータ最小値にしたんだけど。
どうすればいいのだろうか
34デフォルトの名無しさん:2014/06/23(月) 18:01:02.28 ID:qZVVaTos
小野妹子、
妹子、
遣隋使
の3語を登録する
35デフォルトの名無しさん:2014/06/24(火) 00:30:04.82 ID:13L7pvDP
できない
36デフォルトの名無しさん:2014/06/24(火) 00:45:44.58 ID:13L7pvDP
どうしても辞書登録が認識してくれない。徳川家康はできれば徳川+家康でなく徳川家康と認識
してほしいのだが確実にできる手だてはないのだろうか?
37デフォルトの名無しさん:2014/06/24(火) 01:30:56.05 ID:1OnpMhpf
最長一致法
38デフォルトの名無しさん:2014/06/24(火) 01:36:52.54 ID:13L7pvDP
mecabでどうするのかを知りたい。
39デフォルトの名無しさん:2014/06/24(火) 08:21:43.05 ID:+csYm/QE
mecabが優秀じゃなくて、助詞をもつなどの日本語文法が機械的な解析に向いていただけだ。
40デフォルトの名無しさん:2014/06/24(火) 11:28:06.49 ID:AfD6RzLL
向いてない向いてない。
わかち書きのような特殊な書き方をしてない限り、単語の区切りが不明瞭とか。
41デフォルトの名無しさん:2014/06/24(火) 17:41:46.27 ID:FbF3Qsch
逐一辞書登録するのは限界があるよね。
Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
42デフォルトの名無しさん:2014/06/24(火) 18:02:41.00 ID:1OnpMhpf
音声認識に適した形態素解析って無いだろうか?
43デフォルトの名無しさん:2014/06/25(水) 01:28:47.07 ID:A+D1SfZu
>>Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
それができない。WikiPediaをDLしてアンカー抜き出して用語集作っても
コストの値を調節しないと正しくできない.
mecabは速いだけか?
44デフォルトの名無しさん:2014/06/25(水) 01:32:05.16 ID:A+D1SfZu
Jumanかkyteaがいいのか?
mecabは微妙に形態素がへん。Webの記事ならとても99%も正解があるとは思えない
新聞記事でもあやしい
45デフォルトの名無しさん:2014/06/25(水) 07:47:26.06 ID:UMucURAO
99%正解があったら他には何もいらないというレベルの精度じゃね
46デフォルトの名無しさん:2014/06/26(木) 09:41:16.59 ID:S6b66RTi
述部の言語構造分析をもとに,「辞書定義文」,「用語属性」,「分布類似度」,「機能表現」という複数の言語知識を用い,
それらを素性とした識別学習で同義判定を行う.
https://www.jstage.jst.go.jp/article/jnlp/20/4/20_539/_pdf

 つまり、「台所」という表現が料理という場面=料理フレームを喚起するトリガーとして働き、その
ようなフレームのなかで、料理人や調理作業、調理道具、さらに料理にかかる費用等、料理に関わる
多様な要素が指示されるわけである。国広は、このような言語現象を多面的多義と呼び、その他にも
「学校」「病院」「銀行」といった概念が、建物や組織、そこで営まれる活動等、多様な現象の集合とし
て分析されると指摘している。
http://opac.lib.yamanashi.ac.jp/metadb/up/honkan/13_302-320.pdf

(1)同義語:同じ意味を持つ単語であり、テキスト中での置き換えが可能である単語のペア。「コンピュータ」と「電子計算機」など。
(2)上位/下位語:一方が他方の上位概念であるような単語ペア。「コンピュータ」と「サーバ」など。
(3)部分/全体語:一方が他方の一部であるような単語ペア。「帽子」と「つば」など。
(4)対義語:対となる概念を示す単語ペア。「男」と「女」など。
(5)兄弟語:同義ではないが、共通の上位概念を持つ単語ペア。「ルータ」と「サーバ」など。
(6)関連語:類似しておらず、階層的でもないが、概念的に連想される単語ペア。「細胞」と「細胞学」など。
http://www.google.com/patents/WO2014033799A1?cl=ja

例(2)の動詞「教える」は、以下のような意味を持っていることから、動詞自体が方向性を持っていることが伺える。
・行動や身を処し方などについて注意を与えて導く。いましめる。さとす。
・知っている事や自分の気持、要求などを他の人に告げ知らせる。
・知識、技芸などを身につけるようにさせる。教授する。
・おだてたりして、悪い事をするようにしむける。

http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no5_papers/JCLWorkshop_No5_04.pdf
47デフォルトの名無しさん:2014/06/27(金) 04:03:33.62 ID:MjVrnFmf
新聞とかのデータからから「名詞+助詞+動詞」の組み合わせをひろってきたいんだけど、構文解析する必要ありますか?場違いだったらすみません
48デフォルトの名無しさん:2014/06/28(土) 06:42:58.08 ID:gMf17FhW
◎2chスレッド勢いランキングサイトリスト◎

★+ニュース板
・ 2NN (推奨サイト)
・ 2chTimes
★+ニュース板新着
・ 2NN新着
・ Headline BBY
・ unker Headline
★+ニュース板その他
・ Desktop2ch
・ 記者別一覧
★全板
・ 全板縦断勢いランキング (推奨サイト)
・ スレッドランキング総合ランキング
・ ログ速
★全板実況込み
・ 2勢 (推奨サイト)
・ READ2CH
・ i-ikioi

※ 要タイトル検索
※ 2chブラウザ併用推奨
49デフォルトの名無しさん:2014/06/28(土) 13:20:04.17 ID:pYYcNfOX
例えば、「空港へのアクセスを調べる」という入力文に対して、「アクセス」を換言したい場合、
「空港への◯◯」という前文脈と「◯◯を調べる」という後文脈に分けてコーパスを探索し、
◯◯に該当する名詞のうち共通する名詞を抽出する。図 1 の例では、前文脈と後文脈で共通して
用いられる「乗り換え」「料金」「行き方」の 3 単語が抽出される。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf

意味空間は1次元ではなく多次元である. どの属性に注目して(観点で)分類するかによって、いろいろな分類の仕方が考えられる.
身近な例で「料理」について考えてみる.古今東西の料理の種類は相当な数になり、分類の仕方も人によって異なる.
ここで調理法、材料、地域の3 つの観点で分類するとつぎのようになる.
調理法の観点で分類すると 生もの、煮物、焼き物
材料の観点で分類すると  魚料理、肉料理、野菜料理
地域の観点で分類すると  和食、中華、洋食
例えば「刺し身」は、料理を3つの観点によって分類した結果、連想された用語「魚料理」「生もの」「和食」の狭義語である.
逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになる.その結果、網構造になる。これを図にすると、図1のようになる.
http://www.asahi-net.or.jp/~wd2y-kkb/t.pdf
50デフォルトの名無しさん:2014/06/28(土) 13:47:07.22 ID:mTJgjjdL
>>47
構文解析は必要ないが形態素解析はいる
51デフォルトの名無しさん:2014/06/28(土) 13:54:17.48 ID:la3VBp+u
同時に何人も愛せて
何人とでもSEXする塩村議員動画
http://www.youtube.com/watch?v=O1U1ulLinPw
52デフォルトの名無しさん:2014/06/28(土) 14:49:34.97 ID:Wnh+uZwR
構文解析まで含めるなら
もの凄く精度の高い解析が必要になる話ではないか
53デフォルトの名無しさん:2014/06/28(土) 18:38:56.18 ID:ago1EUHo
>>51 死ねカス。氏ねじゃなくて死ね。
54デフォルトの名無しさん:2014/06/29(日) 19:17:16.27 ID:8NVTS3/J
図やイラストの理解
センター試験の英語の問題では、図やイラストが多用されます。人間であればだれでも理解できるような簡単な図ですが、
これを理解することはコンピュータにとっては至難の業です。画像認識の研究はさかんに行われていますが、ほとんどの
研究は写真を対象としており、図やイラストを理解する研究はほとんど行われていません。これは、デフォルメされたイメージ
を理解するためにはさまざまな常識が必要であり、今のところ有効なアプローチが全く見当たらないためと考えられます。
人間にとっては図やイラストの理解は試験問題を解く上で重要なポイントではないですが、人間にとって当たり前すぎるからこそ、
逆にコンピュータにとっては非常に難しいと言えます。
http://21robot.org/research_activities/english/

 物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/
55デフォルトの名無しさん:2014/06/30(月) 11:11:53.76 ID:yTE03nVF
一次視覚野はほぼ解明されてる
写真とイラストはもう区別しない
56デフォルトの名無しさん:2014/06/30(月) 11:48:04.73 ID:9KK/EJtO
モジュール理論とか、何十年の間にだいぶ進んだよな
57デフォルトの名無しさん:2014/06/30(月) 13:42:52.23 ID:tZCwK3PP
>>55
>一次視覚野はほぼ解明されてる
>写真とイラストはもう区別しない

 おそらく最初とは異なる判断になったのではないでしょうか。このように、私たちは経験やこれまでの条件づけによって、
無意識のうちに「決めつけ」を行いがちです。この絵のように、わずか数秒見ただけでも大きな結論の違いを生むことが
あるわけですから、これまで長い人生の中で培ってきた「決めつけ」は、あなたのさまざまな判断に大きな影響を及ぼします。
そして、誤った先入観や印象による決めつけは非常に危険なものといわざるを得ません。

この絵、何に見えますか?――あなたの“思い込み”をテストする
http://bizmakoto.jp/bizid/articles/0905/29/news009.html
58デフォルトの名無しさん:2014/06/30(月) 16:33:45.79 ID:yTE03nVF
>>57
それは二次視覚野以上の話だ
59デフォルトの名無しさん:2014/06/30(月) 17:46:07.82 ID:ULkK/oEi
>>57
鼠に見えたりオッサンに見えたり・・・人間がイラストを解読するメカニズムはよくわからない。
60デフォルトの名無しさん:2014/06/30(月) 18:56:54.14 ID:OP+eMRFG
3つは違う絵だから、ネズミに見えるのもおっさんに見えるのも
その中間に見えるのも意図通りとしか感じない
61デフォルトの名無しさん:2014/06/30(月) 20:02:41.31 ID:bnSHXbvL
今一番画像処理で進んでるのはコンボリューションニューラルネット
畳み込みをしてて、二次視覚野に近いとは言われてる
62デフォルトの名無しさん:2014/06/30(月) 20:49:30.42 ID:CGk8SAom
IBMのワトソン君は何の役に立ってるの?
63デフォルトの名無しさん:2014/06/30(月) 21:02:54.51 ID:CGk8SAom
一家に1台ワトソン君
64デフォルトの名無しさん:2014/06/30(月) 21:03:06.40 ID:9KK/EJtO
技術は、大量のテキストにタグを付けてコーパス化したりとか、そういう方向に応用されてる
だろうと思うけど。
65デフォルトの名無しさん:2014/06/30(月) 21:07:00.10 ID:CGk8SAom
みんなでワトソン君をどうやって活用するか考えよう!!
66デフォルトの名無しさん:2014/06/30(月) 21:14:43.35 ID:CGk8SAom
いいアイデアを思い付いた!!

ワトソンをWebに公開し、何回か質問できる権利を販売すればIBMがぼろ儲けできるぞい!
67デフォルトの名無しさん:2014/06/30(月) 21:46:33.42 ID:avOqRzMr
>>62
とりあえずは医療診断に使おうとしている。
画像診断や画像認識、音声認識技術と組み合わせれば、診断分野に人間が
出る幕はなくなるんじゃないか
68デフォルトの名無しさん:2014/06/30(月) 21:49:01.19 ID:kvIkRbCF
>>65
役場の窓口にワトソン君を置いて、公務員の人件費削減
69デフォルトの名無しさん:2014/07/01(火) 04:28:13.07 ID:9WHDZwaI
それなんてエキスパートシス・・・いや、いい、忘れてくれ
70デフォルトの名無しさん:2014/07/01(火) 08:59:30.77 ID:xCHeKPxQ
電話サポートなら出来そうだね。休日や時間外用にでも
71デフォルトの名無しさん:2014/07/01(火) 17:42:24.79 ID:MLoIfLOU
自動改題システムがあったらこうやる。本問は、正三角形ではなく直角二等辺三角形だったら、また放物線ではなく楕円だったら、
問題とその解法はどう変わるか。あるいは設定が変え方によっては、高校数学では解答できなくなるのか。 

> 東大理系数学2004年第1問
72デフォルトの名無しさん:2014/07/01(火) 17:48:46.07 ID:MLoIfLOU
>>24
長文を短文の箇条書きに書き換えるアルゴリズム、短文の箇条書きを長文にまとめるアルゴリズムを考えてみる。
やり方は人海戦術で多くの長文を、短文の箇条書きに書き換え、意味内容について詳細にタグ付けして、インプットする。
類似の文章に遭遇したら、選択検出できるようにする。
73デフォルトの名無しさん:2014/07/01(火) 20:10:32.48 ID:WdBXMFPF
>>67
「マギはどう言っている?」
「2対1でガンだと回答しています」
74デフォルトの名無しさん:2014/07/05(土) 11:17:57.64 ID:EeQIx6Tc
 SWでは図12のような手の形,動き,顔・頭,身体の部分などを表す図像的な記号を二次元的に配置して,
人間にとって分かりやすく手話を記述する.図13にSWによる日本手話の記述例を示す.これらの記号の集合
はISWA(International Sign Writing Alphabet)と呼ばれており,ISWA2008には639種類の基本記号が含まれる.
向きの違いなどを考慮するとその数は約35,000種類に上る.
https://www.jstage.jst.go.jp/article/essfr/4/4/4_4_282/_pdf

本研究の最終的な目標は, CL を組み込んだ手形変化と, CL を用いた図像的な手の動きが組み合わさった
手話表現 CL 述語 (CL 構文, Classi?er Predicate)[3]の生成を機械翻訳上で行うことにある.
CL 述語は, 現実世界での場所・形状・動き (動きの軌跡) 等が手話表現空間上でもリンクするように CL 手形
を用いて表現するもので, 手話の意思伝達において非常に重要な役割を担っている.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P7-12.pdf
75デフォルトの名無しさん:2014/07/05(土) 15:51:46.96 ID:PDgdEPrp
word2vecとdeep learningって別に関係無いよね?
word2vecの前身にrecurrent neural networkが使われてたってだけで
現在のword2vecの実装はロジスティック回帰ベースのものになってるし
76デフォルトの名無しさん:2014/07/05(土) 21:00:44.58 ID:yP4JAf0g
(5-4) この野菜は害虫に強い.(植物の野菜)
(5-4) 太郎は野菜をたくさん食べる.(食物の野菜)
http://tdl.libra.titech.ac.jp/hkshi/xc/contents/pdf/116061503/6

赤い三角,青い丸などの図形を見せられ,それについての質問「何色ですか」
「何という形ですか」に対して「赤」や「丸」などと試行錯誤的に答え,
その答えに対する評価を利用して正しく答えられるように学習するシステムを構築する.
https://kaigi.org/jsai/webprogram/2014/pdf/474.pdf

手順(6)では,既存オントロジーに対し,概念追加処理を行う.既存オントロジーにおいて,
対象領域の中でも最上位に位置すると考えられる概念をルート概念として設定する.
Protégé を使用して既存オントロジーの可視化を行った例を図 5 に示す.図 5の可視化範囲においては,
紫の楕円で囲んである概念をルート概念としている.なぜならこれらの概念が理科に関連する
概念の最上位概念として適当であると推測できるからである.このようにして手動で設定した
ルート概念は“時”,“動物”,“事象”,“位置”,“三日月形のもの”,“別のもの”,
“生物”,“動物”,“植物”,“生物”,“自然現象によって出来るもの”,“具体的あるいは
抽象的存在物”,“抽象物”の計 13 概念である.
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-05.pdf
77デフォルトの名無しさん:2014/07/06(日) 13:17:55.07 ID:UIel1dtG
□(日常的)状況理解と(代数スキーマ)問題構造理解
• 支援が必要なのは問題モデル表現,日常的な状況はよく知っている
• 状況に基づく理解には問題文からの暗黙的な特徴抽出が必要
- 最初に「形式主義」が役に立つ理由 [Nathan 1988]
• 相互に支援「状況が問題モデルの意味付けに」「問題スキーマが状況モデル作成に」
「予測2」
与えられたカバーストーリにおけるキャラクタ・イベント・関係を量的な解法に必要な形式的な記号と
表現の知識と関係づけることにより数学的にストーリ状況を解釈するよう励まされた生徒は,
文章題の解を導き出せる方程式の生成において,ストーリのフレーズと方程式のマッピングを行う
直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測3」
与えられたカバーストーリにおけるキャラクタ・イベント・関係の知識に形式的な記号と表現を関係づけ
ることにより代数式を状況的に解釈するよう励まされた生徒は,代数式の状況的な記述の生成において,
ストーリのフレーズと方程式のマッピングを行う直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測4」
状況的に推論を行う問題解決者は,フレーズ志向の対照者より,カバーストーリを伴うかもしれない状況的
な方程式の組の適切さ,あるいは不適切さを認識する能力をつけるだろ
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf
78デフォルトの名無しさん:2014/07/06(日) 15:17:27.05 ID:Tf6s8TDO
句構造とそれに対応付けられた述語項構造情報を持つ,統語情報と意味情報を統合した日本語ツリーバンク
について述べた.構築した 20,000 文を既存の構文解析器に適用することにより,文節係り受け解析と同程度
の解析精度を持ちつつ,詳細な統語情報を出力できることを確かめた.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf

UML では,オブジェクトを状態機械と考え,その振舞いを状態遷移図で表す.記法としては,基本的に Harelの
Statechart を採用している.たとえば,図 5 は Fowler の本 [2] からとった.図の「動作中」と名前を付けているの
が親状態 (superstate) である.その中に 3 つの子状態があるが,それを隠して 1 つの状態と見なしたものが「動作中」である.
http://tamai-lab.ws.hosei.ac.jp/pub/ss01paper.pdf

つまり、図的メディアは表現している情報の内容概略をまず直観的に把握することができ、その点において文書メディア
と大きく異なる。例えば、多くの図形要素がある方向に整列していれば、順序もしくは流れの意味が瞬時に感じられるが、
同じ意味を表現した文書は通読しなければわからない(図 2.1)。
http://www.image.esys.tsukuba.ac.jp/~murayama/work/ms_thesis.pdf
79デフォルトの名無しさん:2014/07/07(月) 12:36:07.24 ID:bhOiadyO
2.2 語彙・構文的言い換え
語彙・構文的言い換えに限っても,純粋に統語論で扱えそうな言い換えか
ら語の詳細な意味に立ち入る必要のある言い換えまで多岐にわたる。こうし
た言い換えは,実現に必要な知識の種類の観点から便宜的に次の4種類に分けられる。
統語的言い換え 個別の語の意味に立ち入らなくても統語論の記述レベルで概ね説明できる言い換え
(3) 最初に合格したのは高橋さんだ ⇔ 高橋さんが最初に合格した
語彙的言い換え 語の同義性だけで概ね説明できる,統語操作を伴わない局所的言い換え
(4) 一層の苦境に陥る恐れがある ⇔ 一層の窮地に陥る可能性がある
語彙構成的言い換え 語の統語的特性と意味的特性に基づいて構成的に説明できると考えられる規則性の高い言い換え
(5) 2 位が先頭との距離を縮めた ⇔ 2位と先頭の距離が縮まった
推論的言い換え 内包的意味が近似的に等価な言い換えのうち,上のどの種類にも当てはまらないもの
(6) 財政再建が急務の課題だ ⇔緊急に財政再建する必要がある
http://paraphrasing.org/~fujita/publications/coauthor/inui-LF-2.pdf
80デフォルトの名無しさん:2014/07/09(水) 09:13:08.64 ID:W1L77FJX
イヌ語、イルカ語、サル語を解析するアルゴリズムありますか?
81デフォルトの名無しさん:2014/07/09(水) 19:42:55.77 ID:k9yY+Ntl
>>80
バウリンガルと同じアプローチで可能
82デフォルトの名無しさん:2014/07/09(水) 20:08:34.07 ID:s3czgtxE
たとえばどのようにしたら?
83デフォルトの名無しさん:2014/07/10(木) 11:50:45.70 ID:b8e/9c1m
10^5単語
10^3個の単語からなる文章

(10^5)^(10^3)の組み合わせ(テンソル)

全ての組み合わせを予め計算するのは不可能だ
構文が似ている単語は同じ構文を持つと仮定し、確率的に構文解析すればいいのか?
84デフォルトの名無しさん:2014/07/10(木) 14:23:18.66 ID:aR1UjDzC
>>83
>10^5単語

固有名詞(住所・氏名など)を一般化し、さらに頻出単語のみに絞る。
85デフォルトの名無しさん:2014/07/10(木) 14:39:03.10 ID:b8e/9c1m
>>84
オートマトンでやるからテンソル演算にはならないが、それにしても桁違いだから絞ってどうなる量じゃない。
未知の単語が来た時対応できないし、自分で入力されたことのない文章を構文的に正しいものを推定して組み立てないといけない。
86片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/07/18(金) 14:38:59.47 ID:XMEHR0Aa
自然言語相手にすべてのケースのテストデータを作成しようとしたら、800MB超えてしまった。。。
愚かだな。
87デフォルトの名無しさん:2014/07/18(金) 15:09:02.82 ID:D2raAtlG
800MBならまだましでは?
88片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/07/19(土) 21:02:40.01 ID:mm+kcL5W
まずは、この無限大に近い組み合わせと戦わないといけないのか。
ランダム抽出か、代表値でやってみるか。
89デフォルトの名無しさん:2014/07/22(火) 12:13:33.59 ID:E09TR4vO
チンパンジー語解読される
http://wired.jp/2014/07/22/dictionary-of-chimpanzee/
90デフォルトの名無しさん:2014/07/23(水) 06:05:31.34 ID:cG8Of2p8
日本語のmecab cabochaと同じことを英語でする場合には
どのソフトを使えばいいのでしょうか?
91デフォルトの名無しさん:2014/07/26(土) 22:52:13.10 ID:vhGqByQW
Stanford CoreNLPでぐぐってみ
92デフォルトの名無しさん:2014/07/27(日) 08:37:51.99 ID:b6NTPR2W
>>89
言語構造を見つけたらまた来てくれ
93デフォルトの名無しさん:2014/07/29(火) 05:02:08.10 ID:lhxkPIlc
>>91
nltk
よりそっちの方がお勧めなんです?
94片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/07/30(水) 00:17:55.16 ID:yEskz56N
動詞活用と動的パーサーを頑張ってやるぞー!

エイエイオー!
95片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/07/30(水) 01:03:45.57 ID:yEskz56N
違う違う。そんな文字コードが固定された融通の利かないありきたりの形態素解析ツールの
1ユーザーにとどまるのはイヤだ。もっとオープンでダイナミックに組織化されるシステムでなきゃ。
えっ、大規模機械学習や統計学を否定するの? ひょっとして馬鹿?
96デフォルトの名無しさん:2014/07/30(水) 01:06:51.20 ID:yEskz56N
あげ
97デフォルトの名無しさん:2014/07/30(水) 14:46:58.32 ID:nHLRqrzx
moses-supportやparser-supportでアホな質問ばかりする中国人やアラビア人にも真摯に対応する姿に感心する
98デフォルトの名無しさん:2014/07/30(水) 22:44:45.78 ID:PuN0tVbh
http://anond.hatelabo.jp/20090330065954
JavaのStanford CoreNLP
より 
pythonのnltk
の方が良いみたいですね
99デフォルトの名無しさん:2014/08/06(水) 18:09:18.10 ID:acb72KUN
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
100デフォルトの名無しさん:2014/08/29(金) 20:13:29.62 ID:pIYD+XWo
1. 辞書の違いによる形態素単位の分割
2. 機能語,複合語などによる文節分割
3. 鍵括弧内の読点による文の分割
4. 鍵括弧による文節分割
5. 機能文節などの特殊な文節による分割
6. 係り先の文節を複数持つか

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-15.pdf

(1)二格深層格の出現比率はコーパスによって有意な差がある.特に「場所」,「複合辞」,「目的」
における差が顕著である.
(2)定性的に分類された深層格を定量的に見ると頻度において差が顕著であった.特に「対象」(間
接目的語)の頻度が高い.一方,「場所」や「時間」の頻度は全体の割合から見るとさほど高くない.
(3)二格と共起する名詞と動詞と深層格との関係について主成分分析を行った結果,「結果」「複合
辞」「その他」>「副詞」「目的」>「時間」「場所」の順に他の深層格との隔たりが確認された.これに対して,
「対象」「役割」「動作主」「頻度」は共起語においては特性が薄いため,深層格推定にも困難が予想される.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-3.pdf

今後は、平成 28 年度末を目標として、日本語の書き言葉の文 4 万文に統辞・意味解析情報をタグ付けし
た欅ツリーバンクを完成させる予定である。また、これとは別に、対話データのタグ付けも計画している。
開発したツリーバンクのうち公開可能なものは全て以下のサイトで配布する予定である。

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
101デフォルトの名無しさん:2014/08/29(金) 21:20:47.93 ID:zSOx7Ia5
構文解析って文法的に正しいかどうかしか判断できないんじゃないの?
102デフォルトの名無しさん:2014/08/29(金) 23:25:55.15 ID:bwbSKW1s
>>101
>構文解析って文法的に正しいかどうかしか判断できないんじゃないの?

なら、「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
103デフォルトの名無しさん:2014/08/30(土) 02:26:42.95 ID:BAPN2lOA
単語と動詞という分類で言えば正しいが、単語としては確率低い組み合わせだろうなぁ
104デフォルトの名無しさん:2014/08/30(土) 09:34:03.26 ID:014RRRVX
指示表現と文体―「この」のジャンル別コーパス分析を中心に
https://www1.doshisha.ac.jp/~cjtl210/data1/22_ryuuhyoo.pdf
日本語機能表現の自動検 出と統計的係り受け解析への応用
https://www.jstage.jst.go.jp/article/jnlp1994/14/5/14_5_167/_pdf
文脈の多様性に基づく名詞換言の提案
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf
構文構造の処理技術 - 芝浦工業大学
http://www.sic.shibaura-it.ac.jp/~sugimoto/nlps/nlps14-3.pdf
文体から見た『今昔物語集』の語彙 ―『日本語歴史コーパス 平安時代編』と比較して
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no4_papers/JCLWorkshop_No4_15.pdf
NTCIR MedNLP: 本邦初の医療分野の言語処理コンテスト
http://mednlp.jp/PAPER/2013-jcmi-ntcir.pdf
単語間結合度に基づく複単語表現のアライメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A2-4.pdf
NTCIR MedNLP-2: 医療分野の言語処理
http://must.c.u-tokyo.ac.jp/sigam/sigam05/sigam0512.pdf
述語と項の位置関係ごとの候補比較による日本語述語項構造解析
http://hayashibe.jp/publications/JNLP2014.pdf
「述語構造の意味範疇の普遍性と多様性―理論的および応用的な成果―」
http://www.ninjal.ac.jp/event/specialists/project-meeting/m-2013/20140202-ninjal2014/pdf/008.pdf
検索・分析のための手順文章からの意味構造抽出
http://db-event.jpn.org/deim2014/final/proceedings/C3-2.pdf
コーパスに基づく日本語の文法形式の使用傾向の記述 ―「大きい・な」「小さい・な」の使い分けについて―
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/19119/1/1306.pdf
大域的な統語情報を用いた単語アラインメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-2.pdf
対訳抽出におけるハブの影響
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B2-2.pdf
105デフォルトの名無しさん:2014/08/30(土) 09:35:42.15 ID:014RRRVX
述部意味関係コーパスの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/C4-4.pdf
日本語文章に対する述語項構造アノテーション仕様の考察
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_333/_pdf
機械学習を用いたニ格深層格の自動付与の検討
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-2.pdf
統辞・意味情報を付加した日本語コーパスの構築欅ツリーバンク プロトタイプ について
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
記号化による数学文の理解—線形代数における数学文を中心として—
http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/2013/10se201.pdf
文の意味構成に伴う高次元空間の最適化と単語表現学習
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-3.pdf
用語の属性を考慮した上位,下位概念辞書の構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B6-1.pdf
学校数学における確率を捉える枠組みの一提案
―数学的モデルとしての確率という視点から―
http://www.juen.ac.jp/math/miyakawa/article/2013-ronhatu-ikarashi.pdf
『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_301/_pdf
統語情報と意味情報を統合した日本語句構造ツリーバンクの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf
統計的日本語述語項構造解析のための素性設計再考
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D1-5.pdf
教師あり機械学習による助詞「も」の分析
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-11.pdf
単語出現頻度を考慮した事後確率制約による単語アライメント
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-4.pdf
日本語カルテをアノテートする
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-2.pdf
比喩表現コーパスの構築と問題点-言語学の立場から-
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-2.pdf
106デフォルトの名無しさん:2014/09/08(月) 02:15:18.02 ID:P298uFJ/
東大のプロジェクトどうなったのw
もう挫折ですか
107デフォルトの名無しさん:2014/09/08(月) 09:27:57.13 ID:m/nJA+ci
>>101
機械的な構文解析のこと?
正しいかどうかじゃなくて、正しいと仮定して解釈することじゃないのかな
意味ある形で分かれてるかどうかは、人が解釈するしかないような気がするけど。
108片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/09/08(月) 11:11:27.22 ID:p73tUNq8
ひらがな電卓Calc-H ver.0.8.0
http://katahiromz.web.fc2.com/calc-h/

まだまだ頑張るぞ!!!
109デフォルトの名無しさん:2014/09/08(月) 21:00:23.20 ID:wT2B4Cec
>>107
いや、コンパイラの構文解析って正しいか間違ってるかしか出力しないじゃん
110デフォルトの名無しさん:2014/09/09(火) 01:59:16.85 ID:gwS2ebzP
なんでやねん
最低でもツリー構造くらい取るわ
111デフォルトの名無しさん:2014/09/09(火) 08:12:04.96 ID:FnHbwOUK
「問題文を読んで題意が理解できない」ってのは、去年の東ロボと共通する点に思える。

教えているうちに気づいたことがあります。それは、数学の問題文を読んでその題意が理解できない子どもが目立って増えた、
ということです。「問題文を読んで題意が理解できない」といっても、いろいろなタイプがあります。
1.?語彙力が不足していて文節と文節のつながりがわからない。
2.?数学特有の言葉、つまり記号や用語の定義が理解できていない。
3.?文章と文章のつながりがわからず、条件がつかめない(演繹的な推論による文法の知識がない)。
4.?文章が長くなると全体像がつかめなくなり、題意の目標が捉えられない(論理的な読解力の不足)。

『読解力を強くする算数練習帳』著:佐藤恒雄
「数学とは、何のために勉強するんだ」と悩んでいる人へ
http://gendai.ismedia.jp/articles/-/37357
112デフォルトの名無しさん:2014/09/11(木) 17:25:16.70 ID:sSttSQlP
自然言語は社会性を表現できないとダメだろう

オートマトンの集団がいて
それぞれが他のオートマトンと自然言語でのみ通信できる
任意のオートマトンは、自分以外のオートマトンの社会的な状態を知っているか推測できる
113デフォルトの名無しさん:2014/09/12(金) 11:01:38.13 ID:E5d9ulLz
子供は指差しで覚える
http://development.kt.fc2.com/point.html
114デフォルトの名無しさん:2014/09/12(金) 13:53:52.51 ID:6MLnTCJT
115片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/10/11(土) 00:07:21.76 ID:bs/sFubV
学習ありの字句解析の上に動的パーサーを乗せれば最強
116デフォルトの名無しさん:2014/10/13(月) 21:41:40.39 ID:8+60HAaA
機械は人間と同じように現実世界を認識したり、また人間と同じように来るべき状況を推論することはできない。
けれども人力で「擬似状況シミュレータ」と「注釈付きコーパス」を充実させれば、試験問題の回答率は向上する。
例えば「マクドナルドのハンバーガーを買う」というフレーム問題は、試験の範囲内ということで人力インプット。
マクドナルドは企業・店屋で、ハンバーガーは商品・食べ物、そして「買う」については、所持金と支払い金額
とお釣りはいくらかという、試験の範囲内だけで連想する。数学や物理に関してはパターンがある程度決まっており、
入試の範囲内にのみ対応させればいい。但し言語解釈が正しくできないと、同じ問題は解けても類似の問題は解けない。
朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

>もし台車を動かしても,天井は落ちてこない.
>もし台車を動かしても,部屋の壁の色はかわらない.
>もし台車を動かしても,部屋の電気は消えない.
>もし台車を動かしても,壁に穴があいたりしない.

考えられる全ての可能性を、人力でインプットする。例えば台車を動かしたときに停電が起これば、部屋の電気は消える。
117デフォルトの名無しさん:2014/10/15(水) 07:18:38.39 ID:beWphTMz
問題に出てきたものだけ考えればいいんじゃないの?
台車が斜面を動く問題で衛星の軌道や壁の色なんてのは考えなくて良い。その上で天井や床は動かないとか、台車が斜面にめり込むことはないとかだけを考えればフレーム問題は抑えられる。
118デフォルトの名無しさん:2014/10/15(水) 11:31:02.58 ID:hrBmyTxM
デネット フレーム問題 でググれ
119デフォルトの名無しさん:2014/10/15(水) 15:22:08.72 ID:beWphTMz
10個も同時に物体が出てこないんだし全ての組み合わせを考えても10!で3628800、十分に時間内に解答可能。
120デフォルトの名無しさん:2014/10/15(水) 16:35:37.73 ID:beWphTMz
トチ狂ってたわ。10!も無い。2^10しか無いから尚更速い。
121デフォルトの名無しさん:2014/10/17(金) 16:43:02.23 ID:724m77ZA
@noricoco さんの最後のお話はいわゆる東ロボ、東大入試を突破する人工知能プロジェクトについての記念講演だったのだが、
中身は数学基礎論をいかに実世界に接地するのか、という極めて意欲的・現実的なお話であった。論理だけでは解けない問題
を経験的に解く。しかも、それは単なるパターンマッチではなく、コンピュータ将棋の初期の開発で評価関数をヒューリスティック
に設計していたように、入試問題に合わせて作り込む、というものである。かといって80年代に逆戻りする、というわけではなく、
「この問題は数学的にどのクラスの問題(たとえば集合論)なのか」「高校数学の範囲内で解を求めようとすると、どうなるか」
といったようなことを記述するのである。
自分も学部生時代は数学基礎論をかじったことがあり、それこそが哲学ではなく言語学、そして自然言語処理へと専門を変えて
いく理由となったのだが、このようなプログラムがその当時あって、自分が参画できるのであれば、哲学の立場のまま哲学を現実
世界に基礎付ける、という方向に挑戦していたかもしれない。東ロボプロジェクト全体に関しては、あまり重要な問題を解いている
わけではないと半ば距離を置いて見ていたが、少なくとも数学に関しては、とても野心的な試みであり、数学の問題が解けるよう
になるだけでも、このプロジェクトは人類にとって大いに意味のある試みなのではなかろうか。
http://d.hatena.ne.jp/mamoruk/20141004/p1
122デフォルトの名無しさん:2014/10/17(金) 21:14:01.02 ID:UIYNCvLu
すっかり聞かなくなったけどとうロボどうなったの
123デフォルトの名無しさん:2014/10/17(金) 23:45:31.75 ID:mnwHFJbg
664 :デフォルトの名無しさん:2009/02/20(金) 20:42:25.00
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。  
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html

>25万2千語を収録

ではその25万2千語全ての単語について、百万冊の書籍をスパコン「京」で形態素解析し、
さらにコンピュータの「誤読」と「理解不能表現」を分析抽出し、これらを「人力で修正」し、
「属性フレーム」と「意味ネットワーク」と「RDFトリプル」を作成というわけにはいきませんか。
コンピュータには何が理解できて何が理解できないのかも、ここではっきりさせられませんか。

 そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109

あるいは現在の技術では、未だにコンピュータの「誤読」と「理解不能表現」が多すぎて無理なのですか。
けれどもそれなら2チャンネラー百万人を動員して、人力でオントロジー作成という手もあると思われますが。
124デフォルトの名無しさん:2014/10/17(金) 23:51:06.28 ID:Lz6GLdVj
>2チャンネラー百万人を動員して、人力でオントロジー作成

一般にコーパスアノテーションは複数の作業者により実施され,異論があるにせよ
アノテーションの一貫性がほぼ唯一の定量的な評価方針となる。このため,
基準の修正はアノテーション従事者全てで共有する必要がある。作業者の多くは
人文系の日雇いもしくは時間単価で働くパート労働者であり,基準の見直しの
たびに動機づけを含めた組織運営が必要になる.
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_95/_pdf
125デフォルトの名無しさん:2014/10/23(木) 13:59:17.26 ID:H9x7O/fU
PAS-NNLM のモデルとしての表現力 SVO に関しては, 本実験では PAS-NNLM の学習後のモデルを用
いた ‘PAS-NNLM comp’ により, ‘PAS-NNLM add’よりも高い相関係数 (0.42) を得た. これは Tsubaki
ら [10] の C-NLM による結果 (0.38) を上回るものである. この C-NLM は, 動詞と目的語のペアのみに着目
して NNLM を学習するモデルである. しかし, 同じくTsubaki ら [10] の CoC-NLM による相関係数 (0.47)
には及ばなかった. CoC-NLM の優れている点は, 一種の語義曖昧性解消の手法を, 動詞-目的語の組み合わせ
の意味構成に取り入れたことである. また, Kartsaklisと Sadrzadeh [7] も, 単語からの意味構成の前に語義
曖昧性の解消を行うことの重要性を示している. 本研究の PAS-NNLM では, 品詞の情報は用いているものの,
その他の明示的な語義曖昧性の解消を行っていない. より文脈に依存した語義曖昧性解消の手法を取り
入れることにより, さらなる性能向上が考えられる.
http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2014/paper.pdf

言語学における語彙意味論の立場からすれば,その名詞の意味構造に記載すべき内容は語を成立させる最低限の要素に
限るというのが基本的な立場であろう.これは本研究の枠組みでいうならば情報抽出システムをソフトウェアと捉えた場合,
システム辞書が持つ基本オブジェクトデータと捉えることが出来る.つまり,評判やその診療所 (インスタンス) に関する人
からみた認識などは,既存のオブジェクトデータに対して動的に加えられた属性項目と考えられる.人の言語表現はまさに発
話者の認識において,抽象的に聞き手と共有するオブジェクトに対して個別の情報を加えることで新たな情報を提供している
と捉えるならば,こうした名詞意味構造の属性の拡張は取り込むべき機能であり,ソフトウェアにおけるオブジェクト指向の
枠組み?6で情報抽出システムを構成していく必要がある.
https://kaigi.org/jsai/webprogram/2014/pdf/679.pdf
126片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/10/23(木) 20:25:59.88 ID:FP/Pp1Ki
【技術】ロボットは東京大学の入試に合格できるか? 「東ロボくん」、猛勉強で私大A判定も [10/23]
http://daily.2ch.net/test/read.cgi/newsplus/1414063059/
127デフォルトの名無しさん:2014/10/29(水) 15:23:53.31 ID:WOXCtObY
翻訳って不可逆変換された後のデータから、別の不可逆変換された後のデータにいきなり変換しようとしてるから困難なんだよね。
いわばjpgからjpg2000にraw画像に戻さずに変換しようとしてる
128デフォルトの名無しさん:2014/10/29(水) 17:53:35.79 ID:TaY3Bs2I
超解像みたいな
129片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/10/29(水) 19:15:45.42 ID:N8JvcROE
読み・書き・聞き取りの最強の日本語コーパス「三位一体」
プロジェクトを開始しました。
ご期待下さい。
130デフォルトの名無しさん:2014/10/29(水) 23:38:27.55 ID:zlK0g2wj
raw画像に戻すってのは、
中間言語式の翻訳のこと?
131デフォルトの名無しさん:2014/10/30(木) 00:55:36.93 ID:iSxCzdRK
1pixごとの完全に元のデータ

自然言語の場合で言うなら、必ずしも言語である必要もないと思う
132デフォルトの名無しさん:2014/10/30(木) 01:56:04.20 ID:jdjv0M6/
鏡に映るものを計る、それがMZの目標である。
133 【東電 74.8 %】 :2014/10/30(木) 12:36:21.88 ID:VubmAqci
>>125
また、そんなことばっか言うて!キミはいい加減にしたまえ。ボクはキミをあまり知らない。もう面倒くさいったらありゃしゃんせ


神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。

http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em


執行猶予終了までまだあるよ。
134デフォルトの名無しさん:2014/10/31(金) 16:05:31.03 ID:0ns/rhdq
【科学】人工知能「東ロボくん」、センター模試英語で平均点超え 全体成績は私大8割と国公立4校でA判定 21年度までの東大合格目標??2ch.net
http://daily.2ch.net/test/read.cgi/newsplus/1414724624/
135デフォルトの名無しさん:2014/11/01(土) 11:21:29.62 ID:m4AuzDYU
えつ!
136デフォルトの名無しさん:2014/11/03(月) 08:11:18.01 ID:tokfpTJi
代ゼミ物理問題のイラスト。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/a/8/a8fbf865.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b63acc4.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b65850a.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b52d74.jpg

@やAは無理でも、Cの図なら「四角い箱」「四角い物体」くらいの大雑把な認識をする。
それは「弁当箱」かもそれないし、「本」かもしれないし、「小包」かもしれない。
次にBの図ろ考えると、点線が途中までになっていて、「何かが入っている箱」と考えられる。
文章では、「板」と「水」を入れて「板は沈める」ということになっている。
けれども「板」といってもそれは物理的に何の役割を果たすのかも考えなければならない。
137デフォルトの名無しさん:2014/11/03(月) 08:35:06.90 ID:gGej6kOp
(1)今年は3パーセント物価が上昇し、来年は5パーセント物価が上昇するという。平均の予想物価上昇率はいくつか。
(2)今年は3パーセント物価が上昇するという人と、5パーセント上昇するという人がいる。平均の予想物価上昇率はいくつか。
<ロボットは東大に入れるか 新井紀子>

「今年は〜」
@ 西暦○年度(現在)2)
A 去年は、来年は、○年前は、○年後は〜(1)
B うるう年だ

「物価が上昇」
@ どの月間に、どの年間に(1)、何%の割合か(1)(2)
A 品目別には〜、○円上昇、○円下落

「〜という人」
@ 〜という名前の人間が居る(人間A、人間B)
A 人間Aは○○と述べた、人間Bは△△と述べた(2)

機械には連想思考は期待できない以上、徹頭徹尾人力でインプットあるのみ。
138デフォルトの名無しさん:2014/11/03(月) 09:22:18.89 ID:tokfpTJi
>公式に当てはめる単純なタイプの問題には対応できますが、図形の性質に着目するような応用タイプの問題にはまだ対応できないようです。

「方べきの定理」という公式にあてはめるだけの問題も、図形がらみだと機械には理解できないらしい。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/d/fd1497d7.jpg

余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/c/0cdeedcc.jpg

図形の性質に着目するような応用タイプの問題は、余計な部分を消して、公式に当てはめる単純なタイプの問題に帰着させること。
設定が複雑になったら、「○本の直線と、○個の円と、○個の三角形と、○箇所の接点と、○箇所の交点」をバラバラに抽出し、しかる後に全ての組み合わせを提示する。
139デフォルトの名無しさん:2014/11/03(月) 11:07:24.52 ID:gGej6kOp
今回も出来の悪かった数列について。

b1 = 1 , bn+1 = bn + 3 → 階差数列 Cn = bn+1 - bn を考える

東ロボは、こんな程度の初歩的な連想ゲームも出来なかった。式の同値変形は東ロボの得意技であり、
bn+1 - bn = 3  と変形できれば簡単ではなかろうか。同様に 3bn+1 = 3bn + 4 → bn+1 = bn + 4/3 
→ bn+1 - bn = 4/3 も可能なはずだ。それから式の同値変形の手順も教え込んでおきたい。
140デフォルトの名無しさん:2014/11/03(月) 11:29:13.15 ID:gGej6kOp
物理の第三問は、「段差を作った容器に浅く水をはる」「斜め方向に一定周期の平面羽を入射させる」の文から、以下のような類題を検索できないだろうか。

図1のような深さが変化する水槽に水を入れ図2のように深さが変わる境界面に対して、45°の方向から斜めに平面波を進行させたところ、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12119401572
141デフォルトの名無しさん:2014/11/03(月) 18:22:59.01 ID:tokfpTJi
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/1/f1f74737.jpg

 ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの
人が生まれて初めて見るものでしょうね。なのに、われわれはそれがそうだと、正し
くわかる。どうしてなのでしょうか。これは認知科学という分野の難問のひとつです。
 だいたい、このイラスト、変なんです。ブルーベリーの直径って1センチ未満ですよ。
だとすると、このケーキ、直径が12センチくらいしかないことになる。そんなの、
おかしいでしょう?(笑)にもかかわらず、その年のセンター入試を受けた受験生たち
は誰一人としてそれを変だと思わず、粛々と問題を解いたんですね。
 ちなみに私の職場で、ケーキにプチトマトがのってるね、と言ったひとがいますね(笑)。
<ロボットは東大に入れるか 新井紀子>

>ケーキにプチトマトがのってるね、

楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。
但しこの図を立体として観察すると、楕円形は円形を現しており、また黒っぽい円形の何かの中心部が白くなっているのは球形と推測される。
142デフォルトの名無しさん:2014/11/03(月) 19:01:37.56 ID:ieVOoQg9
東ロボくんって画像処理系の人ほとんどいないでしょ
143デフォルトの名無しさん:2014/11/03(月) 23:09:51.81 ID:tokfpTJi
初頭幾何は、不要な線を消して、必要な線だけにしないと、定理が使えない。

元の図形
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/a/3aaa1e5f.jpg
単純化して、2QT=QR
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/1/01eaff32.jpg

線分QTと線分QRの関係を求めるのに、どの線が必要で、どの線が不要なのか。
また必要な線が無い場合は、点と点同士を結んだり線分を延長させたりして、補助線を引く。
計算力にモノを言わせて、しらみつぶしに全ての場合を調べつくすというやり方もある。

正九角形があり辺を共有しない三角形はいくつあるか。という問題があり、答えは30らしいです。なぜこうなるのでしょうか?
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10114300645

全ての場合をしらみつぶしに数え上げるアルゴリズムは可能ですか?
144デフォルトの名無しさん:2014/11/04(火) 00:06:26.26 ID:LJyHsHlb
組み合わせ最適化だろ
オーダーくらい自分で考えろよ
145デフォルトの名無しさん:2014/11/04(火) 02:08:02.45 ID:Td6UKxL3
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/5/8/589fbe91.jpg

全滅だった表問題だが、このくらいならエクセル処理できるのではないか。
146デフォルトの名無しさん:2014/11/04(火) 10:46:33.52 ID:Td6UKxL3
イラスト理解は、とりあえず形状と色彩だけを、「遠近法」で大雑把に捉えて推定するくらいの機能を。

>ケーキにプチトマトがのってるね、

ケーキだのクリームだのブルーベリーだのは特定できなくてもいい。まず「形状」は、手書きの文字認識機能
は向上しているのだから、その技術を応用すればいい。また「色彩」は白黒でも遠近法が把握できるように工夫する。
楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。但しこの図を立体
として観察すると、まず何かの土台があって、上部の楕円形は円形を現しており、また黒っぽい円形の何かの
中心部が白くなっているのは球形と推測される。
147デフォルトの名無しさん:2014/11/04(火) 11:14:12.09 ID:Td6UKxL3
>>116
>朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

私の講座のテキストで恐縮ですが、コチラの2問をご覧ください。
一見すると、「お菓子を配る問題」「直方体を積み上げる問題」と別の問題に見えます。
しかし、解いてもらえるとわかりますが、この2問は素因数分解を使って解く、
同じパターンの問題です。つまり類題ってことになりますね。
さらに、(細かい説明は解説に任せますが)2つの問題とも「2以上」という語句が共通しており、
この「2以上」が解法の方針を示してくれる重要な語句だということがわかります。
これより類題とは、問題文の重要語句が共通している問題を指すことがわかります。
したがって、皆さんが類題を認識するためには、問題文の重要ポイントを意識しない
といけないんだっていうことがわかりますね?
http://shibasaki873.blog.fc2.com/blog-entry-74.html
148デフォルトの名無しさん:2014/11/04(火) 11:49:28.30 ID:Td6UKxL3
>日本語の形式表現変換については,物理科目では極めて困難で,

>余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。

そもそも自然言語というのは、単語ひとつとっても『不要な情報』で溢れ返っている。例えば『板』という単語の用途は様々で、
物理学的にみれば「剛体」にもなりうるし「物体」にもなりえるし「障害物」にもなりえる。東大の二次試験などは分野が複数
にまたがっていて一層わかりにくい。自然言語文を題意に合わせた形式表現変換するには、膨大な連想シソーラス網から、
必要な部分だけを切り出すこと。
他の煩雑かつ不要な情報を完全に除外し「重要ポイント」のみを抽出する。入試問題の多くは過去問の焼き直しだが、
表面上の言い回しを変えていたり、別の図柄を用いていたりして、改題して出題される場合が多い。似た問題は出るが
同じ問題は出ない。単純な問題に不要な情報を追加してわざとわかりにくくしているのだ。こういう場合は「類型問題」
の候補をいくつか挙げて、共通事項を抽出するというアルゴリズムが不可欠になってくる。
149デフォルトの名無しさん:2014/11/05(水) 13:11:11.01 ID:TFchYdUt
ていうかどうしたいのかね。
画像処理では物体認識と、座標位置は取得できけど。
150デフォルトの名無しさん:2014/11/06(木) 07:15:21.52 ID:1dD9kBwW
http://blog.livedoor.jp/dg_law/archives/52234923.html

>日本語の形式表現変換については,物理科目では極めて困難で,数学のような半自動化さえ難しい。
>日本語が曖昧すぎるため。たとえば「金属を折り曲げる」や「滑らかな坂」を東ロボくんが自力で理解して,
>シミュレーターに取り込むのは,少なくとも現状では絶対に無理。

こういうのは、物理用の形式表現変換コーパスを用意しておきたい。

>金属を折り曲げる

長方形のABCDがある。金属板は一様で、質量はM。金属板をEFとGHでそれぞれ直角に折り曲げて、
水平な床に置きCDの中点Iから軽い糸でおもりをつるす。おもりの質量がある値より大きいと金属板は倒れてしまう
mはどのような値になるか?
http://okwave.jp/qa/q7197628.html

この類題に、「金属板」=「金属でできた板」とアノテーションをつけておけば、「金属を折り曲げる」にも応用できる。
また金属を折り曲げると、支点とモーメントはどうなるかという連想思考も可能になる。

>滑らかな坂

したがって滑らかな坂を転がる質点は運動の方向が斜面の形状によって変わろうとも力学的エネルギーの保存は成り立っている。
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

全ての文章を完璧に形式表現変換できなくても、過去問の解法パターンからある程度の推論はできる。
入力予測機能を備えた文字変換システムのように、解法予測機能をつける。
151デフォルトの名無しさん:2014/11/06(木) 13:15:54.06 ID:1dD9kBwW
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

>なめらかな面に束縛された質点の運動。

これをどうやってコンピューターに理解させるか、どう形式変換するか。

mv2/2(運動エネルギー) + mgh(位置エネルギー) = 一定、となる物理現象とでも定義しようか。
滑らかな面は不定曲線でもいいということで。これなら風が吹いたり電磁気が出たりで別のエネルギー加減
が生じない限り、公式当てはめで楽に解答できる。
同じ内容の物理現象を、別の言葉で言い換えたり、別のイラスト図で書き換えたりして、形式変換コーパスを増やす。
152デフォルトの名無しさん:2014/11/06(木) 14:50:01.57 ID:1dD9kBwW
数学TAの第5問「104を素因数分解すると〜」ができなかったのは何故かを数学担当者に聞いてみた。
いくら東ロボが語学オンチでも、これはないだろう、と。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/0/301029f2.jpg

前文の「104以下の自然数で,104と互いに素である自然数の個数を求めよう。」に目がくらんで解答できなかったらしい。
余計なノイズ(最初の問いでは)が判断を狂わせたのだ。何がノイズかは、文章の一部を何百回もランダムに抜き出して吟味するしかない。
長文は一文一文を分解して(省略語を補い、かつ「それ」「これ」などの代名詞の内容は明確にした上で)、
例えば一つの大問に10の文章があったら、その中からランダムに一つ(10通り)、ランダムに2つ(10×9÷2=45通り)、
ランダムに3つ(10・9・8÷3・2)・・・というふうに挙げてみる。また一つの文を文節に区切ったり、短い文に書き換えたり、
省略語を補ったり、ランダムにいくつかの文節を切り取ってみたりして、小問ごとに必要な要素だけを抽出する。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/8/f/8f23e42b.jpg

数列もからっきしだった。これの最初の問いは、ある条件での等比数列の一般項を求めるというごく初歩的な問い。

いったんノイズを消去して、a2 = 24 , a5 = 192 から r^3 = 8
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/5/6/56b247f8.jpg
あとから復活させて、公比は実数だから r = 2 よって
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b927d8.jpg
公比=2、かつ a2 = 24 より 初項a1 = 12 、よって数列{an}の一般項は an = 12(2)^(n-1)
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/c/3/c3506aa2.jpg

あとは東ロボくんお得意の「同値変形」で楽勝のはず。
153デフォルトの名無しさん:2014/11/06(木) 16:11:34.55 ID:1dD9kBwW
>ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの人が生まれて初めて見るものでしょうね。
>なのに、われわれはそれがそうだと、正しくわかる。どうしてなのでしょうか。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/9/090ff180.jpg

こうして「ある部分」を削除してしまえば、「何かと何かが交互に楕円形に並んでいる」くらいの認識はできるはずだ。

どのように削除するかは、「境界線」のみに着目して切り分けで、あとはランダムに何万通りも抽出する。
154デフォルトの名無しさん:2014/11/06(木) 18:54:37.32 ID:yUh2UtPW
ここを頻繁に更新している人って同一人物なの?
155デフォルトの名無しさん:2014/11/06(木) 20:49:20.00 ID:Z+6n6avI
>>153
画像処理を最低限知ってから言えよ
ちんぷんかんぷんだわ
156デフォルトの名無しさん:2014/11/07(金) 02:56:19.25 ID:zRPOEUiC
>>155
そういう君は、画像処理のプロなの?
157デフォルトの名無しさん:2014/11/07(金) 20:12:31.00 ID:LCGb7X+6
囲碁の碁石は、将棋の駒とは違い、一つ一つに能力の差は無い。状況によって要石になったり廃石になったりする。
これは企業が社員ひとりひとりの評価をどうするかという問題と似ている。どの社員が必要で、どの社員がお荷物なのか。
ある時には存分の活躍をしていた社員も、時代が変わればお荷物になったり、逆に新人のときにお荷物だった社員が、
3年目で頭角を現してくる場合もありうる。碁石の評価は社員の社内評価と同じと考えられないだろうか。

●●●
●●●
●●●

だが少なくとも上の図の真ん中の黒石は、役に立たないどころか完全な害悪であろう。会社で言えば「懲戒免職」に値する。
こんな社員ばかりを抱えている企業に、未来があるようには思えない。囲碁における「評価関数」も、
○手目現在における人事評価ということにしてはどうか。
158デフォルトの名無しさん:2014/11/08(土) 04:53:29.67 ID:WHpgboF2
>>156
プロだけど?
でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね
159片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/11/08(土) 05:41:32.70 ID:ebCh2W7f
【確率問題の考え方】
1.試行や事象を表す文章から、すべての未知数の範囲を決定し、
それぞれの未知数の範囲を区間の集合として表す(Boost.Icl参照)。
2.特定の試行や事象の未知数の組合せを計算し、全試行・全事象の組合せに対する割合を求めたものが確率である。
160片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/11/08(土) 06:33:51.13 ID:ebCh2W7f
※「コインには裏と表がある」「袋にお金を入れると袋の中のお金が増える」
といった常識を理解しておく必要がある。
※試行には順序がある。
161デフォルトの名無しさん:2014/11/08(土) 09:53:46.74 ID:DB2yxOk0
>>158
>プロだけど?
>でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね

では先生が>言う「最低限度の知識」とは何?
162デフォルトの名無しさん:2014/11/08(土) 09:56:43.31 ID:6X6f98tO
>>158は素人なのは、書き込みからして明らか。プロなら間違いの理由を理路整然と述べる。
163デフォルトの名無しさん:2014/11/08(土) 09:58:47.70 ID:6X6f98tO
>>161
「プロのあなたに教わりたい」なんて言ったら逆切れするだろうねw
164デフォルトの名無しさん:2014/11/08(土) 10:04:27.32 ID:DB2yxOk0
更に言えば、その道で高給稼いでる画像処理のプロが、こんな2ちゃんねるの名無しの
ゴミカキコにいちいち反応する理由があるのか。

踊るアホウに見るアホウwwww
165デフォルトの名無しさん:2014/11/08(土) 10:10:13.37 ID:6X6f98tO
優秀なプロの画像処理エンジニアの君のレスを、早く読みたいなぁw
166デフォルトの名無しさん:2014/11/08(土) 11:13:11.28 ID:V4kxl14a
公務員試験の先生がなにをほざいているの?
167デフォルトの名無しさん:2014/11/09(日) 00:34:13.35 ID:iKOy/805
>>162
しょうがないなぁ
マッチング性能トップはずっとconvolution newralnetだよ
画像処理の機械学習について調べたらすぐ出てくることだぜ
168デフォルトの名無しさん:2014/11/09(日) 00:36:05.09 ID:iKOy/805
東ロボくんの講演で参加者がアホなことほざいてるのは画像処理の人間がほぼいないからってだけだ
お互いにできるこできないことだけでも相談してみたらいいのにね
だから情報工学は程度が低いって言われるんだよ
169デフォルトの名無しさん:2014/11/09(日) 09:28:59.82 ID:GJ+B7IxW
せめて画像認識とかコンピュータビジョンとか言ってくれ
170デフォルトの名無しさん:2014/11/09(日) 12:07:09.66 ID:iKOy/805
アハハハw
171デフォルトの名無しさん:2014/11/09(日) 18:10:14.84 ID:uoUT28t9
>>168
>東ロボくんの講演で参加者がアホなことほざいてるのは

だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかっているってことさ!!

優秀なエンジニアの君の話を、もっと聞きたいなぁ。
172デフォルトの名無しさん:2014/11/09(日) 19:16:53.62 ID:wHnpXD4s
>>168
お前が無知だということはよくわかった。もう来ないで欲しい。
173デフォルトの名無しさん:2014/11/11(火) 07:12:12.70 ID:0bxYCDe4
「各○個ずつあり」「左から1列に並べる」「〜の順に並んでいる」「繰り返し行う」「次の操作を繰り返し行う」「無作為に〜を選び」
「場所を入れ替える」、そのままを当てはめればいいだけではないのか。

<2014年代ゼミ東大プレ文系数学第二問>
 白球,黒球,赤球,青球が各1個ずつあり,これらを左から1列に並べる。最初,4個の球は左から「白球,黒球,赤球,青球」
の順に並んでいる。これらの球に,次の操作(※)を繰り返し行う。
(※)4個の球のうちから無作為に2個の球を選び,これらの並んでいる場所を入れ替える
<以下略>

【問】A,B,Cの3つの箱と,赤,白,青,黄の玉が各3個ずつある。
http://www.nipec.nein.ed.jp/kk/b14/h22/pdf/16nagai.pdf

(1)順序をつけて,左から 1 列に並べる場合をすべてあげよ.
http://157.7.137.167/text/mat_a_s2/mat_a_s2_05.pdf

http://pws.prserv.net/math/mathpuz.html
3人は、前からA、B、Cの順に並んでいます。

いま、初めに頂点Aに白玉を1個、頂点Cに赤玉を1個置き次の操作を繰り返し行う。
http://www.riruraru.com/cfv21/math/kom11sA4.htm

例題 13 右の表は,206 個の卵のうちから無作為に35個を選び,その重さを調べたものである。
http://www.insatell.co.jp/CN/ikou/chugaku/pdf/chumath_3.pdf

池の左側にアマガエルが、右側にヒキガエルが3匹ずつ並んでいる。このカエルのいる場所をそっくり入れ替えてほしい。
http://r27.jp/quiz/toads-and-frogs/
174デフォルトの名無しさん:2014/11/12(水) 11:50:37.55 ID:LPSYNXn+
中間言語方式はなぜ失敗したのか
175デフォルトの名無しさん:2014/11/12(水) 14:03:23.82 ID:dsokmnVj
機械翻訳における枢軸(pivot)の話か?
そのような中間言語を作ることが事実上不可能だから。以上。
176デフォルトの名無しさん:2014/11/12(水) 15:33:24.76 ID:LPSYNXn+
なぜ不可能だったのか
177デフォルトの名無しさん:2014/11/12(水) 22:23:18.43 ID:yWDn898h
 検索キーワードを選んだら「実数」「満たす」「範囲」とか「a」「x」とか、ほとんど変わらないです。
でも、解き方も答えも全然違う。数学の問題は、統計的手法ではどうにもならなさそうです。
1)xを実数とする。つねにx^2 + ax + 4 ≧ 0 であるとき、aの範囲を求めよ。
2)x,y を実数とする、a = x + y とする。つねにx^2 + y^2 = 1 であるとき、aの範囲を求めよ。
<ロボットは東大に入れるか 新井紀子>

>つねにx^2 + ax + 4 ≧ 0 であるとき、
>つねにx^2 + y^2 = 1 であるとき、

前者は「2次不等式」、後者は「円の方程式」。それくらいの違いは区別してもらいたい。
178デフォルトの名無しさん:2014/11/12(水) 22:50:00.93 ID:dsokmnVj
>>176
日本語の「首」が、ネックの意味だったりヘッドの意味だったりするとか
そういった翻訳上の困難を全部、しかもあらゆる言語間におけるそういった
差異を全部中間言語が吸収しなければならない。あるいは、そうでなければ
各言語間のそういった問題を、中間言語(への・からの)変換部分が抱え込む
必要があって、結局、n 個の言語に対して n × n 個の翻訳エンジンを作るのと
変わらない難しさということになってしまう。
179デフォルトの名無しさん:2014/11/13(木) 00:33:08.26 ID:EzUPhDs/
中間言語の候補としては、数学とか物理とかが良いと思う。「東ロボ」プロジェクトに期待したい。

>つねにx^2 + y^2 = 1 であるとき、

x^2が1/x(x≠0)だったら話は違ってくるだろう。また高校数学で二次方程式は解けるが三次方程式は解けない。
180デフォルトの名無しさん:2014/11/13(木) 02:08:12.41 ID:EzUPhDs/
類似性に基づく推論は,人間の強力な問題解決方略の 1つである.我々は
新奇な問題に遭遇した時,自分自身が過去に経験した問題や既存の例と
いった「事例」から似たものを参照し,それを問題解決に利用することが
多い.そのため,様々な課題を用いて,人間の類似性判断や問題解決にお
ける思考メカニズムを理解する認知心理学的研究や,類似性に基づく推論
を要素技術として問題解決や問題解決支援を行う計算機システムを構築す
る知識工学的研究が展開されてきた.
類似性に基づく推論においては,現在直面している問題と類似する過去
の事例を利用することから,類似性の判断が問題解決における重要なキー
となる.類似性は,問題と事例との間の同一の要素(共通点),および,
異なる要素(差異)に基づいて評価される.一般に,現在の問題と完全に
一致する過去の事例が利用できることは稀であるため,通常は問題と事例
との差異に基づき,事例を修正する必要がある.
しかし,差異は単に埋められなければならないだけのものではなく,差
異に積極的な意味が生じる場合も存在する.その一例が,数学学習におけ
る問題解決である.数学学習には,教示された問題(例題)に基づいて別
の問題(類題)を解く類題解決や,学習者自身が新しい問題を作り出す作
問といった問題解決がある.数学における作問については,問題を作るこ
とは問題を解くことと同様に重要な活動であることが,数学者や数学教育
者によって指摘されている.

類似性に基づく推論を用いた知的問題解決支援の検討と実現
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/8249/1/kojima_thesis.pdf
181デフォルトの名無しさん:2014/11/13(木) 03:28:10.49 ID:mINVD8Cg
中間言語やインターフェースは、卸しと同じ

メーカーが10社、小売店が20社あるとき、
卸しが無いと、10*20=200 通りのコネクションが必要だが、

卸しを中間に介すると、メーカー・卸し間が10通り、
小売店・卸し間が20通りの合計、10+20=30 通り

つまり、掛け算を足し算にすることで、
組み合わせ爆発を防いで、コネクションの手間をへらす
182デフォルトの名無しさん:2014/11/13(木) 07:54:59.39 ID:EnlSRtmw
>>179
一般的解法は教えられないが数学Uで因数定理を使った解き方は教えられる
183デフォルトの名無しさん:2014/11/13(木) 10:17:56.29 ID:7ZjHj42h
>>179
単に言語が表現できる世界を極端に制限するだけじゃないか。
そんなことを許せばいくらでも簡単になることは当然わかっている。

そのかわりどんな短篇小説の一本も訳せないような使えないゴミができるだけだ。
184デフォルトの名無しさん:2014/11/13(木) 14:34:17.79 ID:ydn9QRw8
>>183
東ロボは国語もやってるが?
185デフォルトの名無しさん:2014/11/13(木) 15:00:26.25 ID:7ZjHj42h
機械翻訳における枢軸(pivot)の話とは違う「中間言語」のことを言いたいのか?
だったら知らんわ。
186デフォルトの名無しさん:2014/11/13(木) 23:46:06.97 ID:G+XRMicG
東ロボの話してるやつは体系的に勉強して出直してこい
187デフォルトの名無しさん:2014/11/14(金) 02:28:48.58 ID:cE0anVKk
>>186
そういう君は、自然言語処理学のプロなの?
188デフォルトの名無しさん:2014/11/14(金) 10:28:40.79 ID:0NdzO4Gj
プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか?
人工知能云々以前に、バカだから、か。
189デフォルトの名無しさん:2014/11/14(金) 10:55:08.96 ID:NoejJarl
プロといいたいアマチュアな方が
190デフォルトの名無しさん:2014/11/14(金) 10:59:07.21 ID:0NdzO4Gj
東ロボの話してるやつはどう見てもアマチュア以前だがな
191デフォルトの名無しさん:2014/11/14(金) 10:59:35.20 ID:NoejJarl
アマチュア以前ってありですか?
192デフォルトの名無しさん:2014/11/14(金) 11:05:09.41 ID:/Gbyfjip
ここにプロ以降()が居るとは思えん。
193デフォルトの名無しさん:2014/11/14(金) 11:11:46.80 ID:NoejJarl
それっぽい方がたまに降臨されることが
194デフォルトの名無しさん:2014/11/14(金) 16:47:02.37 ID:cE0anVKk
>>188
>プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか?

レスありがとう。それが自然言語処理学のプロたる君の意見なんだね。

だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかってるってことさ!
195デフォルトの名無しさん:2014/11/14(金) 17:15:16.64 ID:127iWseV
東ロボはマーケティング・話題作りのセンスがズバ抜けている
エスキモーに氷を売れるレベル
196デフォルトの名無しさん:2014/11/14(金) 20:26:15.60 ID:E47YIEif
人工知能学会の親戚でしょ
無人気すぎて細々とやってたとこで昔からアマチュアの参加を奨励してたよね
197デフォルトの名無しさん:2014/11/16(日) 15:42:31.45 ID:jrq2Dts2
( 1) オブジェクト指向的アプローチによる係り受け/語義曖昧性解決/照応解析/
述語項解析システム
伊藤 英紀 ((株)富士通研究所)
係り受け解析、語義曖昧性解決、照応解析、および述語項解析の4つのタスクに
対する新たなアプローチを提案する。第一に、これら4つの処理を、逐次的(パイ
プライン的)にでなく同時に行う。これにより、逐次的に行うよりも解析精度が
向上することが期待される。第二に、文中の名詞をオブジェクトに対応させ、
それらオブジェクトの属性とその変化をトラッキングする。形容詞は一般にオブ
ジェクトの属性を、動詞はそれらオブジェクト属性の変化を表す、と考える。
これにより、文脈の情報を解析結果に反映させることが可能となる。このような
意味理解のモデルは、人間が脳で行っているであろう理解プロセスに近く、自然
言語理解には有望なアプローチである。このアイデアに基づいたシステムを実装
し、例文に対して動作を確認した。
( 2) uLSIF を用いた事例への重み付けによる語彙曖昧性解消の領域適応
新納 浩幸, 菊池 裕紀, 佐々木 稔, 古宮 嘉那子 (茨城大学工学部情報工学科)
語彙曖昧性解消の領域適応に対して共変量シフト下の学習を試みる。確率密度比
の算出に uLSIF を用いる。このとき通常のガウスカーネルではなく線形カーネ
ルを利用する、また重み付き学習には、通常、最大エントロピー法を用いるが、
ここでは SVM を利用する。また確率密度比が極端に小さい、あるいは大きい事
例のみに重みを与える方法も試す。
http://www.ipsj.or.jp/kenkyukai/event/nl218.html
198デフォルトの名無しさん:2014/11/18(火) 04:28:56.07 ID:3dChaymz
長文コピペする奴がいるせいで糞スレに
199デフォルトの名無しさん:2014/11/18(火) 14:10:53.64 ID:7YVftxrd
人工無脳学会はないの?
200sage:2014/11/18(火) 20:56:42.46 ID:jieDrr0b
>>198
本当だよね。このスレは本来需要が高いはずなんだけど、スパム投稿で荒らされてる気がする。
201デフォルトの名無しさん:2014/11/18(火) 21:19:15.86 ID:f2DqKBZs
自然言語処理の需要ってあんの?
202デフォルトの名無しさん:2014/11/18(火) 21:44:26.22 ID:EImKA09P
>>200
削除願い出したら?
203sage:2014/11/19(水) 01:09:50.33 ID:hLraT9DN
削除して再出発しても、自分の意見のない荒らし君が来るとまた同じだからなぁ。
204デフォルトの名無しさん:2014/11/19(水) 05:37:54.13 ID:SWof/ihh
じゃあ聞くけど東大ロボットて問題どう読み込んでるの
世界史なんか図をを認識する必要があるのに
まさか手作業で、コンピュータに理解できるように
入力してるじゃあないだろうなw
205デフォルトの名無しさん:2014/11/19(水) 06:50:11.76 ID:CbmB6PIS
長文禁止とかいうルール無いからなぁ…荒らしとは判断し辛い。
長文投げる人がコテつけてくれたらいいんじゃないかな?読みたい人は読めて長文嫌いな人は黙ってNGできるように。
206デフォルトの名無しさん:2014/11/20(木) 08:59:42.01 ID:AVgM9bDZ
でも画像処理スレが他にあるのにここで変な話されてもね
207デフォルトの名無しさん:2014/11/21(金) 19:28:46.00 ID:u/qmfXxQ
>>206
画像が東ロボの本質というわけではないよね。
208デフォルトの名無しさん:2014/11/21(金) 21:08:35.82 ID:u7zfQT1D
209デフォルトの名無しさん:2014/11/21(金) 22:00:40.78 ID:o0Qb8YAB
>>208
もしかして>>153を投稿された方でしょうか。でしたら質問があります。

現在の画像処理技術で、「不要な部分を消して、必要な部分だけ取り出して認識」は可能ですか?
また>>153の画像から、「何かと何かが交互に楕円形に並んでいる」と認識させることは可能ですか?
それから>>136>>143のように、「認識に必要な輪郭だけを取り出す」ことは可能ですか?
210デフォルトの名無しさん:2014/11/21(金) 22:33:18.98 ID:u7zfQT1D
211デフォルトの名無しさん:2014/11/22(土) 01:13:12.25 ID:AHB+ph+z
亀レス。

>>137
文章題は、「風が吹けば桶屋が儲かる」方式の連想モードで何とかなるかも。機械には
「なぜそうなるか」の論理思考は無理だが、試験問題の多くはそういう能力を要求していない。
212デフォルトの名無しさん:2014/11/22(土) 01:16:42.03 ID:g4vKpQIM
何言ってんだ?
213デフォルトの名無しさん:2014/11/22(土) 14:09:13.78 ID:6/H2UDnl
エラー分析まとめ
<誤り 200事例 分析結果>
@正解を支持する推論事例が得られていても誤った
? 従来の知識表現で?適切でない推論事例が適用されてしまうのではないか?
→ 大部分を占めている.@事象間関係知識?文脈化
A正解を支持する推論事例が得られなかった
? 2億もの推論事例をもってしても得られない → 類似した事例が在るが適用できない
? より大規模にすれ?解決する問題なのか? → そういった問題?少ない
http://www.cl.ecei.tohoku.ac.jp/~jun-s/publications/nlp2014_slides.pdf
214デフォルトの名無しさん:2014/11/22(土) 16:10:30.29 ID:6qlI/h48
人口知能
詐欺集団の合言葉
役人の受けがいい、人口知能関連で科研費が出やすい
何時までも詐欺行為がとまらない
215デフォルトの名無しさん:2014/11/22(土) 19:26:32.72 ID:ueFBqDyb
「人口知能」じゃ予算は出ないと思うけど
216デフォルトの名無しさん:2014/11/22(土) 22:49:14.76 ID:o5aDMJLX
いかにも僻み根性だけで生きている無能らしい誤字だな
217デフォルトの名無しさん:2014/11/23(日) 02:01:52.03 ID:PwhPUgLb
>>124
>作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,

「 2チャンネラー百万人 」ってのも、当たらずしも遠からずだな。
218デフォルトの名無しさん:2014/11/23(日) 02:42:03.48 ID:PwhPUgLb
新井紀子氏「これは面白い結果。"含意関係認識は人間には易しく機械には難しい"と我々人工
知能/自然言語処理の学者は考えているが、本当にすべての人間は含意関係認識を行えるのだろうか」
219デフォルトの名無しさん:2014/11/23(日) 03:50:57.22 ID:EIkF2ojA
情報工学の連中はなぜ自分らのやってることをサイエンスだと思ってるんだ?
220デフォルトの名無しさん:2014/11/23(日) 03:57:22.23 ID:K4bM7kRY
確かにどっちかというと数学に近い
221デフォルトの名無しさん:2014/11/23(日) 04:24:52.15 ID:EIkF2ojA
数学ならサイエンスだろ
アホか
222デフォルトの名無しさん:2014/11/23(日) 10:31:00.56 ID:K4bM7kRY
もうしわけないが数学はサイエンス=自然科学ではないね
223デフォルトの名無しさん:2014/11/23(日) 10:43:58.95 ID:heOpQ8vp
お前の中ではな。
224デフォルトの名無しさん:2014/11/23(日) 10:52:01.52 ID:U8weQpWK
工学はエンジニアリングだしな。
こういったごく基本的な語の解釈すら怪しい奴が何を批判しようとしても自爆するのは当然w
225 ◆QZaw55cn4c :2014/11/23(日) 10:56:15.70 ID:K4bM7kRY
え?数学が自然科学ではない、というのは当たり前の話じゃなかったの?
226デフォルトの名無しさん:2014/11/23(日) 15:07:14.96 ID:z0t1kbZ2
数学が自然科学じゃなきゃ何に分類されるって言うんだそもそもスレチだが
227デフォルトの名無しさん:2014/11/23(日) 15:13:23.98 ID:K4bM7kRY
228デフォルトの名無しさん:2014/11/23(日) 18:57:03.46 ID:PERA2nvu
51. 意味素性 つづき ?出来事および動作、作用の領域:PRC ?ACT(動作、行為) ?EVE(イベント、出来事)
?APO(予定に従った行動: ex 銀行が9時から始まる) ?RES(結果 ex 災害) ?PRO(結果、制作物 ex パンを焼く)
?PHE(自然現象の結果できるもの ex 氷が張る) ?NAT(自然物、現象 ex 台風、太陽) ?PLA(植物) ?GAS(気体 ex 霧、息)
?ELM(五感では捉えられない性質 ex たんぱく質、神 経) ?POT(身体部位 potency ex 足、肩、肺、胃腸)
52. 意味素性 つづき ?抽象性の領域:ABS ?Price(収入、価格) ?Measure(身長、体重) ?Information(情報、身長、小説、音楽、批評、住所)
?Quantity(重量、面積) ?Social bonds(格差、関係) ?Grade(身分、評価、規模) ?Form (評価される属性 ex 味、形)
?Attribute(程度で計るもの ex 非常識、進歩、塩) ?Reciprocity(相性) ?Personality(意地、性格) ?Mind (勘、神経)
?Manner(能力、性向など ex 料理、詰め、発表、運転、色 使い、人使い)
53. 意味素性 つづき ?抽象性の領域:ABS ?Method(方法、やり方) ?Objective-value(値 ex 赤、四角) ?Sensational-value(甘い、辛い)
?Evaluation(評価 ex 台所が苦しい、財政、舌) ?Currency(価格 ex 100ドル、1000円) ?Duration(期間 ex 3年) ?Distance (距離 ex 3km)
?Item(数を表す、ex 3人、1個) ?Ratio(割合, ex 30%) ?Quantity(量 ex 30kg) ?State(状態 ex安定、幸福、不幸、静か、可能、頑固)
54. 意味素性 つづき ?抽象性の領域:ABS ?Role(役職名) ?Relational-term(親族、交友関係) ?Direction(東西南北左右上下前後)
?Phase(時間的、位置的順序) ?Reference-point(基準点からの相対 ex 逆、以上) ?Norm(規則、法則、法律、公式)
?Subfield(学問、芸術、スポーツなどの分野) ?Inclination(心理的傾向 ex 興味、馴染み) ?Appearance(外見 ex印象、態度、形跡)
?Unit(単位) ?Time-point(時点) ?Time(出来事の順序関係、抽象的時間 ex 将来)
http://www.slideshare.net/hirsoshnakagawa3/grammar-39910952
229デフォルトの名無しさん:2014/11/23(日) 18:57:20.44 ID:yTKWpXRp
役に立てばどっちでもいいよ
230デフォルトの名無しさん:2014/11/23(日) 19:14:32.75 ID:uAltGaNh
整数は神が作ったから整数論は自然科学
それ以外は人間がつくったkら形式科学
231デフォルトの名無しさん:2014/11/23(日) 19:22:23.28 ID:PERA2nvu
グーグルが開発を進めている、写真を「自動的に説明する」技術
http://wired.jp/2014/11/20/google-image-recognition/
自然言語処理に新風を巻き起こしたWord2Vecとは何か
http://business.nikkeibp.co.jp/article/bigdata/20141110/273649/
述語項構造を意識した名詞の意味構造アノテーションのための名詞意味構造の検討
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf

意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ?      連語,外の関係,補語相当
対象類 ?      経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ?    使役,原因,動作主,使役者,手段
条件周辺類 ?   限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
232デフォルトの名無しさん:2014/11/23(日) 19:26:53.14 ID:PmCQRqdR
>>228
>>231
ならば今こそ、そうした「意味役割」を付与したアノテーションコーパスを作成すべきだ。
それこそ 「 2チャンネラー百万人 」を動員すれば何とかなるはずた。
233デフォルトの名無しさん:2014/11/23(日) 19:34:46.40 ID:U8weQpWK
2ちゃんねらーなんか動員したら、ゴミの山が出来上がるだけ。
徴兵とか徴農とかがたいしてうまくいくシステムじゃないのと同じ。
234デフォルトの名無しさん:2014/11/23(日) 21:41:51.89 ID:PmCQRqdR
でも、アノテーションコーパスは、人手でやるしかないんでしょ。
235デフォルトの名無しさん:2014/11/24(月) 03:15:43.74 ID:wqHflsYn
無意味なコピペするやつやめてくんない?
236デフォルトの名無しさん:2014/11/24(月) 11:35:30.53 ID:rXGvP499
>>228とかホント迷惑だよね。お前の意見はないの?という。
237デフォルトの名無しさん:2014/11/24(月) 23:07:25.90 ID:PS8Utgm4
>>124
>作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,

43歳ニートの俺でも雇ってくれるかな・・・
238デフォルトの名無しさん:2014/11/25(火) 09:26:09.87 ID:aL15dD2y
数学では,ある問題を解くために,その問題を別の問題に翻訳して,もとの問題ではなく
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問
題を解くために,B という問題が解ければ,その解から A の解も得られることが判って
いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような
問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の
例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A
よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい
かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう.
多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的
な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い
やすい,という現象の現われと言えるでしょう.
もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ
れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で
ある,というような言い方をすることもあります.
一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う
例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し
てみることにしましょう.
http://kurt.scitec.kobe-u.ac.jp/~fuchino/chubu/method-math-WS06.pdf
239デフォルトの名無しさん:2014/11/25(火) 12:38:38.21 ID:7PX75+Zb
無意味なコピペ迷惑だからやめてくんない?
240デフォルトの名無しさん:2014/11/25(火) 12:48:45.94 ID:jd8KQlKm
反応する馬鹿も消えろよww
241デフォルトの名無しさん:2014/11/25(火) 12:50:18.42 ID:7PX75+Zb
叩かないと消えないでしょ
242デフォルトの名無しさん:2014/11/25(火) 13:21:08.54 ID:jd8KQlKm
tech:プログラム技術[重要削除]
http://qb5.2ch.net/test/read.cgi/saku2ch/1273146924/
243デフォルトの名無しさん:2014/11/25(火) 14:01:43.88 ID:aL15dD2y
コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り
まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、
全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト
にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、
それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の
事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)
程度が現実的なところではないかと思う。
それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞
くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、
という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人
に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい
コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。
コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、
残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、
助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者
たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例
から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、
というトレーニングもあってよいと思う。
http://d.hatena.ne.jp/mamoruk/20140902/p1
244デフォルトの名無しさん:2014/11/25(火) 14:04:53.12 ID:jd8KQlKm
コピペうぜぇ。

誰か削除願い出せや。
245デフォルトの名無しさん:2014/11/25(火) 14:29:27.54 ID:aL15dD2y
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだ
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、
ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム
レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら
すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので
(自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140902/p1
246デフォルトの名無しさん:2014/11/26(水) 10:03:34.88 ID:NpjnEUfO
国や自治体は、地球儀で表現できる。物体・流体とその運動は、シミュレーターで表現できる。
人物とその行動はオブジェクトで表現できる。けれども「民主主義」とかの抽象概念は表現できず、
せいぜい共起関係を調べるのみ。例えば朝鮮民主主義人民共和国だって「民主主義」ということで、
北朝鮮=民主主義国家なんて理屈も成り立つ。しかしこれは一般的なイメージとはかけ離れている。
従って抽象概念を一般的なイメージに帰着させるためには、いくつかの具体物を結びつけるしかない。

「世間」とは何か
http://www.pat.hi-ho.ne.jp/nobu-nisi/kokugo/seken.htm

「世間」とは・・・近所のおばさん、警察、新聞、学校、勤め先の会社、知り合い・・・・
247デフォルトの名無しさん:2014/11/27(木) 17:46:09.92 ID:+o9Dshrb
英語の論文読むのが苦痛でたまらない
はやく翻訳装置つくってくれ
248デフォルトの名無しさん:2014/11/28(金) 17:31:36.07 ID:7V+kfZOs
対話の学習ってどうやるの?
249デフォルトの名無しさん:2014/11/28(金) 21:08:06.67 ID:utFPiG0+
第二に,3 次元オブジェクトの中には複数の物体から構成されるオブジェクトがある(たとえば,図 6 は「花」と「鉢」
から成る一つのオブジェクトである).今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクト
を一つ一つの物体に分解できたとしても,機械にとって,それが常識に基づいた構成であるか,常識から外れた
構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf
250デフォルトの名無しさん:2014/12/01(月) 17:26:06.50 ID:7r1s3h7c
目障りなコピペ野郎が
251デフォルトの名無しさん:2014/12/02(火) 19:50:43.04 ID:OPiibqqe
東ロボくん センター模試2014

英語………95
国語………69
世界史B… 52
日本史B… 44
数学TA… 40
数学UB… 55
物理………31

7科目合計…386/900

漢文は全問ノーマーク
世界史Bは2問ノーマーク
日本史Bは4問ノーマーク

数学じゃないんだから
分からない問題はランダムにマークしろよ…
252デフォルトの名無しさん:2014/12/02(火) 19:51:56.20 ID:OPiibqqe
漢文・世界史B・日本史B
ノーマークの問題をすべてランダムにマークしてたら
49.6%の確率で14点以上アップ

つまり49.6%の確率で7科目合計が400点に届いたことになる
253デフォルトの名無しさん:2014/12/02(火) 19:53:47.76 ID:OPiibqqe
東ロボくん 英語 センター模試2014

発音・アクセント問題…パーフェクト(配点14)

未知語-語意推測問題…パーフェクト(配点8)

グラフ・図表問題…得点率75%(配点20)

語句整序完成問題…得点率67%(配点12)

意見要旨把握問題…得点率67%(配点18)

文法・語法・語彙問題…得点率60%(配点20)

会話文完成問題…得点率33%(配点12)

文脈に合わない文-指摘問題…得点率33%(配点15)

実用文書読解問題…得点率33%(配点15)

読解問題(論説文)…得点率33%(配点36)

読解問題(情報理解)…全滅(配点30)
254デフォルトの名無しさん:2014/12/02(火) 19:54:56.87 ID:OPiibqqe
東ロボくん 国語(現代文) センター模試2014

漢字…パーフェクト(配点10)

語句の意味…得点率67%(配点9)

評論読解…得点率50%(配点40)

小説読解…得点率32%(配点41)
255デフォルトの名無しさん:2014/12/02(火) 19:55:07.53 ID:iCHrVmBA
東ロボくんの話しないでくれない?
256デフォルトの名無しさん:2014/12/02(火) 21:51:00.22 ID:E8W1d5Nr
>>255
お前実は、自分で長文コピペ貼っておいて、自作自演してる張本人だろ?
257デフォルトの名無しさん:2014/12/03(水) 20:07:38.80 ID:+0WWtRs0
>>253
未知語の推測問題、推測するまでもなく意味を知ってたんじゃないのこれ
258デフォルトの名無しさん:2014/12/03(水) 21:02:56.05 ID:14+GtqTY
文章が入力されたら、隠れマルコフモデルがたくさん存在する集合に射影するようなことできないかなぁ
259デフォルトの名無しさん:2014/12/03(水) 22:32:37.61 ID:H1Y0sahg
NAISTの自動音声翻訳
2013年、初級通訳者レベルに到達

ドコモが機械翻訳の会社「みらい翻訳」を設立
機械翻訳の精度は現在TOEIC 600点レベル
2016年までにTOEIC 700点レベル、2019年までにTOEIC 800点レベルを目指す

TOEIC 600点レベルなら、センター英語はもっと点とれるんじゃないの?

東ロボ英語チームはみらい翻訳と組めばいいかもね
260デフォルトの名無しさん:2014/12/04(木) 11:13:59.73 ID:h+gvphcs
word2vecはギリギリまで次元を減らして意味ありげな指標を作っただけという可能性
261デフォルトの名無しさん:2014/12/04(木) 16:22:22.74 ID:NIw8k+Ja
翻訳はしょせん入出力が一対一レベルじゃろ 文脈をどこまで見てるかもあやしい
262デフォルトの名無しさん:2014/12/04(木) 18:17:46.95 ID:5hTqY9uU
東ロボくん 東大模試2014

理系数学…36/120(偏差値55.7)
文系数学…32/80(偏差値54.1)
263デフォルトの名無しさん:2014/12/04(木) 18:19:56.45 ID:5hTqY9uU
「理論上は」東ロボくんがほぼ全ての入試問題(数学)を解ける「目処」が立ったらしいが
まだ課題があるみたい

http://blog.livedoor.jp/dg_law/archives/52234923.html
264デフォルトの名無しさん:2014/12/04(木) 21:03:38.82 ID:MwWrePzc
東ロボくん専用スレ立ててこのスレでは禁止していいかな?
265デフォルトの名無しさん:2014/12/04(木) 21:26:07.87 ID:otxDKoZc
そうね。
本人がロボットみたいだしw
266デフォルトの名無しさん:2014/12/04(木) 21:50:05.85 ID:+VhC1jdJ
>>264
削除願い出したら?
267片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/12/07(日) 12:57:22.31 ID:O40P0GQH
268デフォルトの名無しさん:2014/12/09(火) 07:42:52.02 ID:NLTvYswf
公務員試験だけの先生が東ロボの話をコピペしているの?
269デフォルトの名無しさん:2014/12/15(月) 06:54:15.73 ID:NngIclHu
東ロボにRubyは使えないのか?

力学シミュレーションと可視化
これまでRubyで軽くシミュレーションを書くのはかなり困難なことでした。
微分方程式はRuby-GSLで解けますがインストールは非常に煩雑でした。
可視化に関しては決定的な方法がなかったように思います。 (私がよく知らないだけかもしれませんが…)
今ではFortranをラップしたODE gem (gem install odeだけでインストール可能)で常微分方程式
を解くことができます。 また、IRubyに新しく加わったCustomWidgetを使うことで、Rubyとネイティブ
拡張の出した結果をリアルタイムにブラウザ上に表示できます。この場合JavaScriptの有名なdom操作ライブラリ、
jQueryやd3.jsを使って可視化部分を簡単に書くことができます。
http://domitry.hatenablog.jp/entry/science_with_ruby
270デフォルトの名無しさん:2014/12/16(火) 14:52:53.84 ID:hxvZqs1F
>>245
>自分の携わった NAIST テキストコーパスは5年以上かかっています

人海戦術で何とかならんのか?
271デフォルトの名無しさん:2014/12/17(水) 13:49:18.49 ID:+8T0slzN
>>245
>自分の携わった NAIST テキストコーパスは5年以上かかっています

それでもアノテーションコーパスの充実は、今後ますます必要になってくると思う。

□現象?多様性?カバーできているのか?
SNS文書,論文など別?種類?文書へアノテーションが必要
□学習アルゴリズム・解析アルゴリズム・特徴抽出?さらなる改善
現象?多様性を捉えるには? 今まで?延長線上でうまくいくか? 問題?観点を効果的に捉えるには?
□情報共有
アノテーション時?経験則,問題?評価指標
□ジレンマ
学術的に?問題を安定させなけれ?共有が難しい /
今後想定される応用に向けて問題?改編が必要
□アノテーションしたデータだけ対象にしていていいのか?
アノテーション学 vs ポスト経験主義

述語項構造と照応関係?アノテーション:
NAISTテキストコーパス構築?経験から
飯田龍(NICT), 小町守(首都大),井之上直也(デンソー・東北大),
乾健太郎(東北大), 松本裕治(NAIST)
http://www.anlp.jp/anniversary/20th_sympo/slide_iida.pdf
272デフォルトの名無しさん:2014/12/18(木) 17:37:40.91 ID:h7yCp+rM
長文を箇条書きにするというのは恐らく文書要約の範疇で、盛んに研究されているところだと思いますが、
重要文抽出以外はまだ実用的には難しいでしょう(文抽出以上のことをしようとすると、意味を理解しないといけなくなる)。
最近はニュースの配信アプリケーション・サービスが盛んに開発されていて、ざっくりまとめたりする機能がありますが、
自然言語処理の最先端の技術が使われているというよりは、かなりルールを書いたり、人手を入れたりしている、と聞いたことがあります。
http://d.hatena.ne.jp/mamoruk/20140902

コーパスのアノテーションは、ものによりますが人海戦術でなんとかなるものではなく、人を増やしても質が確保できない
(むしろ悪化する)ため、少数の人数で長期間作成する、というのが典型的な方法です。最近はクラウドソーシングによって、
多数の人間にアノテーションをさせる、という試みがなされていますが、自然言語処理は画像認識ほどには一般的ではありません。
見てすぐ分かる、というタスクならいいのですが、少し考えないといけないようなタスクが多いからでしょう。
画像認識については、リンク先を拝見しましたが、これは画像認識だけの問題ではなく、かなり難しい類の問題であると思います。
何が「余計」かというのを分かるためには、答えを推測できないと分からないように思いますし、いまの東ロボプロジェクトの数学
を公理系(数式)に落とし込んで推論(というか証明で)解くアプローチでは、このような問題は苦しいのではないでしょうか(
予測して探索するようなアプローチをする必要があり、どちらかというと証明系というよりはゲームAIの推論のような感じ?
要は大規模なデータからのパターンマッチにする、というパラダイムにする、とうことです)。これを幾何の問題のまま解こうと
するのは数学の解答エンジンを一から作り直すことに相当すると思われますし、このプロジェクトのフォーカスからは離れそうです。
http://d.hatena.ne.jp/mamoruk/20140822
273デフォルトの名無しさん:2014/12/19(金) 11:41:50.67 ID:Rp55Z5Hh
無意味な長文コピペやめろ
274デフォルトの名無しさん:2014/12/22(月) 13:05:29.12 ID:mCwiHCRV
コピペするなよ!
絶対にコピペするなよ!
275デフォルトの名無しさん:2015/01/01(木) 13:33:29.53 ID:BsJlAb0F
自然言語処理のエラー分析は、これまた困難らしい。

Project Next NLP という、いろいろなタスクでエラー分析をする日本の自然言語処理コミュニティの一大実験プロジェクト
があるのだが、予想通り大変そうである(自分は今年度子育ての負荷が高いことが分かっていたので、結局メインでは
参加していない)。こういう機会が必要なことは恐らくこの業界のほとんどの人が賛同すると思うのだが、実際にエラーを
分析しようとすると、アノテーションの経験がありかつ言語学にも詳しい人がプロジェクト内に複数人いないと、
そもそもエラー分析自体がまともに回らないと思うし、もしそういう人たちが中核にいたとしても、議論が白熱して
毎回侃侃諤諤の議論になることうけあいなのである。
http://d.hatena.ne.jp/mamoruk/20141112/p1
276デフォルトの名無しさん:2015/01/01(木) 13:39:38.39 ID:BsJlAb0F
アノテーションに関しては、自然言語処理におけるアノテーションに特化したような和書はありませんね。需要はあると思うので、
出版社の方が見えたとき、そのような本を企画されては、と提案したことはあります。ただし、体系化することが難しいので、
書くには骨が折れると思います。ほとんどの場合、仕様を解説されても意味が分からないので、読む人が言語現象自身に詳しく
(つまり言語学の知識があり)、かつ自然言語処理にも明るい(つまりプログラムを書いて機械学習を行う処理がイメージできる)
必要がありますので、入門書とはならないでしょうし、個人的にも入門書ではなく専門書としてちゃんと書いたほうがいいと思っています。
http://d.hatena.ne.jp/mamoruk/20140902
277デフォルトの名無しさん:2015/01/01(木) 17:51:57.22 ID:LvmvuVw0
RDF等に関しては自然言語処理よりはウェブマイニング(広義の人工知能研究)で盛んに
研究されていますが、ほとんどの研究は英語が対象で、日本語でちゃんとしたリソースは
作られていないというのが現状だと思います。だからどう(日本語でも作るべき)だとい
うわけではないですが、少なくとも東ロボのプロジェクト期間内にどうこうできるという話ではないでしょう。
個人的には、ここは確かに研究の余地があるところだと思っているのですが、英語で書かれた
リソースと比べると日本語で書かれたリソースが少ない(かつ分野が偏っている)という問題と、
日本語が英語と比べると処理しにくいという問題のため、英語のように精度の高いリソースを
作るのはそんなに簡単ではないと思っています。(たとえば、英語だと2つの名詞句の間の文字列
を取ってくれば、だいたい述語が取れるので、構文解析によらない頑健な処理ができますが、
日本語では述語は文の末尾に出現するので、係り受け解析をしないと述語が分からず、なかなか頑健にはできなさそう)
http://d.hatena.ne.jp/mamoruk/20140902
278デフォルトの名無しさん:2015/01/04(日) 08:53:09.06 ID:Vh1lmQHV
このコピペの動機はなんなの?
守本人なの?
279デフォルトの名無しさん:2015/01/04(日) 19:32:49.96 ID:UrD0d14K
コピペが無くても誰も書き込まないスレッドをコピペのせいにするなよ
280デフォルトの名無しさん:2015/01/05(月) 07:11:49.24 ID:755b/Otu
コピペが無くても誰も書き込まないスレッドをコピペのせいにして申し訳なく思います
281デフォルトの名無しさん:2015/01/06(火) 21:01:58.55 ID:rhCaR8KF
まるで何かの宣伝みたい。
282デフォルトの名無しさん:2015/02/12(木) 14:36:17.01 ID:LHb2oe4V
RDFトリプルセットは「連想・推論」に利用できるので、人力でRDF辞典を作成しておきたい。
自然言語の多義性・曖昧性は、これである程度解消できるはず。

提案手法では,開世界仮説に基づき,RDF グラフからそれより高い表現力をもつ SROIQ概念の極小モデルを推論できる.
さらに,ある概念の極小モデルが一意に決まることを利用し,与えられたRDF グラフから記述できるすべての概念を生成
する停止性をもつアルゴリズムを提案した.
http://sigswo.org/papers/SIG-SWO-A1402/SIG-SWO-A1402-10.pdf

(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、あるいは少ない順に並べる。高頻度のトリプルがやたら多いということは、
逆に言えば他と似たり寄ったりでつまらないコンテンツである可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
あるいはナンセンス文かのどちらか。例えば「女性は子供を産む機械」。こういうのは普通に「女性 子供」で検索しても出ない。

コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだということは言いにくいのですが、
アノテーション・コーパス作成自体が大きな研究テーマであり、ベストプラクティス的なものもなければ、少しだけ蓄積されている
ノウハウ的なものすらチームレベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したらすぐコーパス
ができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので(自分の携わった NAIST テキストコーパスは
5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140822

今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクトを一つ一つの物体に分解できたとしても,機械にとって,
それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf

『常識』なるものは、専ら人力で登録するしかない。コンピューターなんていくら高性能でもただの計算機に過ぎないのだから。
283デフォルトの名無しさん:2015/02/18(水) 13:15:42.49 ID:dIyx5cm4
>>282
>機械にとって,それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.

自動作成が困難な「違和感CAPTCHA」は、試験問題作成委員と東ロボとイラスト作成支援ツールや
過去問改題支援ツールを併用し、人力と機械力のハイブリッドで効率的に作成する。イラスト理解は
コンピューターには困難だが人間には易しい。難しい東大の過去問も、懇切丁寧な誘導付きで易しい問題
に改題すればいい。センター数学は人間には易しいが東ロボには困難だ。またそれ専門のセキュリティ
企業を設立して、効率よく大量生産できるようにしたい。できれば一日あたり一万通りくらいは作りたい。
三回間違えたら30分間はアクセス禁止にするとか。そうすれば2chのアラシ投稿も激減するはずだ。
「ぐにゃぐにゃ文字CAPTCHA」にはもうウンザリ。
284デフォルトの名無しさん:2015/02/18(水) 15:59:15.93 ID:dIyx5cm4
あと、2ちゃんねるでの板違いスレ立て乱立防止のために、「資格試験CAPTCHA」を導入するとか。
例えばプログラマー板なら、基本情報技術者試験の午前問題で、7割正解しないと投稿できないようにするとか。
285デフォルトの名無しさん:2015/02/21(土) 17:29:42.70 ID:VfWo/10x
人間は完璧を求める。物体に穴が開いていると、物体の一部が欠けていると、そのギャップを埋めようとする。
次の画像を見ると、実際には存在しないものの、円と長方形に見えてくる。
閉合の法則が存在しない状態では、長さの異なる線にしか見えないが、閉合の法則により、線を組み合わせて、形として見る。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/1/8/186ef42f.jpg
http://www.seojapan.com/blog/8-web-design-rules

82. 1. 記述範囲として20sの領域を選択 2. 領域を4 4(=16)ブロックに分割 3.
記述範囲をオリエンテーション方向に回転 方向の正規化 20s 20s 82
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/e/1/e1a13d79.jpg
http://www.slideshare.net/MPRG_Chubu_University/sift-32258833

 我々人間は、無意識のうちに膨大な量のコモンセンス知識を、日常生活の中で自然と会得し共有している。
人間に近い思考をする人工知能を実現するためには、コンピュータ上にコモンセンス知識の巨大なデータベース
を構築する必要がある。ビッグデータを扱う技術と組み合わせれば、人工知能の思考精度を向上させる土台となる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/9/2989d626.jpg
http://business.nikkeibp.co.jp/art…/bigdata/20140722/268973/
286デフォルトの名無しさん:2015/02/21(土) 21:50:03.02 ID:RYr+Lvse
もうコピペすんのやめろ
287デフォルトの名無しさん:2015/02/22(日) 12:00:11.88 ID:ALoz31q1
全角カンマが論文で多く見られ、一般には余り用いられないことから
,(.|\n)+https?://
をNGにすると結構良いんじゃないだろうか。

あと驚いたのが
る。(.|\n)+https?://
が思ったより誤認識しないこと。これも論文に特徴的な、「である調」を意識したものだが、このスレで引っかかった中で少しでも意見が含まれると思われる投稿は9件に留まった。

リンク先との内容の重複を検出するのが一番なんだろうけどね。
288デフォルトの名無しさん:2015/02/22(日) 12:27:03.95 ID:z7hrtyyQ
研究者ワナビーのオッサンがコピペしてそうだよな
学歴は高くなさそうなオッサンが
289デフォルトの名無しさん:2015/02/22(日) 13:05:32.71 ID:I5/HIZJG
ふつうに入門書から読めば、学歴がどうあれそれなりに理解はできるだろうにねえ。

わけもわからずそれっぽいweb上の記事を漁って仮にそれを丸ごと暗記できたとしても
何の意味もないのに。
290デフォルトの名無しさん:2015/02/26(木) 03:40:26.29 ID:syX8dA4x
Wikipediaのdumpって
いつの日付のが良くベンチマークとして使われてるとかあるのですか?
むしろlatestを使うのが普通なんですか?
291デフォルトの名無しさん:2015/02/26(木) 07:01:52.77 ID:Msso4ZG7
なんのベンチマーク?
292デフォルトの名無しさん:2015/02/26(木) 07:27:44.19 ID:Xrj2IFMm
言葉を間違ってそう
293デフォルトの名無しさん:2015/02/28(土) 15:19:37.45 ID:LSUjOX6L
学歴高いオッサンでポストがあっても話にならんクズは多いけどな
294デフォルトの名無しさん:2015/03/01(日) 03:47:39.01 ID:2eKDkVCS
あれっ?
CRFって最大エントロピー法の特殊な場合なんだっけ?
295デフォルトの名無しさん:2015/03/01(日) 09:29:41.24 ID:SMJwAP9t
似てはいる
296片山博文MZ ◆T6xkBnTXz7B0
入力や解析の途中の状態をすべて保存しておけば、
入力・解析が途中で止まっても再開できるぞ。
俺スゲー