1 :
デフォルトの名無しさん :
2014/06/03(火) 05:40:00.54 ID:yefNLumx
1乙
3 :
片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/06/06(金) 16:12:41.21 ID:dyn5MnFB
人工言語の構文解析ではたいていの場合、文法は固定されてるよね。 動的に解析する文法を変えたいときは、実行時にパーサジェネレータや コンパイラを使わないといけないのか?
4 :
デフォルトの名無しさん :2014/06/09(月) 11:47:07.19 ID:PtiKDSQ8
研究職でもなければどうせ使い道ないのに どいつもこいつもword2vec試しやがる 唯一金になりそうなのはparagraph vectorぐらいだな
5 :
デフォルトの名無しさん :2014/06/09(月) 15:08:04.19 ID:HHhmYyTe
ユージーン君はどんな技術つかってるの?
6 :
デフォルトの名無しさん :2014/06/09(月) 15:33:05.97 ID:PtiKDSQ8
仕事で使ってるのはbag-of-wordsかn-gramだよ word2vec試しただけの糞記事書いてるカスは消えろ
7 :
デフォルトの名無しさん :2014/06/09(月) 17:49:36.60 ID:HHhmYyTe
人工知能の13歳の少年、チューリングテストに“合格”
英レディング大学は6月8日(現地時間)、アラン・チューリング博士没後60周年に当たる7日に同校が
英王立学会で開催した「Turing Test 2014」において、チューリングテストの初の合格者が出たと発表した。
合格したのはウクライナ在住の13歳の少年、ユージーン・グーツマンくんという設定のプログラム。
ユージーンくんは2001年にロシア人のウラジミール・ヴェセロフ氏(米国在住)、ウクライナ人の
ユージーン・デムチェンコ氏(ロシア在住)らが構築した。これまでも多数のチューリングテストイベントに
参加して改良を重ねられてきた。
チューリングテストは、「コンピュータの父」と呼ばれる20世紀の英数学者、アラン・チューリング博士が提案した、
人工知能を知的と呼べるかどうかを判断するためのテスト。人間が人工知能と対話して、
相手が人工知能か人間か判断できなければ、その人工知能は思考しているといえるというもの。
チューリング博士は、5分間のテストで人間の審判の30%をだませれば、人工知能は思考しているといえるとした
(Wikipediaより)。
今回のテストで、審査員の33%(審査員の人数は不明)がユージーンくんを人間だと判断した。
http://image.itmedia.co.jp/news/articles/1406/09/yu_turing.jpg http://www.itmedia.co.jp/news/articles/1406/09/news049.html
8 :
デフォルトの名無しさん :2014/06/13(金) 22:56:37.05 ID:qhg9plHy
馬鹿
9 :
デフォルトの名無しさん :2014/06/14(土) 00:57:41.13 ID:O/sWuNjK
お前がなw
10 :
デフォルトの名無しさん :2014/06/14(土) 09:49:46.90 ID:C3RmOQgD
1. 言語の背景にある知識は書ききれないぐらい深い
つまりなにか抽象化した意味を記号化した瞬間に背景の実世界から離れてしまい,
人間がするような言語理解は記号化では不可能なように見受けられる.
2. 名詞や動詞の意味は組み合わせで理解されている
いわゆる「名詞の構造」や「動詞の構造」と独立して綺麗に書けない.
3. 自然言語処理システムは分野・タスク依存の情報が必要
クイズを解くならクイズの知識が必要.言語学だけの中立的知識だけではシステムはできない.
4. 汎用的な言語理解システムは難しいように見える
上記 3. と同様で分野依存の知識をいれて初めて使えるようになるので汎用は難しい.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/E6-2.pdf 代数学や幾何学などは、最も抽象的な集合のもとに理論を積み上げ、さらに、集合の元同士
の関係が複雑になることから、記述する手段として、文字や記号が頻繁に用いられる。もちろ
んその内容は抽象的であり、意味を理解するには、何かしらの具体例に置き換える必要がある。
ところがこのように抽象化が進んだ内容を、具体的にイメージし、その意味を理解することが
できない、あるいは、そもそも記号で書かれている一語一語の意味がまず読み取れない学生が
非常に多く、このことが大学の数学をわからなくする一つの重大な要因となっているのである。
http://satsuki.ex.osaka-kyoiku.ac.jp/~j129307/miyazaki2.pdf Project Euler に公開されている問題は数百問であり, 以上によって得られる関数と仕様書の対も
同程度の量にしかならない. このため, 解いた問題に対してその問題の解法に含まれる部分問題を考え,
部分問題を解くコードも同様に作成するように指示した. 例えば「1000 未満の自然数で,
3 の倍数となるものの和を求める」という問題があった場合, 「1000 未満の自然数の集合を求める」
「ある自然数 x が3 の倍数であるかどうか調べる」「与えられた自然数の集合x に含まれる要素の総和を求める」
などが部分問題として考えられる.
http://www.phontron.com/paper/oda14nl05.pdf
11 :
デフォルトの名無しさん :2014/06/14(土) 10:04:31.11 ID:C3RmOQgD
人物の行動を簡単なパラメータで表現する場合,頭部の位置・姿勢に着目することは,
人物の位置や注視先を推定することを考慮すれば合理的といえる.本研究では,予め人物
頭部のサンプル画像を用意しておくことで,モデルベースの位置・姿勢推定を行い,ほぼ
実用的な精度で人物の移動経路を追跡することが可能であることを示した.
そして,その移動軌跡において一定の傾向を維持する区間に分割し,それぞれの区間
ごとに人物の姿勢や周辺の物体との相対的な位置関係などの意味素性を数値的に評価し,
合成することで,自然言語の事象概念との対応付けを行うという基本的な考え方を提案した.
これは従来のテンプレートによる自然言語生成と比較して,より拡張性の高い柔軟な手法であるといえる.
http://www.las.osakafu-u.ac.jp/~ark/publication/kojima-thesis.pdf これまでの考察で明らかとなった「認める」の別義は、以下の通りである。
・別義1:<ある範囲に注意を払うことにより><対象を><捉え>
<(あらかじめ持っている)対象に関する知識と同定する>
・別義2:<外部の状況(他者の意見・指摘なども含む)を><妥当なものとして><受け入れる>
・別義3:<他者の能力や(能力の反映である)作品を><価値のあるものとして><受け入れる>
・別義4:<他者の未実現の行為を><妥当なものとして><受け入れる>
http://www.lang.nagoya-u.ac.jp/nichigen/issue/pdf/5/5-09.pdf 例えば、「引っ越す」という動詞の語彙概念構造は、次のように規定される。
「X が Y に引っ越す」→ <X オブジェクトが自分の住所アトリビュートの値を Y に変更する>
上記の規定により、「X が引っ越す」という場合、「X オブジェクトは可変の住所アトリビュートを持
たねばならない」ことが導かれる。これにより、組織も可変の住所アトリビュートを有するので、
組織も引っ越し可能であることが導かれる。これは、従来の意味論における意味役割の概念よりも
精密に述語(動詞等)と項(名詞等)の間の意味関係を規定できることを示している。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B1-1.pdf
12 :
デフォルトの名無しさん :2014/06/14(土) 12:47:56.94 ID:2GCCkitO
サンプルコードあくしろよ
13 :
片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/06/14(土) 13:18:14.77 ID:TMbzloys
14 :
デフォルトの名無しさん :2014/06/14(土) 14:59:25.78 ID:C3RmOQgD
例えば、こんな問題はいかがでしょうか。
ちなみにこれは昨日、ラジオで聞いた問題です。
「300円もって買い物に行きました。そして、100円のお菓子と
40円のお菓子と60円のお菓子を買いました。
おつりはいくらでしょう?」
という問題です。
これを聞いて100円と答える時、その思考は以下のようなものではないでしょうか。
300ー(100+40+60)=100
間違っていませんね。
買ったお菓子の合計は200円なので、300?200は100としているわけです。
これを、図を使って場面をイメージしてみるのです。
このようにお金が図として描ければ見えてきませんか。
そうなんです。
これはいわゆるクイズなので、実は・・・「おつりなし」が答えなんです。
300円持っていって、200円のお菓子を買ったところで、
200円を出すわけですから、おつりはありませんよね。
ずるい!という声が聞こえそうですが、
でも、これを「いや、おつりはないでしょ!?」と答えられるかどうかって
文章問題がイメージできているかという大切なところであると思うのです。
問題文を与えられて、見た数字だけで演算決定をしてしまうから間違えるのです。
http://mhidetoshi.exblog.jp/22011978
レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、 40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。 普通、子供にお使いに行かせるなら余裕を持ってお金を預けて 戻ってきたときに残額をおつりとして受け取る。なので、おつりが100円と言う答えもあり得る。
16 :
デフォルトの名無しさん :2014/06/14(土) 16:09:45.04 ID:C3RmOQgD
割り算というのは、実生活では特殊な演算だと思う。 今年入学した402人の小学1年生を10組に分けるとどうなるか。 402人を、できるかぎり等しい人数になるよう分けるなら、40人の組が8組、41人の組が2組。 (402÷10=40余り2、40人ずつ分けた後で、残りの2人を分ける) でも他の場合を考えると(例えば「少なくとも十人以上」とか)、数え上げは難しいものとなろう。
17 :
デフォルトの名無しさん :2014/06/14(土) 16:20:00.41 ID:C3RmOQgD
>>15 >レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
>40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。
それでも、(10円玉が30個で合計)300円もって買い物に行きました、だとおつりは0になる。
それから政府が新たに「300円玉」を発行したともなれば、話は別となろう。
word2vecで使われてるhierarchical softmaxって 教師信号をハフマン符号にしただけ?
20 :
デフォルトの名無しさん :2014/06/15(日) 18:21:24.22 ID:r1yj7QX5
21 :
デフォルトの名無しさん :2014/06/16(月) 10:59:25.96 ID:4kD5cm9H
せいぜい機械的にできる処理って形態素解析くらいまでだろうな。形態素解析ならスパース表現でできそうだ。 めくらでも会話できるけど、音以外の五感がないわけではないし
22 :
デフォルトの名無しさん :2014/06/16(月) 11:07:05.33 ID:4kD5cm9H
形態素解析ができてから、回りの状況と自然言語の関係を照らしあわせて単語ごとに構文を学習する。 回りの状況はテキストだけじゃ表現が難しい
割り算・分数は、「平均」または「単位あたり」と理解されるべき概念と思う。「平均点」は数の総和を人数で割って得られた数。 「速度」は物体や波が単位時間あたりに動いた距離。
900 :デフォルトの名無しさん:2009/02/20(金) 20:46:21.00 「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、 目新しい文章が出た時に文構造パターン認知できるようにしておくとか。 例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、 名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
25 :
デフォルトの名無しさん :2014/06/16(月) 13:00:19.74 ID:xNeMvzgG
26 :
デフォルトの名無しさん :2014/06/17(火) 11:34:59.62 ID:sceXYbna
27 :
デフォルトの名無しさん :2014/06/19(木) 03:03:30.38 ID:xTtna/5L
「まわるまわるよ、時代は回る」 「 地球は回る、君を乗せて 」 上の二つの「回る」は、同じ意味ですか?
28 :
デフォルトの名無しさん :2014/06/19(木) 07:49:02.24 ID:66eAVPNK
>>27 >まわるまわるよ、時代は回る
「明治時代は栄光だったが、昭和時代は暗黒だった」(司馬遼太郎)というふうに、時代は回るという意味。
>地球は回る、君を乗せて
「地軸」を中心にして回転している、という意味。
29 :
デフォルトの名無しさん :2014/06/19(木) 11:47:01.23 ID:7DkBqMX+
>>28 >地球は回る
太陽の回りを公転して回っている、というのも有りだろ?
30 :
デフォルトの名無しさん :2014/06/20(金) 05:49:29.43 ID:408WaNYH
4.1.1 第 1 問
後半の問いに対して,点 P 自体を (x, y) として解くことはできなかったため,
点 P の像を (x, y) として命題を記述した.変数の導入方法には,試行錯誤が必要である.
4.1.2 第 2 問
知識 (e) を受験数学で学ぶことはないと思われるが,MaxValue[] や MinValue[] を利用するためには,
このような,プログラムではなく数式で表現するための知識が有用であろう.
知識 (f) を用いずに,面積を三角関数で記述したままでは,MaxValue[] や MinValue[] で最大値や最小値を
求めることはできなかった.三角関数を含む式に関する問題では,このような変数変換が有力なテクニックである.
難問として有名な本問だが,数式処理システムを利用すれば,比較的簡単に解ける.しかしその解法は,
文献 [小島 89]などに掲載されているような,人間が手で解く方法とは大きく異なっている.
4.1.3 第 3 問
a についての 3 次方程式になることがわかって初めて知識(b) が利用できる.このように,具体的な方針を事前に決める
のが難しい場合がある.本手法における第 3 問の結論は図 1(a) だが,模範解答は図1(b) のように,曲線の式や交点の座標,
曲線自体や点自体を含むかどうかも描いたものになる.
4.1.4 第 4 問
Mathematica では,馬 i=1 x i−1 のような簡単な計算が,特殊な仮定(この場合は x ̸= 1)の下に行われる危険があること
を知っておかなければならない.Reduce[] の引数の {a, s, b} を {a, b, s} にすると解けない.変数の順番が大切である.
4.1.5 第 5 問
接平面を (x − 1) + ay + b(z − 1) = 0 の形で記述すると,計算時間は 68 秒から 3300 秒に,利用記憶容量は 21 MB から
230 MB に増加する.このように,得られる結果は同等でも,変数の導入方法によって計算時間は大きく異なる場合がある.
4.1.6 第 6 問
問題をそのまま定式化しても,現実的な時間では解けない.(a),(b) のような知識によって,計算量を減らす必要がある.
体積 f を,t の関数と u と v の関数に分けずに,MaxValue[]で最大値を求めることはできなかった.f を 2 つの部分に分
けられることは,解いている途中で初めてわかることである.
https://kaigi.org/jsai/webprogram/2014/pdf/768.pdf
31 :
デフォルトの名無しさん :2014/06/20(金) 16:45:06.34 ID:Egd9IXkN
7.3 数学モデルは現実世界と論理世界を結ぶ架け橋の一つ
私は企業に勤務していた頃、いろいろな分野のプラントの制御システムの開発や動特性シミュレーション
に従事してきましたが、そこで数学モデルの有効性を痛感しました。
それは、いったん数学モデルが作成できれば世界がまったく変わってしまうことです。現実世界では、
対象の挙動は構成、材料、形状や動作環境などいろいろな条件に左右され、それを大きく変えることは
物理的に難しいことが多く、我々の思考もそれに縛られることが多いのも事実です。
数学モデルが生成できれば、論理世界に入ることができ、そこでは禁止されているのは論理的な矛盾だけです。
数学理論はもちろん、関連した数値解析、コンピュータ・グラフィックや種々の計画法が応用できます。
それにより、現実世界にとどまっている限り得られない新しいアイデアが出てくる可能性があります。
数学モデルは現実世界と論理世界を結ぶ架け橋となります。これを一般化すると、「モデルは現実世界
と仮想世界を結ぶ架け橋」と言えるかもしれません。
ただ、論理世界で得られた結果を現実世界で実現するためには、それが現実世界で有効かまた実現可能
なものなのかを調べる必要があります。しかし、それは論理世界の中では不可能です。現実世界に戻すためには、
別の方法が必要です。それがシミュレーションです。数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
http://www.wind.sannet.ne.jp/masa-t/semioeng/modeling/modelasim/mas07/mas07.html
32 :
デフォルトの名無しさん :2014/06/23(月) 11:54:56.02 ID:wCGes4Or
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)
これら 2 文は,同一の文構造であり,違いは absences か,
employees のみである.he には John も Dave も入りうるため,
統語的な特徴および意味的な特徴は役に立たない.
ここで重要な手がかりとなるのは,「fire する側は従業員を抱える立場」
「欠勤が多い人は fired される」といった,事象間の関係知識である.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A5-2.pdf
33 :
デフォルトの名無しさん :2014/06/23(月) 17:07:41.81 ID:Z0nKY4vk
完全に形態素解析したいんだけどできない。 小野 名詞,固有名詞,人名,姓,*,*,小野,オノ,オノ 妹 名詞,一般,*,*,*,*,妹,イモウト,イモート 子 名詞,接尾,助数詞,*,*,*,子,シ,シ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 遣 動詞,自立,*,*,五段・ラ行,体言接続特殊2,遣る,ヤ,ヤ 隋 名詞,一般,*,*,*,*,隋,ズイ,ズイ 使 名詞,接尾,一般,*,*,*,使,シ,シ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス EOS になる。mecabで辞書パラメータ最小値にしたんだけど。 どうすればいいのだろうか
小野妹子、 妹子、 遣隋使 の3語を登録する
35 :
デフォルトの名無しさん :2014/06/24(火) 00:30:04.82 ID:13L7pvDP
できない
36 :
デフォルトの名無しさん :2014/06/24(火) 00:45:44.58 ID:13L7pvDP
どうしても辞書登録が認識してくれない。徳川家康はできれば徳川+家康でなく徳川家康と認識 してほしいのだが確実にできる手だてはないのだろうか?
最長一致法
38 :
デフォルトの名無しさん :2014/06/24(火) 01:36:52.54 ID:13L7pvDP
mecabでどうするのかを知りたい。
mecabが優秀じゃなくて、助詞をもつなどの日本語文法が機械的な解析に向いていただけだ。
向いてない向いてない。 わかち書きのような特殊な書き方をしてない限り、単語の区切りが不明瞭とか。
逐一辞書登録するのは限界があるよね。 Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
音声認識に適した形態素解析って無いだろうか?
43 :
デフォルトの名無しさん :2014/06/25(水) 01:28:47.07 ID:A+D1SfZu
>>Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。 それができない。WikiPediaをDLしてアンカー抜き出して用語集作っても コストの値を調節しないと正しくできない. mecabは速いだけか?
44 :
デフォルトの名無しさん :2014/06/25(水) 01:32:05.16 ID:A+D1SfZu
Jumanかkyteaがいいのか? mecabは微妙に形態素がへん。Webの記事ならとても99%も正解があるとは思えない 新聞記事でもあやしい
99%正解があったら他には何もいらないというレベルの精度じゃね
46 :
デフォルトの名無しさん :2014/06/26(木) 09:41:16.59 ID:S6b66RTi
47 :
デフォルトの名無しさん :2014/06/27(金) 04:03:33.62 ID:MjVrnFmf
新聞とかのデータからから「名詞+助詞+動詞」の組み合わせをひろってきたいんだけど、構文解析する必要ありますか?場違いだったらすみません
48 :
デフォルトの名無しさん :2014/06/28(土) 06:42:58.08 ID:gMf17FhW
◎2chスレッド勢いランキングサイトリスト◎ ★+ニュース板 ・ 2NN (推奨サイト) ・ 2chTimes ★+ニュース板新着 ・ 2NN新着 ・ Headline BBY ・ unker Headline ★+ニュース板その他 ・ Desktop2ch ・ 記者別一覧 ★全板 ・ 全板縦断勢いランキング (推奨サイト) ・ スレッドランキング総合ランキング ・ ログ速 ★全板実況込み ・ 2勢 (推奨サイト) ・ READ2CH ・ i-ikioi ※ 要タイトル検索 ※ 2chブラウザ併用推奨
49 :
デフォルトの名無しさん :2014/06/28(土) 13:20:04.17 ID:pYYcNfOX
例えば、「空港へのアクセスを調べる」という入力文に対して、「アクセス」を換言したい場合、
「空港への◯◯」という前文脈と「◯◯を調べる」という後文脈に分けてコーパスを探索し、
◯◯に該当する名詞のうち共通する名詞を抽出する。図 1 の例では、前文脈と後文脈で共通して
用いられる「乗り換え」「料金」「行き方」の 3 単語が抽出される。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf 意味空間は1次元ではなく多次元である. どの属性に注目して(観点で)分類するかによって、いろいろな分類の仕方が考えられる.
身近な例で「料理」について考えてみる.古今東西の料理の種類は相当な数になり、分類の仕方も人によって異なる.
ここで調理法、材料、地域の3 つの観点で分類するとつぎのようになる.
調理法の観点で分類すると 生もの、煮物、焼き物
材料の観点で分類すると 魚料理、肉料理、野菜料理
地域の観点で分類すると 和食、中華、洋食
例えば「刺し身」は、料理を3つの観点によって分類した結果、連想された用語「魚料理」「生もの」「和食」の狭義語である.
逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになる.その結果、網構造になる。これを図にすると、図1のようになる.
http://www.asahi-net.or.jp/~wd2y-kkb/t.pdf
50 :
デフォルトの名無しさん :2014/06/28(土) 13:47:07.22 ID:mTJgjjdL
51 :
デフォルトの名無しさん :2014/06/28(土) 13:54:17.48 ID:la3VBp+u
構文解析まで含めるなら もの凄く精度の高い解析が必要になる話ではないか
54 :
デフォルトの名無しさん :2014/06/29(日) 19:17:16.27 ID:8NVTS3/J
図やイラストの理解
センター試験の英語の問題では、図やイラストが多用されます。人間であればだれでも理解できるような簡単な図ですが、
これを理解することはコンピュータにとっては至難の業です。画像認識の研究はさかんに行われていますが、ほとんどの
研究は写真を対象としており、図やイラストを理解する研究はほとんど行われていません。これは、デフォルメされたイメージ
を理解するためにはさまざまな常識が必要であり、今のところ有効なアプローチが全く見当たらないためと考えられます。
人間にとっては図やイラストの理解は試験問題を解く上で重要なポイントではないですが、人間にとって当たり前すぎるからこそ、
逆にコンピュータにとっては非常に難しいと言えます。
http://21robot.org/research_activities/english/ 物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/
55 :
デフォルトの名無しさん :2014/06/30(月) 11:11:53.76 ID:yTE03nVF
一次視覚野はほぼ解明されてる 写真とイラストはもう区別しない
モジュール理論とか、何十年の間にだいぶ進んだよな
57 :
デフォルトの名無しさん :2014/06/30(月) 13:42:52.23 ID:tZCwK3PP
>>55 >一次視覚野はほぼ解明されてる
>写真とイラストはもう区別しない
おそらく最初とは異なる判断になったのではないでしょうか。このように、私たちは経験やこれまでの条件づけによって、
無意識のうちに「決めつけ」を行いがちです。この絵のように、わずか数秒見ただけでも大きな結論の違いを生むことが
あるわけですから、これまで長い人生の中で培ってきた「決めつけ」は、あなたのさまざまな判断に大きな影響を及ぼします。
そして、誤った先入観や印象による決めつけは非常に危険なものといわざるを得ません。
この絵、何に見えますか?――あなたの“思い込み”をテストする
http://bizmakoto.jp/bizid/articles/0905/29/news009.html
58 :
デフォルトの名無しさん :2014/06/30(月) 16:33:45.79 ID:yTE03nVF
59 :
デフォルトの名無しさん :2014/06/30(月) 17:46:07.82 ID:ULkK/oEi
>>57 鼠に見えたりオッサンに見えたり・・・人間がイラストを解読するメカニズムはよくわからない。
3つは違う絵だから、ネズミに見えるのもおっさんに見えるのも その中間に見えるのも意図通りとしか感じない
61 :
デフォルトの名無しさん :2014/06/30(月) 20:02:41.31 ID:bnSHXbvL
今一番画像処理で進んでるのはコンボリューションニューラルネット 畳み込みをしてて、二次視覚野に近いとは言われてる
IBMのワトソン君は何の役に立ってるの?
一家に1台ワトソン君
技術は、大量のテキストにタグを付けてコーパス化したりとか、そういう方向に応用されてる だろうと思うけど。
みんなでワトソン君をどうやって活用するか考えよう!!
いいアイデアを思い付いた!! ワトソンをWebに公開し、何回か質問できる権利を販売すればIBMがぼろ儲けできるぞい!
>>62 とりあえずは医療診断に使おうとしている。
画像診断や画像認識、音声認識技術と組み合わせれば、診断分野に人間が
出る幕はなくなるんじゃないか
>>65 役場の窓口にワトソン君を置いて、公務員の人件費削減
それなんてエキスパートシス・・・いや、いい、忘れてくれ
電話サポートなら出来そうだね。休日や時間外用にでも
71 :
デフォルトの名無しさん :2014/07/01(火) 17:42:24.79 ID:MLoIfLOU
自動改題システムがあったらこうやる。本問は、正三角形ではなく直角二等辺三角形だったら、また放物線ではなく楕円だったら、 問題とその解法はどう変わるか。あるいは設定が変え方によっては、高校数学では解答できなくなるのか。 > 東大理系数学2004年第1問
72 :
デフォルトの名無しさん :2014/07/01(火) 17:48:46.07 ID:MLoIfLOU
>>24 長文を短文の箇条書きに書き換えるアルゴリズム、短文の箇条書きを長文にまとめるアルゴリズムを考えてみる。
やり方は人海戦術で多くの長文を、短文の箇条書きに書き換え、意味内容について詳細にタグ付けして、インプットする。
類似の文章に遭遇したら、選択検出できるようにする。
>>67 「マギはどう言っている?」
「2対1でガンだと回答しています」
74 :
デフォルトの名無しさん :2014/07/05(土) 11:17:57.64 ID:EeQIx6Tc
75 :
デフォルトの名無しさん :2014/07/05(土) 15:51:46.96 ID:PDgdEPrp
word2vecとdeep learningって別に関係無いよね? word2vecの前身にrecurrent neural networkが使われてたってだけで 現在のword2vecの実装はロジスティック回帰ベースのものになってるし
76 :
デフォルトの名無しさん :2014/07/05(土) 21:00:44.58 ID:yP4JAf0g
77 :
デフォルトの名無しさん :2014/07/06(日) 13:17:55.07 ID:UIel1dtG
□(日常的)状況理解と(代数スキーマ)問題構造理解
• 支援が必要なのは問題モデル表現,日常的な状況はよく知っている
• 状況に基づく理解には問題文からの暗黙的な特徴抽出が必要
- 最初に「形式主義」が役に立つ理由 [Nathan 1988]
• 相互に支援「状況が問題モデルの意味付けに」「問題スキーマが状況モデル作成に」
「予測2」
与えられたカバーストーリにおけるキャラクタ・イベント・関係を量的な解法に必要な形式的な記号と
表現の知識と関係づけることにより数学的にストーリ状況を解釈するよう励まされた生徒は,
文章題の解を導き出せる方程式の生成において,ストーリのフレーズと方程式のマッピングを行う
直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測3」
与えられたカバーストーリにおけるキャラクタ・イベント・関係の知識に形式的な記号と表現を関係づけ
ることにより代数式を状況的に解釈するよう励まされた生徒は,代数式の状況的な記述の生成において,
ストーリのフレーズと方程式のマッピングを行う直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測4」
状況的に推論を行う問題解決者は,フレーズ志向の対照者より,カバーストーリを伴うかもしれない状況的
な方程式の組の適切さ,あるいは不適切さを認識する能力をつけるだろ
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf
78 :
デフォルトの名無しさん :2014/07/06(日) 15:17:27.05 ID:Tf6s8TDO
79 :
デフォルトの名無しさん :2014/07/07(月) 12:36:07.24 ID:bhOiadyO
2.2 語彙・構文的言い換え
語彙・構文的言い換えに限っても,純粋に統語論で扱えそうな言い換えか
ら語の詳細な意味に立ち入る必要のある言い換えまで多岐にわたる。こうし
た言い換えは,実現に必要な知識の種類の観点から便宜的に次の4種類に分けられる。
統語的言い換え 個別の語の意味に立ち入らなくても統語論の記述レベルで概ね説明できる言い換え
(3) 最初に合格したのは高橋さんだ ⇔ 高橋さんが最初に合格した
語彙的言い換え 語の同義性だけで概ね説明できる,統語操作を伴わない局所的言い換え
(4) 一層の苦境に陥る恐れがある ⇔ 一層の窮地に陥る可能性がある
語彙構成的言い換え 語の統語的特性と意味的特性に基づいて構成的に説明できると考えられる規則性の高い言い換え
(5) 2 位が先頭との距離を縮めた ⇔ 2位と先頭の距離が縮まった
推論的言い換え 内包的意味が近似的に等価な言い換えのうち,上のどの種類にも当てはまらないもの
(6) 財政再建が急務の課題だ ⇔緊急に財政再建する必要がある
http://paraphrasing.org/~fujita/publications/coauthor/inui-LF-2.pdf
80 :
デフォルトの名無しさん :2014/07/09(水) 09:13:08.64 ID:W1L77FJX
イヌ語、イルカ語、サル語を解析するアルゴリズムありますか?
82 :
デフォルトの名無しさん :2014/07/09(水) 20:08:34.07 ID:s3czgtxE
たとえばどのようにしたら?
83 :
デフォルトの名無しさん :2014/07/10(木) 11:50:45.70 ID:b8e/9c1m
10^5単語 10^3個の単語からなる文章 (10^5)^(10^3)の組み合わせ(テンソル) 全ての組み合わせを予め計算するのは不可能だ 構文が似ている単語は同じ構文を持つと仮定し、確率的に構文解析すればいいのか?
84 :
デフォルトの名無しさん :2014/07/10(木) 14:23:18.66 ID:aR1UjDzC
>>83 >10^5単語
固有名詞(住所・氏名など)を一般化し、さらに頻出単語のみに絞る。
85 :
デフォルトの名無しさん :2014/07/10(木) 14:39:03.10 ID:b8e/9c1m
>>84 オートマトンでやるからテンソル演算にはならないが、それにしても桁違いだから絞ってどうなる量じゃない。
未知の単語が来た時対応できないし、自分で入力されたことのない文章を構文的に正しいものを推定して組み立てないといけない。
86 :
片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0 :2014/07/18(金) 14:38:59.47 ID:XMEHR0Aa
自然言語相手にすべてのケースのテストデータを作成しようとしたら、800MB超えてしまった。。。 愚かだな。
800MBならまだましでは?
まずは、この無限大に近い組み合わせと戦わないといけないのか。 ランダム抽出か、代表値でやってみるか。
89 :
デフォルトの名無しさん :2014/07/22(火) 12:13:33.59 ID:E09TR4vO
日本語のmecab cabochaと同じことを英語でする場合には どのソフトを使えばいいのでしょうか?
91 :
デフォルトの名無しさん :2014/07/26(土) 22:52:13.10 ID:vhGqByQW
Stanford CoreNLPでぐぐってみ
>>91 nltk
よりそっちの方がお勧めなんです?
動詞活用と動的パーサーを頑張ってやるぞー! エイエイオー!
違う違う。そんな文字コードが固定された融通の利かないありきたりの形態素解析ツールの 1ユーザーにとどまるのはイヤだ。もっとオープンでダイナミックに組織化されるシステムでなきゃ。 えっ、大規模機械学習や統計学を否定するの? ひょっとして馬鹿?
96 :
デフォルトの名無しさん :2014/07/30(水) 01:06:51.20 ID:yEskz56N
あげ
moses-supportやparser-supportでアホな質問ばかりする中国人やアラビア人にも真摯に対応する姿に感心する
99 :
デフォルトの名無しさん :2014/08/06(水) 18:09:18.10 ID:acb72KUN
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。
オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
違うか?
「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!
>>98
100 :
デフォルトの名無しさん :2014/08/29(金) 20:13:29.62 ID:pIYD+XWo
101 :
デフォルトの名無しさん :2014/08/29(金) 21:20:47.93 ID:zSOx7Ia5
構文解析って文法的に正しいかどうかしか判断できないんじゃないの?
102 :
デフォルトの名無しさん :2014/08/29(金) 23:25:55.15 ID:bwbSKW1s
>>101 >構文解析って文法的に正しいかどうかしか判断できないんじゃないの?
なら、「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
103 :
デフォルトの名無しさん :2014/08/30(土) 02:26:42.95 ID:BAPN2lOA
単語と動詞という分類で言えば正しいが、単語としては確率低い組み合わせだろうなぁ
104 :
デフォルトの名無しさん :2014/08/30(土) 09:34:03.26 ID:014RRRVX
105 :
デフォルトの名無しさん :2014/08/30(土) 09:35:42.15 ID:014RRRVX
106 :
デフォルトの名無しさん :2014/09/08(月) 02:15:18.02 ID:P298uFJ/
東大のプロジェクトどうなったのw もう挫折ですか
107 :
デフォルトの名無しさん :2014/09/08(月) 09:27:57.13 ID:m/nJA+ci
>>101 機械的な構文解析のこと?
正しいかどうかじゃなくて、正しいと仮定して解釈することじゃないのかな
意味ある形で分かれてるかどうかは、人が解釈するしかないような気がするけど。
109 :
デフォルトの名無しさん :2014/09/08(月) 21:00:23.20 ID:wT2B4Cec
>>107 いや、コンパイラの構文解析って正しいか間違ってるかしか出力しないじゃん
なんでやねん 最低でもツリー構造くらい取るわ
111 :
デフォルトの名無しさん :2014/09/09(火) 08:12:04.96 ID:FnHbwOUK
「問題文を読んで題意が理解できない」ってのは、去年の東ロボと共通する点に思える。
教えているうちに気づいたことがあります。それは、数学の問題文を読んでその題意が理解できない子どもが目立って増えた、
ということです。「問題文を読んで題意が理解できない」といっても、いろいろなタイプがあります。
1.?語彙力が不足していて文節と文節のつながりがわからない。
2.?数学特有の言葉、つまり記号や用語の定義が理解できていない。
3.?文章と文章のつながりがわからず、条件がつかめない(演繹的な推論による文法の知識がない)。
4.?文章が長くなると全体像がつかめなくなり、題意の目標が捉えられない(論理的な読解力の不足)。
『読解力を強くする算数練習帳』著:佐藤恒雄
「数学とは、何のために勉強するんだ」と悩んでいる人へ
http://gendai.ismedia.jp/articles/-/37357
112 :
デフォルトの名無しさん :2014/09/11(木) 17:25:16.70 ID:sSttSQlP
自然言語は社会性を表現できないとダメだろう オートマトンの集団がいて それぞれが他のオートマトンと自然言語でのみ通信できる 任意のオートマトンは、自分以外のオートマトンの社会的な状態を知っているか推測できる
113 :
デフォルトの名無しさん :2014/09/12(金) 11:01:38.13 ID:E5d9ulLz
115 :
片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/10/11(土) 00:07:21.76 ID:bs/sFubV
学習ありの字句解析の上に動的パーサーを乗せれば最強
116 :
デフォルトの名無しさん :2014/10/13(月) 21:41:40.39 ID:8+60HAaA
機械は人間と同じように現実世界を認識したり、また人間と同じように来るべき状況を推論することはできない。 けれども人力で「擬似状況シミュレータ」と「注釈付きコーパス」を充実させれば、試験問題の回答率は向上する。 例えば「マクドナルドのハンバーガーを買う」というフレーム問題は、試験の範囲内ということで人力インプット。 マクドナルドは企業・店屋で、ハンバーガーは商品・食べ物、そして「買う」については、所持金と支払い金額 とお釣りはいくらかという、試験の範囲内だけで連想する。数学や物理に関してはパターンがある程度決まっており、 入試の範囲内にのみ対応させればいい。但し言語解釈が正しくできないと、同じ問題は解けても類似の問題は解けない。 朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。 >もし台車を動かしても,天井は落ちてこない. >もし台車を動かしても,部屋の壁の色はかわらない. >もし台車を動かしても,部屋の電気は消えない. >もし台車を動かしても,壁に穴があいたりしない. 考えられる全ての可能性を、人力でインプットする。例えば台車を動かしたときに停電が起これば、部屋の電気は消える。
問題に出てきたものだけ考えればいいんじゃないの? 台車が斜面を動く問題で衛星の軌道や壁の色なんてのは考えなくて良い。その上で天井や床は動かないとか、台車が斜面にめり込むことはないとかだけを考えればフレーム問題は抑えられる。
デネット フレーム問題 でググれ
10個も同時に物体が出てこないんだし全ての組み合わせを考えても10!で3628800、十分に時間内に解答可能。
トチ狂ってたわ。10!も無い。2^10しか無いから尚更速い。
121 :
デフォルトの名無しさん :2014/10/17(金) 16:43:02.23 ID:724m77ZA
@noricoco さんの最後のお話はいわゆる東ロボ、東大入試を突破する人工知能プロジェクトについての記念講演だったのだが、
中身は数学基礎論をいかに実世界に接地するのか、という極めて意欲的・現実的なお話であった。論理だけでは解けない問題
を経験的に解く。しかも、それは単なるパターンマッチではなく、コンピュータ将棋の初期の開発で評価関数をヒューリスティック
に設計していたように、入試問題に合わせて作り込む、というものである。かといって80年代に逆戻りする、というわけではなく、
「この問題は数学的にどのクラスの問題(たとえば集合論)なのか」「高校数学の範囲内で解を求めようとすると、どうなるか」
といったようなことを記述するのである。
自分も学部生時代は数学基礎論をかじったことがあり、それこそが哲学ではなく言語学、そして自然言語処理へと専門を変えて
いく理由となったのだが、このようなプログラムがその当時あって、自分が参画できるのであれば、哲学の立場のまま哲学を現実
世界に基礎付ける、という方向に挑戦していたかもしれない。東ロボプロジェクト全体に関しては、あまり重要な問題を解いている
わけではないと半ば距離を置いて見ていたが、少なくとも数学に関しては、とても野心的な試みであり、数学の問題が解けるよう
になるだけでも、このプロジェクトは人類にとって大いに意味のある試みなのではなかろうか。
http://d.hatena.ne.jp/mamoruk/20141004/p1
122 :
デフォルトの名無しさん :2014/10/17(金) 21:14:01.02 ID:UIYNCvLu
すっかり聞かなくなったけどとうロボどうなったの
123 :
デフォルトの名無しさん :2014/10/17(金) 23:45:31.75 ID:mnwHFJbg
664 :デフォルトの名無しさん:2009/02/20(金) 20:42:25.00
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html >25万2千語を収録
ではその25万2千語全ての単語について、百万冊の書籍をスパコン「京」で形態素解析し、
さらにコンピュータの「誤読」と「理解不能表現」を分析抽出し、これらを「人力で修正」し、
「属性フレーム」と「意味ネットワーク」と「RDFトリプル」を作成というわけにはいきませんか。
コンピュータには何が理解できて何が理解できないのかも、ここではっきりさせられませんか。
そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109 あるいは現在の技術では、未だにコンピュータの「誤読」と「理解不能表現」が多すぎて無理なのですか。
けれどもそれなら2チャンネラー百万人を動員して、人力でオントロジー作成という手もあると思われますが。
124 :
デフォルトの名無しさん :2014/10/17(金) 23:51:06.28 ID:Lz6GLdVj
125 :
デフォルトの名無しさん :2014/10/23(木) 13:59:17.26 ID:H9x7O/fU
PAS-NNLM のモデルとしての表現力 SVO に関しては, 本実験では PAS-NNLM の学習後のモデルを用
いた ‘PAS-NNLM comp’ により, ‘PAS-NNLM add’よりも高い相関係数 (0.42) を得た. これは Tsubaki
ら [10] の C-NLM による結果 (0.38) を上回るものである. この C-NLM は, 動詞と目的語のペアのみに着目
して NNLM を学習するモデルである. しかし, 同じくTsubaki ら [10] の CoC-NLM による相関係数 (0.47)
には及ばなかった. CoC-NLM の優れている点は, 一種の語義曖昧性解消の手法を, 動詞-目的語の組み合わせ
の意味構成に取り入れたことである. また, Kartsaklisと Sadrzadeh [7] も, 単語からの意味構成の前に語義
曖昧性の解消を行うことの重要性を示している. 本研究の PAS-NNLM では, 品詞の情報は用いているものの,
その他の明示的な語義曖昧性の解消を行っていない. より文脈に依存した語義曖昧性解消の手法を取り
入れることにより, さらなる性能向上が考えられる.
http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2014/paper.pdf 言語学における語彙意味論の立場からすれば,その名詞の意味構造に記載すべき内容は語を成立させる最低限の要素に
限るというのが基本的な立場であろう.これは本研究の枠組みでいうならば情報抽出システムをソフトウェアと捉えた場合,
システム辞書が持つ基本オブジェクトデータと捉えることが出来る.つまり,評判やその診療所 (インスタンス) に関する人
からみた認識などは,既存のオブジェクトデータに対して動的に加えられた属性項目と考えられる.人の言語表現はまさに発
話者の認識において,抽象的に聞き手と共有するオブジェクトに対して個別の情報を加えることで新たな情報を提供している
と捉えるならば,こうした名詞意味構造の属性の拡張は取り込むべき機能であり,ソフトウェアにおけるオブジェクト指向の
枠組み?6で情報抽出システムを構成していく必要がある.
https://kaigi.org/jsai/webprogram/2014/pdf/679.pdf
127 :
デフォルトの名無しさん :2014/10/29(水) 15:23:53.31 ID:WOXCtObY
翻訳って不可逆変換された後のデータから、別の不可逆変換された後のデータにいきなり変換しようとしてるから困難なんだよね。 いわばjpgからjpg2000にraw画像に戻さずに変換しようとしてる
超解像みたいな
読み・書き・聞き取りの最強の日本語コーパス「三位一体」 プロジェクトを開始しました。 ご期待下さい。
raw画像に戻すってのは、 中間言語式の翻訳のこと?
131 :
デフォルトの名無しさん :2014/10/30(木) 00:55:36.93 ID:iSxCzdRK
1pixごとの完全に元のデータ 自然言語の場合で言うなら、必ずしも言語である必要もないと思う
132 :
デフォルトの名無しさん :2014/10/30(木) 01:56:04.20 ID:jdjv0M6/
鏡に映るものを計る、それがMZの目標である。
133 :
【東電 74.8 %】 :2014/10/30(木) 12:36:21.88 ID:VubmAqci
134 :
デフォルトの名無しさん :2014/10/31(金) 16:05:31.03 ID:0ns/rhdq
えつ!
136 :
デフォルトの名無しさん :2014/11/03(月) 08:11:18.01 ID:tokfpTJi
137 :
デフォルトの名無しさん :2014/11/03(月) 08:35:06.90 ID:gGej6kOp
(1)今年は3パーセント物価が上昇し、来年は5パーセント物価が上昇するという。平均の予想物価上昇率はいくつか。 (2)今年は3パーセント物価が上昇するという人と、5パーセント上昇するという人がいる。平均の予想物価上昇率はいくつか。 <ロボットは東大に入れるか 新井紀子> 「今年は〜」 @ 西暦○年度(現在)2) A 去年は、来年は、○年前は、○年後は〜(1) B うるう年だ 「物価が上昇」 @ どの月間に、どの年間に(1)、何%の割合か(1)(2) A 品目別には〜、○円上昇、○円下落 「〜という人」 @ 〜という名前の人間が居る(人間A、人間B) A 人間Aは○○と述べた、人間Bは△△と述べた(2) 機械には連想思考は期待できない以上、徹頭徹尾人力でインプットあるのみ。
138 :
デフォルトの名無しさん :2014/11/03(月) 09:22:18.89 ID:tokfpTJi
139 :
デフォルトの名無しさん :2014/11/03(月) 11:07:24.52 ID:gGej6kOp
今回も出来の悪かった数列について。 b1 = 1 , bn+1 = bn + 3 → 階差数列 Cn = bn+1 - bn を考える 東ロボは、こんな程度の初歩的な連想ゲームも出来なかった。式の同値変形は東ロボの得意技であり、 bn+1 - bn = 3 と変形できれば簡単ではなかろうか。同様に 3bn+1 = 3bn + 4 → bn+1 = bn + 4/3 → bn+1 - bn = 4/3 も可能なはずだ。それから式の同値変形の手順も教え込んでおきたい。
140 :
デフォルトの名無しさん :2014/11/03(月) 11:29:13.15 ID:gGej6kOp
141 :
デフォルトの名無しさん :2014/11/03(月) 18:22:59.01 ID:tokfpTJi
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/1/f1f74737.jpg ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの
人が生まれて初めて見るものでしょうね。なのに、われわれはそれがそうだと、正し
くわかる。どうしてなのでしょうか。これは認知科学という分野の難問のひとつです。
だいたい、このイラスト、変なんです。ブルーベリーの直径って1センチ未満ですよ。
だとすると、このケーキ、直径が12センチくらいしかないことになる。そんなの、
おかしいでしょう?(笑)にもかかわらず、その年のセンター入試を受けた受験生たち
は誰一人としてそれを変だと思わず、粛々と問題を解いたんですね。
ちなみに私の職場で、ケーキにプチトマトがのってるね、と言ったひとがいますね(笑)。
<ロボットは東大に入れるか 新井紀子>
>ケーキにプチトマトがのってるね、
楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。
但しこの図を立体として観察すると、楕円形は円形を現しており、また黒っぽい円形の何かの中心部が白くなっているのは球形と推測される。
142 :
デフォルトの名無しさん :2014/11/03(月) 19:01:37.56 ID:ieVOoQg9
東ロボくんって画像処理系の人ほとんどいないでしょ
143 :
デフォルトの名無しさん :2014/11/03(月) 23:09:51.81 ID:tokfpTJi
144 :
デフォルトの名無しさん :2014/11/04(火) 00:06:26.26 ID:LJyHsHlb
組み合わせ最適化だろ オーダーくらい自分で考えろよ
145 :
デフォルトの名無しさん :2014/11/04(火) 02:08:02.45 ID:Td6UKxL3
146 :
デフォルトの名無しさん :2014/11/04(火) 10:46:33.52 ID:Td6UKxL3
イラスト理解は、とりあえず形状と色彩だけを、「遠近法」で大雑把に捉えて推定するくらいの機能を。 >ケーキにプチトマトがのってるね、 ケーキだのクリームだのブルーベリーだのは特定できなくてもいい。まず「形状」は、手書きの文字認識機能 は向上しているのだから、その技術を応用すればいい。また「色彩」は白黒でも遠近法が把握できるように工夫する。 楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。但しこの図を立体 として観察すると、まず何かの土台があって、上部の楕円形は円形を現しており、また黒っぽい円形の何かの 中心部が白くなっているのは球形と推測される。
147 :
デフォルトの名無しさん :2014/11/04(火) 11:14:12.09 ID:Td6UKxL3
>>116 >朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。
私の講座のテキストで恐縮ですが、コチラの2問をご覧ください。
一見すると、「お菓子を配る問題」「直方体を積み上げる問題」と別の問題に見えます。
しかし、解いてもらえるとわかりますが、この2問は素因数分解を使って解く、
同じパターンの問題です。つまり類題ってことになりますね。
さらに、(細かい説明は解説に任せますが)2つの問題とも「2以上」という語句が共通しており、
この「2以上」が解法の方針を示してくれる重要な語句だということがわかります。
これより類題とは、問題文の重要語句が共通している問題を指すことがわかります。
したがって、皆さんが類題を認識するためには、問題文の重要ポイントを意識しない
といけないんだっていうことがわかりますね?
http://shibasaki873.blog.fc2.com/blog-entry-74.html
148 :
デフォルトの名無しさん :2014/11/04(火) 11:49:28.30 ID:Td6UKxL3
>日本語の形式表現変換については,物理科目では極めて困難で, >余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。 そもそも自然言語というのは、単語ひとつとっても『不要な情報』で溢れ返っている。例えば『板』という単語の用途は様々で、 物理学的にみれば「剛体」にもなりうるし「物体」にもなりえるし「障害物」にもなりえる。東大の二次試験などは分野が複数 にまたがっていて一層わかりにくい。自然言語文を題意に合わせた形式表現変換するには、膨大な連想シソーラス網から、 必要な部分だけを切り出すこと。 他の煩雑かつ不要な情報を完全に除外し「重要ポイント」のみを抽出する。入試問題の多くは過去問の焼き直しだが、 表面上の言い回しを変えていたり、別の図柄を用いていたりして、改題して出題される場合が多い。似た問題は出るが 同じ問題は出ない。単純な問題に不要な情報を追加してわざとわかりにくくしているのだ。こういう場合は「類型問題」 の候補をいくつか挙げて、共通事項を抽出するというアルゴリズムが不可欠になってくる。
149 :
デフォルトの名無しさん :2014/11/05(水) 13:11:11.01 ID:TFchYdUt
ていうかどうしたいのかね。 画像処理では物体認識と、座標位置は取得できけど。
150 :
デフォルトの名無しさん :2014/11/06(木) 07:15:21.52 ID:1dD9kBwW
151 :
デフォルトの名無しさん :2014/11/06(木) 13:15:54.06 ID:1dD9kBwW
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf >なめらかな面に束縛された質点の運動。
これをどうやってコンピューターに理解させるか、どう形式変換するか。
mv2/2(運動エネルギー) + mgh(位置エネルギー) = 一定、となる物理現象とでも定義しようか。
滑らかな面は不定曲線でもいいということで。これなら風が吹いたり電磁気が出たりで別のエネルギー加減
が生じない限り、公式当てはめで楽に解答できる。
同じ内容の物理現象を、別の言葉で言い換えたり、別のイラスト図で書き換えたりして、形式変換コーパスを増やす。
153 :
デフォルトの名無しさん :2014/11/06(木) 16:11:34.55 ID:1dD9kBwW
ここを頻繁に更新している人って同一人物なの?
155 :
デフォルトの名無しさん :2014/11/06(木) 20:49:20.00 ID:Z+6n6avI
>>153 画像処理を最低限知ってから言えよ
ちんぷんかんぷんだわ
156 :
デフォルトの名無しさん :2014/11/07(金) 02:56:19.25 ID:zRPOEUiC
157 :
デフォルトの名無しさん :2014/11/07(金) 20:12:31.00 ID:LCGb7X+6
囲碁の碁石は、将棋の駒とは違い、一つ一つに能力の差は無い。状況によって要石になったり廃石になったりする。 これは企業が社員ひとりひとりの評価をどうするかという問題と似ている。どの社員が必要で、どの社員がお荷物なのか。 ある時には存分の活躍をしていた社員も、時代が変わればお荷物になったり、逆に新人のときにお荷物だった社員が、 3年目で頭角を現してくる場合もありうる。碁石の評価は社員の社内評価と同じと考えられないだろうか。 ●●● ●●● ●●● だが少なくとも上の図の真ん中の黒石は、役に立たないどころか完全な害悪であろう。会社で言えば「懲戒免職」に値する。 こんな社員ばかりを抱えている企業に、未来があるようには思えない。囲碁における「評価関数」も、 ○手目現在における人事評価ということにしてはどうか。
158 :
デフォルトの名無しさん :2014/11/08(土) 04:53:29.67 ID:WHpgboF2
>>156 プロだけど?
でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね
159 :
片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/11/08(土) 05:41:32.70 ID:ebCh2W7f
【確率問題の考え方】 1.試行や事象を表す文章から、すべての未知数の範囲を決定し、 それぞれの未知数の範囲を区間の集合として表す(Boost.Icl参照)。 2.特定の試行や事象の未知数の組合せを計算し、全試行・全事象の組合せに対する割合を求めたものが確率である。
※「コインには裏と表がある」「袋にお金を入れると袋の中のお金が増える」 といった常識を理解しておく必要がある。 ※試行には順序がある。
161 :
デフォルトの名無しさん :2014/11/08(土) 09:53:46.74 ID:DB2yxOk0
>>158 >プロだけど?
>でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね
では先生が>言う「最低限度の知識」とは何?
162 :
デフォルトの名無しさん :2014/11/08(土) 09:56:43.31 ID:6X6f98tO
>>158 は素人なのは、書き込みからして明らか。プロなら間違いの理由を理路整然と述べる。
163 :
デフォルトの名無しさん :2014/11/08(土) 09:58:47.70 ID:6X6f98tO
>>161 「プロのあなたに教わりたい」なんて言ったら逆切れするだろうねw
更に言えば、その道で高給稼いでる画像処理のプロが、こんな2ちゃんねるの名無しの ゴミカキコにいちいち反応する理由があるのか。 踊るアホウに見るアホウwwww
165 :
デフォルトの名無しさん :2014/11/08(土) 10:10:13.37 ID:6X6f98tO
優秀なプロの画像処理エンジニアの君のレスを、早く読みたいなぁw
公務員試験の先生がなにをほざいているの?
167 :
デフォルトの名無しさん :2014/11/09(日) 00:34:13.35 ID:iKOy/805
>>162 しょうがないなぁ
マッチング性能トップはずっとconvolution newralnetだよ
画像処理の機械学習について調べたらすぐ出てくることだぜ
168 :
デフォルトの名無しさん :2014/11/09(日) 00:36:05.09 ID:iKOy/805
東ロボくんの講演で参加者がアホなことほざいてるのは画像処理の人間がほぼいないからってだけだ お互いにできるこできないことだけでも相談してみたらいいのにね だから情報工学は程度が低いって言われるんだよ
せめて画像認識とかコンピュータビジョンとか言ってくれ
170 :
デフォルトの名無しさん :2014/11/09(日) 12:07:09.66 ID:iKOy/805
アハハハw
171 :
デフォルトの名無しさん :2014/11/09(日) 18:10:14.84 ID:uoUT28t9
>>168 >東ロボくんの講演で参加者がアホなことほざいてるのは
だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかっているってことさ!!
優秀なエンジニアの君の話を、もっと聞きたいなぁ。
>>168 お前が無知だということはよくわかった。もう来ないで欲しい。
173 :
デフォルトの名無しさん :2014/11/11(火) 07:12:12.70 ID:0bxYCDe4
174 :
デフォルトの名無しさん :2014/11/12(水) 11:50:37.55 ID:LPSYNXn+
中間言語方式はなぜ失敗したのか
機械翻訳における枢軸(pivot)の話か? そのような中間言語を作ることが事実上不可能だから。以上。
176 :
デフォルトの名無しさん :2014/11/12(水) 15:33:24.76 ID:LPSYNXn+
なぜ不可能だったのか
177 :
デフォルトの名無しさん :2014/11/12(水) 22:23:18.43 ID:yWDn898h
検索キーワードを選んだら「実数」「満たす」「範囲」とか「a」「x」とか、ほとんど変わらないです。 でも、解き方も答えも全然違う。数学の問題は、統計的手法ではどうにもならなさそうです。 1)xを実数とする。つねにx^2 + ax + 4 ≧ 0 であるとき、aの範囲を求めよ。 2)x,y を実数とする、a = x + y とする。つねにx^2 + y^2 = 1 であるとき、aの範囲を求めよ。 <ロボットは東大に入れるか 新井紀子> >つねにx^2 + ax + 4 ≧ 0 であるとき、 >つねにx^2 + y^2 = 1 であるとき、 前者は「2次不等式」、後者は「円の方程式」。それくらいの違いは区別してもらいたい。
>>176 日本語の「首」が、ネックの意味だったりヘッドの意味だったりするとか
そういった翻訳上の困難を全部、しかもあらゆる言語間におけるそういった
差異を全部中間言語が吸収しなければならない。あるいは、そうでなければ
各言語間のそういった問題を、中間言語(への・からの)変換部分が抱え込む
必要があって、結局、n 個の言語に対して n × n 個の翻訳エンジンを作るのと
変わらない難しさということになってしまう。
179 :
デフォルトの名無しさん :2014/11/13(木) 00:33:08.26 ID:EzUPhDs/
中間言語の候補としては、数学とか物理とかが良いと思う。「東ロボ」プロジェクトに期待したい。 >つねにx^2 + y^2 = 1 であるとき、 x^2が1/x(x≠0)だったら話は違ってくるだろう。また高校数学で二次方程式は解けるが三次方程式は解けない。
180 :
デフォルトの名無しさん :2014/11/13(木) 02:08:12.41 ID:EzUPhDs/
類似性に基づく推論は,人間の強力な問題解決方略の 1つである.我々は
新奇な問題に遭遇した時,自分自身が過去に経験した問題や既存の例と
いった「事例」から似たものを参照し,それを問題解決に利用することが
多い.そのため,様々な課題を用いて,人間の類似性判断や問題解決にお
ける思考メカニズムを理解する認知心理学的研究や,類似性に基づく推論
を要素技術として問題解決や問題解決支援を行う計算機システムを構築す
る知識工学的研究が展開されてきた.
類似性に基づく推論においては,現在直面している問題と類似する過去
の事例を利用することから,類似性の判断が問題解決における重要なキー
となる.類似性は,問題と事例との間の同一の要素(共通点),および,
異なる要素(差異)に基づいて評価される.一般に,現在の問題と完全に
一致する過去の事例が利用できることは稀であるため,通常は問題と事例
との差異に基づき,事例を修正する必要がある.
しかし,差異は単に埋められなければならないだけのものではなく,差
異に積極的な意味が生じる場合も存在する.その一例が,数学学習におけ
る問題解決である.数学学習には,教示された問題(例題)に基づいて別
の問題(類題)を解く類題解決や,学習者自身が新しい問題を作り出す作
問といった問題解決がある.数学における作問については,問題を作るこ
とは問題を解くことと同様に重要な活動であることが,数学者や数学教育
者によって指摘されている.
類似性に基づく推論を用いた知的問題解決支援の検討と実現
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/8249/1/kojima_thesis.pdf
中間言語やインターフェースは、卸しと同じ メーカーが10社、小売店が20社あるとき、 卸しが無いと、10*20=200 通りのコネクションが必要だが、 卸しを中間に介すると、メーカー・卸し間が10通り、 小売店・卸し間が20通りの合計、10+20=30 通り つまり、掛け算を足し算にすることで、 組み合わせ爆発を防いで、コネクションの手間をへらす
>>179 一般的解法は教えられないが数学Uで因数定理を使った解き方は教えられる
>>179 単に言語が表現できる世界を極端に制限するだけじゃないか。
そんなことを許せばいくらでも簡単になることは当然わかっている。
そのかわりどんな短篇小説の一本も訳せないような使えないゴミができるだけだ。
184 :
デフォルトの名無しさん :2014/11/13(木) 14:34:17.79 ID:ydn9QRw8
機械翻訳における枢軸(pivot)の話とは違う「中間言語」のことを言いたいのか? だったら知らんわ。
186 :
デフォルトの名無しさん :2014/11/13(木) 23:46:06.97 ID:G+XRMicG
東ロボの話してるやつは体系的に勉強して出直してこい
>>186 そういう君は、自然言語処理学のプロなの?
プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか? 人工知能云々以前に、バカだから、か。
プロといいたいアマチュアな方が
東ロボの話してるやつはどう見てもアマチュア以前だがな
アマチュア以前ってありですか?
ここにプロ以降()が居るとは思えん。
それっぽい方がたまに降臨されることが
194 :
デフォルトの名無しさん :2014/11/14(金) 16:47:02.37 ID:cE0anVKk
>>188 >プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか?
レスありがとう。それが自然言語処理学のプロたる君の意見なんだね。
だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかってるってことさ!
東ロボはマーケティング・話題作りのセンスがズバ抜けている エスキモーに氷を売れるレベル
196 :
デフォルトの名無しさん :2014/11/14(金) 20:26:15.60 ID:E47YIEif
人工知能学会の親戚でしょ 無人気すぎて細々とやってたとこで昔からアマチュアの参加を奨励してたよね
197 :
デフォルトの名無しさん :2014/11/16(日) 15:42:31.45 ID:jrq2Dts2
( 1) オブジェクト指向的アプローチによる係り受け/語義曖昧性解決/照応解析/
述語項解析システム
伊藤 英紀 ((株)富士通研究所)
係り受け解析、語義曖昧性解決、照応解析、および述語項解析の4つのタスクに
対する新たなアプローチを提案する。第一に、これら4つの処理を、逐次的(パイ
プライン的)にでなく同時に行う。これにより、逐次的に行うよりも解析精度が
向上することが期待される。第二に、文中の名詞をオブジェクトに対応させ、
それらオブジェクトの属性とその変化をトラッキングする。形容詞は一般にオブ
ジェクトの属性を、動詞はそれらオブジェクト属性の変化を表す、と考える。
これにより、文脈の情報を解析結果に反映させることが可能となる。このような
意味理解のモデルは、人間が脳で行っているであろう理解プロセスに近く、自然
言語理解には有望なアプローチである。このアイデアに基づいたシステムを実装
し、例文に対して動作を確認した。
( 2) uLSIF を用いた事例への重み付けによる語彙曖昧性解消の領域適応
新納 浩幸, 菊池 裕紀, 佐々木 稔, 古宮 嘉那子 (茨城大学工学部情報工学科)
語彙曖昧性解消の領域適応に対して共変量シフト下の学習を試みる。確率密度比
の算出に uLSIF を用いる。このとき通常のガウスカーネルではなく線形カーネ
ルを利用する、また重み付き学習には、通常、最大エントロピー法を用いるが、
ここでは SVM を利用する。また確率密度比が極端に小さい、あるいは大きい事
例のみに重みを与える方法も試す。
http://www.ipsj.or.jp/kenkyukai/event/nl218.html
長文コピペする奴がいるせいで糞スレに
199 :
デフォルトの名無しさん :2014/11/18(火) 14:10:53.64 ID:7YVftxrd
人工無脳学会はないの?
200 :
sage :2014/11/18(火) 20:56:42.46 ID:jieDrr0b
>>198 本当だよね。このスレは本来需要が高いはずなんだけど、スパム投稿で荒らされてる気がする。
201 :
デフォルトの名無しさん :2014/11/18(火) 21:19:15.86 ID:f2DqKBZs
自然言語処理の需要ってあんの?
203 :
sage :2014/11/19(水) 01:09:50.33 ID:hLraT9DN
削除して再出発しても、自分の意見のない荒らし君が来るとまた同じだからなぁ。
204 :
デフォルトの名無しさん :2014/11/19(水) 05:37:54.13 ID:SWof/ihh
じゃあ聞くけど東大ロボットて問題どう読み込んでるの 世界史なんか図をを認識する必要があるのに まさか手作業で、コンピュータに理解できるように 入力してるじゃあないだろうなw
長文禁止とかいうルール無いからなぁ…荒らしとは判断し辛い。 長文投げる人がコテつけてくれたらいいんじゃないかな?読みたい人は読めて長文嫌いな人は黙ってNGできるように。
206 :
デフォルトの名無しさん :2014/11/20(木) 08:59:42.01 ID:AVgM9bDZ
でも画像処理スレが他にあるのにここで変な話されてもね
>>206 画像が東ロボの本質というわけではないよね。
208 :
デフォルトの名無しさん :2014/11/21(金) 21:08:35.82 ID:u7zfQT1D
209 :
デフォルトの名無しさん :2014/11/21(金) 22:00:40.78 ID:o0Qb8YAB
>>208 もしかして
>>153 を投稿された方でしょうか。でしたら質問があります。
現在の画像処理技術で、「不要な部分を消して、必要な部分だけ取り出して認識」は可能ですか?
また
>>153 の画像から、「何かと何かが交互に楕円形に並んでいる」と認識させることは可能ですか?
それから
>>136 や
>>143 のように、「認識に必要な輪郭だけを取り出す」ことは可能ですか?
210 :
デフォルトの名無しさん :2014/11/21(金) 22:33:18.98 ID:u7zfQT1D
亀レス。
>>137 文章題は、「風が吹けば桶屋が儲かる」方式の連想モードで何とかなるかも。機械には
「なぜそうなるか」の論理思考は無理だが、試験問題の多くはそういう能力を要求していない。
212 :
デフォルトの名無しさん :2014/11/22(土) 01:16:42.03 ID:g4vKpQIM
何言ってんだ?
213 :
デフォルトの名無しさん :2014/11/22(土) 14:09:13.78 ID:6/H2UDnl
人口知能 詐欺集団の合言葉 役人の受けがいい、人口知能関連で科研費が出やすい 何時までも詐欺行為がとまらない
「人口知能」じゃ予算は出ないと思うけど
いかにも僻み根性だけで生きている無能らしい誤字だな
>>124 >作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,
「 2チャンネラー百万人 」ってのも、当たらずしも遠からずだな。
新井紀子氏「これは面白い結果。"含意関係認識は人間には易しく機械には難しい"と我々人工 知能/自然言語処理の学者は考えているが、本当にすべての人間は含意関係認識を行えるのだろうか」
219 :
デフォルトの名無しさん :2014/11/23(日) 03:50:57.22 ID:EIkF2ojA
情報工学の連中はなぜ自分らのやってることをサイエンスだと思ってるんだ?
確かにどっちかというと数学に近い
221 :
デフォルトの名無しさん :2014/11/23(日) 04:24:52.15 ID:EIkF2ojA
数学ならサイエンスだろ アホか
もうしわけないが数学はサイエンス=自然科学ではないね
お前の中ではな。
工学はエンジニアリングだしな。 こういったごく基本的な語の解釈すら怪しい奴が何を批判しようとしても自爆するのは当然w
え?数学が自然科学ではない、というのは当たり前の話じゃなかったの?
数学が自然科学じゃなきゃ何に分類されるって言うんだそもそもスレチだが
228 :
デフォルトの名無しさん :2014/11/23(日) 18:57:03.46 ID:PERA2nvu
51. 意味素性 つづき ?出来事および動作、作用の領域:PRC ?ACT(動作、行為) ?EVE(イベント、出来事)
?APO(予定に従った行動: ex 銀行が9時から始まる) ?RES(結果 ex 災害) ?PRO(結果、制作物 ex パンを焼く)
?PHE(自然現象の結果できるもの ex 氷が張る) ?NAT(自然物、現象 ex 台風、太陽) ?PLA(植物) ?GAS(気体 ex 霧、息)
?ELM(五感では捉えられない性質 ex たんぱく質、神 経) ?POT(身体部位 potency ex 足、肩、肺、胃腸)
52. 意味素性 つづき ?抽象性の領域:ABS ?Price(収入、価格) ?Measure(身長、体重) ?Information(情報、身長、小説、音楽、批評、住所)
?Quantity(重量、面積) ?Social bonds(格差、関係) ?Grade(身分、評価、規模) ?Form (評価される属性 ex 味、形)
?Attribute(程度で計るもの ex 非常識、進歩、塩) ?Reciprocity(相性) ?Personality(意地、性格) ?Mind (勘、神経)
?Manner(能力、性向など ex 料理、詰め、発表、運転、色 使い、人使い)
53. 意味素性 つづき ?抽象性の領域:ABS ?Method(方法、やり方) ?Objective-value(値 ex 赤、四角) ?Sensational-value(甘い、辛い)
?Evaluation(評価 ex 台所が苦しい、財政、舌) ?Currency(価格 ex 100ドル、1000円) ?Duration(期間 ex 3年) ?Distance (距離 ex 3km)
?Item(数を表す、ex 3人、1個) ?Ratio(割合, ex 30%) ?Quantity(量 ex 30kg) ?State(状態 ex安定、幸福、不幸、静か、可能、頑固)
54. 意味素性 つづき ?抽象性の領域:ABS ?Role(役職名) ?Relational-term(親族、交友関係) ?Direction(東西南北左右上下前後)
?Phase(時間的、位置的順序) ?Reference-point(基準点からの相対 ex 逆、以上) ?Norm(規則、法則、法律、公式)
?Subfield(学問、芸術、スポーツなどの分野) ?Inclination(心理的傾向 ex 興味、馴染み) ?Appearance(外見 ex印象、態度、形跡)
?Unit(単位) ?Time-point(時点) ?Time(出来事の順序関係、抽象的時間 ex 将来)
http://www.slideshare.net/hirsoshnakagawa3/grammar-39910952
役に立てばどっちでもいいよ
230 :
デフォルトの名無しさん :2014/11/23(日) 19:14:32.75 ID:uAltGaNh
整数は神が作ったから整数論は自然科学 それ以外は人間がつくったkら形式科学
>>228 >>231 ならば今こそ、そうした「意味役割」を付与したアノテーションコーパスを作成すべきだ。
それこそ 「 2チャンネラー百万人 」を動員すれば何とかなるはずた。
2ちゃんねらーなんか動員したら、ゴミの山が出来上がるだけ。 徴兵とか徴農とかがたいしてうまくいくシステムじゃないのと同じ。
234 :
デフォルトの名無しさん :2014/11/23(日) 21:41:51.89 ID:PmCQRqdR
でも、アノテーションコーパスは、人手でやるしかないんでしょ。
235 :
デフォルトの名無しさん :2014/11/24(月) 03:15:43.74 ID:wqHflsYn
無意味なコピペするやつやめてくんない?
>>228 とかホント迷惑だよね。お前の意見はないの?という。
237 :
デフォルトの名無しさん :2014/11/24(月) 23:07:25.90 ID:PS8Utgm4
>>124 >作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,
43歳ニートの俺でも雇ってくれるかな・・・
238 :
デフォルトの名無しさん :2014/11/25(火) 09:26:09.87 ID:aL15dD2y
数学では,ある問題を解くために,その問題を別の問題に翻訳して,もとの問題ではなく
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問
題を解くために,B という問題が解ければ,その解から A の解も得られることが判って
いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような
問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の
例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A
よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい
かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう.
多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的
な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い
やすい,という現象の現われと言えるでしょう.
もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ
れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で
ある,というような言い方をすることもあります.
一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う
例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し
てみることにしましょう.
http://kurt.scitec.kobe-u.ac.jp/~fuchino/chubu/method-math-WS06.pdf
239 :
デフォルトの名無しさん :2014/11/25(火) 12:38:38.21 ID:7PX75+Zb
無意味なコピペ迷惑だからやめてくんない?
反応する馬鹿も消えろよww
241 :
デフォルトの名無しさん :2014/11/25(火) 12:50:18.42 ID:7PX75+Zb
叩かないと消えないでしょ
243 :
デフォルトの名無しさん :2014/11/25(火) 14:01:43.88 ID:aL15dD2y
コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り
まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、
全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト
にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、
それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の
事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)
程度が現実的なところではないかと思う。
それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞
くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、
という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人
に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい
コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。
コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、
残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、
助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者
たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例
から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、
というトレーニングもあってよいと思う。
http://d.hatena.ne.jp/mamoruk/20140902/p1
コピペうぜぇ。 誰か削除願い出せや。
245 :
デフォルトの名無しさん :2014/11/25(火) 14:29:27.54 ID:aL15dD2y
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだ
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、
ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム
レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら
すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので
(自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140902/p1
国や自治体は、地球儀で表現できる。物体・流体とその運動は、シミュレーターで表現できる。
人物とその行動はオブジェクトで表現できる。けれども「民主主義」とかの抽象概念は表現できず、
せいぜい共起関係を調べるのみ。例えば朝鮮民主主義人民共和国だって「民主主義」ということで、
北朝鮮=民主主義国家なんて理屈も成り立つ。しかしこれは一般的なイメージとはかけ離れている。
従って抽象概念を一般的なイメージに帰着させるためには、いくつかの具体物を結びつけるしかない。
「世間」とは何か
http://www.pat.hi-ho.ne.jp/nobu-nisi/kokugo/seken.htm 「世間」とは・・・近所のおばさん、警察、新聞、学校、勤め先の会社、知り合い・・・・
247 :
デフォルトの名無しさん :2014/11/27(木) 17:46:09.92 ID:+o9Dshrb
英語の論文読むのが苦痛でたまらない はやく翻訳装置つくってくれ
248 :
デフォルトの名無しさん :2014/11/28(金) 17:31:36.07 ID:7V+kfZOs
対話の学習ってどうやるの?
250 :
デフォルトの名無しさん :2014/12/01(月) 17:26:06.50 ID:7r1s3h7c
目障りなコピペ野郎が
251 :
デフォルトの名無しさん :2014/12/02(火) 19:50:43.04 ID:OPiibqqe
東ロボくん センター模試2014 英語………95 国語………69 世界史B… 52 日本史B… 44 数学TA… 40 数学UB… 55 物理………31 7科目合計…386/900 漢文は全問ノーマーク 世界史Bは2問ノーマーク 日本史Bは4問ノーマーク 数学じゃないんだから 分からない問題はランダムにマークしろよ…
252 :
デフォルトの名無しさん :2014/12/02(火) 19:51:56.20 ID:OPiibqqe
漢文・世界史B・日本史B ノーマークの問題をすべてランダムにマークしてたら 49.6%の確率で14点以上アップ つまり49.6%の確率で7科目合計が400点に届いたことになる
253 :
デフォルトの名無しさん :2014/12/02(火) 19:53:47.76 ID:OPiibqqe
東ロボくん 英語 センター模試2014 発音・アクセント問題…パーフェクト(配点14) 未知語-語意推測問題…パーフェクト(配点8) グラフ・図表問題…得点率75%(配点20) 語句整序完成問題…得点率67%(配点12) 意見要旨把握問題…得点率67%(配点18) 文法・語法・語彙問題…得点率60%(配点20) 会話文完成問題…得点率33%(配点12) 文脈に合わない文-指摘問題…得点率33%(配点15) 実用文書読解問題…得点率33%(配点15) 読解問題(論説文)…得点率33%(配点36) 読解問題(情報理解)…全滅(配点30)
254 :
デフォルトの名無しさん :2014/12/02(火) 19:54:56.87 ID:OPiibqqe
東ロボくん 国語(現代文) センター模試2014 漢字…パーフェクト(配点10) 語句の意味…得点率67%(配点9) 評論読解…得点率50%(配点40) 小説読解…得点率32%(配点41)
255 :
デフォルトの名無しさん :2014/12/02(火) 19:55:07.53 ID:iCHrVmBA
東ロボくんの話しないでくれない?
>>255 お前実は、自分で長文コピペ貼っておいて、自作自演してる張本人だろ?
>>253 未知語の推測問題、推測するまでもなく意味を知ってたんじゃないのこれ
258 :
デフォルトの名無しさん :2014/12/03(水) 21:02:56.05 ID:14+GtqTY
文章が入力されたら、隠れマルコフモデルがたくさん存在する集合に射影するようなことできないかなぁ
259 :
デフォルトの名無しさん :2014/12/03(水) 22:32:37.61 ID:H1Y0sahg
NAISTの自動音声翻訳 2013年、初級通訳者レベルに到達 ドコモが機械翻訳の会社「みらい翻訳」を設立 機械翻訳の精度は現在TOEIC 600点レベル 2016年までにTOEIC 700点レベル、2019年までにTOEIC 800点レベルを目指す TOEIC 600点レベルなら、センター英語はもっと点とれるんじゃないの? 東ロボ英語チームはみらい翻訳と組めばいいかもね
260 :
デフォルトの名無しさん :2014/12/04(木) 11:13:59.73 ID:h+gvphcs
word2vecはギリギリまで次元を減らして意味ありげな指標を作っただけという可能性
翻訳はしょせん入出力が一対一レベルじゃろ 文脈をどこまで見てるかもあやしい
262 :
デフォルトの名無しさん :2014/12/04(木) 18:17:46.95 ID:5hTqY9uU
東ロボくん 東大模試2014 理系数学…36/120(偏差値55.7) 文系数学…32/80(偏差値54.1)
263 :
デフォルトの名無しさん :2014/12/04(木) 18:19:56.45 ID:5hTqY9uU
264 :
デフォルトの名無しさん :2014/12/04(木) 21:03:38.82 ID:MwWrePzc
東ロボくん専用スレ立ててこのスレでは禁止していいかな?
そうね。 本人がロボットみたいだしw
267 :
片山博文MZ次期CEO ◆T6xkBnTXz7B0 :2014/12/07(日) 12:57:22.31 ID:O40P0GQH
公務員試験だけの先生が東ロボの話をコピペしているの?
269 :
デフォルトの名無しさん :2014/12/15(月) 06:54:15.73 ID:NngIclHu
東ロボにRubyは使えないのか?
力学シミュレーションと可視化
これまでRubyで軽くシミュレーションを書くのはかなり困難なことでした。
微分方程式はRuby-GSLで解けますがインストールは非常に煩雑でした。
可視化に関しては決定的な方法がなかったように思います。 (私がよく知らないだけかもしれませんが…)
今ではFortranをラップしたODE gem (gem install odeだけでインストール可能)で常微分方程式
を解くことができます。 また、IRubyに新しく加わったCustomWidgetを使うことで、Rubyとネイティブ
拡張の出した結果をリアルタイムにブラウザ上に表示できます。この場合JavaScriptの有名なdom操作ライブラリ、
jQueryやd3.jsを使って可視化部分を簡単に書くことができます。
http://domitry.hatenablog.jp/entry/science_with_ruby
270 :
デフォルトの名無しさん :2014/12/16(火) 14:52:53.84 ID:hxvZqs1F
>>245 >自分の携わった NAIST テキストコーパスは5年以上かかっています
人海戦術で何とかならんのか?
271 :
デフォルトの名無しさん :2014/12/17(水) 13:49:18.49 ID:+8T0slzN
>>245 >自分の携わった NAIST テキストコーパスは5年以上かかっています
それでもアノテーションコーパスの充実は、今後ますます必要になってくると思う。
□現象?多様性?カバーできているのか?
SNS文書,論文など別?種類?文書へアノテーションが必要
□学習アルゴリズム・解析アルゴリズム・特徴抽出?さらなる改善
現象?多様性を捉えるには? 今まで?延長線上でうまくいくか? 問題?観点を効果的に捉えるには?
□情報共有
アノテーション時?経験則,問題?評価指標
□ジレンマ
学術的に?問題を安定させなけれ?共有が難しい /
今後想定される応用に向けて問題?改編が必要
□アノテーションしたデータだけ対象にしていていいのか?
アノテーション学 vs ポスト経験主義
述語項構造と照応関係?アノテーション:
NAISTテキストコーパス構築?経験から
飯田龍(NICT), 小町守(首都大),井之上直也(デンソー・東北大),
乾健太郎(東北大), 松本裕治(NAIST)
http://www.anlp.jp/anniversary/20th_sympo/slide_iida.pdf
272 :
デフォルトの名無しさん :2014/12/18(木) 17:37:40.91 ID:h7yCp+rM
長文を箇条書きにするというのは恐らく文書要約の範疇で、盛んに研究されているところだと思いますが、
重要文抽出以外はまだ実用的には難しいでしょう(文抽出以上のことをしようとすると、意味を理解しないといけなくなる)。
最近はニュースの配信アプリケーション・サービスが盛んに開発されていて、ざっくりまとめたりする機能がありますが、
自然言語処理の最先端の技術が使われているというよりは、かなりルールを書いたり、人手を入れたりしている、と聞いたことがあります。
http://d.hatena.ne.jp/mamoruk/20140902 コーパスのアノテーションは、ものによりますが人海戦術でなんとかなるものではなく、人を増やしても質が確保できない
(むしろ悪化する)ため、少数の人数で長期間作成する、というのが典型的な方法です。最近はクラウドソーシングによって、
多数の人間にアノテーションをさせる、という試みがなされていますが、自然言語処理は画像認識ほどには一般的ではありません。
見てすぐ分かる、というタスクならいいのですが、少し考えないといけないようなタスクが多いからでしょう。
画像認識については、リンク先を拝見しましたが、これは画像認識だけの問題ではなく、かなり難しい類の問題であると思います。
何が「余計」かというのを分かるためには、答えを推測できないと分からないように思いますし、いまの東ロボプロジェクトの数学
を公理系(数式)に落とし込んで推論(というか証明で)解くアプローチでは、このような問題は苦しいのではないでしょうか(
予測して探索するようなアプローチをする必要があり、どちらかというと証明系というよりはゲームAIの推論のような感じ?
要は大規模なデータからのパターンマッチにする、というパラダイムにする、とうことです)。これを幾何の問題のまま解こうと
するのは数学の解答エンジンを一から作り直すことに相当すると思われますし、このプロジェクトのフォーカスからは離れそうです。
http://d.hatena.ne.jp/mamoruk/20140822
273 :
デフォルトの名無しさん :2014/12/19(金) 11:41:50.67 ID:Rp55Z5Hh
無意味な長文コピペやめろ
274 :
デフォルトの名無しさん :2014/12/22(月) 13:05:29.12 ID:mCwiHCRV
コピペするなよ! 絶対にコピペするなよ!
275 :
デフォルトの名無しさん :2015/01/01(木) 13:33:29.53 ID:BsJlAb0F
自然言語処理のエラー分析は、これまた困難らしい。
Project Next NLP という、いろいろなタスクでエラー分析をする日本の自然言語処理コミュニティの一大実験プロジェクト
があるのだが、予想通り大変そうである(自分は今年度子育ての負荷が高いことが分かっていたので、結局メインでは
参加していない)。こういう機会が必要なことは恐らくこの業界のほとんどの人が賛同すると思うのだが、実際にエラーを
分析しようとすると、アノテーションの経験がありかつ言語学にも詳しい人がプロジェクト内に複数人いないと、
そもそもエラー分析自体がまともに回らないと思うし、もしそういう人たちが中核にいたとしても、議論が白熱して
毎回侃侃諤諤の議論になることうけあいなのである。
http://d.hatena.ne.jp/mamoruk/20141112/p1
アノテーションに関しては、自然言語処理におけるアノテーションに特化したような和書はありませんね。需要はあると思うので、
出版社の方が見えたとき、そのような本を企画されては、と提案したことはあります。ただし、体系化することが難しいので、
書くには骨が折れると思います。ほとんどの場合、仕様を解説されても意味が分からないので、読む人が言語現象自身に詳しく
(つまり言語学の知識があり)、かつ自然言語処理にも明るい(つまりプログラムを書いて機械学習を行う処理がイメージできる)
必要がありますので、入門書とはならないでしょうし、個人的にも入門書ではなく専門書としてちゃんと書いたほうがいいと思っています。
http://d.hatena.ne.jp/mamoruk/20140902
RDF等に関しては自然言語処理よりはウェブマイニング(広義の人工知能研究)で盛んに
研究されていますが、ほとんどの研究は英語が対象で、日本語でちゃんとしたリソースは
作られていないというのが現状だと思います。だからどう(日本語でも作るべき)だとい
うわけではないですが、少なくとも東ロボのプロジェクト期間内にどうこうできるという話ではないでしょう。
個人的には、ここは確かに研究の余地があるところだと思っているのですが、英語で書かれた
リソースと比べると日本語で書かれたリソースが少ない(かつ分野が偏っている)という問題と、
日本語が英語と比べると処理しにくいという問題のため、英語のように精度の高いリソースを
作るのはそんなに簡単ではないと思っています。(たとえば、英語だと2つの名詞句の間の文字列
を取ってくれば、だいたい述語が取れるので、構文解析によらない頑健な処理ができますが、
日本語では述語は文の末尾に出現するので、係り受け解析をしないと述語が分からず、なかなか頑健にはできなさそう)
http://d.hatena.ne.jp/mamoruk/20140902
このコピペの動機はなんなの? 守本人なの?
279 :
デフォルトの名無しさん :2015/01/04(日) 19:32:49.96 ID:UrD0d14K
コピペが無くても誰も書き込まないスレッドをコピペのせいにするなよ
コピペが無くても誰も書き込まないスレッドをコピペのせいにして申し訳なく思います
まるで何かの宣伝みたい。
282 :
デフォルトの名無しさん :2015/02/12(木) 14:36:17.01 ID:LHb2oe4V
RDFトリプルセットは「連想・推論」に利用できるので、人力でRDF辞典を作成しておきたい。
自然言語の多義性・曖昧性は、これである程度解消できるはず。
提案手法では,開世界仮説に基づき,RDF グラフからそれより高い表現力をもつ SROIQ概念の極小モデルを推論できる.
さらに,ある概念の極小モデルが一意に決まることを利用し,与えられたRDF グラフから記述できるすべての概念を生成
する停止性をもつアルゴリズムを提案した.
http://sigswo.org/papers/SIG-SWO-A1402/SIG-SWO-A1402-10.pdf (x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、あるいは少ない順に並べる。高頻度のトリプルがやたら多いということは、
逆に言えば他と似たり寄ったりでつまらないコンテンツである可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
あるいはナンセンス文かのどちらか。例えば「女性は子供を産む機械」。こういうのは普通に「女性 子供」で検索しても出ない。
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだということは言いにくいのですが、
アノテーション・コーパス作成自体が大きな研究テーマであり、ベストプラクティス的なものもなければ、少しだけ蓄積されている
ノウハウ的なものすらチームレベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したらすぐコーパス
ができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので(自分の携わった NAIST テキストコーパスは
5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140822 今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクトを一つ一つの物体に分解できたとしても,機械にとって,
それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf 『常識』なるものは、専ら人力で登録するしかない。コンピューターなんていくら高性能でもただの計算機に過ぎないのだから。
283 :
デフォルトの名無しさん :2015/02/18(水) 13:15:42.49 ID:dIyx5cm4
>>282 >機械にとって,それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
自動作成が困難な「違和感CAPTCHA」は、試験問題作成委員と東ロボとイラスト作成支援ツールや
過去問改題支援ツールを併用し、人力と機械力のハイブリッドで効率的に作成する。イラスト理解は
コンピューターには困難だが人間には易しい。難しい東大の過去問も、懇切丁寧な誘導付きで易しい問題
に改題すればいい。センター数学は人間には易しいが東ロボには困難だ。またそれ専門のセキュリティ
企業を設立して、効率よく大量生産できるようにしたい。できれば一日あたり一万通りくらいは作りたい。
三回間違えたら30分間はアクセス禁止にするとか。そうすれば2chのアラシ投稿も激減するはずだ。
「ぐにゃぐにゃ文字CAPTCHA」にはもうウンザリ。
284 :
デフォルトの名無しさん :2015/02/18(水) 15:59:15.93 ID:dIyx5cm4
あと、2ちゃんねるでの板違いスレ立て乱立防止のために、「資格試験CAPTCHA」を導入するとか。 例えばプログラマー板なら、基本情報技術者試験の午前問題で、7割正解しないと投稿できないようにするとか。
285 :
デフォルトの名無しさん :2015/02/21(土) 17:29:42.70 ID:VfWo/10x
286 :
デフォルトの名無しさん :2015/02/21(土) 21:50:03.02 ID:RYr+Lvse
もうコピペすんのやめろ
全角カンマが論文で多く見られ、一般には余り用いられないことから ,(.|\n)+https?:// をNGにすると結構良いんじゃないだろうか。 あと驚いたのが る。(.|\n)+https?:// が思ったより誤認識しないこと。これも論文に特徴的な、「である調」を意識したものだが、このスレで引っかかった中で少しでも意見が含まれると思われる投稿は9件に留まった。 リンク先との内容の重複を検出するのが一番なんだろうけどね。
研究者ワナビーのオッサンがコピペしてそうだよな 学歴は高くなさそうなオッサンが
ふつうに入門書から読めば、学歴がどうあれそれなりに理解はできるだろうにねえ。 わけもわからずそれっぽいweb上の記事を漁って仮にそれを丸ごと暗記できたとしても 何の意味もないのに。
Wikipediaのdumpって いつの日付のが良くベンチマークとして使われてるとかあるのですか? むしろlatestを使うのが普通なんですか?
なんのベンチマーク?
言葉を間違ってそう
293 :
デフォルトの名無しさん :2015/02/28(土) 15:19:37.45 ID:LSUjOX6L
学歴高いオッサンでポストがあっても話にならんクズは多いけどな
あれっ? CRFって最大エントロピー法の特殊な場合なんだっけ?
似てはいる
入力や解析の途中の状態をすべて保存しておけば、 入力・解析が途中で止まっても再開できるぞ。 俺スゲー