強化学習は人気薄なのか...
というか,まだしばらくこの板は過疎り続けると思われ
下手な宣伝打てば板ごと消されかねないし,まったりチラシの裏として
使っていくしか.
で,教科書thx.おもろい論文もキボン
あ〜,強化学習のみのスレッドがあるのか.
どうせ過疎なんだから機械学習全般でスレッド立てたら良かったのに…….
7 :
1:2006/09/04(月) 02:17:04 ID:2CCqCT5l0
8 :
名無しさん@お腹いっぱい。:2006/09/05(火) 23:02:51 ID:3rDcoTAo0
あげ
9 :
名無しさん@お腹いっぱい。:2006/09/17(日) 00:42:09 ID:75+7piY90
強化学習の応用製品ってどんなのがあるんでしょうか?
正直ロボットに対するいわゆるナビゲーションタスク的なものばかりな
気がしているんですが、どう思われますか?
>>9 AsynchronousなDPなんだから,DPの応用分野で
厳密解を要求されないようなものであれば使えるはず.
11 :
名無しさん@お腹いっぱい。:2006/09/17(日) 01:11:37 ID:75+7piY90
>>10 確かに、まぁ強化学習はモンテカルロ法とDPの間のようなもんでしょうから
代用品としてはそれなりに使えるとは思います。
気になったのは強化学習という手法の特色が生きるような使い方があるのか
というなって感じです。
12 :
名無しさん@お腹いっぱい。:2006/09/17(日) 01:13:23 ID:75+7piY90
×というなって感じです
○というような感じです
例えばDPでは計算量的に解くことが無理な大規模な問題を,
強化学習で解かせると最適解ではないがそこそこの解を実用的な時間で
返してくれるかも知れない.
問題なのは強化学習で得られた解がそこそこなのかどうなのか判断できない事ですね.
14 :
名無しさん@お腹いっぱい。:2006/09/17(日) 01:45:47 ID:75+7piY90
そうなんすよねぇ
自分もまぁ強化学習使って研究してる(修士)んですが、どうも実用的に
使えるのかどうかを判断できないところはあります
そもそも強化学習の扱う不完全な強化(教師)信号から学習するような
問題、言い換えれば、性能向上のためにパフォーマンスを下げるかもしれ
ない探索行動が認められるような問題、が実際的に許容されるのかという
点が頭を悩ませます
ほんと、企業に売り込める強化学習搭載の製品がおもいつかんのですわ。
以上長文失礼。
学習対象が変化しないのであればDynaみたいにオフラインで学習して
greedy方策で運用するという方法でいいのでは?
ところで強化学習の実装するのに何を使ってますか?C言語とかJavaとかでいくつか
ライブラリありますが,どれもしっくりこなくて結局自分で書いたのを使ってるんです.
16 :
名無しさん@お腹いっぱい。:2006/09/17(日) 02:30:07 ID:75+7piY90
そうですね。確かに、完全な教師は設定しにくいが、強化信号
(不完全な教師)は設定できるような問題(例えば2足歩行?)
なんかをベースに考えるってのは手なんですけどね。
で、ライブラリですか?
まぁあんまり言うとバレそうなんですが、アルゴリズム自体
の改良を研究のメインとしてますんで、モロ自分で書いてます。
今のところ、Q学習、SARSA、モデルベースな手法、適格度トレ
ースあたりは資産として出来上がってますね。
ただ、階層化の作り方がわからず手をこまねいてるとこです。
17 :
名無しさん@お腹いっぱい。:2006/09/17(日) 03:01:35 ID:eLIuH7p30
なぜ日本人女性は韓国男性に憧れるのだろうか。
まず韓国人男性は紳士的な振る舞いをします。
そして女性を大切に扱います そして情熱的です。
このような韓国人男性の振る舞いに日本人女性はコロリと落ちるのです。
日本人のような幼児的な男性にあきあきしてる裏返しの行動でしょう。
韓国人男性に憧れる日本女性は週末になるとソウルを訪れるそうです。
ソウルで運命的な出会いを期待しての訪韓です
ソウルでは毎週末にお見合いパーテーが開かれています
日本女性と韓国男性のお見合いパーテーです
日本女性の参加者が圧倒的に多く韓国男性を集めるのに苦労するそうです。
日本女性は婚前交渉に積極的だと聞きました。 韓国では婚前交渉はタブーです。
お見合いパーテーで知り合い、その日のうちに関係を持つカップルが多いと聞きます。
「日本人女性は優秀な遺伝子を求めて韓国で股を開く」と韓国のWEBサイトで話題になっていました。
韓国では不道徳なものは、東から来ると言われています。
韓国は日本から多くの不道徳を持ち込まれています。
すべて事実だ。 日本の女は淫乱で男はまったく魅力がないインポ。
かわいそうな劣等民族
やはり自作ですか...
21 :
名無しさん@お腹いっぱい。:2006/10/20(金) 21:11:14 ID:bUWJiCbX0
>20
おー。
GUIが頭よさそう。3D表示とか。
【福岡・中2自殺】
「あいつ死んで、せいせいした」 いじめ集団、
自殺生徒の通夜で笑いながら何度も棺をのぞきこむ
<加害生徒の名前リスト>
亀井義明←主犯
佐藤和彦←No.2、虐め指示、同級生への口封じ役確定
元木 一也←確定
綱島 明←確定
江藤 龍平←確定
ソース元は同級生
名前の確認は非常に近い関係者だ
合言葉は「だってめんどうなんだもーん」byスネーク
コピペよろしく
強化学習の良い応用を思いついたとしやう。
プログラムに強化学習のアルゴリズムを実装すると、「使用者の意図しな
い振る舞い」をさせることになるのだが。
で、そこんとこどうすんのよと。
>>24 つまりそれは良い応用ではないということですね
26 :
24:2006/10/31(火) 23:48:38 ID:v1bnAW3q0
>>25 まじめにレスすると,
「使用者の意図しない振る舞い」があらかじめわかるということは学習対象についての知識が
すでにあるということですね.
強化学習は学習対象に関する事前知識が全くなくても適用可能な学習の枠組みになっていますが,
事前知識が得られる場合には,ルールベースで意図しない振る舞いを抑制するなりすればいいでしょう.
理論ではなく応用なのですから,その辺は臨機応変にやればいいと思いますよ.
いまいちスレの流れがよめないけど、
応用としてゲームなんかはどうかな。
結果が確率的で変化に富むという点で、
アミューズメント系には向いてるかと。
実際、一生懸命練習(勉強)してる様子を見てると、
それが自分で作ったプログラムだって事以上に楽しかった記憶が。
28 :
26:2006/11/01(水) 00:56:46 ID:OdbXJlhp0
29 :
25:2006/11/01(水) 03:48:57 ID:OdbXJlhp0
>>27 ゲームへの応用は古くはバックギャモンとかでやられてるから,
もう少し役に立つ(工学的な)応用例が欲しいところですねぇ.
>>24はロボット制御とかを想定してるんじゃないでしょうか?
2足歩行とかをやみくもに学習させようとすると,アクチュエータを破壊する
行動を取る可能性もあるから,そういう行動をどうやって抑制するのかと.
まあ,まったく的外れかも知れませんが.
役に立つ応用かぁ。
個人的には役に立たない学問があってもいいと思うけど、それは別として。
やはり、全部をオンラインで学習させるのは厳しいですかね。
31 :
25:2006/11/01(水) 15:33:43 ID:PUrVWjF30
>>30 >やはり、全部をオンラインで学習させるのは厳しいですかね。
というより強化学習はオフラインでは学習できないものに使うべきものだと思います.
前に、「意図していない学習から、面白い物を作れないか」と問われたことがある。
つまり、現実世界ではありえない動きを作成する手段として作れないか、ということ。
ただこれはCGとかの場合だったので、実際の制御に使用するとなると「人間が意図して欲しい動作」が生まれてくるから、
あまり参考にはならないかもしれない。
意図していない学習を許容できる、工学的な応用例っていうのは難しそうですね。
役に立つ≒無駄な動作を省くって意味では、意図していない動作は許容しにくいし。
33 :
自律増殖するオブジェクト:2006/11/22(水) 01:31:05 ID:Iu/DjeFw0
強化学習の応用として、PCデスクトップ情報収集秘書を考えてみる。
PDS(パーソナル・デスクトップ・セクレタリ)とかなんとか。
ユーザーがPCのブラウザからググるのに使用した用語をPDSは学習。
で、PDSはユーザーがPCを使っていない時間やCPU資源が空いてる時間
にさらにググりまくって、要約集みたいなものを作成してローカルHDDに保存。
ユーザーは、PDSがせっせと作成した要約集を時々目にして、気に入った
ら「よくできました」と褒めてやる(報酬を与える)。
PDSは自分の取った行動(ググリ方と纏め方)と報酬期待値と実報酬を蓄積。
繰り返し。いつの日か、ユーザーには欠かせないデスクトップ情報収集秘書の
出来上がり。
仮にこういうのを作成したとすると、プログラムは勝手にググる訳だから、
ワームだのウィルスだのと揶揄される可能性がある。
で、どーすべきなのかと。秘書同士が連絡を取り合うとさらに大変なことに。
35 :
自律増殖するオブジェクト:2006/11/22(水) 02:21:17 ID:Iu/DjeFw0
>>34 元の情報と似た情報をバラまいて、元の情報を隠す?
>>33 対話型進化的計算がそんな感じじゃね?
あっちは世代→世代だけど
おちんちんを堅くする方法を教えてください
たくさんの体験をすることにより、学習できます。
39 :
名無しさん@お腹いっぱい。:2007/01/12(金) 21:33:24 ID:gThI0H6X0
こんなスレがあったとは知らなんだ。
連続タスクとエピソード的タスクについて質問なんですが、
「ある条件に入ったら、状態が初期値に戻る」ことがある場合は
すべてエピソード的タスクってことになるんでしょうか?
>>41 エージェントが探索の開始状態に戻るときにバックアップが初期化される場合はエピソードタスク.
バックアップが初期化されない場合は単に開始状態に状態遷移しただけではないだろうか?
人生は非エピソードタスク…?
>>42 超遅レスになってしまって済みません。
なんかちょっと理解できたように思います。
ありがとうございました。
45 :
名無しさん@お腹いっぱい。:2007/02/26(月) 14:36:06 ID:pO0z/SQL0
強化学習なんてのもあるんですね。初めて知りました。
ところで、機械学習のいい入門書を知っていたら教えてください。
洋書がいいです。当方元々数学屋でしたが、ちょっと興味があるので
なんで要所が良いんだろう。
追加学習の入門書ってあります?
>>46 要所が読める人にっとては、
誰かの手によって訳された本よりも
細かいニュアンスがつかみ易い。
51 :
名無しさん@お腹いっぱい。:2007/05/15(火) 15:43:46 ID:HqLcDuDj0
うちらから見れば20代になってしまえば皆オバちゃん。だいたいスーパーなんて高校生がやるバイトじゃん!20越えたオバちゃんが遊びたい年頃って言ってんのがバカだと思うwそんなの高校までっしょ。
>>52 グラフの横軸,縦軸の取りかたは合ってるのかな?
Figure 6.11 は横軸が通算の行動数,縦軸が通算のエピソード数になっててちょっと特殊なグラフだけど?
直線より上向きに曲がってるから,学習の進行とともにエピソードあたりのステップ数が少なくなるということ
だね。追試した訳じゃないけど,普通に学習できてればそうなるような気がする。
54 :
52:2007/07/31(火) 19:23:46 ID:GXLzaLU50
>>53 ありがとうございます
軸の取り方は合っていますが、どうしてもこの形のグラフが得られないんです
α=0.1、壁方向の行動を選択可
の条件で試すと、8000ステップで38エピソードしか進まないと言う・・・・・・
HPのFAQにα=0.5の方が良いとか書いていたので、それで試してみるとエピソード数は178まで行きますが、傾きが全然よろしくない。
どうしても見本のような良い収束性が得られません
未だどこかプログラムに間違いがあるのか、それとも・・・・・・
にしてもコレに載ってる例題は、ことごとく条件が全部書いていないのでプログラムを組むのに無駄に時間がかかるなぁ・・・
55 :
53:2007/08/01(水) 03:49:03 ID:Jp9SpqlO0
追試してみた。
たしかに alpha = 0.1 では再現しないね。
alpha=0.5でやった結果はこんな感じになった。(100回の平均値)
ttp://www-2ch.net:8080/up/download/1185907018531701.SehkbE alpha=0.1でも時間ステップを多くとれば同じようなグラフにはなるみたい。
一応学習パラメータを示しておく。
alpha=0.1, gamma=1.0, epsiron=0.1,
ステップ毎に -1 の報酬。
ただ環境の難しさ自体は風が吹いても普通のMazeと変わらないから,
あんまり気にするような問題でもないと思うよ。
jikan=0
*main
jikan++
if jikan \ 10 = 0 : 処理
57 :
52:2007/10/18(木) 16:00:04 ID:h/vxEKVt0
>>55 超遅レスすいません。
ありがとうございます。
安心しました。
こういうのってグラフと照らし合わせるぐらいでしか自分のプログラムの妥当性が分からないんですよね・・・
おー。情報thx
行動価値関数Q^{\pi}に対するBellman方程式って
これであってますか?
Q^{\pi}\left(s, a\right) = \sum_{s'} P^{a}_{ss'} \left[R^{a}_{ss'} + \gamma \sum_{a'} \pi\left(s', a'\right) Q^{\pi}\left(s', a'\right)\right]
↓はてなのmimetexを借りてひょうじさせるとこんな幹事。
http://d.hatena.ne.jp/cgi-bin/mimetex.cgi?Q^{\pi}\left(s,%20a\right)%20=%20\sum_{s'}%20P^{a}_{ss'}%20\left[R^{a}_{ss'}%20+%20\gamma%20\sum_{a'}%20\pi\left(s',%20a'\right)%20Q^{\pi}\left(s',%20a'\right)\right]
61 :
被害者一同:2008/01/09(水) 22:10:12 ID:rMBcyD7Q0
参考→上記の病院のhp(専門外来およびすべて)各学会専門医名簿(例 循環器→循環器学会)
上記の病院発行の請求書(領収書) 六法全書
空中伝播式非接解超音波画像解析(書籍)
¥ 年賀状 ¥
謹賀新年 明けましておめでとう。所沢 よいとこ 一度はおいで
バカ玉県所沢氏 吉川病院 吉川<鶏>哲夫 様(所沢氏医師会副会長、所沢氏看護学校長)
バカ玉県 警察所沢氏署 掃溜め課
署長 禿げ頭 及び 部下の忠犬 八公 様
2005年8月より上記、バカ玉県所沢氏 吉川病院 吉川<鶏>哲夫 様の
くだらない妄想により、バカ玉県 警察所沢氏署 掃溜め課による超音波盗聴
および超音波盗撮および超音波を利用した人体への電波攻撃、人をかいした
嫌がらせ&ほのめかし行為(八公、警察の掃溜め課の天下り先、近隣住民)、
電磁波盗聴(テンペスト)、車両での暴音走行によって 「違法」に迷惑をかけられています。
今年もあいもかわらず知能のない嫌がらせを繰り返しするのでしょうが
ひとつお手柔らかにお願いします。くれぐれもあなたが行なう不正請求(こっそり加算)
にはお気をつけください。詐欺罪にあたります。なお、専門医資格のない専門外来
についても多々疑問があります。無資格専門外来医 吉川病院 吉川<鶏>哲夫 様
天網恢恢、そにして、洩らさず。
という言葉もございます。くれぐれも死後の世界での
因果応報にご注意、お気をつけ下さい。
被害者一同
62 :
名無しさん@お腹いっぱい。:2008/01/16(水) 18:40:48 ID:OqAaXBdkO
入力データの正規化とNN構造の設計最適化までやってくれる強化学習アルゴリズムはありますか?
たとえばロボットなどですと、隣り合ったセンサからの入力がほぼ同じになってしまったり、
一つのセンサだけノイズが乗ったり、拾える信号が小さかったりなど、入力データに偏りが
出ることが避けられないと思います。これらを適切に処理するアルゴリズムとかはあるのでしょうか?
64 :
名無しさん@お腹いっぱい。:2008/01/31(木) 20:01:00 ID:cc3I7FE9O
>>63 統計学の主成分解析を調べていますが、計算が魔術的すぎて実装できません!
67 :
名無しさん@お腹いっぱい。:2008/02/25(月) 18:25:46 ID:+CQ0XD89O
ロボの行動学習はどうやれば?
SVM搭載ロボに教示すればいいのか?
SVMがReinforcement Learning?
Hello! How did I do it? Good article. Keep it up <a href=
http://vaigra.infi ?nites.net/viagara/index.html >viagara pills</a>
>>67 SVMを理解せず、実装しようとしている時点で意味不明だ。
インストールすれば使えるような考えかたは有料なソフトウエアだけに
しておけ。
結局、厳密に設計しないとまともな学習は不可能なんだろう?
研究室の中でしか使えない玩具。
あ
PCの性能は伸びた、、、
PCの性能は伸びた、、、
PCの性能は伸びた、、、
超高性能なPCができた、しかし、ソフトウエアは進化しなかった。
原因は?
ハードウエアに頼りすぎ、
学習型人工無能ぐらい8ビットマイコン時代に存在した、その域から越えられない
笑いものw
チェスで世界チャンピオンと対等に戦えるほどの
量の変化による質の変化が起きているということも理解できない人ですか?
>>77 人間は学習することで、対象となる現象を分析しその欠点を見出すことができる
つまり量でも全数計算に激しく至らなければ、今後コンピュータが負け続ける
方法を人間が考え出すこともありえる。人間はこんな思考錯誤から科学技術を
生んできた。何時までも量だけで勝てるなんて単細胞なお前だけ。
チェスなどのプログラムの域ではポーカーなどで行われる駆け引きの戦術が
まだまだ、機械的な動きの特徴さえ見出せれば、それに合った戦略を立て
一時的に負けても人間が勝ちつづけることも。
プログラムを作る人が、チャンピオンに勝てない時点で数戦えば
プログラムのほうが不利になるのは必然
機械学習・強化学習の研究の先にあるものが人間の知能と
同じものかはまだ分かりません。だから人工知能と呼ばれるのでしょう。
もし仮りに機械学習・強化学習により獲得される知能が人間の知能と
同一のものであることが証明されたなら、その時にはそれを"知能"と
呼んでも構わないと私は思います。
ところで、人間がある事象を学習するメカニズムははっきりと解明されている
訳ではなく、学習が出来るという事実が知られているに過ぎません。
この人間の学習のメカニズムを解明するには、もちろん人間の脳の働きを
直接的に研究する脳科学は重要ですが、機会学習のように人間の学習と
似たような結果が得られるメカニズムを構築することにより、人間の学習の
メカニズムを間接的に探究するアプローチも重要だと思います。
# ちなみにですが、試行錯誤は人間の専売特許ではありませんよ。
>>79 試行錯誤 ×
思考錯誤 ○
人の行うのは思考で試行をするには仮説を考えないと(ry
81 :
79:2008/08/02(土) 15:09:20 ID:MDStSq1+0
>>80 2ちゃんねる流のtypoですね、わかります。
>>80 仮説なき試行では、デタラメそのものですね。
乱数で全数探索しているのと同じ。
>>82 どんな問題にも正しい仮説がたてられる人には機械学習は不要ですね。
>>83 仮説を立てるには情報を正しく認知して分析し、分解したり抽象化したり
あらゆる知識との比較を行える基本能力が必須なんだが。
86 :
関東:2008/10/26(日) 20:18:36 ID:B2YhBmhD0
パソコンに詳しい方いますか?
呼んだ?
>>83 アジア訛りで充分だろ
東洋人丸出しの顔で白人気取りに見えんのも逆に痛いし
>>85 高次に抽象化させることは古典的技術でもできないんだが。無知?
2ヶ月前のレスに煽り入れるなよ。
一週間以上前のレスじゃ、50歩100歩だろ。
このスレの流れなら2ヶ月なんて一瞬だろ。
つまり90みたいな馬鹿に触るのは(ry
1つ発言が進むのに(ry
>>90 2ヶ月前の本人だということを自分で説明しているのは楽しいのか?
4ヶ月前のレスに煽り入れるなよ。
1ヶ月前のレスに煽り入れるなよ。
2ヶ月前のレスに煽り入れるなよ。
98 :
名無しさん@お腹いっぱい。:2009/09/03(木) 18:49:22 ID:d6ESXi4f0
age
>>98のIDがSEXageに見えた。惜しいな。
つか下げろよw
2ヶ月前のレスに煽り入れるなよ。
強化学習で15パズルは解けますか?
最適解を求めるには反復深化しかないと思うけど
最適じゃなくてもいいです
完成すれば
解くだけなら人工知能的な手法使わんでも、正解に近そうな局面を探索し続けてやれば解ける。
強化学習を使った解き方はやってみたことがないのでわからん。
105 :
名無しさん@お腹いっぱい。:2010/05/28(金) 13:22:59 ID:ptFkoaqC0
つか下げろよw
オマエモナー
107 :
101:2010/06/13(日) 16:28:25 ID:vwKO4wuH0
15パズルじゃ状態数が多すぎて、盤面に対応した評価値を保存するのが難しいです
なにかよい方法はありますか?
108 :
107:2010/07/02(金) 03:03:58 ID:QiGBK7yk0
現在の状態と完成状態との距離を評価値として使っているのですがループしてしまいます
ループから抜け出す方法は何かありますか?
なんでループするんだ?
「距離がより小さい状態」を反復深化で探せば、探索終了ごとに必ず完成状態に近い
状態になると思うんだけど。
強化学習と探索を組み合わせた手法は何か無いのですか?
111 :
110:2010/07/14(水) 15:18:38 ID:2lkun6AN0
強化学習で迷路探索をしようと考えています
しかし、ランダムに探索を行ってもゴールまでたどり着かないので強化学習ができません
よい方法はありますか?
それは強化学習になってないでしょ
強化学習は、エージェントが環境に対してアクション起こしてそれに対する報酬を受けることで学習していくものなんだ
最初のうちはどのような行動で高い報酬が得られるか分からないからランダムでもいいけど、次第に学習していくんだからランダムな行動選択にならないようにすべき
その点は、Q学習でもSARSA学習でも適格度トレースでもいいけどボルツマン分布に基づくような方策にすればよい
迷路問題の詳しい設定は考慮しないが、ゴールに辿り着いたときに報酬を与えて、壁にあたると報酬を負にしたり(罰を与える)、通路を通るごとに罰を与えるようにすれば、一般的に最小ステップでゴールに到達するようになる
そもそもゴール辿り着けないのは、問題の設定がおかしいか、乱数の精度が悪いか、なんだろう
15パズルを強化学習で解きたいと質問した者です
何回も15パズルをシミュレーションして、最適解(それに近い解)を強化学習で探したいのですが
シミュレーションをしても解にたどり着かず、報酬を得ることができないので、学習を進めることができません
どのようにしたら学習ができるような環境を作ることができるかどなたか分かる人教えてください
お願いします。
>>114 反復深化や、全探索など探索処理を行えば完成状態に行き着くと思いますが
今回は、強化学習という形で、パズルの完成に行き着けるかを考えています
シミュレーションでの探索は全解を探索してる?
乱数だと、全解を探索するのにかかる時間が(同じ探索を枝切りしないと)えらくかかるよ。
>>116 なるほど、初めは盲目的に全探索(それに近いこと)をして強化学習をするのですね
ありがとうございます、ちょっとやってみます
いやそういうことを言いたいのではなくて。
系統的に全数を探索すれば、n個の選択肢はn回の探索で探索し終わるけど、
単純にランダムで探索してたら、n個の選択肢を全て探索するのにかなりの回数が
かかる、ということ。
単に1回やったルートを除外すればいいだけなのでは?
あ、116に書いてあったわ。ごめん
15パズルなら最適解じゃなくていいなら簡単に解けるのだから
まず確実にゆっくり解く関数を作る。
予め上限を決めておいて、それを超える数まで探索したら
その関数を呼んで総手数を評価値として戻す。