学習とゲーム理論

このエントリーをはてなブックマークに追加
1177
ゲーム理論は人間の相互作用を研究する上で有用なツールですが
通常のゲーム理論はプレーヤーの合理性を仮定する点に不便さが
あります。

メイナード・スミスに始まる進化ゲーム理論は、合理性の仮定が
不要である点で、ゲーム理論の適用可能性を大きく広げるものでした。
90年代には学習型の進化ゲームモデルの開発が経済学者を中心に
進められ、人間行動の分析にも用いられつつあります。ただ、それらは
まだ学習心理学の成果を十分取り入れたものではなく、その点で
プリミティブなものに留まっています。

ここでは、心理学の成果を取り入れて学習型モデルを改良していく
方策についてぼちぼち考えて見ることにしましょう。
2没個性化されたレス↓:03/02/09 22:52
2 GETTO
3没個性化されたレス↓:03/02/09 23:01
おすすめのわかりやすい参考書を教えてください。
4177:03/02/09 23:23
うーんとですね、まだ英語のものしかないみたいです。
ウェイブルのテキストは翻訳されてますが、評判がいまいちですし
ギュンタスのテキストは分かりやすいのですが、翻訳が頓挫しています。。
5177:03/02/09 23:40
さて、今のところ学習型モデルで提案されているのは
  1 試行錯誤モデル
  2 模倣モデル
  3 最適反応モデル
の3つが基本形で、それぞれ集団型のダイナミクスモデルと
1と3については非集団型のダイナミクスモデルが立てられています。

集団型とは、プレーヤーの集団を考えてその中での戦略シェアの変化を
モデル化するもので、非集団型とは2人とか数人の同じメンバーで
繰り返してゲームを行ったときの戦略プロファイル(取られる手の
組み合わせ)の変化をモデル化するものです。
6177:03/02/09 23:56
とりあえず、試行錯誤モデルが強化学習に近かろうとは思うのですが
多分、中身はあんまり対応していないだろうと思います。
今の試行錯誤モデルは、ある戦略を試してみて効用が低ければ高い
確率で戦略を変更し、効用が高ければ高い確率でその戦略を維持する、
という仮定を置くのですが、これは学習心理学の知見からすると
どの程度妥当性を持つのでしょうか?
7ロボ ◆lSiROBOsc. :03/02/09 23:59
行動厨氏の降臨期待さげ
8没個性化されたレス↓:03/02/10 00:05
面白そうですね!

お願いがあるのですがみすずん検索の時など、
先生の番号コテでは探しにくいのです。
トリップ(コテハン名の後に#暗号)をつけて頂くと
大変有難いのでつが・・
ダメでしょうか?
おながいしまつ。
9177 ◆2YX0U4ZscQ :03/02/10 00:09
なるほど、試しにつけてみましょう。
どうなるのかな。
>>9
もっとお母さんみたいなトリップつけておくれ。
トリッパーを使われたし。
http://tripsage.hp.infoseek.co.jp/
12177 ◆rBWlMpeA6. :03/02/10 00:15
トリップは何がでるかわかりませんからねえ。
どこかのダンジョンに計算屋さんがいるらしいですが。
13177 ◆rBWlMpeA6. :03/02/10 00:16
>>11
なるほど、あとから試してみます。
まさに試行錯誤。
14177 ◆NgGAMEeuew :03/02/10 02:04
これにしておきましょう。
15行動厨:03/02/10 10:41
こんな分野があるのですね。まだ若い領域のようで、期待が寄せられます。

>今の試行錯誤モデルは、ある戦略を試してみて効用が低ければ高い
>確率で戦略を変更し、効用が高ければ高い確率でその戦略を維持する、

これはまさに効果の法則そのものですね。まだソーンダイクの段階で、
未だスキナー来たらず、といったところなのでしょうか。

スキナーは効果の法則から三項随伴性を導き、その後先行条件が
弁別刺激と確立操作に分類され、さらに般化、模倣、強化スケジュールと
さまざまな原理を導いてきました。複数個体や集団の適応を分析する際に、
効果の法則はともかく、他の低次の学習原理がどこまでアナロジーとして
有効なのかは図りかねますが、やってみる価値は十分にありそうですね。
16行動厨:03/02/10 11:00
そういえば随伴性を集団レベルに適用した「メタ随伴性」という概念が考案されており、
まだ読んでいませんがこんなのもあったりします。

Glenn, Sigrid S. (1998) Title Contingencies and Metacontingencies:
Toward a Synthesis of Behavior Analysis and Cultural Materialism
The Behavior Analyst, 11(2).

アブストラクトは現在手元にありませんが、
www.coedu.usf.edu/abaglossary/main.aspより「メタ随伴性」の定義を抜粋

METACONTINGENCIES
Contingent relations between cultural practices and the effects of those practices
for the group. For example, competence in science is important for people who live in
a technologically advanced culture. Scientific research produces a range of benefits
for the general society. These include better medicine, more productive crop yields,
new and better building materials, more efficient and longer lasting appliances, and
superior regulation of human behavior. Thus, a positive metacontingency exists between
educational practices that increase scientific competence and long-term benefits to the group.
17行動厨:03/02/10 11:00
あと、以前少し話題になった、ハリスの文化物質主義とルール支配理論の統合の試み。
文化の適応を個人の心理的な至近要因から説明する試みなので、
ここの話題とは直接は関係ないでしょうが一応。

Malott, R. W. (1988) Rule-Governed Behavior and Behavioral Anthropology
The Behavior Analyst, 11(2).

Abstract:
According to cultural materialism, cultural practices result from the materialistic outcomes of
those practices, not from sociobiological, mentalistic, or mystical predispositions
(e.g., Hindus worship cows because, in the long run, that worship results in more food, not less food).
However, according to behavior analysis, such materialistic outcomes do not reinforce or punish
the cultural practices, because such outcomes are too delayed, too improbable, or individually
too small to directly reinforce or punish the cultural practices (e.g.. the food increase is too delayed
to reinforce the cow worship). Therefore, the molar, materialistic contingencies need the support
of molecular, behavioral contingencies. And according to the present theory of rule-governed behavior,
the statement of rules describing those molar, materialistic contingencies can establish the needed
molecular contingencies. Given the proper behavioral history, such rule statements combine with
noncompliance to produce a learned aversive condition (often labeled fear, anxiety, or guilt).
The termination of this aversive condition reinforces compliance, just as its presentation punishes
noncompliance (e.g., the termination of guilt reinforces the tending to a sick cow). In addition, supernatural
rules often supplement these materialistic rules. Furthermore, the production of both materialistic
and supernatural rules needs cultural designers who understand the molar, materialistic contingencies.
18行動厨:03/02/10 11:04
> 1 試行錯誤モデル
> 2 模倣モデル
> 3 最適反応モデル

後半の2つのモデルについてもっと解説してくださると幸いです。
2は1による負担を軽減するものなのでしょうが、3が想像がつきかねます。

実は古典的なゲーム理論もまだよくわかっていなかったりするのですが、
それはステ助氏と一緒に勉強していっているということで・・・。
19行動厨:03/02/10 11:12
>>16
題目の最初の"Title"は余分です。失礼しました。
20190:03/02/10 21:06
補足
>>15
おっしゃるとおりで試行錯誤学習は、効果の法則に基づいている、としばしば明記されています。

>>6
Ido Erevが、同モデルをシグナル・ディテクション、カテゴリー学習に応用して、
非常に高い成功を収めています。一例です。(Erev & Psychological Reviewで検索)。

>スキナーは効果の法則から三項随伴性を導き、その後...
この文脈に学習モデルを適用する上で、一番困難な問題は「適応すべき環境が
こちらの行動に反応して変化していくこと」。故に、強化スケジュールなどの
概念を適用するのが非常に困難だと思われます。ゲームライクな環境構造は行動分析
での対象となっているのでしょうか?

>>18
模倣モデル=集団の中からランダムに数人を選び出し、その中でもっとも高い利得を
得た個体の行動をそっくりまねする。

最適反応モデル=相手の行動の確率分布を記憶する→それを所与として、最適の行動を
選択する。個人的にはこちらの方が、妥当性があるのかどうかはかりかねます。
確率マッチングの現象は、このモデルでは発生し得ないが故に。
21177 ◆NgGAMEeuew :03/02/10 21:06
>>15
行動厨さん、ありがとうございます。
今の試行錯誤モデルは、ある戦略をとったときの効用がuならば
確率f(u)で戦略をランダムに変更するという仮定を置くのですが
(0≦f(u)≦1でfはuの減少関数)、まだ効果の法則にも
なってないような気がします。
22190:03/02/10 21:19
>>21
およよ。解説をしてもらえないでしょうか?
Erev & Rothのお話ではなく、別の話でしょうか?
それとも私のカンチガイ?
23177 ◆NgGAMEeuew :03/02/10 21:26
あるいは、uが高いほどその戦略を採る確率があがるとするバージョンも
あります。こちらの方が効果の法則に似ていますが「戦略をとる確率があがる」
という定式化に私は違和感を持っています。

>>18
模倣モデルでは、集団からランダムに参照者を選び、相手の効用の
方が自分より高ければ相手の戦略をまねすることが想定されます。
社会学習や観察学習に近いと思います。

最適反応モデルでは、戦略選択→効用の良し悪しの関係を学ぶの
ではなく、まず他のプレーヤーの戦略について学習すると考えます。
(ぐーをよく出す奴だ、パーを出す奴が多いなど)
で、それに対して最適反応することが想定されます。
レスコーラの考え方に近いかもしれません。
24177 ◆NgGAMEeuew :03/02/10 21:32
>>22
Erev & Rothは非集団モデルですが、集団モデル用にマイクロプロセスを
簡略化したモデルが考えられています。調整ゲームでも内部漸近安定点が
1つしかないという興味深い結果が得られます。
25190:03/02/10 21:50
>「戦略をとる確率があがる」という定式化に私は違和感を持っています。

??どうしてそう思われるのでしょうか?
26190:03/02/10 22:03
で、もう一個なんですが、

>>23
最適反応モデルがレスコーラに近いという点が、ちょいと理解できません。

http://academy.2ch.net/test/read.cgi/psycho/1029399573/44-50
Roth & Erevの強化学習モデル(uが高いほどその戦略を採る確率があがるとするバージョン)
では、recency parameterなども入ってますし、ERの方がよりレスコーラ・ワグナーモデルに近いと思ってたのですが...

このあたりのもつれを、行動厨さんとともに解いていただけると、ありがたいのですが。
27177 ◆NgGAMEeuew :03/02/10 22:05
>>25
これは混合戦略というものを、本当に人は採用しているのだろうか
という点に基本的に疑問を持っているためです。
28177 ◆NgGAMEeuew :03/02/10 22:13
たとえばA,B2戦略の場合、Aをとってよかったから次もAとか
悪かったから次はBにしてみようとか、そういうアルゴリズムを
想定したほうが、現実に近そうな気はするのですが、その辺も
含めてここで考えてみたいと思っています。
29ロボ ◆lSiROBOsc. :03/02/10 22:21
それって、意志が介在するっていうイメージ?
30177 ◆NgGAMEeuew :03/02/10 22:24
>>26
こっちのほうはレスコーラ・ワグナーモデルに近いという意味ではなくて
学習心理学の研究史の中で「最適反応」の考え方に似た考え方が出てくる
のがレスコーラの辺りかな、という程度の意味です。相手の戦略や利得
構造を認識することが学習で、行動はそれに対する最適反応だ、というのは
強化学習の発想とはだいぶ違う気がします。
31190:03/02/10 22:24
>>29
展開するとどういうアイデアなのでしょう?それは。
32190:03/02/10 22:28
>>30
なるほど。それならよくわかります。

とりあえず、>>27-28あたりで、177さんが何を求めているのか
よくわかりました。確かに「現実的でない学習モデルを大量のデータに
フィットさせて比較する」方法が生産的だとは思えませんから。
33177 ◆NgGAMEeuew :03/02/10 22:32
>>29
そうかもしれません。現実の行動を精度良く再現できるモデルならば
実際のところはどんなモデルでもいいのですが。
黒猫でも(以下略
34177 ◆NgGAMEeuew :03/02/10 22:38
ところで、ステ助さんがあとで検索するときにトリップが
あった方が検索しやすい、とおっしゃってましたよ。
190さんもトリップつけません?
35ロボ ◆lSiROBOsc. :03/02/10 22:58
相手の戦略の利得構造を把握して、それをもとに
自分の行動を選択するってのは、ルール支配性行動?

現実の人間の知的振る舞いを完全再現できるモデルとなると、
そりゃあ数理心理学の迷宮に突っ込む話なような。
36ステ助:03/02/10 23:15
>190氏
トリップつけて頂ければ、幸いでつ。。(コテハン名の後に#暗号)
それにしても、177氏もコテハン名は177のままなんですね??

教えて厨房で恐縮なのでつが……。。
レスコーラ・ワグナーモデルというのは、どのように導き出したのでつか?
先に仮説としてあの式 儼=α(λ−之) を立ててから、
実験で確かめたのでつか?
それとも、まずはデータを山のように取り、そこから導き出したのでつか・・?
37177 ◆NgGAMEeuew :03/02/10 23:40
>先に仮説としてあの式 儼=α(λ−之) を立ててから、
>実験で確かめたのでつか?

真相は分かりませんが、飽和型の差分モデルとしては、一番単純な式なので
とりあえずこれでやってみた・・のかもしれません。ハルのモデルも
同じような差分モデル使ってましたし。詳しくは行動厨さんにお聞き
しましょう。
38行動厨:03/02/11 06:21
>>35
>相手の戦略の利得構造を把握して、それをもとに
>自分の行動を選択するってのは、ルール支配性行動?

「他者の行動と自分の行動の一体感」が強化子として機能する場合、それは
般性模倣性強化子とよばれ、動物や幼児の模倣行動はこれによって形成されます。
それに因ることなく、与えられた情報から自らルールを生成してそれに従う場合は
ルール支配性行動といえるでしょうね。模倣学習とルール学習は区別するべきです。

ルールは他人から与えられることもあれば、自分で生成することもあります。
個人の持つルールは経験によって修正されうるでしょうし、社会が共有する
ルール(法律や宗教的規範)もその適応度によって変化するでしょうね。
ルール制御が強力すぎると、別の行動パターンを自発する機会を得られず、
究極的に見て適応的でなくてもそれが維持されることもありますが。
そうした個体や集団はいずれ緩慢な死に至ることでしょう。
39行動厨:03/02/11 06:21
>>36-37
古典的条件付けはそんなに詳しくないのですが。とりあえず以下の文献を
見る限り、このモデルは例の学習心理スレで取り上げられていた
阻止(ブロッキング効果)の観察結果から導かれ、実験的・理論的な考察を
進めるうちに、副産物として他の原理をも予測できたようです。

『メイザーの学習と行動』(二瓶社)より

条件付けは、CSとUSの対呈示の自動的な結果として生ずるのではない。
条件付けは、CSがやがて到来するUSなどの重要な事象についての有益な
情報を与えるか、何らかの予測をするときにだけ成立するのである。この観点は、
条件付けの過程について、従来考えられていた以上の能動的な役割を被験体に
与えている。すなわち被験体は選択的な学習者であり、有益な刺激について学習し、
意味の無い刺激を無視するのである。2人の心理学者RescorlaとWagnerは、
ブロッキング効果とそれに関連する事実によって、古典的条件付けの新しい理論の
必要性を痛感した。有効性や予測性という概念では曖昧すぎるので、もっと厳密で
客観的なやり方でこれらを扱える理論が必要であった。彼らの共同作業は、
古典的条件付けの理論の中で今では最も有名な理論の一つとなったRescorla-Wagner
モデルとして結実したのである。(p. 89)

良い理論の特徴には、既存のデータを説明できることのほかに、それまでに
テストされなかった新しい予測を生み出し、新しい研究を刺激する能力を備えて
いることがある。その意味ではRescorla-Wagnerモデルは十分に良い理論といえる。
なぜならば1972年以降、このモデルに特有のいくつかの予測をテストするために
多数の実験が行われてきたからである。このモデルが「過剰予期効果」
(Overexpectation effect)として知られる現象を予測したことは、その良い例だろう。(p. 91)
40行動厨:03/02/11 06:22
ここでは進化ゲーム理論とオペラント学習を対比させているわけで、
レスポンデント学習のモデルであるRescorla-Wagnerモデルは
あまり関連が無いでしょうね。(強いてオペラント学習に組み込むならば、
中性刺激が他の強化子/嫌悪刺激と対提示されて習得性の強化子/
嫌悪刺激になる過程を詳細に分析する際に使えるかもしれませんが。)

それよりもむしろ、Herrnstein(1961)に始まる
対応法則のほうが関係してきそうですが。

 B1/(B1+B2)=R1/(R1+R2)

2つの反応B1とB2があり、それぞれが強化子R1、R2を生み出すとき、
全反応数に対するB1の反応の比率は、全強化に対する強化R1の比に
等しくなるというやつです。やがて、この式からの逸脱を記述するために
これをB1/B2=R1/R2と変換し、さらに指数と係数を加え、

 B1/B2=β(R1/R2)^α

という式に拡張されました。
指数はそれぞれの強化に対する感受性の違いを、
係数はバイアス(2つの強化子間の選好度の差や反応にかかるコスト)を
指します。しかし質の程度や種類が異なる強化子間には当てはまりにくい
だとかで、まだまだいろいろな改良が加えられ続けています。
41行動厨:03/02/11 06:22
ここと関連する話題としては、この対応法則から
 逐次改良理論(melioration theory)
 最適化理論(optimization theory)
 瞬時最大化理論(momentary maximization theory)
など、いろいろな理論が導かれ、議論が続いているようです。
これらは>>20>>23の最適反応モデルと軌を一にしているかもしれません。

とも思いましたが、スキナー箱の実験から導出されたもので
ある以上、これも試行錯誤学習の一つなのかもしれません。
そして試行錯誤をする際にも、他人から与えられた情報や
他者の行動が往々にしてその出発点であることでしょう。

そうだとしたら、最適反応モデルは試行錯誤学習モデルと、
>>38で挙げたような、観察やルールに基づく模倣モデルの
下位領域である可能性もあるのでは・・・と、勝手な憶測。
42行動厨:03/02/11 06:23
190氏が>>20で挙げた
>「適応すべき環境がこちらの行動に反応して変化していくこと」
という問題もあります。これは2者間以上の行動の相互関係をみる
言語行動理論や行動システム分析とも関連があるのでしょうが・・・。

実験的行動分析スレを見る限り、対応法則など問題に関しては
私より詳しい人が確実にここに出入りしているようなので、
ここに降臨してくれるとありがたいのですが。上げた方がいいのだろうか?

まとまらなくて申し訳ありませんが、ひとまずこれで。
43190:03/02/11 09:08
行動厨さんのとか読みながらつらつら考えるに...

>(by 177) 相手の戦略や利得
構造を認識することが学習で、行動はそれに対する最適反応だ、というのは
強化学習の発想とはだいぶ違う気がします。

というタイプの考えは、むしろ統計的学習理論でよく見られるように思う。
参考 → http://hawaii.aist-nara.ac.jp/intro/stat-learning.html

つまり、学習対象は「世界/環境の構造」であり、それらに対する知識を所与と
したとき、ベストな反応はどうであるのか、を考える。これが最適反応モデルの
根本。この意味で、最適反応は、より機械学習や統計的学習に近いように思う。

対するに、強化学習モデルでは、学習の対象となるのはあくまで「行動」ないしは
「行動を生み出すルール」。

「学習心理学」という領域においては、2つの考え方の違い、および、統計的学習理論との
関わりなどについては、どのようになっているのでしょうか?
44177 ◆NgGAMEeuew :03/02/11 10:22
>>43
ただ、機械学習や統計的学習には後段の「最適反応」までは含意
されていないようですね。データの背後の構造を認識しても、
試行錯誤に援用されるだけ、という可能性もあります。
実際の学習も、構造の認識を試みつつ、情報収集レベルでも
行動のレベルでも試行錯誤してるんじゃないかなあ、という気は
します。
45177:03/02/11 16:37
ところで強化という場合何が強化されるのでしょう?
構成概念の水準と、操作的定義の水準で考えられると
思いますが。
46177 ◆NgGAMEeuew :03/02/11 17:55
>>38
>「他者の行動と自分の行動の一体感」が強化子として機能する場合、それは
>般性模倣性強化子とよばれ、動物や幼児の模倣行動はこれによって形成されます。

ゲーム論的な模倣のモデルでは「自分より利得の高いプレーヤーの行動」が
模倣の対象になると考えますので、般性模倣性強化子による模倣とは
少し異なるようです。一体感による模倣は同調と呼ばれることが多いようです。

>>40  B1/(B1+B2)=R1/(R1+R2)
というのは、2つキーがあって片方が3、他方が2のえさが出てくるときには
3:2の比率でキーを叩くようになる・・という意味なのでしょうか?
3のキーばかり叩くようになりそうな気もしますが、実験的にはどうなる
のでしょう?
47190:03/02/12 08:26
>3:2の比率でキーを叩くようになる・・という意味なのでしょうか?

そうなんですよ。probability matchingとも呼ばれ、動物・人間の両方で
見られる現象。動物の適応的意思決定研究で有名なオックスフォードの
Kacelnikは「この領域でイチバンやっかいな現象」と言ってるそーです。

一つの説明として「複数の個体が毎朝同時に、どのフードパッチに
出かけるのかを決める」という状況を考え、各個体が対応法則に
基づいてパッチを決定すると、平均利得が等しくなる、とか。
人間に当てはめるのはキツイですが。

これがあるから、最適反応モデルは妥当性に欠けるように思える。
後半の"最適”反応の部分が。一方、E&R型の強化学習モデルでは、
「確率的な決定」という部分が、妥当性に欠けるように思われる。

>ただ、機械学習や統計的学習には後段の「最適反応」までは含意
されていないようですね。

実のところ、どうなんでしょう?機械学習やAIでは「強化学習」と一口にいっても、
相当奥行きが広いですし。統計的意思決定理論とセットにしてるのだろうか?

>行動厨さん
>>41に挙げた3つのモデルは「対応法則をより複雑にしてデータへのフィットを
高めたもの」と考えてよいのでしょうか?これら3つの理論の背後には、どんな
思想があるのでしょう?
48行動厨:03/02/12 09:39
>>46
> B1/(B1+B2)=R1/(R1+R2)
> というのは、2つキーがあって片方が3、他方が2のえさが出てくるときには
> 3:2の比率でキーを叩くようになる・・という意味なのでしょうか?
> 3のキーばかり叩くようになりそうな気もしますが、実験的にはどうなる のでしょう?

対応法則はそれぞれの選択肢の潜在的な強化を表しているわけではなく、
実際に行われた反応と実際に得られた強化数を記述するものです。
この例について見る前に、対応法則の成り立ちから説明してみます。

対応法則はもともと並立VIスケジュールの実験から導出されました。
VIスケジュール(変時隔強化スケジュール)というのは、一定時間経過後の
第一反応後に強化が与えられるというものです。VI30秒スケジュールなら、
前に強化を受けてから"平均"30秒間はキーを突付いても餌は出てこず、30±数秒
経過してから最初のキーつつきで餌がもらえます。ここで注意しないといけないのは、
30秒経てば自動的に餌がもらえるわけではありません(それはVTスケジュール)。

ここで、並立VI100秒VI200秒スケジュールが設定されたスキナー箱にハトを入れます。
右のキーはVI100秒スケジュールで餌が得られ、左のキーはVI200秒スケジュールで
餌が得られます。腹をすかせたハトは両方のキーをほぼ同じ回数ずつ、
ものすごい速さで交互に突付きます。最初のうちは、B1/(B1+B2)=R1/(R1+R2) の両辺は
等しくありません。しかし、反応が安定してくると、この両辺がほぼ等しくなります。
ハトはこのスケジュールがどんなものなのか「知らない」のにもかかわらず、です。
49行動厨:03/02/12 09:40
で、>>46の並立VRVRスケジュールですが、これは並立FR3FR2スケジュールです。
FRスケジュール(定比率強化スケジュール)というのは、一定回数の反応後に
強化が与えられるというものです。例えばハトに対するFR3スケジュールなら、
3回キーを突付くと餌が出てきます。その組み合わせが並立スケジュールです。
お察し通り、実験場面ではハトは3のキーばかり突付くようになります。
実際に行われた反応と実際に得られた強化数をあてはめるわけですから、
排他的な選択でもちゃんと等式が成り立つことになります。
50行動厨:03/02/12 09:40
>>47
あのうち、逐次改良理論というのは、上で紹介したように、最初はB1/B2とR1/R2が
等しくないが、強化の比率が高いほうに反応をシフトして行き、最終的に
等式が成り立つようになるという原理です。他の2つも含めて、あれらは
「選択行動の記述に過ぎないかもしれない対応法則が説明原理だとしたら
どのようなどのようなものだろうか」という着想から考案されたもののようです。

>「対応法則をより複雑にしてデータへのフィットを高めたもの」
フィットを高めるためのものは、上で紹介したフリーパラメータ(指数と係数)です。
これによってどんなデータも記述できるようになりますが、そこが逆に
最大の弱点でもあります。だって何でもあてはまてしまうから。
しかし、強化子の質や反応にかかるコストなどまで全く等質な選択など実験室以外
ではありえませんし、強化子に対する感受性も強化履歴や遺伝的要因によって
個体によって様々に異なることでしょう。そういう意味ではフリーパラメーターは
必要不可欠ともいえます。
51行動厨:03/02/12 09:40
>そうなんですよ。probability matchingとも呼ばれ、動物・人間の両方で
>見られる現象。動物の適応的意思決定研究で有名なオックスフォードの
>Kacelnikは「この領域でイチバンやっかいな現象」と言ってるそーです。

これは私が紹介した並立スケジュールとは別の行動次元
(餌場への滞在時間など)を測定しているのかもしれません・・・
52190:03/02/12 09:43
>ただ、機械学習や統計的学習には後段の「最適反応」までは含意
されていないようですね。

いや、やっぱり含意されてますね。2種類あるそうです。model-freeとmodel-based.
前者は、環境構造を知ることなく直接「行動」を学習するタイプで、後者は「環境
構造を探索した後で最適な行動ルールを見つける」。たとえば、Suttonという人が
作ったDynaというアルゴリズムが有名だそうです。

しかし、そこで扱われている課題は「迷路学習」のようなもの。どれだけ
関連性があるか。
53行動厨:03/02/12 09:46
読み返すととあちこち文章がおかしいわ、分りにくいわ・・・すみません。疲れてるかな。
54行動厨:03/02/12 09:50
>>48
後半補足。最初は両方のキーをほぼ同じ回数ずつ突付くが、
しだいに時隔の短いほうにより多くの反応をシフトするようになる、ということです。
55190:03/02/12 09:51
>これは私が紹介した並立スケジュールとは別の行動次元
(餌場への滞在時間など)を測定しているのかもしれません・・・

なるほど。私が知っている話は「選択頻度」に見られる対応法則です。
学習心理学ではなく、行動意思決定の分野で得た知識。
57190:03/02/12 10:37
>私が知っている話は「選択頻度」に見られる対応法則です。

しかし、選択頻度に見られる対応法則はあまりロバストな現象ではなかったという罠...

http://www.ucl.ac.uk/~ucjtrtu/Abstract_3.html
58190:03/02/12 13:03
考えてみれば、「選択頻度」における対応法則は、大切な話につながっているかも。

・人間の場合、金銭的な動機を高めれば、有利な選択肢をほぼ毎回選択する
・動物(ナイチンゲールby Kacelnikや他の行動生態学者)の場合、「選択頻度」でも
 対応法則が見られる。

こんな実験あり。2つのレバーがあり、どちらかを押すと、もう片方が使えなくなる。
レバーを押してから一定時間後、決められた量の餌が出てくる。2つのレバーは餌量と
出てくるまでの時間がシステマティックに異なる。従属変数は「2つのレバーが使用可能な
とき、どちらをつつくのか?」

当然、2つの独立変数(i.e., 量・時間)のうち1つが一定ならば他が大きい方を「常に」選ぶべき。
しかし、選択頻度は「量1/時間1」と「量2/時間2」の比に対応していた。
→「選択頻度における対応法則」
>>49
うぎゃー、すんげーはずかしー!
>>46って要求反応数が異なる選択肢間の選択じゃなくて、
1回当たりの強化量が異なる選択肢間の選択じゃないか!

>>46は1回の反応で3つ餌が出るキーと2つ餌が出るキーの選択の話
>>49は3回の反応で1つ餌が出るキーと2回の反応で餌が出るキーの選択話。
まあ、どっちも反応:強化量の比が異なる選択の話なので、本質は一緒だけど・・・

やっぱボケてる・・逝ってきます・・・
60190:03/02/12 13:14
・なぜ人間では「選択頻度における対応法則」が消え、合理的な行動が見られるのか?

→意思決定/学習における2つの神経科学的ルート(Bechara, Damasio?)
どこかのセミナーで聞いた話ですが、人間の場合、意識的・合理的な
情報処理プロセスと、無意識的・感情に基づいた自動的処理プロセスの
2つが、意思決定/学習に関して見つかっているようですね。脳において。

人間は、「どちらがより出やすいのか、利益が大きいのか」を冷静に記録して、
「有利な方にすべて賭けた方がトク」と判断することができる(最適反応モデルに
対応するプロセスか?)

対するに、動物には無意識的なプロセス(試行錯誤学習に対応か?)しかないため、
意識的プロセスで対応法則を消すことができない。なぜ、無意識的プロセスによって
「非合理的な」対応法則が見られるのかは、未だ不明。

→学習における記憶の効果とか、学習心理でも議論されてますよね?
関連するかな?最適反応モデルと試行錯誤モデルを区別する上で。
61没個性化されたレス↓:03/02/12 13:22
レバー2個のスキナー箱を2つ用意すれば
2×2ゲームがさせられそうな気がしますが
そういう研究ってないのでしょうかねえ。
62行動厨:03/02/12 13:29
懲りずに・・・

>>58
>当然、2つの独立変数(i.e., 量・時間)のうち1つが一定ならば他が大きい方を「常に」選ぶべき。
時間に関しては、早くもらえたほうが効率がいいから、
値の小さいほうが選ばれるのではないでしょうか。
それとも時間は逆数で示されているのですか?

>>60
ルール支配性行動論者に言わせれば「人間には言語行動があり、自分で生成したり
他人に与えられたルールに制御されるから。終わり。」で済まされるかも。
「ではそのルールの生成過程はいかなるものなのか」ならまだ終わりませんが。
63190:03/02/12 13:35
みっけた。

ttp://www.google.co.jp/search?q=cache:ZDmYtq11xO0C:www.nature.com/cgi-taf/DynaPage.taf%3Ffile%3D/nature/journal/v400/n6741/full/400233a0_r.html+kacelnik+probability+matching&hl=ja&ie=UTF-8
サルの実験。2種類のeye-movementが「選択肢」に対応。それぞれについて
異なる量/確率でジュースがもらえる。やはりここでも100%の「最適反応」が
見られない。また「確率・利得サイズ」に反応して選択行動を引き起こす脳部位に
ついても議論されているようで。

>>61
何年か前、KOのあの先生がやってて日心で発表してましたよ。
内容は忘れましたが...
64177 ◆NgGAMEeuew :03/02/12 13:37
「ルール」という概念も多義的な気がしますが、広義にとれば
最適反応はルール支配性行動のサブカテゴリーってことに
なるでしょうね。
その場合はおっしゃるとおり、外界の情報からルールを抽出する
プロセス・メカニズムが問題の本質になると思います。
65190:03/02/12 13:42
>>62
時間はおっしゃる通りです。少ない方が「合理的」。

ところで、手元にD.A.Liebermanの「Learning: Behavior & Cognition,
3rd Ed.」を持ってるのですが、それを見ると、レスポンデントの場合には
two-way hypothesisというのが提唱されていて、実際に、脳において2つの
異なるルートがある、と(CSが自動的に反応を誘発するvs.CSとUSの随伴性を
学び、形成された期待が反応を誘発する)。そこでBecharaやDamasioなど、
認知神経科学のデータも引用されていました。

この話って、現在はどのように展開されているのでしょう?
66行動厨:03/02/12 13:47
>61
みつけた。スキナー箱2つじゃなくて、ハトとコンピューターを対戦させたみたいだけど。
ハト同士でやらせるより効率がいいのかな・・・

http://www.envmed.rochester.edu/www_rap/behavior/jeab_htm/64/_64-001.htm

67177 ◆NgGAMEeuew :03/02/12 13:58
>>66
なるほど、PDゲームでは常にDを採るみたいですね。
学習心理モデルを用いた分析はされてないようですが。
生データがあれば、やりたいところではあります。
68恥垢帝:03/02/12 16:39
>>皆の者
左様であるか。
朕には何だかよくわからぬが、
やたらと面白いので、遠慮なく続けよ。
学習心理学スレから連合学習屋も呼び寄せるがよい。
朕は虚心に聞くであろう。
俺はゲーム理論に「も」疎いのと、只今デスマ中につき、ROMすらおぼつかないの
ですが、どれだけ議論に関係するか分かりませんが、1つスキナリアンによるゲーム
理論研究の紹介をさせてもらいます。

おうむ返し戦略というやつは、Mazurのhyperbolic discounting functionで説明
が出来るそうです(行動厨氏の「EAHB BulletinでしかもStudent Winner Paperかよ」
という突っ込みが聞こえて来そうですが。。。でも、この学生の指導教官がGreg
Maddenであろうことを考えて、一応OKとさせて下さい)。

ttp://www.eahb.org/NewSitePages/Harris/Harris.pdf

ちなみにMazurのこのモデルは、V = A/(1+KD)で表され、遅延後の強化子の価値(V)
を、A:Amount(もともとの強化子の量)と、フリーパラメーターのK、ならびに
D:Delay(強化の遅延)により表したものです。

協調戦略はSelf-control choiceとし、裏切り戦略はimpulsive choiceとしている
そうです。で、その根拠は、本文によると
 Rachlin (1997) has suggested that individuals who greatly discount the
 value of delayed reinforcers (i.e., those making impulsive choices) are
 more likely to defect, and thereby choose the smaller more immediate reward.
ということのそうです。「どうなん?」って感じもしますが、元のJEABの論文を読んで
みないとなんともいえません。

Mazurのモデルならびにセルフコントロールに関する説明の不足があるかとは思い
ますが、どなたか(というか行動厨氏)、質問があったらお答え頂けますか。
書きっぱなしですいません。
70177 ◆rBWlMpeA6. :03/02/12 17:49
人が増えてきましたね。
面白くなってきました。
71177 ◆rBWlMpeA6. :03/02/12 21:53
ここで、>>46が正しいと仮定して、調整ゲームのダイナミクスを
考えてみましょう。(2プレーヤー、非集団モデル)

  行プ\列プ | A     B  
 −−−−−−−−−−−−−−−−−−−
      A   |3,3  0,0
      B   |0,0  2,2

なる調整ゲームにおいて、列プレーヤーが最初AとBを半々の割合で
採っていたものとします。
このとき、行プレーヤーにとってAは3と0の強化が半々、Bは0と2の
強化が半々経験されることになります。ここで、強化の強さに比例して
行プレーヤーが戦略を選択すると仮定すると、AとBを3:2の割合で
とることになるでしょう。
72177 ◆rBWlMpeA6. :03/02/12 22:02
さて、行プレーヤーが3:2の割合でAとBを採るようになると
列プレーヤーにとっては、Aは3:2で3と0、Bは3:2で0と2の
強化子を得られる選択肢となります。ここで、強化の強さに比例して
列プレーヤーが戦略を選択すると仮定するとAとBを9:4の割合で
とることになるでしょう。

同様に、列プレーヤーの9:4を所与として行プレーヤーの選択を
求めるとA:B=27:8となります。更にそれを所与として
列プレーヤーの・・・と続けていくと、戦略の採用比は、いずれの
プレーヤーも

    A:B=1:0

に収束していくと考えられます。
つまりいずれのプレーヤーもAを取る状態がこの強化ダイナミクスの
漸近安定状態だと考えられます。
73177 ◆rBWlMpeA6. :03/02/12 22:22
これは、A:B=1:1を初期状態としたときの結果ですが

   A:B=2:3

よりもBを多く選ぶ状態を初期状態とした場合は同様の強化ダイナミクスで
今度は両者がA:B=0:1となる状態に収束します。
したがって、>>46なる強化ダイナミクスは調整ゲームの2つの純粋Nash均衡
のいずれかに収束することがわかります。
74ステ助:03/02/13 00:06
わわ、すごいスレの伸びでつ!(キラキラ。
そして、すごいけど難しひ!(爆。

行動厨氏&他のスキナリアン氏?の話は、遅延による価値の低下…?という話ですか…?
それで、「遅延する餌(価値)>すぐ与えられる餌(価値)」であっても、
セルフコントロールが出来ない個体は「すぐ与えられる価値」を選ぶ
という事が、ちゃんとした数式(←アフォまる出しでつが…汗)で
表せるor表したいぞ!という事になるのでせうか・・?

>>71-73
>>46の仮定というのは、
B1/(B1+B2)=R1/(R1+R2)という対応法則に基づき、
46は1回の反応で3つ餌が出るキーと2つ餌が出るキーの選択があった場合の話でつか?
む、難しい…(自爆。。
75177 ◆NgGAMEeuew :03/02/13 00:20
>>46の仮定というのは、
>B1/(B1+B2)=R1/(R1+R2)という対応法則に基づき、1回の反応で3つ餌が出る
>キーと2つ餌が出るキーの選択があった場合の話でつか?

そうです。3つ餌のでるキーと2つ餌の出るキーがあれば3:2の
割合でキーを押すようになるとしたら、こうなるだろう・・・と
いうお話です。
実際に3:2で押すのかどうかは、諸説あるみたいですが。
76ステ助:03/02/13 23:16
質問でつ。

>>71の「調整ゲーム」というのは、調整ゲームとは、
「両者の戦略が一致すれば利得が高く、
 食い違っていれば利得が低くなるゲーム」のことでつよね?

1)列プレイヤーはA:B=1:1の確率で押すという前提がある。
2)列プレイヤーと行プレイヤーが両者ともA戦略を取れば、それぞれ3の強化を得、
  両者ともB戦略を取れば、それぞれ2の強化を得る。

どうして両者がそれぞれ別の戦略を取ったら強化ゼロになる…という調整ゲームを
設定することにより、どのような学習の場面が想定されるのですか?
模倣でつか?(あてずっぽうですが…汗
出来ましたらご解説プリーズでつ。。

71が分かれば芋づる式に73まで分かるのでつが、
71の前提でこけてしまった罠…(爆。
77177 ◆NgGAMEeuew :03/02/13 23:43
とりあえず、列プレーヤーの行動を固定(A:B=1:1の確率で押す)したときに
行プレーヤーがどの割合でキーを押すようになるか、を考えたのが>>71です。

行プレーヤーがAを押したときには(A、A)と(A、B)が半々の確率で
現れますので、行プレーヤーは3と0の強化子を半々の確率で受け取ります。
同様に行プレーヤーがBを押したときには(B、A)と(B、B)が半々の確率で
現れますので、行プレーヤーは0と2の強化子を半々の確率で受け取ります。

列プレーヤーがしばらくA:B=1:1を続けていたとすると、行プレーヤーが
Aのキー、Bのキーを押すことによって獲得する強化子の比は
    (3+0)/2:(0+2)/2=3:2
となります。これより行プレーヤーが対応法則にしたがって学習すると
仮定するならば、ある程度の試行の後に行プレーヤーはA:B=3:2の比率で
キーを押すようになると考えられます。
ここまでが>>71です。

78ステ助:03/02/14 00:02
>77
どうもでつ。
計算はなんとか分かるのでつが、列プレイヤーがAを押した時、
行プレイヤーがBを押すと、強化ゼロという風に設定したのは、
どのような実際の学習の場にあてはめられるのかな…と
考えてしまっていたのですた。
いえ、対応法則も、調整ゲームも何もかもがビギナーだった為、
飛躍しますた(汗。
スミマセン。

とりあえず>>72までは納得でつ。
79177 ◆NgGAMEeuew :03/02/14 00:24
なるほど。

調整ゲームというのは、お互いの手が一致している場合が
両者にとって利益になるような場面を抽象化したものです。
例えば、駅で待ち合わせをすることになっているのだが、
いってみると北口と南口があってどちらにいったらいいのか
分からない、携帯も圏外だ、という場合には

  自分\友人 | 北口     南口  
 −−−−−−−−−−−−−−−−−−
     北口   |3,3  0,0
     南口   |0,0  3,3

という形の調整ゲームになります。
自転車ですれ違うとき、右によけるか左によけるか、
車が走るのは右か左か、と言った状況も調整ゲームになります。

あるいは、国際会議の公用語を英語にするかフランス語に
するか、なんて場面も若干非対称性はありますが、調整ゲームです。


80ステ助:03/02/14 01:28
なるほどです・・!

ある大学に密かに互いに好意を持っている
列子さんと行助さんがいるとする。

列子さんは、休み時間の暇つぶしに学内の喫茶店Aと図書館Bに1:1の確率で現れる。
二人は喫茶店で会うと次の授業が始まるまでの30分間程いつもお喋りするが
図書館だと館員さんに注意されるので20分位しか話ができない。
改良なしの対応法則に則れば、
列子さんが、喫茶店と図書館半々に現れ続ければ
行助さんが休み時間に現れる場所は、
喫茶店:図書館=3:2に収束する。

って事になるわけでつね。
81ステ助:03/02/14 01:42
で、次第に列子さんも行助さんともっと話したいという強化を受けると、
喫茶店:図書館=9:4の割合で現れるようになり(省略しまいには二人は喫茶店にばかり現れるようになる。

勿論お腹が空いたとか図書館で調べ物とか、
会話の質等といった変数は度外視されてまつが。

・・・でいいのでつかね・・・?
82177 ◆NgGAMEeuew :03/02/14 01:44
その例イイ!!でつ!
83ステ助:03/02/14 01:48
>82
あ、見てますた(照。
どもでつ。
バレンタインネタという事でw
チョコどうぞ〜。
84行動厨:03/02/14 03:41
>>71-73
>>79-81
調整ゲームと対応法則の抽象的統合、そしてその具体例。
すごい・・・感激です。やっぱ177さんとステ助さんは最強コンビだ。

>>69
おお、援軍が。実験的行動分析スレの方ですね?
早くデスマが終わることを祈るばかりです。振られたからには解説させていただきます。
これによってお二人がどのようなモデルを出されるのか興味深深です。
85行動厨:03/02/14 03:42
セルフコントロール選択(Self-control choice)というのは、
より遅れて与えられるけれど、より大きな強化子のほうを好んで選択すること、
衝動性選択(impulsive choice)というのは、より小さいけれども
すぐに与えられる強化子のほうを好んで選択することです。
他の心理学の領域とは定義が異なるので注意してください。

例えば、今すぐもらえる1万円と、1年後にもらえる10万円があったとして、
前者を選ぶのは衝動性選択、後者を選ぶのはセルフコントロール選択です。
V = A/(1+KD)という式は、強化子が与えられるまでの遅延時間が大きくなるにつれて
その価値が割り引かれることを示したものです。分母に1が加えられているのは、
遅延時間が0の時には強化子の価値はその大きさによってのみ決まるからです。
これがなければ、遅延時間が0に近づくにつれて強化子の価値が無限に大きくなってしまいます。
86行動厨:03/02/14 03:43
この遅延による価値割引を対応法則に当てはめると右辺が次のように展開されます。

B1/B2=(A1/A2)(D2/D1)

強化子(R)がその大きさ(A)と与えられるまでの遅延時間(D)に分解
されたわけです。例えばR1が10秒後に与えられる2の強化子、
R2が60秒後に与えられる3の強化子だとすると、
(3/2)*(10/60)=1/4で、B2にB1の4倍の反応を割り当てることになります。
もちろん多くの場合、このとおりにはなりません。これは強化子の大きさと
強化子の遅延時間に対する「感受性」が等しい場合のみです。
そのためにフリーパラメーターが必要になるわけです。

B1/B2= k (A1/A2)^Sa (D2/D1)^Sd

Saは強化子の大きさに対する感受性、Sdは強化子の遅延時間に対する感受性です。
kは他にまだ分解されうる要素(強化子の質や反応のバイアスなど)です。
遅延時間に対する感受性よりも大きさに対する感受性が大きいということは、
「たとえ遅れて与えられても大きい強化子のほうを選ぶ」ということですから
セルフコントロール選択を示すことになり、逆に
大きさに対する感受性よりも遅延時間に対する感受性が大きいと、
「たとえ小さな強化子であっても、今すぐにもらえることが重要」ということになり、
衝動性選択を示すことになります。そしてこの式から次の比が求められます。

Sa/Sd= log(D1/D2) / log(A1/A2)

この値が大きければ大きいほど、遅延時間よりも強化子の量の方が行動に
及ぼす影響は大きい、すなわちセルフコントロール傾向が強いことになります。
動物よりも人間のほうが、年少者よりも年長者のほうが、非行少年よりも
普通の少年のほうがセルフコントロール傾向が強いことが、様々な手法を用いた
研究によって明らかになっています。
87行動厨:03/02/14 03:44
で、>>66の囚人のジレンマ状況でのハトの実験は、
ハトは衝動性選択傾向が強いから常にD戦略をとったのだろう、
と結論付けています。あの状況でC戦略をとるということは即ち、
「短期的には大きな強化子が得られるが、その結果が得られるには時間がかかる」
というセルフコントロール選択を意味します。しかしハトはそれよりも
「長期的に見れば得ではないが、短期的にはより大きな強化子が得られる」
D戦略をとるということらしいです。各試行を1回限りのゲームとみなしているようです。

基本的に動物は「直後的な」強化によって制御されています。
多くの場合、反応から1分以上遅れて強化子を与えられても、その反応が
強化されることはほとんどありません。「レバーを押したが故に」10分後に餌が与えられた
としても、餌が与えられる直前に毛づくろいをしていれば、レバー押しではなく
毛づくろいの頻度が上がってしまいます(かの有名な「迷信行動」)。
88行動厨:03/02/14 03:45
じゃあ何で人間は1時間、時には1年以上遅れて与えられる強化子でも行動を
制御できるんだ、というところから体系化されたのが例のルール支配行動理論です。
随伴性支配による強化とルール支配による強化は、プロセスは似ているとはいえ、
そのメカニズムは大きく異なることでしょう。ちょうど、学習と進化のように。

このギャップを埋めるのは177さんの>>64のような視点になるのでしょうが、
ルール支配行動論者の多くは、実生活や産業活動において個人のパフォーマンスを
上げるにはどのようなルールの構築や呈示が効果的か、という「技術的」な方向に
関心が向いており、自然を詳らかにする「科学的」な方向にはあまり考察を
行っていないようです。ここに少しでも貢献できれば・・・というのが野望なわけですが。
89行動厨:03/02/14 03:48
補足。Sa/Sd= log(D1/D2) / log(A1/A2)が導けるのはB1=B2、k=1のときです。
というわけで69さん、至らない点があればフォローをお願いします。

> 190さん
two-way hypothesisについてご高説いただけませんでしょうか?
当方、レスポンデントについては詳しくないもので・・・
90行動厨:03/02/14 03:58
>>87
すみません。また致命的なミス。
>「短期的には大きな強化子が得られるが、その結果が得られるには時間がかかる」
「長期的に見れば累積的に大きな強化子が得られるが、その結果が得られるのは数試行先」
91190:03/02/14 10:54
>行動厨さん

この本では、古典的条件付けには「CSが直接反応を引き起こす」のと
「学習を通じて作られた期待に基づいて反応を選択する」のと
2つのシステムがあるだろう、と。この区別は、Konorski (1967),
Razran (1971), Squire (1992)などが提案している、と。

レスコーラ・ワグナーモデルは認知心理における「因果関係の判断・学習」
研究でも比較対照として出てきますが、「原因と結果の因果を学習する
認知的行為」として捉えることも可。

例として、Le Doux(1994)による「恐怖学習における2つのルート(脳での)」の
話を持ち出します(進化心理スレで既出)。さらに、BecharaとDamasioのグループが
人間の脳にも、同様の2ルートがあることを示している、と。

ここから先は本に書いてないですが、DamasioのDescart's errorって読みました?
あの中でBecharaのやったギャンブル実験が出てきて、それに基づいてDamasioは
ソマティック・マーカー仮説というのを出します。これは、2つのルートの中で、
自動的な反応に関するルート(=CSと反応の連合を学習)のことでしょう。

そして、ここ2,3年、Becharaがやっている研究では、後者の「期待」という
より認知的なルートに基づいた学習の神経科学的基盤に重きが置かれている、
という感じでしょう。

で、associativeか、cognitiveか、という区別は、学習心理でも古くからされて
いる訳ですよね?期待や注意の役割についても議論がある。

このあたりの問題について、「最近はどんな議論がされているのか?」を
お聞きしたかったんです。私が知っていたのは、認知神経科学よりの話ばかり
だったので。
92177 ◆rBWlMpeA6. :03/02/14 17:23
>>71のモデルで囚人のジレンマの分析もできるのですが、その前に71モデルの
妙な点に気づいたので、そちらの方を先に述べておきましょう。
71では強化ダイナミクスの行き先がNash均衡と一致したのですが、たとえば
利得行列に全体に1を加えて

  行プ\列プ | A     B  
 −−−−−−−−−−−−−−−−−−−
      A   |4,4  1,1
      B   |1,1  3,3

とすると、結果は変わってきます。
93177 ◆rBWlMpeA6. :03/02/14 17:37
列プレーヤーA:B=1:1を初期状態とすると
行プレーヤーの安定状態はA:B=5:4(0.55:0.44)になります。
これを所与として列プレーヤーの安定状態を求めると
A:B=24:17(0.58:0.42)となります。
以下、同様にして計算を進めると

   A:B=0.62:0.38

に収束します。つまり、どちらのプレーヤーもAを62%、Bを38%の
確率で取る状態で安定になります。これはNash均衡とは大いに異なります。
94177 ◆rBWlMpeA6. :03/02/14 17:46
これは、ある意味対応法則を仮定すれば当然の結果ともいえます。
もし、列プレーヤーがAばかりとるものとして行プレーヤーの安定状態を
考えると、A:B=4:1となります。この時点ですでにNash均衡から
離れていますが、Nash均衡が最適反応原理に基づいて考えられた解で
ある以上、ことなる行動原理を想定すると違った結果になっても
なんら不思議ではありません。

というわけで、問題はやはり対応法則と最適反応原理のいずれが現実の
モデルとして妥当か、というところに帰ってくるようです。
95ステ助:03/02/15 21:34
むむむ…。 話題が入り乱れており豪華な状態に……。

>>85-87 なるほどでつ!
遅延による価値割引というのはモデル化できたら面白そうでつ。
言語により、セルフコントロール選択を取らせる事を、
ルール行動支配と呼べるのでせうか?

少なくとも、ある程度の予測が必要不可欠になってくるんで、
精度の高い予測ができる動物ほど、セルフコントロール選択を取りやすい
という事になりそうでつね。
>>69氏の引用されている式もあるのでつね。
色々な式が出されて、どれが妥当性があるのか?という
話になっていくのでしょうか? 
96ステ助:03/02/15 22:01
>>93の()内の数字はなんでしょうか…?
また、A:B=24:17(0.58:0.42)以降、
最終的に、A:B=0.62:0.38と収束するのは何故か分かりません…(汗。
やっぱり暗算してる訳ではないからなのでせうか。
(囚人スレでお時間あったら教えて頂ければ幸いでつ。。)
質問がいっぱいでスミマセン。。

>>94
>というわけで、問題はやはり対応法則と最適反応原理のいずれが現実の
>モデルとして妥当か、というところに帰ってくるようです。
上記の収束する値が導き出せれば、「なるほど」でつ…。
フリーパラメイター対応法則と最適反応原理は相容れないという事になるのですね?
対応法則の改良版 B1/B2= k (A1/A2)^Sa (D2/D1)^Sd
>>86 フリーパラメーターを入れた現実にフィットさせたもの)
だとどうなるのでしょうか?
それとも、最適反応原理の方の妥当性を先に検討してみたほうが
効率が良いという事になるのでしょうか…?

むむ、素人にはいずれにせよどれも難しいでつ……(汗。
97ステ助:03/02/15 22:09
>ソマティック・マーカー仮説
ある一枚のカードをめくると、それがとくになるか損になるかは、
カードをめくっていみて初めて分かるので
ゲームをしながらルールを推測していくという実験でつか?
>2つのルート
というのは、直観(無意識)のプロセス(「たぶん儲かるにはこうする」みたいなの)と、
意識的プロセス(ゲームが進むごとに蓄積されていく経験を基にルールを推測計算する)
という両方のプロセスによる学習になるという事でつか?
なんか「賭博黙示録カイジ」のじゃんけんゲームを思い出しますた(自爆。
す、すみません………(汗。
モデル化するとしたら、どうようになるのでしょうか?
(難しくて、検討もつきませぬが……)
98177 ◆NgGAMEeuew :03/02/16 00:46
>>96 詳しい計算は

http://academy.2ch.net/test/read.cgi/psycho/1020533658/l50

に書いておきました。ここで細かい計算まで書きすぎると話が
見えにくくなるので、証明などは巻末の付録(上記スレ)にまわす
ことにします。
99190:03/02/16 05:53
>>97
そんな感じです。ソマティック・マーカー仮説は、我々が下している
重要な意思決定の多くが、「直観(無意識)のプロセス」に依存しており、
脳損傷などでこのプロセスが破壊された患者の行動は、非常に「賢くない」
ものとなってしまう、という話です。

逆に言えば、「意識的プロセス(≒最適反応型)」だけもっていても、
世間一般で言われる「賢い」人間ではない、という話です。これまでの
話につなげれば「人間は最適反応型/対応法則型の両方のルールを使っている」
ということでしょう。

我々が直面している問題をまとめるとこんなところでしょうか。

-- 最適反応型/対応法則型の、どちらがどんな場面で用いられるのかが
わからない限り、ゲームの均衡を計算しても、絵に描いた餅にすぎないかも。

逆のやり方として、実際の人間でゲーム実験をして、実際に生じる均衡や
そこに至るプロセスをデータとしてとり、どちらの学習ルールがフィット
するのかを分析することも可能。実際、これは経済学者が過去10年間に
辿ってきた道。ところが、いろんな問題が明らかになってきた。

ここで>>1に至る...が、先は長いぞ〜!残された仕事がたくさんあるぞ〜!
100177 ◆NgGAMEeuew :03/02/16 12:58
経済学者のやることは、段取りが悪いことが多いので
仕事が沢山残ってしまうのでいす。
もっと、現実に近そうなモデルを立てて出発しないと。
101177 ◆NgGAMEeuew :03/02/16 14:54
経済学者は伝統的に

  AならばBが真 かつ Bが真 ならば
  Aは真

と考える思考パターンを持っているようです。
例えば、「人間が合理的ならばBをするはず」「人間はBをする」
ゆえに「人間は合理的である」という風に。
実際はAならばBが真でも、A’やA’’やA’’’からでもBが導ける
ならば、Bが真でもAが真になる保障はありません。

学習ダイナミクスの研究でも、どうみても正しそうにないA(仮定)から
B(実験事実)を導いて満足するタイプの研究が多いように見受けられます。
それゆえ、論文は沢山あってもあんまり研究が進んでいるという
印象を受けないのです。

というわけで、学習心理学的に見て妥当性の高そうな仮定(A)から
出発して実験事実(B)をも再現できるような理論を模索しようと
いうのが、このスレを立てた趣旨になります。
102177 ◆NgGAMEeuew :03/02/17 09:29
ところで、手元のテキスト(『学習心理学への招待』篠原1998)によると

変動間隔スケジュール(VI)のときは、対応法則がよく成り立つが
比率スケジュールのときは比率の高いほうが選ばれる(=最適反応が見られる)

らしいです(p65)。これはなぜなのでしょう?
10369:03/02/18 19:04
>>行動厨さん
>というわけで69さん、至らない点があればフォローをお願いします。
詳細な説明を加えて下さってありがとうございます。

>>177さん
長いこと放置してしまって申し訳ありません。

>>71
>ここで、>>46が正しいと仮定して、

>>46について、行動分析学が予測する答えは「3ばかり」です。

B1/(B1+B2)=A1/(A1+A2)の式が成り立つのは(Bは全反応に占める割合、
Aは強化子の量、1・2はそれぞれのキー)、並立VI VIスケジュールの場合
のみです。

>>102
>変動間隔スケジュール(VI)のときは、対応法則がよく成り立つが
>比率スケジュールのときは比率の高いほうが選ばれる(=最適反応が見られる)
>らしいです(p65)。これはなぜなのでしょう?
行動厨さんが>>50で紹介している、逐次改良理論というもので説明が出来ます。
逐次改良理論の予測する所は、選択場面において有機体は強化子と反応の比率
の高い方にその行動をシフトさせるということです。平たく言えば、最適反応
をするということです。

並立VI VIスケジュールにおいては、マッチング行動が最適反応であり(多少の
異論はあるようですが)、並立VR VRスケジュールでは、比率の高い方を排他的
に選択することが最適反応です(この排他的な選択もまた、マッチング行動です)。
10469:03/02/18 19:05
大抵の場合は、マッチング行動は選択場面における最適反応ですが、両者が異なる
場合、有機体はどちらの反応パターンを示すか、という興味深い実験があります。
Mazurのものだったと思うのですが、すいません、細かいことは全て忘れてしまって、
結論しか覚えていません(行動厨さん、ご存知でしたらフォローして下さい)。
結論は、ハトはマッチング行動を示すことにより、全体としての強化率は最適な
ものとはなりませんでした。

もちろん、この結果だけをみて直ちに対応法則の方が予測の精度が高い、などとは
結論できませんが、なかなか面白い結果だと思います。

蛇足ですが、行動分析学において「法則」と呼ばれるのは、この対応法則だけ
です(the matching lawです)。

ここからは個人的な印象なのですが、対応法則は並立VI VIスケジュールに関して
はそれなりによい予測をすると思うのですが、並立VR VRスケジュールに関しては、
比率の高い方を排他的に選択するという予測は正直素朴すぎる気もします。少なく
とも、ヒトの選択行動を考える場合には、考慮すべき変数が抜け落ちている感が
否めません。それは強化子の価値の割引あたりかな、と考えてみたのですが、
ルールのような言語がらみのものかもしれません。
10569:03/02/18 19:06
俺のデスマはもはや慢性化しており、なかなか高頻度でレスをするのが難しい
状況です。またしても言いっぱなしになりそうな可能性大です。すいません。

ちなみに、現在の選択場面である「2ちゃんでレスをする」と「やらなきゃいけ
ないこと諸々を片付ける」は、どちらがセルフコントロール選択で、どちらが
衝動性選択なのかが正直分かりません。将来的なことを考えたら「2ちゃんで
レスをする」の方こそがセルフコントロール選択なのかもしれません。悩ましい
所です。
対応法則に従うことが最適反応の場合もある・・・
この2つは対立軸ではなかったのでつね・・・
107177 ◆NgGAMEeuew :03/02/19 23:19
>>103 どうもありがとうございます。

>並立VI VIスケジュールにおいては、マッチング行動が最適反応であり

この場合の「最適」というのは、何を基準とした最適なのでしょう?
単位時間当たりの餌の獲得量とか、レバー押し1回あたりの餌の獲得量とか
いろいろな基準が考えられると思いますが。
108177 ◆NgGAMEeuew :03/02/20 00:16
逐次改良理論の方もぐぐってみましたが、ほとんど情報が
ありませんでした。どなたか、解説下されば幸いです。
109行動厨:03/02/20 09:11
おはようございます。ちょっとごたごたしていた行動厨です。

>>91
激しく遅レスな上に申し訳ないのですが、最近の連合理論や認知理論までは
カバーできていません。ただ、進化心理スレもさっき参照したのですが、
「直感的プロセス」と「意識的プロセス」はそれぞれ随伴性制御とルール制御の
神経学的基盤を提供するであろう点で興味深いですね。
大脳新皮質を経由するルートの発達がセルフ・コントロール、ひいては
ルール制御の発現に寄与しているという推測はあながち外れていないだろうと。

>>104
フォローありがとうございます。そのMazurの実験、どこかで聞いたなあと調べて
みましたが、論題から言っておそらくこれではないかと(Scienceとはまた・・・)。

Mazur, J. E. (1981) Optimization theory fails to predict performance of
pigeons in a two-response situation. Sicence, 214, 823-825.

>考慮すべき変数が抜け落ちている
遅延だけでなく、質、量、確率、反応コスト、代替性、挙げていけばきりが
ありませんが、そこらへんを統合して理解するにはやっぱり行動経済学的な
視点が必要だと思うのですが、どうでしょう。
http://academy.2ch.net/test/read.cgi/psycho/1040925550/218-219
110行動厨:03/02/20 09:33
>>107
時間比においても反応比においても最適ではないかと思いますが・・・。
並立VI50秒VI100秒スケジュールで考えてみます。
1秒間に2回キーを突付くハトを1500秒間のセッションにさらすとします。
最も効率よく反応できれば、VI50秒キーからは約30強化子、
VI100秒キーからは約15強化子、合計で約45強化子を得ることができます。

初めのセッションではランダムにキーを突付き、強化量は最大になりません。
50秒経過して、VI50秒キーを突付けば餌が出る状態になっていたとしても、
ハトはまだ餌が出る状態になっていないVI100秒キーのほうを突付いてしまう
かもしれないからです。で、最初のセッションでは両方のキーに等しく反応を
配分し、次のような強化量/反応数の比が得られたとします。

 VI50秒キー.. 15強化子/1500回反応 = 1/100
 VI100秒キー 5強化子/1500回反応 = 1/300

次のセッションでは、強化量/反応数の比率の大きなVI50秒キーのほうに
より多くの反応が配分されると逐次改良理論は予測します。
これを繰り返していくと、最終的に次の比率に落ち着きます。

 VI50秒キー 30強化子/2000回反応 = 3/200
 VI100秒キー.15強化子/1000回反応 = 3/200

両者の比率は等しく、対応法則と合致します。
全体の強化量も最大であるため、最適反応であるとみなされます。
111行動厨:03/02/20 09:33
一方、並立VR50VR100スケジュールではどうか。先の例と同じく、
1秒間に2回キーを突付くハトを1500秒間のセッションにさらすとします。
両方のキーに等しく反応を配分して、次の比率が得られたとします

 VR50キー. 30強化子/1500回反応 = 1/50
 VR100キー15強化子/1500回反応 = 1/100

次のセッションでは、強化量/反応数の比率の大きなVR50キーのほうに
より多くの反応が配分されると逐次改良理論は予測します。
しかし並立VI VIスケジュールとは異なり、反応数の配分を変えても
強化量/反応数の比率は常に1/50と1/100で一定です。そのため、
ハトは強化量/反応数の比率が大きいVR50キーのほうに反応を
シフトさせ続け、最終的には排他的な選択に落ち着きます。
このときも3000/(3000+0)=60/(60+0)で対応法則は成り立っています。
112行動厨:03/02/20 09:59
で、このストーリーを、相手の出方によって受けられる強化量が変わるという
確率的事象を含む>>71-73>>92-94のゲーム事態に当てはめると
どうなるか・・・難しいです。2つの強化子の提示確率の違いを組み込んだ
拡張対応法則も一応あったりするのですが。

 B1/B2= k (A1/A2)^Sa (P1/P2)^Sp

>>86と同じ形であり、Pはそれぞれの選択肢において強化子が提示される確率、
Saは強化子の大きさに対する感受性、Spは強化子の提示確率に対する感受性です。
提示確率に対する感受性よりも大きさに対する感受性が大きい個体は、
「確率は低くても大きい強化子のほうに賭ける」ギャンブラーであり、
逆に、大きさに対する感受性よりも遅延時間に対する感受性が大きい個体は、
「たとえ小さな強化子であっても、確実にもらえることが重要」という安定志向型です。

しかし177さんが挙げられている例はいずれも確率は50%と50%で等しく、
上の式のP1/P2は1になって無視されてしまうため、ここでは関係ないかも・・・。
うーん、うまくまとめられません。
113行動厨:03/02/20 10:00
×逆に、大きさに対する感受性よりも遅延時間に対する感受性が大きい個体は、
○逆に、大きさに対する感受性よりも提示確率に対する感受性が大きい個体は、
114177 ◆NgGAMEeuew :03/02/21 01:30
どうも、ありがとうございます。大体様子が分かりましたので
またモデルを考えて見ます。

ちなみにVIVIスケジュールの場合、キーを押す回数が
減ったりはしないのでしょうか? 50秒程度立つまで
出ないのならば、それまで押し続ける必要は無い、というふうな
学習は成立しないのでしょうか?
115行動厨:03/02/21 07:06
>>114
もちろん全体の反応数はある程度一定のラインまで減っていくでしょうが、
時隔スケジュールにおいて完全に効率的な学習を成立させるのは困難です。
ただし、変時隔(VI)スケジュールと定時隔(FI)スケジュールで事情が異なります。

例えば、FI50秒スケジュールだと、「50秒」というのはきっかり50秒を意味します。
このスケジュールでは強化後しばらくは反応が起こらなくなります。
そして50秒に近づくにつれ、反応の頻度がが漸次的に上昇し、50秒前後で
非常に高頻度の反応を見せます。何の手がかりもなしに正確に時間を
弁別することは不可能なので、効率化には自ずと限界があります。
強化子が利用可能になったらライトをつけるなど、手がかりを与えてしまうと
それは弁別学習になり、FIスケジュールとは言えなくなってしまいます。

FIスケジュールの例としては、(あまり厳密な例とはいえませんが)レンジに冷凍ピザを
入れて3分間にセットする場合が挙げられます。最初は本でも読んでいますが、
2分くらい経つと「まだかなー」とちらちらレンジのほうを見やるようになり、
3分間近になるとじっと見つめるようになります。もちろん、FIスケジュールに従って
いるのは「レンジを見やる」という行動であり、レンジからピザを取り出すという行動は
「チン!」という音を弁別刺激とした行動です。

一方、VI50秒スケジュールの「50秒」というのは、「平均50秒」という意味なので、
強化後、次の強化子が利用可能になるまでにかかるまでの時間は20秒だったり、
はたまた80秒だったりと、比較的大きく変動します。先に述べたように、手がかりの無い
時間弁別は困難な上、VIの変動値は予測不可能なので、ハトは常に一定の比率で
反応を続けることになります。2ちゃんの過疎スレでレスをチェックするというのも
(厳密ではないにせよ)VIスケジュールの典型的な例といえます(w
116行動厨:03/02/21 07:07
これを累積記録に示すと、次のようになります。

│        /
│      /
│    /
│  /
│/     VI
└─────

│     ノ 
│    ノ
│   ノ
│ ノ
│ノ     FI
└─────

横軸は経過時間、縦軸はそれまでの累積反応数です。
FIスケジュールで見られる扇形の反応形は、貝のぎざぎざに似ていることから
FIスキャロップと呼ばれます。AAで表現するのは限界があるので、教科書や
他のサイトの図も参考にしてください。(累積記録機がどういう器具なのかも
想像がつきにくいかもしれませんが、これについても。)
117行動厨:03/02/21 07:07
ちなみに、VRスケジュールでは常にVI以上に高頻度の反応が得られます。
FRスケジュールでは強化を受けてからしばらく「強化後休止」が見られ、
一定時間経過後に再び高頻度の反応を見せるというパターンが観察されます。

│   / 
│  / 
│ /  
│ / 
│/      VR
└─────

│         _
│      _/
│   _/ 
│ _/ 
│/      FR
└─────
118行動厨:03/02/21 07:09
と、ここまで書いて気がつきましたが、ゲーム事態においては、それぞれの戦略は、
相手の取る戦略に依存した変動値をとる変比率(VR)スケジュールと見なせるのではないでしょうか。
もし相手が常に同じ戦略を取るのなら、それは定比率(FR)スケジュールになります。

単なる言い換えに過ぎないかもしれませんが・・・。
119177 ◆NgGAMEeuew :03/02/22 02:44
本当はレバーが2つある場合は、右を押す、左を押す、どちらも押さない
の3戦略ゲームとなりますので、やや面倒になります。

簡単のためにしばらく、レバー1つのVI条件に絞ってお聞きしたいのですが
最初SをVI条件におくとどのような行動を取るのでしょうか?
はじめのセッションは沢山キーを押すが、セッションを重ねるにつれ
次第にキーを押す回数が減少し、ある程度のキー押し平均間隔に収束
してくるのでしょうか? 
120177 ◆NgGAMEeuew :03/02/22 03:21
たとえば、あるセッションでキーを多く押し、次のセッションでキーを
少しすくなく押してみたところ、少なく押しても獲得強化量はほとんど
変わらなかった、それで次からはキーを少なめに押してみた・・
という風な現象は見られるのでしょうか?
121行動厨:03/02/22 13:53
ご推察通りだと思います。そしてそのキー突付きが少なくなっていく収束過程も
対応法則に基づいたものになると思われます。奇しくも>>119でおっしゃっている
ように、単一スケジュールであっても、キー突付き反応は、毛づくろいや探索行動など、
何らかの強化子をもたらすであろう他の反応との対比でなされる選択行動といえます。

キー突付きに費やす時間をT1、それ以外の行動に費やす時間をT2、
餌の強化量をR1、それ以外の行動によって得られる結果の強化量をR2とすると

 T1/(T1+T2)=R1/(R1+R2)

となります。R2の数値は、例えば「毛づくろいやその他の行動で得られる強化量は
餌30個と等しいとする」、「箱に窓を付けて別のハトを見られる場合は餌60個と
等しいものとする」という想定によって与えられるフリーパラメータです。
そのため、普通の対応法則よりも予測力は落ちますが、それでもかなりの精度で
R2の変動によるVIキー突付きの反応率の変化を予測することに成功しています。
122行動厨:03/02/22 13:53
ただし、残念ながら、私は実験研究の実経験が無いため、これまでに示したような
最終的な反応パターンに至るまでの収束過程において、ハトが具体的に
どのような振る舞いを見せてくれるのかはわかりかねます。これは現場の
動物屋さんに聞くしかないでしょう。(といっても、この手の実験研究をして
いるのは慶応や大阪市大などごくごく限られた研究室だけですが・・・)
12369:03/02/22 20:57
>>109
>Mazurの論文
フォローありがとうございます。それです。

それから、177さんの俺に対する質問にも適切にお答え頂いてありがとうござ
います。

それから、AAのテクもすごいですね。感服の至りです。
12469:03/02/22 20:58
>>109
>遅延だけでなく、質、量、確率、反応コスト、代替性、挙げていけばきりが
>ありませんが、そこらへんを統合して理解するにはやっぱり行動経済学的な
>視点が必要だと思うのですが、どうでしょう。
もちろん、行動経済学的な視点が、同定されていない変数を定めることに貢献
することは疑いのないことだと思います。特に両選択に随伴する強化子が異なる
場合には、その強化子間の相互作用が、代替・補完・独立のどれなのかを考える
ことなしには分析は不可能でしょう。そして反応と強化子の提示の間に遅延が
ある場合には、強化子の価値割引も考慮しない訳にはいきません。

ただ俺が考えていたのは、実験者がアレンジした随伴性に関するものやそれに
付随するものではなくて、なんというか、被験者が実験室に持ち込む、あるいは
実験室でひねり出すものです。それは何かと言うと、言語に関するものです。

具体的に言うと、スケジュールに対する「感受性(sensitivity)」を減らして
しまうと言われているもの全般です。例えばルールやインストラクションですね。
「実験室においては、ヒトではFIでスキャロップが出ない」っていうのは、よく
言われているそうです(単なるエコーイック)。最近は「出た!」という報告も
あるそうですが(生半可)。

この辺は、古くはCataniaやHayes、Chaseあたりや、日本では大河内先生が研究
されてる分野ですが、俺が知らないだけかもしれませんが、対応法則がらみの
選択行動との連携はなされていないのではないかと思います。

っていうか、正直、この辺ってまだ分かってないことが多すぎなんでしょうね。
12569:03/02/22 21:01
>>119
>レバー1つのVI条件

>>121
>T1/(T1+T2)=R1/(R1+R2)

俺もかねがね、単一スケジュールにおける対応法則をどこかで絡められないものか
と考えていました。

関係ありませんが、初めてHerrnsteinの「全ての行動は選択である」というありが
たいお言葉を目にした時は、なかなか胸にずしっと来るものがありました。

基本的には>>121の行動厨さんのものと同じですが、若干違うバージョンのものを
紹介します。

一番初めの形は、この対応法則です。

B1/(B1+B2+...+Bn)=R1/(R1+R2+...+Rn)

Bは反応数、Rは強化量です。1は単一スケジュールにおける反応数・強化量で、2以降
はその他全ての反応(なんでもあり)のものです。つまり、全ての反応は多重並立
スケジュールにおける選択反応であるということです。

次に、上記の式をこのように変えます。Roは、R1以外の全ての強化量の合計です。
ちなみにこの中には、行動内在的な強化も含まれます。

B1/韮i=R1/(R1+Ro)
12669:03/02/22 21:02
そして、この式を

B1=(韮i)R1/(R1+Ro)

として、韮iを定数kに置き換えると最終形です。kは、全ての反応の合計の量です。

B1=kR1/(R1+Ro)

このkの前提は、ある特定の環境条件において、ある有機体が自発する反応の総量は
一定であるということです。「そんなのどうやって測るんだ?」と言う話になりますが、
式をよく見てもらえば分かる通り、B1はR1の関数です。kとRoのフリーパラメータの
値は、実際にR1の値を変化させて、それぞれのB1の値を取り、そのデータをプロット
すればOKです。具体的には、VI30秒の時の反応率はいくつ、VI60秒の時はいくつ・・・
とやっていきます。

平たい言い方をすると、kはその有機体の活発さで、Roは他の強化子の量です。X軸を
強化率、Y軸を反応率とした場合に、前者は反応率の上限(漸近線)に、後者は関数の
傾きに対応します。
12769:03/02/22 21:04
くとくどと書いてきましたが、これで何が言いたいかというと「ある反応の反応率は、
その反応の強化率だけでは決まらない」ということです。つまりある条件における
反応率の予測をしようとした場合には、その文脈における全ての並立する反応、なら
びにその強化率を考慮すること無しには、その精度は上がらないということです。

ゲームの話に戻しますと、どのような場合においても、「どちらも押さない」という
選択、というかその時に行っている全ての行動(この中には「思考」という行動も
含まれます)ならびにその強化率を考慮しなくてはいけないのではないかと思います。
そのためには、まずはある反応の強化率を操作し、データを取り、それをプロット
して、ある条件におけるある固体の強化率と反応率の関数関係を取り出す、という
こともしてみてもいいのかなあ、と思います。

とか書いておきながら、「ほんとにそうか?」という考えがどうも離れないので、
もうちょっと考えてみます。

ちなみに、行動厨さんが>>121で書いている式は、反応率の変わりに時間の割当てを
使ったものです。

最後に、この式はゲーム理論を考える上でどれだけ役立つかはわかりませんが、臨床
などにおいては、ものすごい応用可能性を秘めたものだと俺は思います。
12869:03/02/22 21:06
>>120
基本的には、初期の反応は様々なdimensionにおいて多様性(variability)を示し
ますが、やがて随伴性が定める所に収束していくというところです。

最近は、バーチャルスキナーボックスみたいなソフトもあるらしいですね。でも
いまいちらしいです。

ちょっと時間が取れたので、鬼のように書きました。連続書き込み、ならびに
長文すいません。
129190:03/02/23 01:16
>>128
これですか?かわいいですね。
Sniffy, the virtual rat
ttp://www.wadsworth.com/psychology_d/special_features/ext/sniffy/index.htm
130行動厨:03/02/23 03:51
>>124
>っていうか、正直、この辺ってまだ分かってないことが多すぎなんでしょうね。
上でもチラッと書きましたが、そういったルールの生成過程の分析と計量的アプローチの
融合という問題はどのように扱いうるのか・・・私のようなものには想像もつきません。
>(単なるエコーイック)
スキナリアンだけに通じるジョークですねw

>>125-126
おお・・・単一スケジュールの対応法則はそのような記述も可能なのですか。
この有機体の活発度であるk値は、餌の遮断化や薬物投与、その他
身体的・生理的拘束による確立操作によって決まるといえるでしょうね。
ある先生がどこかで「確立操作と強化スケジュールは反応遮断化理論によって
同一の地平に持ち込むことができる」とおっしゃっていましたが、対応法則からでも
これと全く同じことが可能になるのは非常に興味深いです。
131行動厨:03/02/23 03:53
>>127
時間やエネルギーなど、「資源」上の制約(行動経済学の言葉で言えば「所得」)を
考慮して取るべき反応や戦略を選択しなければならないゲーム事態であれば、
ここでの話題が関連するのでしょうね。

ゲーム理論ではそうした「資源」や「所得」といった変数はあまり考慮に入れて
いないか、あるいは無限にあるものと仮定しているかのようにも見えますが、
実際のところはどうなんでしょう?「ある戦略に必要な資源(コスト)」、
「配分可能な総資源」という変数もあるのでしょうか?
132177 ◆NgGAMEeuew :03/02/23 14:30
何をモデル化するかによるのですが、選択肢によってコストが
異なる場合には明示的に利得(効用)関数の中に取り入れられます。
たとえば、タカハトゲームではタカタカの場合闘争のコストが
発生すると考えます。また、シグナリングゲームではコストの
沢山かかるシグナルを出した場合と、コストの余りかからない
シグナルを出した場合の受け手の戦略について考察したりします。

それはそうとして
   B1=kR1/(R1+Ro)
という定式化は
非常に面白いですね。機会費用は理論的には考えることはできますが、
実証的には扱いにくいのに対し、この定式化ですとパラメーターの
測定が可能っぽいですから。実際に測定した事例とかあるのでしょうか?
133ステ助:03/02/23 15:55
>>125-126 B1=kR1/(R1+Ro)
シンプルなのに、なんかすごい…(汗

>平たい言い方をすると、kはその有機体の活発さで、Roは他の強化子の量です。X軸を
>強化率、Y軸を反応率とした場合に、前者は反応率の上限(漸近線)に、後者は関数の
>傾きに対応します。
要するに、k=(韮i)<個体の活発さ、反応の総量>は無限のハズないので、
活発なハト程よくつつく(反応する)と言うことですかね・・。

でもって、反応率の上限(漸近線)は、そのまんま「生得的制約」になるか…。
ESSでも、子供の数は設定上∞という事になってますから、
現実の現象に近いモデルを立てるためには
この辺りの変数の上限を、合理的に計算できるかどうかって事になる訳なんですね。。
134ステ助:03/02/23 16:32
>「ある反応の反応率は、その反応の強化率だけでは決まらない」
は、生得的制約のような上限のお話ではありませんでしたね・・。
すみません(汗

>「どちらも押さない」という選択、というかその時に行っている
>全ての行動(この中には「思考」という行動も含まれます)
>ならびにその強化率を考慮しなくてはいけないのではないかと思います。
「どちらも押さない」という選択は「死人テスト」(死人でもできることは行動ではない)
はパスできなくても、「行動=反応」という定義に基づけば、
考えたり、夢を見たり、想像したりすること等も行動として
研究対象の一つになるという事でしたね。。 
そうでなきゃ、行動分析学が扱える現象の範囲は限られてしまふ。

どちらも押さずに、ハトが羽づくろいをする…とかならいいのですが、
黙ってぼーっとされていたら(何かを考えている?)
変数として測定するのが難しそうですね。。
それで、「ある反応の強化率を操作し、データを取り、それをプロットして、
ある条件におけるある固体の強化率と反応率の関数関係を取り出す」
という作業から、ある程度何かを割り出せないか…という話になるのでつね。
135177 ◆NgGAMEeuew :03/02/25 18:12
このところErev & Roth型の強化学習モデルについて検討していたのですが
2人ゲームの場合はどうも一般にstrict Nash均衡に収束するみたいですね。
結構、きれいな結果が出るものです。
13669:03/02/27 19:51
すいません、毎日「今日こそは論文を読んでレスをしよう」と思いながら随分と
経ってしまいました。

でもやっぱり論文を読む時間が取れなかったので、簡単に一点だけ述べます。
申し訳ありません。

B1=kR1/(R1+Ro)について、ハト・ヒト共にいくつかそれをサポートするデータ
があるのですが、それよりもその反証を見つけてしまいました。この定式化は
かなり美しいと思ったんですけどね。

ttp://www.envmed.rochester.edu/www_rap/behavior/jeab_htm/72/_72-251.htm
ttp://www.envmed.rochester.edu/www_rap/behavior/jeab_htm/73/_73-023.htm

アブストラクトしか読んでいないのですが、代わりに線形システム理論で説明が
できるとのことです。ただ俺はこれについては行動分析学で使用されていること
すら知らなかったので、行動厨さん、ご存知でしたらフォローをお願いします。

いつも書きっぱなしですいません。

>>129(190さん)
フォローありがとうございます。
137177 ◆NgGAMEeuew :03/02/28 10:31
>>136 情報サンクスです。
ちゃんと読んでからレスを・・・とかいってると
お互いいつまでも先に進みませんので、読んだ
ところがあれば紹介しながら、話を進めていくって
ことにしましょう。
138177 ◆NgGAMEeuew :03/03/02 10:38
紹介された論文、はじめの方を読んでみましたが
   B1=kR1/(R1+Ro)
が反証されたというよりは、ご褒美の性質によって
kが一定の場合もあれば、一定でない場合もある
ということのようですね。
kというのは「自発的行動の総量」ですから、すげえ
いい餌があるときには、自発的行動の総量自体が増すと
いうことになるのかも。。
139190:03/03/02 11:06
ところで、177さん>

smoothed best-responseってご存じでした?Fudenberg & Levineにも
出ていたんですけど、これって対応法則と似てません?
140177 ◆NgGAMEeuew :03/03/02 15:40
Fudenberg & Levineは読みましたが、定式化を忘れますた。
どうやってましたっけ? 
(うちに帰ればわかりますが、生憎出先なのです)
ttp://academy.2ch.net/test/read.cgi/psycho/1046745556/35

35 :XYZ ◆64XYZ/EQlg :03/03/04 17:02
>>32
ベイズの定理そのものは条件付確率を求める手法だが,
ベイズ理論自体は,人工知能の推論機能や意思決定研究のトピックとして重要だと思うが.
多分,意思決定なんかで認知心理系の研究もされてたのではないだろうか.

時間があったら,ゲーム理論あたりとの関連について177氏あたりにご教授願いたいんだけどね.

ご教授キボンヌ
142世直し一揆:03/03/04 20:48
<血液型A型の一般的な特徴>(見せかけのもっともらしさ(偽善)に騙されるな!!)
●とにかく気が小さい(神経質、臆病、二言目には「世間」、了見が狭い)
●他人に異常に干渉し、しかも好戦的でファイト満々(キモイ、自己中心、硬直的でデリカシーがない)
●妙に気位が高く、自分が馬鹿にされると怒るくせに平気で他人を馬鹿にしようとする
(ただし、相手を表面的・形式的にしか判断できず(早合点・誤解の名人)、実際にはた
いてい、内面的・実質的に負けている)
●本音は、ものすごく幼稚で倫理意識が異常に低い(人にばれさえしなければOK!)
●権力、強者(警察、暴走族…etc)に弱く、弱者には威張り散らす(強い者にはへつらい、弱い者に対してはいじめる)
●あら探しだけは名人級でウザイ(例え10の長所があってもほめることをせず、たった1つの短所を見つけてはけなす)
●基本的に悲観主義でマイナス思考に支配されているため性格がうっとうしい(根暗)
●単独では何もできない(群れでしか行動できないヘタレ)
●少数派の異質、異文化を排斥する(差別主義者、狭量)
●集団によるいじめのパイオニア&天才(陰湿&陰険)
●悪口、陰口が大好き(A型が3人寄れば他人の悪口、裏表が激しい)
●他人からどう見られているか、人の目を異常に気にする(「〜みたい」とよく言う、
世間体命)
●自分の感情をうまく表現できず、コミュニケーション能力に乏しい(同じことを何度
も言ってキモイ)
●表面上協調・意気投合しているようでも、腹は各自バラバラで融通が利かず、頑固(本当は個性・アク強い)
●人を信じられず、疑い深い(自分自身裏表が激しいため、他人に対してもそう思う)
●自ら好んでストイックな生活をしストレスを溜めておきながら、他人に猛烈に嫉妬
する(不合理な馬鹿)  
●後で自分の誤りに気づいても、無理にでも筋を通そうとし素直に謝れない(切腹あるのみ!)
●自分に甘く他人に厳しい(自分のことは棚に上げてまず他人を責める。包容力がなく冷酷)
●男は、女々しいあるいは女の腐ったみたいな考えのやつが多い(例:「俺のほうが男
前やのに、なんでや!(あの野郎の足を引っ張ってやる!!)」)
143没個性化されたレス↓:03/03/04 20:54
―――復讐○仕返し○特殊探偵○悩み事相談○駆込み寺―――
●復讐・貴方に代って恨み晴らします!★★★別れ工作★★★
騙された・捨てられた・弄ばれた・相手に誠意がない・債権トラブル・不倫疑惑・証拠収集・★★★仕返し代行★★★悩み事相談★★★
●電話番号から住所などの調査・等など★何でも気軽に相談OK!
確実に貴方の悩みや困り事、トラブル等を迅速に解決致します。
●下記記載のURLがジャンプしない場合には・コピ−してファイルから開いて下さい! ・・・◆マル秘事件簿・緊急殺人現場◆・・・
http://www.blacklist.jp/i
(緊急情報)必ずご覧下さい★驚愕の事実&復讐の実態★★★
●女性秘密工作員・募集中!高収入確実!!!
http://www.blacklist.jp/ 
リンク・興信所・・> http://www.123456789.jp/ 
----------------------------------------------------------
◆復讐・リンチ現場特撮24時◆危険!!!
14469:03/03/05 15:51
>>138(177さん)
いつもいつもレスが遅くて申し訳ありません。デスマに加えて、アクセス規制
の憂き目にあってしまいました。

次の話題に移る前に、B1=kR1/(R1+Ro)について書いておきます。

>B1=kR1/(R1+Ro)が反証されたというよりは、ご褒美の性質に
>よってkが一定の場合もあれば、一定でない場合もあるという
>ことのようですね。
この点、非常に分かりにくくて、俺も始めは何で反証になるのか分からなかった
のですが、結論から言うと、これは反証と考えていいと思います。

紹介した論文では(ってちゃんと読んでいないのですが)、ある餌の場合のkの
値と、すげえいい餌の場合のkの値が違ってたのでB1=kR1/(R1+Ro)はだめ、と
言っているのですが、これでは分かりにくいので、以下のような単純な例を想定
します。本来なら自発的行動の総量(k)はフリーパラメータの1つなので、事前に
分かることはないのですが、仮にここで事前に分かっているとして下さい。

 自発的行動の総量(k):100
 ある餌を得るために割り当てる行動の量(B1):30
 ある餌の獲得量(R1):30
 その他の行動に割り当てる量(k-B1):70
 その他の強化子の合計量(Ro):70

これをB1=kR1/(R1+Ro)に当てはめると、以下のようになります。

 30=100*30/(30+70)

ここまではOKです。
14569:03/03/05 15:53
で、問題のすげえいい餌の場合(あるいは非常におなかが空いている場合)なの
ですが、がんばって40%の行動を割り当て、40の強化子を得たとします。

この場合に、B1=kR1/(R1+Ro)の予測する所は、その他の行動に割り当てる行動の
量は60に減るということなのですが、データを取ってみたら70のままだったと
いうことです。

 40≠100*40(40+70)

これは何を意味するかと言うと、B1=kR1/(R1+Ro)の前提である、Herrnsteinが
考えたkの値は一定であるという理論化が、覆されてしまったということです。

故に、B1=kR1/(R1+Ro)の定式化が反証された、と結論付けられたわけです。

確かに、他の研究者の行った実験ではkの値は一定で、B1=kR1/(R1+Ro)の定式化は
有り、とされた訳ですが、この紹介した論文の手続き等が全て適切であるならば
B1=kR1/(R1+Ro)の定式化は無し、ということになるということです。

ちなみに、この論文を書いたMcDowellという人は、この定式化を随分と評価して
いた人なので、論文の手続きに不具合があるという可能性は低いと思います。
まあ、ちゃんと読みもしないで言うのも何ですが。

自分で紹介しといて、自分で反証例を引っ張ってきたりして、どうもすいません。
大変お騒がせしました。
146行動厨:03/03/05 20:24
>>144-145

>>130でも書きましたが、それはやはり確立操作がk値を決めるということを
証明したといえるのではないでしょうか。B1=kR1/(R1+Ro)が覆された、
というよりは、確立操作を変数に組み込み、k値の変動の記述する方策が
与えられたのであって、定式化自体は記述力を失っていないと見ることも
できるのではないかと思いますが。いや、私も元の論文はよく読んでないのですが。
147190 ◆eWnaXs9/M2 :03/03/06 09:57
>>140

>>144-145の話で、B1/k = R1/(R1+Ro)というように
「反応比率が総強化量に占める強化量の比率と線形かつ同一」である場合が
対応法則で、前者が後者のステップ関数ならば最適反応、また、ロジット関数
(=シグモイド型)である場合が、smoothed best-responseになる、という話だと
思いますが。

同じことの言い換えだけど、R1/(R1+Ro)をx軸にとったとき、Y軸=B1/kが線形/ステップ関数/S字型関数、
のいずれかになる、と。
148190 ◆eWnaXs9/M2 :03/03/08 12:38
ふっふっふ....やっと分かってきましたよ。といっても仕事の途中で分かった
話だけれど。

「ゲーム理論で展開された学習モデルと行動心理学で展開された学習モデルの
包含する一般モデルは、ルースの選択公理(1959)だった」

ダンカン・ルースは、数理心理学者で、ゲーム理論や実験ゲーム研究、
公理的意思決定研究、行動意思決定(KahnemanやTversky)の立ち上げ
などに携わった人。(おそらく)当時は、数理心理学も行動心理学と
今より密接な関係にあったと思われるので、歴史的にも、両方の学習モデルの
起点として見ることが可能でしょう。より正確には、当時接点をもっていたけれど
行動心理学はこのラインから離れ、また、ゲーム理論などの分野では合理的選択理論が
幅をきかせたために、数理心理学系の学習モデルが忘れ去られていった...が、
ゲーム理論における学習の役割に注目が集まる今、ルースの公理的意思決定モデルを
ひな形として2つの流れが、このスレで融合しつつある、と。

で、この公理が何を提示してるのかというと、「行動集合の中から、
ある行動が選択される確率」を導出するモデルを提示してる訳ですよ。
これはオペラントの文脈では「総行動量を配分する割合」のこと。

で、144-145の数式を借りれば、一般型は以下の式となる。

B1/k = exp(f(X1)) / exp(f(X1)) + exp(f(X0))

R1, R0の代わりにX1, X0を使ったのはルースが物理的な量(強化量)の代わりに、
「各行動に付与されたattraction、価値、効用」を使っていたため。
もちろん便宜的に、ここでR1, R0を使ってもかまいません。
149190 ◆eWnaXs9/M2 :03/03/08 12:39
関数f(X)は、通常λ・xであり、λ=0だと「強化量とは関係なく各行動が
等確率で選ばれる=総行動量が等しく配分される」。λ→∞だと、ゲーム理論の
モデルでいう最適反応となる=行動1,2のうち、大きな強化量を得た行動に、
全ての行動量が配分され、他の選択肢は見向きもされない。f(x)=ln(x)ならば、
対応法則となる=B1=kR1/(R1+Ro).

ちなみに、0<λ<∞だと、ゲーム理論で言う「緩やかな最適反応」となる。
ただしこのケースが行動心理で扱われているかどうか知りませんが。


さて。この公理を通じて、やっと>>144-145等、行動心理学者と他の研究者の
違いが分かりました。

JEABなどで活躍する行動心理学者は、「強化量=物理的に観察可能な物質の量」から
「反応量=物理的に観察可能な行動頻度」を導く反応関数を導出しようとする。

一方、経済学者や意思決定研究者(昔でいう数理心理学者)は、2つの変数の間に
「効用=物理的に観察され得ない、主観的な量」を想定する。ルースの選択公理も
「主観的な量=効用から選択行動が導出される」場面を想定したもの。

ご存じの通り、経済学者や(非行動)心理学者は、「物理的な資源がもたらす効用は
限界逓減曲線の形をとる」と想定する。良く言われるように「同じ一杯のコーヒーでも、
最初の一杯より、二杯目の方が、満足度が低い。三杯目から得られる価値はもっと低い」
という話。
150190 ◆eWnaXs9/M2 :03/03/08 12:42
つまり効用という概念を導入すれば、当然、>>144の式における「強化量=R1, R0」を、
効用関数によって変換してから、式に投入しなければならない。

#結局、効用の概念に親しんでいる身から見れば、>>145の「非常におなかが空いている
場合」なんて、モロに効用関数の形を変える状況な訳ですよ。つまりR1 とR0がそれぞれ
30と70であっても、「腹が減ってない時のR1とR0の効用の差」は、「腹が減っている
いるときのR1とR0の効用の差」よりも小さくなる。当然、R1, R0でなく、効用X1, X0を
式に投入すれば、「腹が減ってるとき」と「減っていない時」では、B1/kの値も変わる。

言いたいのはこういうことです。

行動心理学者は「効用」という概念を(上のケースに)導入していないため、「腹が
減ってる時」と「満腹の時」でB1/kに差があると、ルースの選択公理の形を変えることで、
何とか「強化量→反応量」の関係を記述しようとする。

けれど、「強化量→効用→反応量」という関係を考えれば、「状況によって変化する」
のは最初の関係だけで、後者の関係(選択公理の部分)を変える必要はないのかもしれ
ません。

#さらに加えれば、ゲーム理論における学習モデルでは「経験から効用(ではなく
propensities, attractionsと呼ばれる)が形成される過程」と、「attractionsから
選択行動を導出する過程(選択公理)」が、キチンと分離されています。この差が、
そのまま、皆さんの学習モデルと、ゲーム理論の学習モデルの違いに繋がる。

>>124
こう考えれば、当然ながら、代替財、補完財、独立財といった「物質がもたらす
主観的な価値=効用」に基づく概念を考えることは不可欠でしょうね。
ttp://www.okayama-u.ac.jp/user/le/psycho/member/hase/yh-seminar/2001/Shiraishi_10614.html
151190 ◆eWnaXs9/M2 :03/03/08 12:46
> B1/k = exp(f(X1)) / exp(f(X1)) + exp(f(X0))

当然、A / (A + B) の間違いです。今回も読みにくい日本語があります。
すみませんね。
152山崎渉:03/03/13 13:05
(^^)
153177 ◆NgGAMEeuew :03/03/21 17:29
ゲーム論で用いる利得行列は多義的ですが、もともとは「効用」の
一覧表なわけですから、
   効用 → 行動
の部分のモデル化を意図しているわけです。この効用にはフォンノイマン
モルゲンシュテルンの公理を満たすという制約がつきますが、物質的な
「強化量」に比べると、自由度が高いのでうまく使うと、様々な場面の
学習を統一的に把握できるのかもしれません。
ただ、単にアドホックになるという危険もありますので、その意味では
   強化量 → 行動
という、効用をかませないモデルの可能性も追求したいところでは
ありますね。
154190 ◆eWnaXs9/M2 :03/03/23 22:01
>>153

その問題は、今、とてもオモシロイ展開を迎えていると思うんですよ。
ノーベル賞をとったカーネマンは、ここ数年、「経験を通じて人々が
どのように効用を形成するのか」という問題に、取り組んでいます。
これなんて、まさに「強化量→効用→行動」という合成関数を考えている
のと同じこと。

「数式を作る」というだけなら、「強化→行動」でも合成関数でもどちらでも
良いのかも知れませんが、やはり、「数式を解釈して某かの意味を引き出す」
上では、合成関数アプローチの方に将来が有るのではないか...と、いうのが
個人的な意見です。

#別にこれは行動分析学の知見を無視せよ、という意味ではないのであしからず。
そちらで蓄積された知見は重要な価値を持っているのも事実です。
155行動厨@ですま:03/03/24 04:22
ATフィールドが・・・みんなのATフィールドが消えていく・・・。
156177 ◆NgGAMEeuew :03/03/26 09:38
お題としては今のところ、展開形の学習モデル、持久戦の学習モデル、
学習の進化といったものを考えています。他にもおもしろそうな
話題があれば考えていきましょう。
157190 ◆eWnaXs9/M2 :03/03/26 11:03
個人的には、持久戦の学習モデルからキボンヌ。
できれば戦略が二値型でなく連続的であるケースを...
158177 ◆NgGAMEeuew :03/03/26 17:45
それはまた、マニアックなところから入りますねw
一応書いたけど、一番リクエストは少ないだろうと思っていたのに。

とりあえず、持久戦の例を1つあげておきましょう。
あるスレにコピペ荒らしとAA荒らしが現れました。
お互いにコピペとAAを張り合って応酬しています。
先にあきらめた方が負けで、勝った方がスレを獲得できます。
さて、何レスぐらいまで頑張ると良いでしょう?
159177 ◆NgGAMEeuew :03/03/28 16:21
遺伝型モデルによる分析は、『進化とゲーム理論』の
持久戦の章に出ています。
160イ為牛勿:03/04/09 00:09
持久戦にはなりそうもない。
161山崎渉:03/04/17 09:21
(^^)
162山崎渉:03/04/20 04:46
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
163177:03/04/22 22:13
非対称持久戦のESSは「利得が先に負になるプレーヤーが、そのことが
分かった時点で闘争をあきらめること」です。勝ち目の無いほうがさっさと
ことがESSなので、この戦略が流布していれば現実の闘争はほとんど
回避されることが予想されます。ただし、これは「戦略の遺伝」を仮定した
モデルでの話しなので、そうではないモデル(学習モデル)でも同じことが
成り立つかどうかを考察することが、重要となります。
164ステ助@旅先:03/04/27 12:16
学習モデルの場合は対戦者の価値観により利得が異なるのでESS程単純にはいきませんね。
争いを好む場合は、対戦自体が随伴性になりそうです。
この場合は効用になるのかなあ。
165177:03/04/28 08:41
おや、お久しぶり。
166ステ助@旅先:03/04/29 10:43
はい、お久しぶりでつ(W。
勉強なかなか進んでないのですが(汗、マターリROMしながら顔出させて頂きます。
167177:03/04/30 18:02
ともあれ、>>164は学習という点で論点を2つ含んでいます。
 1 例えば「争いを好む」という効用関数のもとで、具体的な
   持久戦略がいかにして学習されるのか。
   (無限に戦う〜ある程度でやめる のバリエーションがありうる)
 2 「争いを好む」という効用関数はいかにして学習されるのか。

1は試行錯誤や最適反応でモデルを作れそうですが、2はそのタイプの
学習ではなさそうです。
168没個性化されたレス↓:03/05/02 04:03
たまにはあげてみる。
ドラマ理論とかは関係ないの?
>ドラマ理論とかは関係ないの?

なにそれ?
>>171
さんくす.
関係あるみたいですね.というか,ゲーム理論から派生したものなのか...

http://www.gakumu.titech.ac.jp/kyoumu/syllabus/detail/sougou_a8.html
173山崎渉:03/05/21 22:17
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―
174没個性化されたレス↓:03/05/23 20:11
そもそも学習アルゴリズムに依存してるシミュレーションなんて
やっても無意味だし、
それは学習アルゴリズムの中身を知れば知るほど当たり前の事だと
認識できるのに、
それを認識できてないと言う事は、
アルゴリズムの中身も知らずにシミュレーションをやってる研究が
ほとんどなんだろうなー
動物実験もシミュレーション?
>>174
もう読んでないかも知れないけど、経済学者が学習を扱うとき、
何に注目しているのか、ご存じないようですね。どんな結果が
でるかではなく、合理的選択のプロセスを学習に置き換えても
従来の均衡分析が再現されるか否かが主たる目的なんですけど。

研究って、解き明かしたいものがあって初めて意味を持つモノだから、
そうした文脈を見ないまま、とある研究を非難するのは危険ですよ。
足下をすくわれてオシマイか、鼻で笑われてオシマイ。

というか、そもそも、どの分野における研究を知った上で、こうした
非難をしているのでしょうか?もしかして80〜90年代にM. Macyがやった
研究?それともコンピュータ・サイエンス系でありがちな、目的もなく
やってみました系の研究?後者は良く見かけるけど、それらとここで話されて
いたのは、目的が全く異なるんですけどね(W
>合理的選択のプロセスを学習に置き換えても
従来の均衡分析が再現されるか否かが主たる目的なんですけど。

→「意思決定のプロセスに依存しないロバストな均衡はどれか?」を探ること
が主たる目的
179山崎渉:03/05/28 15:01
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉
180177:03/05/29 00:48
>「意思決定のプロセスに依存しないロバストな均衡はどれか?」を探ること
が主たる目的

というより、意思決定のプロセス(=動学)と均衡(=静学)の
関連を探ることが目的、といった方がより正確です。
181_:03/05/29 00:51
良スレなのに、なんで放置されているんだろうか。
(自分は貢献できないけど。 最近フォン・ノイマンについて
 ちょこっと本を読み始めています。)
良スレだからこそ進みが遅い
184山崎 渉:03/07/15 12:49

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄
そろそろ保守っておこう。
186177:03/09/01 00:45
さて、人が居ないとなかなか議論はできませんが
とりあえず試行錯誤を仮定した学習ダイナミクスモデルの話でも
しながらどなたか心理屋さんの意見でも待つことにしましょう。
187177:03/09/01 01:03
Roth & Erev 型の試行錯誤学習モデルでは「強化」と「忘却」によって
ある戦略を採ろうとする「傾向」が変化するというダイナミクスを
想定します。具体的には、時刻tにプレーヤーiが戦略jを採ろうとする
傾向パラメーターpij(t)が、次の差分方程式にしたがって変化することが
仮定されます。
  pij(t+1)=(1−φ)pij(t)+Rij(t)
ここで、φは忘却を表すパラメーター、Rij(t)は時刻tにiがjを採ろうと
傾向に対して与えられる強化の大きさを示します。

0<φ<1でRij(t)がiがjを採ったときの利得の期待値の大きさに
等しいとすると、このダイナミクスは元のゲームのstrict Nash均衡
に収束することが示されます。
188177:03/09/01 01:15
strict Nash均衡という静学解が動学の漸近安定状態となるケースは
いろいろ知られていますが、このRoth & Erevモデルでは、プレーヤーは
他者の利得や戦略、利得表の全体像などについての知識を持つ必要がなく
自らの採用した戦略とその結果が、プレーヤーが知る必要がある最低限の
情報となります。その意味で、プレーヤーに課される情報的制約が
もっともゆるくてすむ場合のモデルになっています。
で、このモデルの肝は
  pij(t+1)=(1−φ)pij(t)+Rij(t)
という差分方程式なのですが、これは学習心理学の立場から見て
どの程度妥当性のある式といえるのでしょうか?
どなたか、意見や情報のある方がいらしたら、ゆるゆると
議論していきましょう。
189190 ◆eWnaXs9/M2 :03/09/02 08:24
その式は、学習が持つ諸特性、1)同じ行動が繰り返し強化されると、強化量が同じでも学習の効果は
減っていく=驚きが大きいほど学習の効果が高い、2)最近得た情報の方が
古い情報より大きな影響を持つ、を表現してるので、レスポンデントだろうが、
刺激間の連合だろうが、カテゴリ学習だろうが、MCCLだろうが、連合学習全般の
本質をつかんだ物だと思われます。

そこまでは、良いんですよね。そこまでは。

関係ないけど、最近、慣習と規範の経済学と合わせて、学習心理の本を読んでますが、
いろいろ考えさせられますね。溝は深いです。
190177:03/09/02 11:41
そう、定性的にそれっぽいというのはいえるだろうと思いますが
私が気にしているのは、このモデルがstrict Nash均衡に収束するのは
ある戦略をずっととらないと、Rij(t)=0なので
  pij(t+1)=(1−φ)pij(t)
したがってt→∞のときpij(t)→0となるためなのですよ。
この命題が崩れると、strict Nash均衡に収束という分かりやすい
シナリオが崩れます。

ある行動をずっととらないと、その行動をとる傾向性が0になる
という命題は学習心理学的にみて妥当なのでしょうかね?
とれるけどとらない場合(競合する行動をとる必要がある場合)と、
とれないからとらない場合(物理的にその行動が取れない環境にある場合)で違うのでは。
192190 ◆eWnaXs9/M2 :03/09/03 15:56
Estesが1959年の論文で、「行動しても強化が得られない時」に、
pij(t+1)=(1−φ)pij(t)と、pij(t+1)=pij(t)のどちらにすれば
良いのか、を議論してますが、結論は「ケース・バイ・ケース」。

これは、消去の話ですが、>>190の例は、「行動を取らないまま時間が
過ぎるケース」なのでやや違うでしょうが、やっぱりこちらの例でも
データをとって判断すべき事柄であるように思えます。

>とれないからとらない場合

どうなんでしょう?1週間2X2PDをやって、一ヶ月別のものをプレイしてから、
再度2X2PDをやる場合、上の2つの式のどちらであっても、1ヶ月後に、
C (or D)を取る確率は同じだから(理由:pic, pidの両方が同じ割合で減衰しようが
減衰しないまま残っていようが、pic/pidは等しい)、どちらが生じていると
考えても良い。

>とれるけどとらない場合
むしろ、こちらの場合にこそ、どちらの式を使えば良いのか判断できるデータが
入手可能。まぁ、細かな話ですが。
193190 ◆eWnaXs9/M2 :03/09/03 16:05
で、話を戻すと、直感的な話ですが、「学習の対象」が何であるかによって、
どちらの式を使えばよいのか、特定し安くなるように感じます。例えば、
記憶の場合には、何も行動を取らない/刺激を得ないまま時間が経てば、
忘却という現象が生じる訳で。仮にですが、ゲーム場面で学習されているのが
単なる行動ではなく、ある種の知識や情報である場合には、
pij(t+1)=(1−φ)pij(t)としても良いのではないか、と。

このあたりは、オペラントの専門家だけでなく、認知系で学習の話をしている
人も来れば、もっと情報が得られるのではないかなぁ...
194177:03/09/03 18:28
たとえば、調整ゲーム

   1\2  | A     B  
 −−−−−−−−−−−−−−−−−−−
      A   |4,4  1,1
      B   |1,1  3,3

は、(A,A)と(B,B)の二つのstrict Nash 均衡を持ちます。
2者試行錯誤学習ダイナミクスの場合、いずれも漸近安定ですが
例えば(B,B)が安定になるのは、お互いずっとBばかり採っていると
p1A→0、p2A→0となるためです。

ここで例えば、p1Aやp2Aが0に収束しないと、十分長い繰り返しの
のちにもAを採る確率が0にならないので、(B,B)にも収束しなく
なります。ですから、クリティカルなのはAをずっと採らないと
p1A→0、p2A→0となるのかどうかと言う点だと思われます。
195190 ◆eWnaXs9/M2 :03/09/06 23:57
>>194

p1A, p2Aが0に近づくことはあり得ると思うのですが、実際にそうなるか
どうか、いつそうなるかを、演繹的に決定することは難しいように感じます。
結局、ゲーム理論における(強化)学習モデルの適用、という営み自体が、
「学習という理論装置を適用してみると何が見えるか?」という問いに基づいて
いるわけですよね?

つまり、実際に人々が「強化学習」の原理に基づいて行動を変化させているかどうかが
問われているというよりも、「そうであるとしたらどうなるか」という問い。
である以上、「行動しないとき、(1−φ)を掛けるのが妥当か否か」を問い始めたら、
元々の枠組み=「ゲーム場面でシンプルな強化学習の原理“だけ”が働いている」と
言う前提を問い直す必要が出てくるのでは?

つまり、「(1−φ)云々...」問いが気になり始めると、「人々は、行動場面で
なにを学習しているのか?」という点まで踏み込んで議論していかないとならないのでは
...という感想です。

単純な問題に見えましたが、考え始めてみると、結構この問いは研究哲学の
分かれ目を意味してるかもしれませんよ。論理を構築する段階でとどまるか、
実証という名のデータの大海へ踏み出していくか、の。
196177:03/09/07 01:05
それは分かれ道のように見えて、実はそうでもないかも知れません。
思考実験が何らかの意味で有意義であるとするならば、それが
ある程度は現実を反映している場合だと考えられますので、
どういう意味で現実を反映しているのか、と考え始めると
分かれ道の先は合流している、という可能性もあります。
197177:03/09/07 01:13
ところで、なぜ試行錯誤ダイナミクスを問題にしているのかというと
模倣ダイナミクスも最適反応ダイナミクスもstrict Nash均衡に収束
することがすでに知られているからです。試行錯誤でもstrict Nash均衡
に収束することが示せれば、現場で働いていそうな学習アルゴリズムの
いずれでもstrict Nash均衡に収束することがいえて、
「人々は、行動場面でなにを学習しているのか?」をとりあえず
スルーしてもゲーム理論が使えるようになって便利です。

つまり、「(1−φ)云々...」はstrict Nash均衡戦線での最後の
砦となっているわけです。
198190 ◆eWnaXs9/M2 :03/09/07 22:18
いや、言いたかったことはですね。。。

>試行錯誤でもstrict Nash均衡に収束することが示せ

るかどうかは、実際にデータをとって、(1−φ)を掛けるかどうかを
調べない限り、「もし〜であるならば」という前提付きの議論にならざるを
得ないだろう、しかも、状況に依存して異なるモデルが必要とされるだろう、
ということです。だからこそ、

>現場で働いていそうな学習アルゴリズムのいずれでもstrict Nash均衡に収束することがいえ

るかどうかを問うタイプの議論=特定のメカニズムに依存しない均衡概念を探し求める
行為に、どれだけの理論的価値があるのか、気になる...ということです。
199177:03/09/09 00:10
strict Nash均衡は遺伝ダイナミクスの漸近安定状態なので
現実性のある学習ダイナミクスでも漸近安定であることが示せれば
それはそれで有意義でしょう。

一つは、戦略の収納問題を考える手がかりになります。
もう一つは、「進化的に安定な学習アルゴリズムによるダイナミクス
で漸近安定となる状態は、遺伝ダイナミクスでも漸近安定になる」
(さもなければ、その学習アルゴリズムは遺伝的に安定な学習
アルゴリズムではない)という、やや天下りな命題を具体的に
検討することができます。
これに関連して、遺伝ダイナミクスを想定した分析は学習ダイナミクス
によるより詳細な分析の近似として使えるだろう、という
メイナード・スミスのプログラムの妥当性を検討できます。
HOSH
201没個性化されたレス↓:03/10/31 12:19
保全あげ。
202没個性化されたレス↓:03/10/31 12:23
保守
続行きぼうsage
205没個性化されたレス↓:04/04/02 23:08
こいつはサルベージさげ
とか言ってあげんなよ。
207没個性化されたレス↓:04/06/03 18:17
保全しておく。
208age:04/08/16 00:45
ここは、残しておかないとね。

関係ないですが
今、M. M. ワールドロップの「複雑系」を呼んでる。
再認ができる用語が増え、なんだか賢くなった気にさせる本ですな。
その用語は説明できませんがー
バイオグラフィーの部分以外は、理解できませんのでー

この本の索引と用語(解説)の本が欲しい。誰か作れ。

以上、独り言。
209177:04/08/27 20:37
なんとなく一年が過ぎてしまいました。
計算はだいぶ進みましたが、実証という点では
一年前からあんまり進んでないなあ。
210ステ助:04/08/31 21:16
うわ! 超久しぶりに来板したら177氏がいらっしゃった。
ご無沙汰してます。お元気そうですね。

学習のモデル化でしたっけ。
メイナード・スミスさんのテキストには、学習行動を支える遺伝的基盤を仮定できれば
学習行動も、近似値として進化ゲーム理論で表現できると書いてあったのを読んだ気がします。
うろ覚えなので間違っていたらすみませんが、そう上手くいくの
かなあ・・という気がしていました。
そういったところで引っ掛かってしまっていたので、実証例となると
どんなものがあり得るかあまり思い付きませんが・・。
211177:04/09/02 11:52
理論的には大体あってるんですけどね。
細かい部分ではいろいろ疑問点はあるのでいす。
212ステ助:04/09/15 02:13:23
すみません、亀レスになりましたが。
大体は合っているんですか・・・。
進化ゲーム理論で表現できるものとは、
個体の差異により適応度が異なり、
その差異が遺伝に依るもので、
集団内の遺伝子頻度に影響する
という条件を満たすものですよね。
逆にこの条件を満たさない場合は、進化ゲーム理論は使えない。

それで、学習のしかたに遺伝的基盤があったとしても
学習行動として表れる時は多様で可塑的なものであり
「個体が多様な環境に合わせて行動を変化させることが出来るかどうか」というのがキモだと思っていました。

裏切や協力といったものは別としても、学習行動を進化ゲーム理論で表現できるのかなあ?と疑問になりまして。
親から遺伝により同じ学習モデルを持っていたとしても、
どんな学習行動をするかは環境の変化により異なるので、
進化ゲーム理論を使って学習行動は説明できないのではないかと。
少しスレ違いな問いでしたので、すみません。

このスレでやっているような、適応度を高める行動を選択するのに効率的な学習型モデルとは
何かという話ならば
進化ゲーム理論を使うことには疑問はないのですけれども。


もしかすると、テキストでも、「学習によって選択した行動そのもの」を
対象にしていたのではなく、このスレと同じように「学習による、行動選択のしかた」を
問題にしていたのでしょうか?
213没個性化されたレス↓:04/12/06 07:36:32
保全あげ。
214没個性化されたレス↓:04/12/06 07:58:54
>>212
そこまで来ると、この研究とそこから派生した研究などが参考になるかも。
Lumsden, C.J. & Wilson, E.O. 1981.
Genes, Mind and Culture: The Coevolutionary Process.
Cambridge: Harvard University Press.
215没個性化されたレス↓:04/12/30 22:14:17
たまにあげると書き込んでくれる人がいるみたい。
216没個性化されたレス↓:05/02/11 18:42:12
>>214
超遅いレスになりましたが、参考文献のご紹介有難うございます。
PriceやMaynard Smith, Wiloson辺りのことを知り、その辺りの
論文を探してはいるのですが、一般人の私には入手しにくいものが
多いので、止まったまんまになっています。
(いえ、その気になれば、入手不可能ということもないとは
思いますが。 Google Scholarという頼もしい検索ページもありますし(^^)。

「利他行動」や「互恵行動」などを数理社会学の方で
よく見かけるので、その辺りからゆっくりと調べていっています。

保全兼ねて書き込み。
217没個性化されたレス↓:05/03/02 11:44:15
たまには保全あげ。
218没個性化されたレス↓:2005/05/13(金) 21:05:29
リサイクル
219没個性化されたレス↓:2005/05/13(金) 21:23:20
リサイクル
220没個性化されたレス↓:2005/05/19(木) 12:12:34
    ,,∧_▽∧  ワレハメシアナリー
    ,;;;;;:::::.´д`::;ミ           モットチカラヲー
   i,;;;;;::::::;;;:::::::;;;:;;;:ミ    ,∧[v]∧
   l;;;::::::(/▲ ▲ ▲ミ  ∬;:ヽj∀゚ミ   ∧,,,∧ ボクハ エイユウ ダ
  ,i;;;::::::;;" .▲ ▲ ▲.i@;;:::(/▲▲ミ  ,;' σ`'σ;、
  l;;;;;::::::i        ! |;;;;;:::i     i   i    ^  j
   'ゞ;;;;;;;____,;゙   ヽ;;;__,,:'   ゝ___,,:'
221没個性化されたレス↓:2005/06/30(木) 23:25:17
今日の講義でRescorla-Wagner modelを取りあげたので
記念にあげておく。
222没個性化されたレス↓:2005/07/01(金) 01:25:08
>>221
へぇ、大学生ですか?
心理学部じゃないので授業で教わったことはないので好奇心から
なのですが、どれ位の時間をかけてそのモデルについて
講義するのか聞いても宜しいですか?
223没個性化されたレス↓:2005/07/01(金) 01:25:52
あ、大学生じゃなくって、教える側の方ですね。
途中で気づいたんですけど、1行目書き換えるの忘れました。
失礼しましたー。
224没個性化されたレス↓:2005/07/10(日) 13:13:59
般教のレスポンデント条件づけの講義の最後の20分程度だす。
225没個性化されたレス↓:2005/08/14(日) 21:18:02
ゲーム脳って何?
226没個性化されたレス↓:2005/10/10(月) 21:56:43
またもや、ゲーム理論でノーベル賞。

The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 2005
"for having enhanced our understanding of conflict and cooperation through game-theory analysis"

Robert J. Aumann & Thomas C. Schelling

http://nobelprize.org/economics/laureates/2005/press.html

1994年に引き続き、ゲーム理論が取るのは2度目ですね。
2002年の行動経済学に引き続き、関連分野が注目を集めていますね。
227没個性化されたレス↓:2005/10/10(月) 21:57:55
内容も知らずに書き込むな
終了
228没個性化されたレス↓:2005/10/10(月) 22:15:58
>>227
世間知らずはあなたの方よ。分からないかも知らないけど。
229没個性化されたレス↓:2005/10/10(月) 22:19:51
>>228
オーマンのどこが評価されたのか書いてみろ、蛆虫
230没個性化されたレス↓:2005/10/10(月) 22:22:46
先にお前が書いてみろ,便所コオロギ
231没個性化されたレス↓:2005/10/10(月) 22:24:55
それが人にものを頼む口の利き方か?
躾のなってない蛆虫だ
232没個性化されたレス↓:2005/10/10(月) 22:25:51
>>229
繰り返しゲームだろう?そして、彼の共有知識に関する分析、
すなわち、ゲーム理論の認識論的基盤に関する研究についても
簡潔ながら評価されている。後者については、筑波の金子先生なんか
ばりばりやっているから、喜んでいるんじゃないかな。

それにしても、お前のようなウジ虫は、もうちょっと謙虚さを学んだ方が良いよ。
233没個性化されたレス↓:2005/10/10(月) 22:29:24
>>231
できの悪いxyzのコピーだな
234没個性化されたレス↓:2005/10/10(月) 22:30:46
>>227=>>229は退散したようです。
235没個性化されたレス↓:2005/10/10(月) 22:31:19
>>232
そのレベルの説明か
まあ、いいや
素人に本職相手に説明させた俺がいけないわなw

>>233
相手にしてやらん
236没個性化されたレス↓:2005/10/10(月) 22:33:07
>>235
負け惜しみもほどほどにね。匿名掲示板では、
周囲のレベルを見くびってデカイ口を叩くは良いが、
実は大笑いされてるってのは、良くある話よ。
237没個性化されたレス↓:2005/10/10(月) 22:37:37
>>227=>>229=>>235はしっぽを巻いて逃走した模様です。
238没個性化されたレス↓:2005/10/10(月) 22:45:45
しかし、>>226での解説以下のほうがわかりやすいよ。
もっと詳しく聞きたいね。
でも、>>237みたいな便所虫が騒ぐようじゃ誰もこないね。
239没個性化されたレス↓:2005/10/10(月) 22:54:20
>>238
全4ページのショート・サマリーと、全29ページの
マスコミ向け受賞理由を、1レスにまとめて味噌。
それすらできないなら、専門家の顔をした学生さんに
過ぎんわな。おわかりか?蛙君。
240没個性化されたレス↓:2005/10/10(月) 22:56:36
話は変わり、経済板のスレより。

556 名前:名無しさん@お腹いっぱい。 :2005/10/10(月) 22:47:48 ID:xq8knLNu
http://www.nikkei.co.jp/news/main/20051010AT2R1000B10102005.html
中の
>オーマン氏はゲーム理論を元に、戦争や貿易などの紛争に際して
>当事者による相互理解を通じた共通認識の醸成による紛争回避が、
>結果的に双方の利益になることを数学的に証明した。

ってどの論文のこと?


日経もやるな。恐ろしいまでの勘違い。
241238:2005/10/10(月) 23:00:31
>>239
もう一人のシェリングってどんな人で、どんな研究をしていて、
それがどのような経済活動に影響を与えたの?
教えてください。
242没個性化されたレス↓:2005/10/10(月) 23:22:47
シェリングはゲーム理論家というより、理論政治学者/社会学者に
近い。まだ発展途上にあったゲーム理論を、国際間葛藤などの分析に応用して、
社会科学全体にインパクトを与えた。とにかく、最低限の数式しか使わず、
平易な言語でゲーム理論の論理を展開していったため、ゲーム理論の外部で
より高く評価されてる。あとは、コーディネーション問題の研究も有名。
243没個性化されたレス↓:2005/10/11(火) 00:03:15
>>233
ヤツはこれほど下劣ではなかったし、あの口の悪さも一種の爽快感があった。
似ても似つかんと思うが。
244没個性化されたレス↓:2005/10/11(火) 00:07:25
>>231>>232。念のため。
245没個性化されたレス↓:2005/11/11(金) 19:46:17
このシトが【唐出張のドナ@愛知のA学院】です

http://academy4.2ch.net/test/read.cgi/psycho/1116159415/66-92
246没個性化されたレス↓:2005/12/18(日) 00:25:26
246
247没個性化されたレス↓:2006/01/06(金) 19:39:18
 エロゲーが一種の昇華作用を果たし、性犯罪が減っているという主張がある。
「昇華」というのはジグムント・フロイトの造語で、社会に受け入れられない衝動や欲望を
社会的に望ましいものに振り向けるという意味である。人体を切り裂きたいという欲求を
持つ者は外科医になり、暴力衝動を持つ者は、その衝動をスポーツや軍隊、法の執行に
振り向ける、というわけである。

しかし、ゲームをすることは昇華にはならない。

娯楽産業は社会的に受容できる方向を目指してエネルギーの捌け口を提供している訳ではない。
それどころか、部屋に座ってエロゲーをプレイする際には、ろくにエネルギーなど費やされやしないのだ。

昇華ではないし、それどころか無害な娯楽ですらない。強姦シミュレータの操作とは結局の所、
古典的条件付け、オペラント条件付け、社会的学習であり、そして…
何とその全てが反社会的な方向を目指している。

エロゲーは、ベトナム戦で兵士の発砲率を第二次大戦時の15%から90%以上に高めたのと
同じフォーマットで性犯罪をパッケージ化しているのだ。

               Dave Grossman 「戦争における人殺しの心理学」より
248没個性化されたレス↓:2006/01/10(火) 14:26:48
ゲーム理論スレ
http://academy4.2ch.net/test/read.cgi/economics/1093842818/

ゲーム理論に関する質問です。
http://academy4.2ch.net/test/read.cgi/sociology/1011518067/

学習とゲーム理論
http://academy4.2ch.net/test/read.cgi/psycho/1044798334/

一目均衡表とゲーム理論を主として語る相場
http://live19.2ch.net/test/read.cgi/stock/1136588674/
249没個性化されたレス↓:2006/03/23(木) 12:40:32
hoshu
250没個性化されたレス↓:2006/06/18(日) 01:47:10
ほしゅ
251没個性化されたレス↓:2006/07/28(金) 17:31:27
\
252没個性化されたレス↓:2006/07/31(月) 00:01:46
保守
253没個性化されたレス↓:2006/08/14(月) 08:34:01
>>225
お読みください。

ゲーム脳
http://ja.wikipedia.org/wiki/%E3%82%B2%E3%83%BC%E3%83%A0%E8%84%B3

ついでにこれもお読みください。

森昭雄
http://ja.wikipedia.org/wiki/%E6%A3%AE%E6%98%AD%E9%9B%84
254没個性化されたレス↓:2006/08/14(月) 08:39:09
森昭雄先生はトンデモ本の執筆をする傍ら、精力的にトンデモ発言を繰り返す脅威の人です。

以下、 http://ja.wikipedia.org/wiki/%E6%A3%AE%E6%98%AD%E9%9B%84 より引用

事実でない発言
* 「『テトリス』というゲームはソ連の軍隊で人を殺すための教育の一つとして、軍事目的で開発されたもの。人間をロボットにするための人殺しゲームだ。簡単に殺戮ができるようにするためものだ。」
* 「旧ソ連では『テトリス』を兵隊にやらせる。『テトリス』をやっている状態の脳は、非常に反射的な状態になり、人を殺しても何とも思わなくなる。その訓練のために『テトリス』をやらせていたのである。」
上記のような、事実でない発言を各地の講演で行なっていることが2004年に発覚し、インターネットコミュニティ上で問題となった。
255没個性化されたレス↓:2006/08/14(月) 08:43:04
引き続き http://ja.wikipedia.org/wiki/%E6%A3%AE%E6%98%AD%E9%9B%84 より引用

自閉症に対する誤認識

2005年に行われた講演にて、「テレビゲームが原因で自閉症になる」「最近、自閉症の
発症率が100人に1人と増えているのは、ゲームのせい。先天的な自閉症の数は変わら
ないので、増えた分はゲーム脳による後天的自閉症だ」と発言した。しかし、自閉症は
先天性の脳機能障害によるものであり、外的要因により後天的に起こることはあり得ない。
この発言を受けて、「日本自閉症協会」からも抗議を受けている。
256没個性化されたレス↓:2006/08/14(月) 08:46:18
2ちゃんねらーも真っ青。
257没個性化されたレス↓:2006/08/14(月) 10:37:44
脳トレで息子の自閉症が治りましたよ。
258リトル・スター:2006/08/14(月) 18:51:40


 真剣に考える人、こちらにいらっしゃいな。

 http://academy4.2ch.net/test/read.cgi/psycho/1155537847/

259没個性化されたレス↓:2006/08/30(水) 18:42:18
ゲーム脳とこのスレのゲーム理論は、なんの関係もありません。
名前が似ているだけでスレ違いです。
260没個性化されたレス↓:2006/10/18(水) 01:04:57
わらえるね。
ゲーム脳とゲーム理論。ププ
261没個性化されたレス↓:2006/11/26(日) 01:36:08
sss
262没個性化されたレス↓:2007/01/15(月) 09:04:04
hoshu
263没個性化されたレス↓:2007/01/22(月) 11:09:06
格ゲー板でゲーム理論連発する変なコテハンがいるんですけど
ゲーム理論って具体的にどういったものなんですか?
264没個性化されたレス↓:2007/01/22(月) 11:29:29
>>263
とりあえずウィキペヂアの記事を読んでみよう。
わからないことはまた質問すればよし。

ゲーム理論
http://ja.wikipedia.org/wiki/%E3%82%B2%E3%83%BC%E3%83%A0%E7%90%86%E8%AB%96
265没個性化されたレス↓:2007/01/22(月) 11:39:38
>>264
即レスありがとうございます
時間のあるときに読んでみて疑問がわいたらまた質問させて頂きます
266没個性化されたレス↓:2007/01/22(月) 14:59:29
経済板にゲーム理論の専門家がいますよ。
心理はゲーム理論の一部、浅いレベルですので。
267没個性化されたレス↓:2007/01/23(火) 01:50:33
>>266

心理学でゲーム理論に関連している連中は、「ゲーム理論」そのものの
研究なんて、そもそもやってないでしょ。理論的概念に触発された研究を
やっている訳で、深いも浅いもないのに、何を勘違いしているのやら。
君、他人をおとしめることでしか、自分を高めることができない崩れ?
268没個性化されたレス↓:2007/01/23(火) 02:10:13
つまり、言い換えると浅いんだろ?
269没個性化されたレス↓:2007/01/23(火) 05:01:09
254 :学生さんは名前がない :2007/01/23(火) 04:46:40 ID:oKDU3ig10
他人の卒論に協力する元気があるヤシは
ttp://www.enquete.ne.jp/hundred/index.html
ここに卒論やれ論文やれで調査お願いしてるやついぱーい
協力してやれ

ってか


してくれorz
270没個性化されたレス↓:2007/01/23(火) 12:54:07
>>268
オマエガナー
271没個性化されたレス↓:2007/01/23(火) 14:51:00
↑知ったか君、その悔しい気持ちを勉強に向けたまえw
272没個性化されたレス↓:2007/01/24(水) 05:38:32
精神医学の学者、医者の工作員か?

常識ではありえない書き込みになっており良識を疑うスレ
なぜか伝染の連呼

【社会】 「説明しても解らないだろ」 精神科医、20代女性患者の髪をつかみ頭を壁に叩き付ける→逮捕…東京★2
http://news22.2ch.net/test/read.cgi/newsplus/1169562649/

273 :名無しさん@七周年:2007/01/24(水) 03:24:34 ID:TLf6BWXe0
精神病って絶対伝染するだろ

276 :名無しさん@七周年:2007/01/24(水) 03:31:07 ID:jnPfvXJb0
精神科医にはキチガイも多い。
伝染するタイプの精神病もあると聞いたことはあるけど。

273没個性化されたレス↓:2007/10/29(月) 20:50:45
765 :名無しさん@明日があるさ:2007/10/28(日) 11:03:26 O
寮のマスターキー盗まれたのでage。
明らかに寮内に犯人がいるので、恐くて部屋から出られん。
今日夕方に総務部長が来て寮生集めて説教だと。
マジ犯人死んでくれ。

768 :名無しさん@明日があるさ:2007/10/28(日) 11:56:07 0
>>765
被害者である一般寮生に説教すればいいって考える総務部長も大概だな。
盗んだ奴なんか反省するはずもないだろうに。

776 :773:2007/10/28(日) 22:51:19 O
部長の話しやっと終わった…概要はこんな感じ

・明日までに名乗り出れば警察沙汰にはしない
・退寮&減俸で許してやる

〈犯人が名乗り出ない場合〉
・鍵の交換費用(150万)は寮生負担、一人五万くらい
・全員五日〜十日の謹慎処分(欠勤扱い)

当然みんなブチ切れて犯人捜し開始。
何人かいない奴がいるのでそいつらを呼び出し中。
274没個性化されたレス↓:2007/10/29(月) 20:52:25
↑面白杉なので転載。ゲーム理論で解決してやってくれwwww
275没個性化されたレス↓:2008/01/06(日) 22:28:33

ほしゅ
276没個性化されたレス↓:2008/10/15(水) 12:45:17
じゃんけんはパーを出せ!ってゲーム理論の本が出てるんですけど、
これ読んだ人います?http://forestpub.co.jp/amazon/janken/
277没個性化されたレス↓:2008/10/15(水) 20:46:59
本当のことを言おう
ゲーム理論は役に立ちません
278没個性化されたレス↓:2009/01/16(金) 13:51:06
>>273
結局犯人は見つかったのか?!
279没個性化されたレス↓:2010/08/30(月) 23:24:47
夏の終わりの虫干しあげ。
280没個性化されたレス↓
ゲーム理論が役に立ったことはありません。
後だしジャンケンのご都合解釈です。