1 :
132人目の素数さん :
2009/11/16(月) 16:05:22
2 :
132人目の素数さん :2009/11/16(月) 16:08:35
3 :
132人目の素数さん :2009/11/16(月) 16:11:29
テンプレ ●学校の宿題の丸投げはやめましょう。 ●質問者は質問の前に相当程度調べるなり、考えるなりしましょう。 ●荒らしは基本的にスルーでお願いします。
5 :
132人目の素数さん :2009/11/16(月) 22:41:19
回帰分析について一から徹底的に教えてくれ。 解説を頼む。調べてもまったくわからん。馬鹿なので。
>>5 具体的に何が分からないのかが分からん。
回帰分析の目的?意味?どういう場合に使うのが良いか?とかか?
>>6 根本的に分からないし、分からないなりに結果はだしたが、
あってるのか間違ってるのか、解釈の仕方、意味、目的、考察、
どういう場合に使うのか、統計用語、なにもかもわからん。
>>7 まず、どういうデータがあって何を主張したいのか、を説明してほしい。
回帰分析の説明も、実例を使ってやると分かり易いから。
あと、主張したいことが何もないなら、そもそも統計解析しなくていいはず。
9 :
132人目の素数さん :2009/11/17(火) 19:29:42
何を主張してもいいかわからんの
では、何をどのように測定したデータなのか、だけでも。
統計学メコスジスレッド69
職員数と仕事量の関係
>>12 「仕事量」をもっと具体的にしないと、主張することが定まらないと思うよ。
「案件を片付けるまでに要した職員一人あたりの仕事量」とか、
「案件を片付けるまでに要した全職員の総仕事量」とか。
仕事量の単位は時間なのか賃金なのか、とか。
そして、主張したいことが何なのか、例えば
得られたデータより、職員数を X 人にした場合、
「案件を片付けるまでに要する全職員の総仕事量(所要時間)」 を Y 時間とすると、
Y は X を用いて以下のように推定される。・・・
とかなんとか、考える必要がある。
やめとけ 善人が馬鹿を見るケース
俺が統計学の書物を読み漁って考察ちゃんとしてんのに、 先輩はわけもわからずめちゃくちゃな思考で考察。 俺が、つっこむと逆切れ。俺が考察書いてきても破棄。 どうしろと?
>>15 上のほうのレスでしきりに手をさしのべようと
しておられる方々もあなたのその愚痴レスを読んで
あなたの先輩に対する感想と同様の感想をあなたに持つと思う
まずあなたが先輩とどういう部署にいて
データの対象となっている現場に対して
ないしは先輩の上司に対して
どういう提言を先輩はしようと思っているらしいのか
その辺りからここに書けば少し話が進むかも
というよりもそういった自分の業務上の立場を自分で整理して
自分が先輩と違う結論だと統計学を使って説得したいのか
先輩の意向にそうような数字を出して先輩に安心してもらいたいのか
辺りから自分の気持ちを決めれば
ここでやるまでもなく自己解決するかもしれない
はっきり言ってしまえばやりたくもないくそ研究と統計学なぞもう無視したい
興味がないのに無理やりやらされるのは確かに辛いだろうが…
俺は俺でめちゃくちゃ、先輩も先輩でめちゃくちゃだ。統計の素人。 先輩と自分は同じ部署にいる。 データの対象となっている現場に対して、スタッフと仕事量の相関性を説いて 現状の極小スタッフと過労働を訴えようとしている。職場業務改善を検討している。 自分はあくまで得られたデータを統計学的手法を使ってまとめたい。 そして、そのように先輩に言われている。あと考察も。 先輩は統計の勉強はしていない。本人曰く、わからんと。 やりたくないと。学生のころから嫌だったと。指揮をとるのは先輩。 でも統計をするのはおまえだからと。 そして、得られたデータを、まとめたデータを先輩に差し出して、 率直な考察を書いてだした。 統計の分からない先輩はわからないことに逆切れ。 理解してないからむちゃくちゃに自分なりに考察。 意味不明に仕上がり。 指摘すると逆切れ。 資料とか統計の書物とかだしても読まない。 先輩の意向に沿う形にどうしろと?
>>19 そういう話だと数学板は板違いと思うが
ここは統計学の数学的な部分に達者な人が中心だろうし
数学どころか学問じゃなくて会社職業か人間関係のような
仕事と人手の組のデータがいくつかあるのだろうから
それをそのまま図示して回帰直線をそこに引いて
「データに最も近い直線がこれで
この傾きが正(負)だからどうたら」
「実際より詳しい統計学の方法で数値を出しても
どうたらで図からわかるとおりの結果である」
っていう程度のことを視覚的にわかりやすく報告すれば
納得してくれるだろう
回帰直線も近似式もグラフも出した おざなりではあるが説明もした でも納得してくれなくてどうしろと?
先輩ではなく上司に自分の考察した結果を渡してしまえば?
>>19 どこの世界にもいるなあ。
そういう無知なくせに勉強はしない上司。
やたらと精神論しか言わなかったり。
結論から言えばらちがあかないから、
もっと上の立場で、かつ、
ある程度数学や統計に理解のある上司に直訴するしかあるまい。
一応ソフトはあるみたいだから、
そういう人が全くいないってことはないだろう?
ソフト?Rのこと?それは俺のだけど。上司も統計知らん人間なんだよね ましてや、先輩差し置いて一番上の人間に出しにいったらそれこそぶっころされる もういられなくなる。
25 :
132人目の素数さん :2009/11/20(金) 22:38:22
もう統計とか研究とか関係なくいられなくなった 辞職に追い込まれた もうどうでもいいわ
>>922 >@生データはワイブル分布に従う。A実験前の生データは十分にある(それまでの検査データの蓄積)。
>B実験後の生データ(これもワイブル分布に従うものとします)は恐らく20個程度。
>上記のような状況で、実験の効果として、その物性の平均値と分散を検定したいのですが、この検定にt検定もしくは等分散
>検定(F検定)は使用できますでしょうか?
製造条件変更前後の物性の平均値と分散の変化が有意だと検定したいということですか?
物性値がワイブル分布しているなら、t検定もF検定も使えないのでは。
27 :
132人目の素数さん :2009/11/22(日) 18:00:59
質問です。 通常サンプル数が増加すると分散は小さくなると思いますが、 サンプル数が増加すると(減少すると)分散が大きくなる(小さくなる)ような状況ってどういう場合でしょうか?
>>27 (1) 標本分散の定義を間違えている場合
(2) 母分散が無い(無限大の)場合
29 :
132人目の素数さん :2009/11/22(日) 19:29:45
>>27 もし母集団が指数分布みたいな形だと、サンプルが増えるほど、とてつもない
最大値が出現するので、そういうことが起きることは多いよ。
もう一つは時系列の場合で、正の自己相関が強い場合、
「標本期間」を長く取るにつれて、標本分散が大きくなる傾向を持つ。
例えば、コサイン(サインでも同じ)・カーブは、狭いところでの変化は
小さいが、範囲を広げてるにつれて変化が大きくなる。(周期内での話し)
30 :
29 :2009/11/22(日) 19:32:33
×範囲を広げてるにつれて ○範囲を広げるにつれて
サンプル数が増加すると分散が小さくなるのが通常なのか?意味わからん。
>>27 時系列的に、母集団が変化している。
サンプリングの方法に問題がある。
サンプルサイズが極端に少ない。(の場合はそのように錯覚しやすい)
信頼区間とか、計算してみました?
>>31 分散というのを標本平均の分散と考えれば大数の法則からそうなるが…。
一般にはサンプル数と分散とは直接関係はない。
しかし
>>27 の質問は以前見たぞ。
過去ログ辿ればどこかにあるはず。
同じ人物か…?
34 :
132人目の素数さん :2009/11/22(日) 23:59:27
うん、見た見た 半年以上前じゃないか
>>27 質問1.「何の」分散?
質問2.分散って、標本分散?母分散?
分散ってはやい話、ちらばりだろ? サンプル多くなればそんだけちらばり大きくなると思う
>>36 χ平方=Σ{i≦N} (xi- x~)^2 ははデータサイズ N とともに
大きくなるが
標本分散は N で割ったものを使うので大数の法則から
(x~ のところもちゃんと計算すれば)
母分散があれば母分散に収束する
だから理論的には
>>27-28 の件は
母分散が無限大の状況ということになる
実用上はいろいろ
38 :
132人目の素数さん :2009/11/23(月) 10:13:52
コーシー分布とか
40 :
132人目の素数さん :2009/11/23(月) 20:03:16
>>938 >もしも形が不良で、実際に検定精度が悪いのなら、
>分布の歪みを取るデータの非線形変換を探す・・・・
対数関数を利用した線形変換は馴染み深いですが、歪みを取る非線形変換って、
どういう関数を使うのですか?
「線形変換」の定義って最近変わったの?
変換はなぜ改竄にはならないの?
変換したことは秘密じゃないから
44 :
27 :2009/11/24(火) 12:34:13
>>33 分散というのは標本分散のことです。前に一度質問しましたが、良く理解できなかったうえ、
スレッドの最後の方だったので、十分な議論が出来なかったと記憶しています。
母分散が無い(無限大の)場合とは、どういうことでしょうか?
すみません、わからないので教えてください。 外れ値検定をしたいです。 その有意点を求めるところで困ってます。 個数nが800万個ほどあり, 表が使えないので, 有意点を求める計算式を知りたいです。 本を読んでも表が書いてあるだけかExcelで計算する, と書いてあって、求められません。 表の値は何かしらの計算式から算出されてるのだと思うのですが、その計算式が出てこなくて困ってます;;
>>48 t分布は自由度を大きくしてくと、標準正規分布に収束するから、
標準正規分布を使えば良い。excelだと normsinvだっけ
50 :
132人目の素数さん :2009/11/24(火) 18:55:16
古典的単回帰モデルの分散不均一の場合で質問があります。 通常、Yの値が増加するにつれて誤差項の分散も増加するケース(ポアソン回帰のような場合)が多いですが、 Yの値が減少するにつれて、誤差項の分散が縮小していくような具体的なデータって、 どのようなものがありますか?
51 :
48 :2009/11/24(火) 19:15:52
52 :
132人目の素数さん :2009/11/26(木) 10:28:48
海外のジャーナルにリジェクトされて、同じ論文を日本のジャーナルに出す事を考えています。 日本の統計のジャーナルで、一番良いところってどこですか?
AISMかJJSSじゃね?
54 :
132人目の素数さん :2009/11/26(木) 11:45:15
55 :
132人目の素数さん :2009/11/26(木) 19:41:34
統計スレ的には「サンプル数」と「サンプルサイズ」は区別しなくていいのか?
56 :
132人目の素数さん :2009/11/26(木) 20:23:11
57 :
132人目の素数さん :2009/11/26(木) 21:12:01
>>55 なるべく正しく使った方が良いけど、あまりうるさく言う必要はないかと,、、、
>>56 sample は集合名詞なので、統計学では sample size n (標本の大きさ n) や
size n of sample (大きさ n の標本) と表現する。
けど応用分野の統計の本や論文には、「サンプル数」「標本数」という表現が
もうゴロゴロとあって、拡大再生産されているのが現状。
>>50 >増加するにつれて【中略】増加する
>減少するにつれて【中略】縮小していくような
同じでは?
>>54 微々たるものだけどあるんじゃね?
大体それを気にするなら別の海外の雑誌に投稿した方がいいと思うけど。
>>59 50の頭の中にはおそらくたとえば時系列順というような
書かれていな仮定が含まれているのだと思う。
誰か俺がこの先の人生で幸福を見出せる確率を統計で出してくれ!頼む!
その確率は1だ。 まずはズボンを下げてそちらを向きたまい。
64 :
132人目の素数さん :2009/11/27(金) 09:32:28
>>59 すみません。文章書き間違えました。正しくは以下の通りです。
古典的単回帰モデルの分散不均一の場合で質問があります。
通常、Yの値が増加するにつれて誤差項の分散も増加するケース(ポアソン回帰のような場合)が多いですが、
Yの値が増加するにつれて、誤差項の分散が縮小していくような具体的なデータって、
どのようなものがありますか?
>>61 「時系列順」等は特に考慮していません。単純な回帰を意味しています。
>>64 減少ケースはレアだと思うけど、四半期時系列で時代と共に季節変動が
小さくなってく場合とか。(季調なしデータで単回帰モデル=季節ダミーなし)
地球が滅ぶ統計出せ確率出せ
ほぼ100% だろーなー。地球の軌道を変えられるような技術が生まれない限り。 太陽にのまれるからね。
太陽にのまれても、そのころの太陽は希薄なガス天体になってるから 地球は太陽内部を回り続けるらしいぞ。
精子Aが卵子にたどり着く確率を有効数字10桁で示せ!
70 :
132人目の素数さん :2009/12/01(火) 01:01:27
統計ソフトのマニュアルを読み、手許の参考書を読み、グーグルで調べてもみたのですが、 分からないので教えてください。 箱ひげ図で下隣接点より小さい外れ値があるときドットが打たれることがありますが、 たまに下隣接点にもドットが打たれることがあります。 おそらく下隣接点が何l点かであるときにこういう処置がなされるのかと 思うのですが、どういうことでしょうか?
具体的なソフト名は書けない?
73 :
132人目の素数さん :2009/12/01(火) 23:28:14
不良率7%の製品があり、この不良率に対する信頼度95%のとき 信頼区間の幅が0.06以下になるには何個抽出すればいいですか?
75 :
74 :2009/12/02(水) 00:19:56
>>74 277.9個≒278個だ。
打ち間違えたぜチクショーめ!
自信?
んなものはない!
信頼区間の幅95%が0.06以下? 1σ 0.015306以下?だったら自信は(ry
77 :
132人目の素数さん :2009/12/03(木) 17:34:33
確率変数Xの期待値と、その逆数1/Xの期待値が一致するための条件って何でしょうか?
ん?1/Xが確率と一致するって事?
まずX=0とはならないことは必要だな。 普通はX>0だろうけど。
エクセルで信頼性係数求めるのって、どうすれば?
質問なんですが「ポアソン分布の分散の式」の証明がのってる本どなたか知りませんか?お願いします。
>>81 う〜ん…
ジョジョの8部は、確か4部の続きやるらしい
>>75 応答有難うございます。277.9個を導出された過程式を、追記願えませんか。
>>83 その277.9個であってる事は間違いないって言うか
確認はできてるの?
7%で起こるものを300個取ったときの95%区間は計算できますか? できるなら逆にするだけだから分かるでしょう。
87 :
mii :2009/12/06(日) 01:22:03
研究で深呼吸前後の体温の変動の有意差を出すのに T検定で有意差を調べようと思います。 協力者 安静時 深呼吸 差 1. 35.6 36.0 0.4 2. 36.9 37.3 0.4 3. 35.8 36.3 0.5 4. 36.1 36.4 0.3 5. 35.3 35.7 0.4 6. 35.8 35.9 0.1 7. 35.5 35.8 0.3 8. 36.9 37.1 0.2 9. 35.9 36.2 0.3 10. 36.2 36.5 0.3 11. 36.1 36.3 0.2 12. 35.9 36.2 0.3 よければどうすればいいか教えてください。 お願いします。
T検定で有意差を調べればいいという以外に何がいえるんだろう? もしかしてT検定がなんなのかわかってない場合は教科書を読み直す。
89 :
mii :2009/12/06(日) 01:52:57
医療系なんで計算の仕方がわかりません すいません
>>90 頭は普通だけど、「データをプールする」とか「プーリング・データ」というのは、
横断面×時系列でサンプリングしたデータのこと。
その例だと、日本の9地域ブロック×10年度=90がサンプル・サイズ。
あとは対数取って、地域ダミー放り込んで、交差項作って普通の回帰推定。
>>91 本当にありがとうございます!勉強になりました!
つまり、サンプル数90の中から年度ごとに抽出(サンプリング)行い、
各説明変数(Y,L,Kp,Kg)毎に時系列データを作成して回帰分析すればおkなのですねー
ちなみに地域ダミーの導入の仕方というのは、例えば北海道ダミーを入れる場合、
北海道ブロックから抽出したデータが含まれる年度には1(それ以外の地域には0)と
いうようにすればいいのでしょうか?
どなたかお教え下さい。 正規分布を前提とした検定を考えた時、 2群標本間の場合はt検定、3群以上の標本間の場合は分散分析によるのだと思うのですが、 では、対応ある2標本間の場合の「対応あるt検定」に対して、対応ある3群以上の標本に対する 検定法とはどういうものなのでしょうか? 具体的には下記のような検定を行いたい考えているのですが・・・。 例:ある試料5個をそれぞれ2分割し、これらをA社とB社に化学分析させた場合、 A社の分析値が5つ(A1〜A5とします)、B社の分析値が5つ(B1〜B5)得られます。 分析者が異なる事による差の有無を検定する場合、A1-B1、A2-B2・・・・・・A5-B5を一対とする 対応あるt検定によるのだと思うのですが、それでは同様の分析をC社も含めた3者で行った場合、 3者間のA1-B1-C1、A2-B2-C2・・・・・・A5-B5-C5の各値を一組とした検定(つまり3者間の分析 者の違いによる差の有無の検定)はどのように行うのか、 ということです。 宜しくご教授のほどお願い申し上げます。
回帰分析で、説明変数を増やせば増やすほど決定係数は1に近づいてしまう というのは、なぜなのでしょうか? どの本にもその事実が書いてあるだけで、その理由がわかりませんでした。 知っている方、教えてください、よろしくお願いします。
>>93 すいません、>93さんのご質問に私も乗っからせて下さい。
>93さんの例では3者間の分析値についての検定に関する質問ですが、
例えば93さんの言うA社の分析値を理論値(もしくは計算値)に置き換えてみた場合はどうでしょうか?
つまり、
理論計算値1―分析値B1―分析値C1
理論計算値2―分析値B2―分析値C2
・
・
・
理論計算値5―分析値B5―分析値C5
のような場合も対応あるデータとならないか思うのですが、この場合の検定はどうなるのでしょうか?
(この質問の背景は、「人工的に配合したある成分の標準試料(成分量は人為的に調整してある)
をB社とC社に分析させた場合、理論値と分析値との間に有意差が見られるのかどうか」を検定したい
ところにあります。理論値とそれを分析した2者の分析値の3つの数値間に有意差が認められなければ、
その標準試料の理論値を信用しても良いということにし、有意差が認められれば、標準試料を作り直す
ことにしようということです。)
どうか宜しくお願い致します。
(そして93さん、勝手に割り込んでしまってすいません。)
96 :
132人目の素数さん :2009/12/10(木) 05:33:33
初めて相談させて頂きます ある実験結果より得られる2次曲線AとBに有意差があるかどうかは どうやって検証すればよいのでしょうか? よろしくお願いいたします
>>96 どちらも確実に2次曲線であることが分かっているなら
回帰係数で検定すればいいんじゃない?
98 :
132人目の素数さん :2009/12/10(木) 22:23:38
当方、社会人で通信の大学に通っており、それのレポートの問題です。 どうにもわからず困っております 丸投げ禁止を承知の上で書き込みます。 「あるメーカーで製造されているボールベアリングの直径xは 正規分布N(8.003,0.0015^2)に従っているという。 このとき以下の問いに答えなさい。 1.Pr(x=>8.0045) 2.Pr(7.998<x=<8.005) 3.Pr(8.004<x=<8.006) 4.Pr(x=<8.001) 5.Pr(x>c)=0.10となるcの値 自分なりに参考書を調べたのですが、解答を見ても途中経過がわからず、 とても困っています。 ネットで調べるにしても、何で検索してよいのかわからないので、 そのヒントだけでもお願いできないでしょうか? よろしくお願いします。
標準正規分布表をみたりしてはいけないものなのか? > 通信の大学に通う 素朴な疑問なんだが、通わないから 通信なんではないのか? いやじつは俺も通信制の大学に在籍はしてるが、通ってはいない。
101 :
99 :2009/12/11(金) 08:38:47
>>100 コメントありがとうございます!
自分で計算すると、正規分布表をはるかに越えた値になってしまうのです。
それは、自力で計算をしろということなのか、私の計算ミスなのかすらわからないのです。
そうですね、通ってはいないですね〜。
興味本意で履修したことをほんと後悔しています。
>>99 1. について。
Y〜N(0,1) ならば Pr(X>=8.0045) = Pr(Y>=1) である、ということはわかります?
Y = (X-8.003)/0.0015 と変換すれば…
>>99 正規分布表を参照するときは、平均値から注目する値までの間隔を標準偏差を単位にして換算する。
1.の場合、
@値は8.0045で平均は8.003なのでその間隔は標準偏差を単位に考えるとどうなるか?
(言い換えると、間隔は標準偏差の何倍か?)
A正規分布表には、平均値から色々な値までの間隔を標準偏差を単位にした一覧表として記載されている。
尚、平均値自身の平均値からの間隔は”平均値-平均値=0”で正規分布表では0、分布の真ん中に位置している。
なぜこのような書き方をするのかとなれば、%や比率のように何かの値を基準にして相対的な表示すると、色々な
数字を直接比較できるから。本例では生データの絶対間隔は8.0045-8.003になるが、様々な場面によって、10.0-7.5とか
1110-999とかいうこともある。差額そのもの同士は背景/事情が異なると比較できないが、差額をその標準偏差で割ると、
比較しやすくなる。例えば重量%を例にすると、50g中5gのAという成分と100g中10gのAという成分は、絶対値で
比べるとそれぞれ5gと10gで異なるが、それぞれの全体量で割るとどちらも10%となり、どちらも同じ割合で
あったことがわかる。標準偏差で割るということは、重量%を求めるときにその全体量で割る事によって、単位重量
当たりの量になおすことで比較しやすい値に換算することと似ている(ような気がする)。)
B@で考えた、平均値からある値までの(標準偏差を単位とした)間隔値と同じ値を分布表の最左列と最上段中から
探す(普通は間隔の値は△.△△と小数2ケタまで載っていることが多い。表の一番左の列に”△.△”と
1の位と小数1ケタ目が指定してあって、一番上の行には小数2ケタ目(0.0△といった感じ)が指定して
ある。@で求めた間隔の値を表の左列と一番上の行の数字の組み合わせで探し出し、その行と列が交わる
ところに書かれている数字を読み取る。
Cその数字が、分布の真ん中(平均値)からある値までの面積が正規分布中に占めている面積の割合になる。
(ただし、教科書によっては違う書き方もある。その場合も、必ず、その数字が正規分布の中でどこからどこまでの
面積割合を示すかが書いてあるはずなので、十分に留意する)以下は上で挙げた書き方の表を仮定して進める。)
>>99 続き
D正規分布(に限らないが)では、分布全体の面積を1としている。そして0を中心にして+側半分に0.5、
-側半分も0.5が配分されている。Bで読み取った数字は左半分(0.5)の内、どれほどの面積がその間隔値
(@で求めた値と平均値との間の間隔を示す)までに含まれるかを示す。(なので、最大で0.5、最小で0に
近い数字が書かれている)
尚、間隔値がマイナスであった(@で求めた間隔がマイナス値だと、それを標準偏差単位で割ってもマイナス
なので、間隔値はマイナスになる場合もある)としても、考え方は同じ。
EPr(x=>8.0045)とは”ある値が8.0045よりも大きくなる確率”という意味。 8.045は平均値(8.003)よりも大きい
ので、平均値を中心として右半分の分布を考えると、Bで求めた値が平均値(0)からある値(この場合は8.0045)
までの面積を示すわけだから、8.0045を超えるとなれば、求める確率はその面積を全体から省いた後の残りの面積。
F全体の面積は(今は右半分を考えているので)0.5であったから(ただしCで書いたように、教科書よって書き方が
異なるので注意)、結局8.0045を超える確率は、最大確率である0.5から平均値〜ある値(8.0045)になる確率を
引いた残りということになる。
G尚、問1の場合は8.0045を超える確率を求める訳なので、分布の左側半分(平均値よりも小さな値)をとる確率分の
0.5は今回は対象外の確率となる。よって、全体の確率1からまず左半分の0.5を引き、次にCで求めた確率を引くと
残った確率がある値(8.0045)を超える確率となる。
H他の問題も同じ考え方。ただし問5は先に確率値が与えられているので、順番が逆になる。正規分布表で確率0.1になる
間隔値(標準偏差を単位にした値。もし表に0.1がない時は一番近い値から間隔値を導く)を見つけ、それに標準偏差を
かけるとそれが平均値と求めるある値(問題ではc)の差額になる。なので平均値にその差額を足す(もしくは引く)。
間違ってたらすまん。
なんて丁寧なんだお前。 ここで通信大学開くかw
>>105 俺もそう思う。
魔がさした。
反省はしていない。
たくさん書いたら、めんどいので、誰も読まない、 と言う、2chの法則を知らないのね。
だから魔がさしたと・・・
ごめんね。
だけど、
>>99 はきっと読んでくれるよ。
どなたか頭いい人この問題の解答書いていただけませんか? XとYが独立した確率変数でそれぞれ積率母関数が m_X(t)=[0.5/(1−0.5e^t)]^2,t<log[1/(0.5)] m_Y(t)= [0.5/(1−0.5e^t)]^3,t<log[1/(0.5)] であるとする。Z=X+Yの確率関数を求めよ。 お願いいたします。
>>110 独立なら積率母関数の積を考えればよいが…。
その積率母関数は負の二項分布だよな。
112 :
99 :2009/12/12(土) 12:57:50
>>102 〜
>>104 ほんとうに丁寧に、ありがとうございます。
1と3だけは、なんとか類題の数だけ置き換えて計算してみたのですが、
意味はまったく理解できませんでした。
教えていただいた内容をノートに書き写してやってみます!
本当にありがとうございました。
>>112 >>102 ~
>>104 の解説をよく読んだ上で、もう一度計算した値をここへ書いてみて答え合わせを
お願いしてみたら?
丸投げと違って、解説を参考に解いてみた上での答え合わせなら、誰かが応じてくれるかも
知れないよ。
>>111 掛けたら5乗になりますよね、そのあとどうするんですか?
>>114 積率母関数を知らない人間が、積率母関数の問題の答えだけ知って
なにに使うんだ?
116 :
132人目の素数さん :2009/12/13(日) 00:06:38
初歩的な質問ですみませんがよろしくお願いします 実験でA群とB群について介入前後のデータを計測しました。 この場合にはどの検定を用いるのが適当でしょうか? 1.群間の比較に,A群介入前vsB群介入前,A群介入後vsB群介入後の対応のないt検定を行う 介入前後の比較にA群介入前vsA群介入後,B群介入前vsB群介入後の対応のあるt検定を行う もしくは, 2.これらを4群とみなして,対応のある一元配置分散分析→多重比較(?)を行う よろしくお願いします
117 :
132人目の素数さん :2009/12/13(日) 00:14:37
>>116 すみません
上記質問の2で使用するのは反復測定(繰り返しのある)一元配置分散分析でした
この場合,多重比較は行えないとのことなので?を付けています
118 :
132人目の素数さん :2009/12/13(日) 01:27:15
順序統計量の同時密度関数の証明を教えて下さい 多項分布を使うみたいです
>>115 どーしても必要なんです。なんかこれテストに出るみたいで・・・解答お願いします(>_<。)
>>116 1因子に対応があり、1因子には対応がない、二元配置の分散分析。
>>120 分散じゃなく、多重比較ね。すいません。
えーっと、何だろう。調べてみます。
ワイブル分布での平均値と標準偏差について、いま一つ飲み込めません。 どちらも計算で導きはできますが、ワイブル分布での平均値と標準偏差の意味を分かりやすく お教え願えませんか? (例えば、平均値はなぜ算術平均値ではなく、あのように複雑な式によって表わされることになるのか、 標準偏差は、例えば正規分布ではデータのの含有割合を示す指標として利用できますが、ワイブル 分布中での標準偏差も同じように使えるのでしょうか?正規分布でない以上、3σ≒0.997とはいかない のでしょうが、このあたりはやはりチェビシェフの不等式によるしかないのでしょうか?)
>>122 OKwaveで見たことあるかと思ったら、同じ人か。
大学の教科書あされば、同じような問題あるんじゃね。
129 :
132人目の素数さん :2009/12/17(木) 20:55:02
ノンパラ回帰でAICって使えるのでしょうか? パラメトリック回帰の場合、誤差項を正規分布と仮定するので、 RSSを代用してAICが求められますが、ノンパラなのに 誤差項に分布を仮定することは出来ないですよね。
>>129 漸近理論で正規近似とかじゃないの?よく知らないけど。
>>126 ご回答をありがとうございます。
平均値について、改めて考えてみました。
ワイブル分布の母平均(期待値)は
E(X)=η*Γ(1+1/m)
(η:尺度母数 m:形状母数 Γ:ガンマ関数)
ということでした。
なので標本の算術平均値と母平均が異なるのは当たり前と言えば当たり前なのですね。
そして、ワイブル分布する対象からサンプルを採り続け、その標本平均をとり続ければ、
それは母平均(期待値)へ近づいていくということで良いのでしょうか・・・。
実は今回の質問は、”ワイブル分布においてX=ηの時、累積確率は約63.2%になり、この時の
Xが平均とされている”という記述を(ネット上で)見かけたからなのです。
確かにワイブルの累積破壊関数にx=ηと代入すると0.632が算出されますが、これが平均(=
期待値)とされることがよく理解できなかったことから発したものでした。
正規分布に慣れすぎた私にとって、平均と言えば確率密度曲線が最も高い所だったのですが
(そして正規分布の場合はその点が累積確率0.5ともなり、理解しやすい)、
ワイブル分布の場合、「平均値」として最も世間に受け入れられやすい点は、累積確率が0.5に
なる点とはならないのでしょうか?やはり63.2%となる点なのでしょうか?
(ちなみに私の持つデータではmが≒7となり、E(X)≒0.936ηとなります)
>>131 なんで累積確率を平均とをそんなに結びつけたいの?
ワイブル解析、私も勉強中なんですが、どなたかお勧めの参考書か教科書を教えて頂けませんか? 実際の本屋で一から探すには限界があるし、かといってネットで探しても実際に手にとって中身を試読できるわけでは ないので購入するのを躊躇してしまいます。皆さんのお勧めがあれば大変参考になると思いますので、 どうかお願い致します。
>>133 明確なご回答をありがとうございます。
ワイブル分布の形状や数式にとらわれるあまり、私は様々な代表値のある事を忘れていたようでした。
分布の中における代表値の意味を今一度、よく考えてみることに致します。
この度はありがとうございました。
>>132 質問をしたきっかけが、”ワイブル分布においてX=ηの時、累積確率は約63.2%になり、この時の
Xが平均とされている”という記述を(ネット上で)見かけたのですが、なぜそういう風に扱われるかを
知りたかったから、です。
あぼーん
>>137 私は社会人3年目の者です。
私は今、あるセラミックス製品の抗折強度(簡単に言いますと、セラミックスの試験片に荷重をかけて、それを折る
試験です)を測る業務に就いています。
色々と聞いたところ、セラミックスの強度はワイブル分布に従うということらしく、是非知っておきたいのです。
私は理学部出身で、恥ずかしながらワイブル分布という言葉は最近知りました。
会社の先輩にも聞いてみましてが、どうもすっきりとせず、かといって何回も質問を重ねてあまりお仕事を邪魔するわけにもいかないしで、
頼りになる本を手元に置いておきたいのです。
統計学については正規分布による統計学は一通り学びましたけど、まだまだ統計初学者です。
お勧め頂いた本、まずは本屋で探してみます。
もし見つからなくても、今度は137さんのお勧めという根拠がありますのでネットでの購入も真剣に考えます。
(もちろん、どこまで理解できるかは私自身の責任ですから、その点については137さん、ご心配なさらないで下さいね。)
情報をありがとうございました!!
>>会社の先輩にも聞いてみましてが、どうもすっきりとせず、かといって何回も質問を重ねてあまりお仕事を邪魔するわけにもいかないしで、 頼りになる本を手元に置いておきたいのです。 と、先輩に打ち明けて、 その先輩のお薦めの本を買えば良い。
>>139 お前、一理ある。
だけど、どこか惜しい奴だな。
先輩にお勧めの本があるならとっくに紹介してるな、たぶん。
追い越されたくない先輩か。 お気の毒。
ラインフィッティングについて勉強しているのですが、 入力と出力両方に誤差がある場合は全最小二乗法を使うと 点と直線の距離の2乗和を最小にするパラメータが得られると聞きました。 英語版ウィキペディアに載っている方法を実装したのですが、結果は通常の最小二乗法と変わりませんでした。 通常の最小二乗法と何が違うのでしょうか?
Wikipediaの記述が間違っているか、実装を間違えたかのどちらかだな。
145 :
132人目の素数さん :2009/12/29(火) 17:35:37
重回帰分析でトレランスの値はいくつくらいが望ましいんでしょうか? 高いに越したことがないのはわかるんですが、0.3くらいの値だと 分析結果としてはいまいちと考えるのでしょうか?
146 :
132人目の素数さん :2010/01/04(月) 17:25:20
論文を投稿するときに、エディターを選択肢から選択出来るジャーナルがありますが、誰を選ぶかということに関して注意すべき事ってありますか?
>>146 自分のやってることを理解(評価)してくれそうな人を選ぶ。
状況によっては、同じ研究をしてるライバルがエディターなら避けるってのもある。
重回帰分析の結果を比べたい場合データの個数が著しく違う場合 例えば、重回帰A n=100 重回帰B n=10 で分析した結果は、よろしくないですか?
>>148 なんでもないです…。スルーしてください
グラフの比較について、どなたか教えて下さい。
下記のように、サンプル間比較を横棒で明示することがあります。
http://imepita.jp/20100108/205930 1. これには名称はあるのでしょうか。
2. これを自動で設定してくれるソフトはあるでしょうか (現在は R 2.10.01 を使用)。
以上宜しくおねがいします。
両側二項検定について質問です。 「有意に高いか」の片側二項検定は、「有意に低いか」の片側二項検定の余事象のような物になると思うのですが、 両側行うとはどういう事なのでしょうか? 帰無仮説を2つ用意するのでしょうか?
デンドログラムに見えないこともないが、他の物と云われれば、そうかなとも思える。 cluster analysisだったらRにあるよ。 AとBの差について検定をする場合、通常は両側にしておくと無難。 片側にするときは、どうしてそのようにしたかをちゃんと説明することが必要。 帰無仮説は、「採択」するものではなくて、 「棄却する」か、「棄却することができない」、 のどちらか、だと思う。
>>153 片側検定は、両側検定よりも範囲が広くなるから、結果を出しやすくなる。
サイコロの例だと、事前にはある目が多く出るように歪んでいるかはわからないよね。
この場合は、両側を使う。
やっちゃいけないのは、データをみてから検定の方法を決めること。あくまでも、事前に知りたいことを決め、検定方法を決めて分析する。
>>154 データ見てから検定の方法を決めるのがだめっていうのは、
サイコロの例で言えば、「235回中6の目が51回は期待値(235/6)より高いから、有意に高いか片側検定する」という判断も当てはまるのでしょうか?
6の目が出る確率が1/6になるようにサイコロが作られているか両側二項検定するということは、
・1/6を帰無仮説とし、235回のうち6の目が51回以上出る確率が有意水準より低いか
・1/6を帰無仮説とし、235回のうち6の目が51回以下出る確率が有意水準より高いか
この2つを調べ、両方とも真ならば6の目についてサイコロは公正に作られているという意味ですか?
仮説を検証すると言う目的を考えれば 仮説もなしに検定ができるわけがない その意味で検定手順や優位水準は先に決まる 仮説が外れた場合は仕方がないので 何か尤もらしい言い訳を考える必要がある
157 :
132人目の素数さん :2010/01/11(月) 16:12:38
>>155 >>154 だけど(ちなみに、
>>152 とは別人)
最初にサイコロを235回振ってる段階で、6の目が公平かを調べようとしてるよね。
その段階では、多くでるか、少なくでるかはわかってないでしょ。
ところが降ってみたら、6の目が多くでた。
だから、6の目が多くでることを統計的に”片側”検定しよう。
とデータを見てから検定方法を決めてる。
これは、統計の手順としては、認められない。
>>155 の場合、235回サイコロを振る前に、仮設を決めるとしたら、6の目が多いか
という仮設にはならないで、6の目が1/6の確率ででるかって仮設になるでしょ。
なんで、こういうことを気にするかと言うと、偶然、目が多くでたり、小さくでたり
することがあるので、偶然の結果を知ってから仮説を立てるのはダメだってことなのね。
(後出しじゃんけんになります)
5%で検定するなら、両側を2.5%ずつにして、全体で5%になるように検定
すればいい。
ただし、サイコロだと難しいけど、6の目が多くでることが問題であって、少なく
でることは問題ではない場合(薬の効果があることが大切で、効果が無いとかは
気にしないといった状況)ならば、片側検定になる。
158 :
132人目の素数さん :2010/01/11(月) 18:30:07
>>155 >>157 だけど補足しておくね。
データを見てから分析方法を決めてもいいのではと思いがちだけど、
統計的な分析をするときは、データの取り方も含めて最初に計画する。
つまり、どういうことを知りたいのかという仮説を立てて、それを
どの程度の精度で確認したいかを考えて、そのためにはどのような
方法で、どれくらいのデータをとればいいのか、ってのを計画する。
そういった、統計分析を適切に行うための流れとして、仮設を立てる
というのが、データよりも先にくる。
とはいえ、状況によっては、すでにあるデータから分析をしないといけ
ない場合もあるけど、きちんと計画して集めたデータではないから、統
計学的には妥当といえない分析であることが多い。
仮説
初めての書き込みです。 以下のような場合にどのような統計処理を行えば良いのかがどうしてもわからず、 有識者の方にご助言いただければと思い質問させていただきました。 100文字の文字列の中に、Aが40、Bが15、Cが30、Dが15個ある。 その中から無作為に4文字を選び、Xに置換する。 → (1) この(1)の操作を50回行った時、「A→Xと置換された文字列」の個数はいくつになるか? この場合、解答は正規分布のような形になると思うのですが。。 解析するにあたり、他に必要なパラメーターが必要な場合はそれもご指摘いただければ幸いです。 また、もし分野違いでしたら、どのような分野が適当かをご教示いただけないでしょうか。 よろしくお願いいたします。
置換されなかったAの数を求めれば良い
>>161 レスありがとうございます。
置換されなかったAの数は、どのようにして求めれば良いのでしょうか?
何分素人なもので、勝手がよくわかりません。
お手数おかけいたします。
A以外の文字が選ばれる確率 それが4連続で起こる確率 100%から↑を引くとXにAが含まれる確率
>>161 ,163
なんとなくわかりました!
ありがとうございます。
とても参考になりました。
初めて書き込みます、ほんとバカでごめんなさい。 以下の問題がわからなくて助けて頂けたら嬉しいです。 C=1.59845(0.456)+0.544653(71.398)Y の計測式に表れる2つの数値0.544635および71.398を利用して、 推定した限界係数の標準偏差を求めなさい。 そうした上で、国民所得Yに係る係数の区間推定を行いなさい。
167 :
132人目の素数さん :2010/01/15(金) 15:33:06
この問題の解き方が分からず困っています。解答解説を途中まででもいいのでお願いします。(単位:10兆円) 民間消費(Y) / GDP(X) / GDP成長率 1年目 19 / 32 / ━ 2年目 20 / 34 / 6.3 3年目 21 / 35 / 2.9 4年目 22 / 37 / 5.7 5年目 23 / 40 / 8.1 6年目 25 / 43 / 7.5 7年目 26 / 46 / 7 8年目 27 / 47 / 2.2 9年目 28 / 48 / 2.1 10年目 29 / 48 / 0 平均 24 / 41 / 4.6 標準偏差 3.32 / 5.88 / 2.71 不偏標準編纂 3.5 / 6.2 / 2.88 【1】母集団でGDP成長率は3%以上といえるか検定してください。有意水準は0.05とします 帰無仮説H0: 対立仮説Ha: 検定の型(タイプ): 臨界点: 検定統計量: 結論:
168 :
132人目の素数さん :2010/01/15(金) 16:26:04
シーズンだね。
>>166 71.398は授業で「t値」と呼んでる値。それを調べる。
>>167 左片側検定で検定統計量は t だろう。教科書問題だから。
>>168 パソコンで試験を解かせてるんだけど、気をつけないと、試験中にネットで聞くのがいるので、IEとか開いてたらカンニングって言ってる。
>>169 マイナーなブラウザ使うやつがいたりしてなw
パソコンの管理人にインターネットつなげられないような設定を作ってもらうべきじゃね?
>>167 3%以上と言えるかどうかを検定したい。→期待する結果は”成長率(の平均)は3%以上である”と結論付けたい。→そこで、
帰無仮説(棄却される(無に帰する)事を期待する仮説)は”成長率は3%以上とは言えない”ということになる。
さらに言えば、今回判断の基準となるのは3%であるので帰無仮説は”成長率は3%である”とおき、これが棄却できたら”3%である
とは言えない”→”3%以上である”とみなすことにする。
(厳密には棄却できたからと言って積極的に成長率が3%を超えているとは言いきれないし、逆に棄却できなかったからと言っても
”成長率は3%”であると積極的には肯定できない。あくまでも確率的にそう考えた方が自然というくらいのニュアンスだが、実際に
応用されている現場ではそんなことでは話が進まない。検定は推定を下敷きにしている(そもそも人が神ではない以上、物事の判定
には必ず推定が入る)わけで、その推定に客観性を持たせるのが検定であると思います。)
今回の調査の結果では4.6%。これだけ見ると確かに3%以上ということになる。
大事なのはこの4.6%という数字がどれくらいアテになるか?ということ。何故なら、たまたまデータの平均が4.6%になった
だけじゃないかとも考えられるから。
で、この4.6%という値がたまたまじゃなく本当に3%より大きいそう=この差は有意(意味がある)かどうかを検定するには・・・
以下、一旦切ります。
1.まず得られた成長率(4.6%)と基準となる成長率(3%)の差額=4.6-3=1.6ポイントが有意(意味がある)かないか? 2.有意かどうかを判定するには、この差額が十分な差と言えるかどうか? 3.十分な差とは何か?→偶然に左右されるデータのばらつき具合(標準偏差)と比べてみて、それよりも差額の方が大きいようなら その差額は”大きい”すなわち有意な差であると考える。 4.そこで差額が標準偏差の何倍かを計算するが、この標準偏差は不偏では「ない」方の標準偏差をデータ数-1(n-1)のルートで 割ったものを使う。(これの結果がいわゆるt値になります。)式で書くとt=「差額/(標本標準偏差/√(n-1)」= 「差額×√(n-1)/標本標準偏差」となる。 →長くなりすぎるのでハショりますが、標準偏差はデータ数が増えるほど小さく(精度が上がる)なります。 5.ではこの比が何倍あれば”十分に差がある”ということになるのか?それは、有意水準による。 (有意水準についても書こうとしたが文が長くなりすぎそうです。ここはどうかご自分で調べてみて!) 6.問いでは有意水準は0.05なので、(今は機械的に)t分布表(教科書には必ずあります)で正規分布に占める面積の割合が0.05 である列を探す。それも今回は片側検定(これも長くなるのでどうか考えてみて!)なので、正規分布表の右端側の面積が0.05 である列をさがす。 7.次にその列の何番目の行を見るかだが、(これも今は機械的に)データ数が10なので10-1で9(自由度が9という意味)の行を 探す。→今回は1.833となると思います。 8.この1.833と手順5.までに求めた比を比べる。もし求めた比が1.833よりも大きい場合は、最初に考えた帰無仮説は棄却する。 つまり、”成長率は3%である”という仮説は棄却され、”成長率は3%以上である”となる。 (冒頭にも書いた通り、これは積極的な棄却ではなく、そう考えるのが自然ということです。) 具体的な計算方法は教科書等に必ず書いてあります。どうかご自分でなさってみて下さい。 最後に、決まり文句。 間違ってたらすまん。
174 :
132人目の素数さん :2010/01/16(土) 01:09:43
解説ありがとうございました
175 :
168 :2010/01/16(土) 18:21:14
>>167 ごめん数値見てなかった。 ×左片側検定 ○右片側検定
>>169 どこでいつやってるかわからない試験のために一般のネットユーザが
遠慮する、というのはヘンだと思いませんか?
(1年中24時間、世界のどっかでやってる可能性あり)
>>172 ・「差額」はヘン。「差」または(帰無仮説値からの標本平均の)「乖離」かな、、、
・「t = 差額 / { 標本標準偏差 / √(n-1) } 」 は意味的にわかりにくいから、
「t = 乖離 / (不偏標準偏差 / √n ) = √n × ( 乖離 / 不偏標準偏差 ) 」が吉かと。
(わざわざわかりにくい不偏値を世間で使うのは、この種の統計量表現のため)
>>175 試験に関しては、時期が夏前と年明けに偏るので、その時期に大学定期試験レベルの質問か日中にあったら、夕方か次の日までコメントを待てばいいと思うよ。
>>173 はずいぶん丁寧に教えてくれているのに、そのお礼が何とも素っ気ない気がする。
教えてもらって理解できたんなら、早速解いてみて答えを書きこんであげれば、173も
「あぁ、分かってくれたんだな。レスして良かったぜ。」
となるんじゃないだろうか?あるいは他の人が、さらなる解説を引き受けてくれるかも知れないよ。
それともまずは取り急ぎでお礼をしておいて、今懸命に問題を解いている最中かな。
もしそうだったらごめんなさい。
しかしGDP成長率ってt分布で表わせるものなのかな。
あくまでt検定の勉強の為の例題なのか・・・。
>>173 はずいぶん丁寧に教えてくれているのに、そのお礼が何とも素っ気ない気がする。
教えてもらって理解できたんなら、早速解いてみて答えを書きこんであげれば、173も
「あぁ、分かってくれたんだな。レスして良かったぜ。」
となるんじゃないだろうか?あるいは他の人が、さらなる解説を引き受けてくれるかも知れないよ。
それともまずは取り急ぎでお礼をしておいて、今懸命に問題を解いている最中かな。
もしそうだったらごめんなさい。
しかしGDP成長率ってt分布で表わせるものなのかな。
あくまでt検定の勉強の為の例題なのか・・・。
ある観測値の平均値を時系列等で分析したい。 観測値自体が平均値の時、それをさらに平均化していいものでしょうか。 例えばA国B国...X国の平均気温をさらに平均化させて、 そのまま世界の平均気温と考えていいか。 A地区とB地区の平均収入をさらに平均化させて、 時系列分析などをして意味があるのか。 分散や尖度、歪度に差が無い言える時に有効とか、 トレンド、周期性の差が無い時に有効とか、 何か明確な基準みたないなものがあれば教えて下さい。
日本とアメリカの平均気温を平均して 何か意味があると思うならすればいい。
181 :
179 :2010/01/17(日) 12:23:30
>>181 普遍的な考え方。
状況に応じて重み付けして平均する。
クラス毎の平均点から学年の平均を出す時は、各クラスの人数を考慮するってのは、小学校で教わること。
183 :
132人目の素数さん :2010/01/17(日) 14:24:02
ベイズの定理の問題がうまく解けません、教えてください ガンの検診にあたって、自覚症状がある人(S)が25%、ない人(NS)が75%であるとする。 Sのうち6%がガンを持ち、NSのうち1%がガンを持っていることわかっているとする。ガンにかかっている人(C)で自覚症状がない確率P(NS|C)を求めてください。
>>181 気象統計の基準だって定期的に見直しが入って変わってるよ
そこにある手法だって今現在の気象庁が提示する一案に過ぎない
統計手法は目的によって選択されるものであって、統計学者以外に
気象学者と経済学者が存在するのはそういう理由だ
本当に普遍的で意味のある議論がしたいなら
普遍的な課題を抽出して明確に定義してみたらいい
185 :
132人目の素数さん :2010/01/19(火) 14:59:28
統計というか時系列解析の内容なんですが、 ARモデルの次数決定にAICを使っているのですが、プログラムで計算させるとなぜか負の値も出てきます。 テキストには「AICは小さいほどよいモデルが選択できる」とのことなのですが、これは0に近い値をとるのか、マイナスの最小の値を取るのかわかりません。 そもそもマイナスなんて出てこないのでしょうか?AIC計算に使った式は AIC(m) = n * (log(2 * pi * variance ) + 1) + 2 * ( m + 1 ); です。varianceは分散のことです。分散が 0<variance<1のときだとマイナスは出ると思うんですが… どうかご教示お願いします!ちなみに使ってるプログラミングツールはMATLABです。
>>185 その式を見る限り variance が小さければ負になりうる
ただたしかその variance は生の計測量の分散ではなくて
規格化(標準正規分布にしたがう変数の2乗になるように)
して定義するのではないだろうか?
生のデータは数値の単位をどうとるかで分散は変わってしまう
(たとえば長さならば m と km で数値は1000倍変わる)
>>185 式が間違っていると思います。AICは負の値はとりません。
モデルの適合が悪く最大尤度がとても小さいと負の値も取るよ。 式は時系列問題に詳しくないので正しいのかどうか分からないが。 (通常の回帰で正規分布の場合と少し違うけど)
ごめん逆だった。適合がよすぎる場合だった。最大尤度が大きい場合ね。
AIC = -2log L + 2k 右辺の第一項も第二項も負の値を取りえない。 AIC = -2log L + 2(k + 1) という定義でも同様。
尤度を勘違いしてない? 離散分布なら確率だから0と1の間しか取らないけど 連続分布ならそんな制限はないよ。
192 :
132人目の素数さん :2010/01/20(水) 16:29:00
ちょっとお聞きしたいんですが、 統計学の内容って経済、数学科、工学部(情報系?)のそれそれで学べる内容が違うんでしょうか? それとも学べる内容などは同じで論文書くときにどの分野で使うか程度の違いなんでしょうか? ちなみに野球やサッカーなどのスポーツでのデータを色んな角度から検証できるような 分析方法を学びたいと思ってます。
193 :
132人目の素数さん :2010/01/20(水) 19:24:20
>>185 小さければ小さいほどは
マイナスならばマイナスほどです。
エントリピーじゃないから0におさまるわけじゃ〜ない
194 :
132人目の素数さん :2010/01/20(水) 20:17:47
>>192 入門なら基礎知識部分は同じ。でも例が分野によって随分違う。
中級以上では応用的手法が中心になるので、扱う内容が分野で全く違う。
スポーツだと医学系の統計が近い感じ。
その3分野の中だと実験ありの工学系かな・・・
>>192 分野によってデータに癖がある。
経済学で用いられる統計は、実験が難しいなどの理由から、理工系の統計とは違う技術が必要だったりする。
まあ、基本は一緒だけどね。
どなたかお願い致します! 10個の試料について、ある物性値を測定原理の異なるA法とB法で測定しました。 いずれの方法の分析誤差とも(ほぼ)正規分布に従うこととしまして、 この2つの方法による各測定値は等しいといえるのかどうか(A法による値とB法による値との間に差がないのかあるのか) 検定したい時は一対標本のt検定を行えば宜しいのでしょうか? また、3つ以上の分析方法(A,B、C法等)間で同様の検定を行いたい時はどんな検定方法があるのでしょうか? (3つ以上にまたがる対象間での検定には分散分析と用いると聞きましたが、上の例の場合、 対応ある場合の3つ以上の値の分散分析のようなものがあるのでしょうか?) 上記2点、お教え下さいませんでしょうか? お願い致します!
>>192 野球やサッカーのデータを入手できるあてはあるの?
あと、例えデータを入手できたとしても大学の卒業研究や修士論文のテーマ
として一回それらを分析し、それっきりになる(職業にはできない)と思うけど、
それでいいの?
趣味にしろ何にしろ学びたいから学ぶ。それでいいでしょ?
アメリカに行けばいいんじゃね?
201 :
132人目の素数さん :2010/01/22(金) 13:48:35
二変量データ(X1i, X2i)i=1,...,nから、カーネルで密度関数推定を行ったとします。 データが相関を持つような場合は、どのような方法を使えばよいのでしょうか? 通常のカーネルを利用しても良いのでしょうか?
202 :
132人目の素数さん :2010/01/22(金) 21:40:41
メビウス反転公式の途中で Σd|n μ(d)Σa|n/d f(a)=Σa|nΣd|n/af(a)μ(d) の等号成立の理由がわかりません。 どなたか教えてください。
203 :
132人目の素数さん :2010/01/22(金) 23:53:26
重回帰分析に詳しい方、お願いします。 説明変数にダミー変数を用いる数量化理論1類において、 構築された回帰式を回帰診断したいのですが、 残差プロットはどう見ても規則性があります。 どこからみても、回帰式の前提である残差のランダム性、均一性、正規性が得られて いるようには見えません。 数量化理論1類の回帰式では残差による回帰診断は必要ないものなんでしょうか?
>>203 アイテム・カテゴリが少ないと縞模様になったりするかもしれないが、
誤差に正規性が仮定できるような状態だと回帰診断も普通にできると思う。
205 :
132人目の素数さん :2010/01/24(日) 00:33:18
>>204 ご回答ありがとうございます。
2変数で回帰式を構築すると縞模様どころか平行2本線になりますが、
こんな残差プロットでも世間様に認めていただけるものなのでしょうか??
>>205 2変数?1アイテム2カテゴリということ?
回帰診断より説明変数が少ないことが問題だと思うけど。
207 :
132人目の素数さん :2010/01/24(日) 11:21:09
重回帰分析の場合では、説明変数(変量数、カテゴリに相当) の数が少ない方が、よりよい回帰モデルと見なされることはご存じですよね? 標本数が少ないことは問題になりますが、変量数が少ないことが問題と 言われても。。。
次の問題がチンプンカンプンです。ヒントでもいいですから宜しくお願いします。 【問】ある癌の危険因子の研究において、喫煙の有無と癌の有無に関する次のデータがある。 喫煙者 非喫煙者 計 癌有 100 120 220 癌無 170 280 450 計 270 400 670 (1) 喫煙者に対する非喫煙者の癌の相対オッズを推定しなさい。 (2) 相対オッズの95%信頼区間を計算しなさい。ただし。ln(OR)の標準誤差が √(1/a + 1/b + 1/c + 1/d) であることを用いること。(lnは自然対数、a、b、c、dは2x2分割表の各セルの数を表す) (3)喫煙と癌の有無の間に関連はないという帰無仮説を有意水準0.05で仮説検定しなさい。
>>207 単に変数が少なければいいってもんじゃなく、モデルとして適切な状態で、少なくできるなら、少ない方がいいって話。
回帰分析の結果がおかしい時は、定式化がおかしい場合が多く、その中には変数が足りないってのもある。
誤差項の動きがおかしい時に、変数を増やしたらうまくいくことは多く、それは必要な変数が抜けてたってこと。
210 :
132人目の素数さん :2010/01/24(日) 15:04:23
>>209 私の理解が間違っていなければ、2種類のダミー変数からなる重回帰式で
「残差プロット」を描画すると、必ずランダム性のない二本線が描かれます。
他の統計量、回帰診断に異常が認められなくても、です。
これは、あなたの言う「モデルとして適切な状態」と言えるのでしょうか。
あるいは、2カテゴリの数量化理論1類そのものが邪道だということに
なるのでしょうか???
Xi ,i=1,2,…,nを正規分布N(μ,δ^2)に従う独立な確率変数とする時の 標本平均Xがμの有効推定量となることを証明するのはどうしたらいいのでしょう?
>>211 不偏推定量の範囲でだったらクラメルラオの不等式利用とかでどうなる?
すんません、独立だったら中心極限定理がそのまま使えるのですね。
>>212 さんくす
連続型の数値の母集団平均を推定しようと思ったから、 サンプルサイズを決めたいけど、回答比率が判らん。 しかも酷い歪度か双方形なのは明らか。 nを決める式が判らんw 誤差表の50%のところ見て、適当に決めようかな。
間違えた、回答比率じゃなくてs あ〜マジどーしよー
>>210 話が変わってきてない?
最初の話では回帰診断が異常なんだけどってことで
よく聞いたらカテゴリが2つだけ。
それなら変数が少ないんじゃないのかってこと。
異常じゃないなら2つでもいいよ。
217 :
132人目の素数さん :2010/01/25(月) 08:23:49
>>216 私の質問の仕方が悪かったようで申し訳ありません。
趣旨は、「残差プロット」の「ランダム性の欠如」が認められる
回帰モデルでも「正常」と判断してよいのか否か。
です。
一般の重回帰モデルの残差プロットでは、横軸に予測値を使用したとき、
「パターンが認められないこと」が回帰診断の内容の一つに数えられます。
これは、おっしゃるとおり不適切な変量を看破するためだと考えます。
しかし、ダミー変数のみで構築した回帰式では、このパターンができて
しまいます。
そこで、数量化理論と一般の重回帰分析では残差プロットの取り扱い方に
相違があるのではないかと考えた次第です。
いかがなものでしょう?
線になるとしても外れ値や正規性の判断を見ることはできる。 しかし、説明変数が少ないと決定係数も低いだろうし、 外れ値が出たり、正規性が狂ったりするのはある程度は仕方がない。
毎月のデータを3年間取ると、3回の周期になると思われ。 補正するためには、気温とか、年間行事の変数が必要だわな。 ものの例えだよ。
220 :
219 :2010/01/25(月) 23:38:17
s/年間行事の変数が/年間行事の変数とかが/
221 :
132人目の素数さん :2010/01/26(火) 00:09:34
>>218 確認ですが、モデルの回帰診断に関して
数量化理論1類においては残差プロットのランダム性の確認は不要、
ということで良いということですね。
そうすると、連続変数を説明変数とする一般の重回帰分析で
なんでランダム性が意味を持つかわかりませんね。
数量化理論ではなにかを諦めているんでしょうか。。
>>221 不要とは言っていない。程度の問題。
とてもひどい外れ値だったらやはりおかしいし、
正規性も端の方ではなく真ん中あたりでも
全然直線じゃないといくらなんでも違うと言える。
数量化理論で諦めている部分はこう考えたら分かる。
X,Yともに量的な変数でY=X+eと正規分布に従う誤差で
きれいに説明できるとする。このXに対し、平均より大きいものを1
小さいものを0としてカテゴリにすると当然説明力は落ちる。
そしてそのずれが回帰診断にも影響する。
こういう状態ではなくカテゴリが真に定数の効果をもつなら
連続変数の場合と変わりなく回帰診断できるだろう。
223 :
132人目の素数さん :2010/01/26(火) 00:51:40
>>221 なんで残差のランダム性が重要かといえば、回帰分析は誤差項が独立で
平均0、分散σ^2の正規分布に従うと仮定されたで求められているから。
これは、どういうことかといえば、推計された結果が、推計式を中心に
分散σ^2の正規分布をしていると考えることができるということ。
推計結果のずれが本当の値を中心に分布してるってこと。これがあるから、
推計結果を統計的に評価できるわけ。
これが崩れると、推計結果を評価する時にいろいろ問題がおきるので、
さまざまな対処方法がある。
それと、残差プロットがランダムかどうかが重要なのは時系列データ。
これは、データの順番が残差の順番を規定するから。
残差に何らかの傾向があるということは、定式化の間違っている。
クロスセクションの場合、データの順番を入れ替えれば残差プロットは
変化するので、プロットの動き自体にはあまり意味が無い。
その場合に大切なのは、分散が一定になっているかといったチェック。
どちらの場合も、残差の分布が正規分布をしているかどうかが大切で、
これが、おかしいと回帰分析の前提条件が崩れる。
224 :
132人目の素数さん :2010/01/26(火) 10:18:41
修士でインパクトファクターがあるのは凄いですか?
日本語でok
226 :
132人目の素数さん :2010/01/26(火) 23:18:41
>>222 >こういう状態ではなくカテゴリが真に定数の効果をもつなら
>連続変数の場合と変わりなく回帰診断できるだろう。
カテゴリが真に定数の効果をもつ数量化1類が想像できません。
どんな方法でも良いので例示していただけると幸甚です。
>>223 >平均0、分散σ^2の正規分布に従うと仮定されたで求められているから。
残差プロットにパターンが認められても正規性バッチリなことはあります。
パターンがイクナイ説明になってないんでないでしょうか?
>それと、残差プロットがランダムかどうかが重要なのは時系列データ。
y推定値に対する残差プロットもランダム性が重要だと言われているようですが。。
>>226 性別による効果のような初めから分類であるものなら定数もありうると思う。
228 :
132人目の素数さん :2010/01/27(水) 00:24:10
>>227 元から分類の例としてアヤメの種類を使ったとします。
がくの長さを目的変数として数量化理論でモデル化すると、
がく長予測値に対する残差プロットはきれいな垂直3本線となります。
しかし、正規性はあります。推定値も有意です。てこ比も正常です。
さて、これは良いモデル?悪いモデル?
>>228 まさによいモデルの例なんじゃない?
3本の線ではあるが、そのこと以外は回帰診断で問題はない。
230 :
132人目の素数さん :2010/01/27(水) 02:21:43
>3本の線ではあるが、そのこと以外は回帰診断で問題はない。 「そのこと以外は回帰診断で問題はない」のは先刻承知です。 もんだいは「そのこと」。 これが良いモデルなら、連続変数を用いた一般的な重回帰モデルで 同様のパターンが現れても、「そのこと以外は回帰診断で問題はない」 という理由で良いモデルと承認されることにならないか。 ここらへんの判定基準を知りたいわけです。
231 :
132人目の素数さん :2010/01/27(水) 12:04:13
>>226 まず、正規性とパターンの話は、仮に残差の分布が正規分布に(みえるもの)
になっていたとしても、残差にパターンがあるということは、誤差が相互に
独立という仮定を満たしていない。
ということは、残差のパターンを考慮することで、より適切な結果を推計
できるってこと。
誤差が個々に独立で、ある正規分布に従うということは、それ以上の推計の
改善が見込めないってことになる。
残差のパターンについては、例えば出席番号順に並べた成績のデータが
あったとして、その残差にパターンがみられたとしても、出席番号の並び
自体に成績との因果が無いのであれば、そのパターンは考える必要が無い
よね。
ただし、データの並び自体に意味がある場合(例にだした時系列など)は、
その残差がどういうパターンを示すかに意味がある。
また、非説明変数を小さいものから並べた場合、大きくなるしたがい、
誤差の分散が大きくなることがある。こういうのを不均一分散というけど、
これが起こると、誤差が個々に独立で一定の正規分布に従うという仮定が
崩れる。(σ^2が変化してしまっているということ)
この不均一分散の場合も推計結果の統計的な評価に問題が起こる。
普通、グラフを書く時は、右上に行くにしたがって数値が大きくなるので、
この場合、それに対応する形でデータを小さいものから並べて残差をみれば
不均一分散のせいで残差にパターン(右に行くほどばらつきが大きくなる)
などがみられる。
回帰分析の意味(どういう仮定がおかれた上で分析されており、それによって
どういう統計的な評価ができるのか)を考えてみた方がいいと思うよ。
232 :
132人目の素数さん :2010/01/27(水) 23:03:59
教えて下さい。 はかりの校正をしようとしています。 規格幅1.43g-1.57g ±0.07gの物を計る計量器の器差は分銅の0.02%とする という手順書があります。 この根拠が知りたいです。 また、規格幅0.49g-0.51g ±0.01gの物を計る計量器の器差は分銅の何パーセントとすれば 良いのでしょうか?
>>81 ポアソン分布を載せてて、その分散の導出を載せてない本の方がレアだよね
>>231 >残差にパターンがあるということは、誤差が相互に独立という仮定を満たしていない。
>ということは、残差のパターンを考慮することで、より適切な結果を推計できるってこと。
適切な連続変数との組み合わせによってパターンが消失することは確かにありますね。
しかし、ダミー変数のみで構築された重回帰式ではパターンが消えることはありません。
すなわち、数量化理論1類では誤差独立の仮定を満たしていません。
なのに、回帰診断で「不適切」なモデルとして棄却されはしない。
>>228 で例示したアヤメの例では、交差検証しても十分な予測性が確認できるので、
どうやら数量化理論そのものに無理があるというわけではないんじゃないかと思う次第。
謎が謎を呼び、もうわけわかりません。
たくさんの言葉と例示を使って懇切丁寧に解説していただいたというのに、ものわかりが悪くて申し訳ない。。
>回帰分析の意味(どういう仮定がおかれた上で分析されており、それによって
>どういう統計的な評価ができるのか)を考えてみた方がいいと思うよ。
問題点は次のように(私の中で)進化を遂げました。
「数量化理論1類モデルは、誤差が相互に独立という仮定が満たされないくせに
どうして重回帰モデルとして堅牢でいられるのか。」
すみません、ほぼ統計学初心者なんですが 読んでる本に、 N(μ,σ^2)でμ,σ^2 も未知という状況でσ^2を推定するには、 N(μ,σ^2)に従う独立な確率変数を2つ以上観測しなければならない とあったのですが、何故なのですか???
>>234 数量化理論でも誤差は互いに独立なんだけど
何を勘違いしているのかな?
(3本の直線になることと誤差の独立とは直接的に関係ないよ。)
>>235 その本にはσ^2を推定するための式は書いてないの?
書いてあれば実際データが1つしかないときに計算してみたら分かるよ。
>>235 分散てのは、データの散らばりかたを表してるってのはいいかな?
観測されたデータが一個しかない(つまり散らばってない)時に、そこから母集団の散らばりかたを表せると思う?
X1、・・・、Xn〜P0(θ) i.i.d のとき、θの最尤推定量を求めよ。 よろしくお願いしますm(__)m
二次元同士の相関性求める方法ってあるかな? グラフAにある特定の係数かけて、 更に切片つけたデータから出来たように見える グラフBがある。幾つかのデータは改ざんされて いるので、係数と切片の特定は困難。 統計的に一致率が高いとしたいです。 いい方法あったらよろしくお願いします。
>>232 最初にことわっておくが、私も計量器を使うことがあるというだけの素人です。
>>232 にレスがないようなので敢えて挑戦します。
誰か、間違いを見つけた方がいらっしゃったら、バンバンご指摘願いたく・・・。
例えば、計量器で規格下限の1.43gが表示される場合、その分銅の重さは計量器内部で1.425g〜1.434g(Δ=0.009g)
になっていることになる。つまり正しく1.430gの分銅を測った時に、計量器の誤差が±0.0045g(=4.5mg)に収まって
いれば計量器の表示は1.43gとなり、性能を満たしていると判定できる。
「器差」という用語は俺はあまり使わないのでピンとこないのだが、計量器の校正をしようとしている訳だから、ここでは
計量器の標準偏差だと思うことにする。違ったらすまん。
標準偏差をσとおくと、0.0045/3σ=0.0015g(=1.5mg)だから、標準偏差が0.0015gであれば、この計量器は
実用上でほぼ問題はない。(いわゆる3シグマって奴。)
要するに、正しく1.430gの分銅を測った時の標準偏差が0.0015g以下であればよいことになるので、
0.0015/1.43≒0.1%が必要な精度となる。
同じように、上限側1.57gで考えても0.0015/1.57≒0.1%
>>232 の言う0.02%となると、およそ15σだから過剰なスペックのような気がする。
(もっとラフに考えると、レスにある規格範囲の中央値は1.50gだがその0.02%となると0.0003g(=0.3mg)であって、
これは一般に化学天秤とか精密天秤とか呼ばれる計量器での最小ケタ数のオーダーに匹敵する。つまり化学分析並みの計量精度を
求めているようにも思えるが、そんなに精密な計量が必要なの?)
2つ目の質問は上の内容(間違ってなければだが)を逆に辿れば計算できると思う。
とまぁ、適当にレスしてみたが、レスした自分が一番自信がない。
参考になれば幸いなのだが・・・。
>>236 そうなんですか?
残差がランダム(独立)であれば、パターンは認められないという認識ではいけないの?
重回帰分析の誤差項における仮定(正規性、不偏性、等分散性、独立性)のうち、
等分散性、独立性(不偏性も?)が欠落しているという認識なのですが。。
244 :
132人目の素数さん :2010/01/29(金) 20:02:09
>>242 回答ありがとうございます。
器差というのは、分銅の真の値と実際に表示される値との差のことです。
つまり、誤差です。
私も今、QC検定2級の勉強をしてまして、統計学を勉強している最中です。
>>243 残差プロットでみるのは上下の動き。
左右の動きは固定なので関係ない。
たとえば曲がっているかどうかも上下の動きが
安定していないことを見ている。
もちろんXが量的である場合、3カ所でしか測定していないなら
その3カ所ではOKでも、その間は?という問題が生じるが、
これは誤差に関する情報が足りないと言うだけ。
その3カ所に関しては仮定と矛盾しない状況はありうる。
>>243 残差プロットでみるのは上下の動き。
左右の動きは固定なので関係ない。
たとえば曲がっているかどうかも上下の動きが
安定していないことを見ている。
もちろんXが量的である場合、3カ所でしか測定していないなら
その3カ所ではOKでも、その間は?という問題が生じるが、
これは誤差に関する情報が足りないと言うだけ。
その3カ所に関しては仮定と矛盾しない状況はありうる。
わかって参りました! 本当にものわかりの悪いやつですんません。 ランダム性(独立性)ってのは、隣り合う残差間に相関がないこと、ですね。 だったら、あやめの例における残差プロット縦三本線のパタンでは、独立性ありですね。 この例では等分散性が微妙なのですが、これは数量化理論の問題ではないようです。 もし残差プロット、斜めに3本線が現れるような数量化理論1類モデルができちゃったら、 これはランダム性に問題ありという判定になるのでしょうね、きっと。 これで間違いが無いようでしたら、粘着質問を終了します。 長々とおつきあいいただいてホントにありがとうございましたm(_ _)m
1vs1で行うスポーツのデータ プレイヤー1 11勝15敗 プレイヤー2 9勝6敗 ... プレイヤーn 24勝25敗 があるとします。 1からnまでの各プレイヤーの勝敗を表裏50%のコイントスで決めた際の分布と、実際の分布がどれだけ違うか調べるにはどうすればいいですか? プレイヤーの実力差がどれだけあるか、データから求めたいです。
>>241 プロクラステス回転とかで調べてみたらどう?
>>249 結局、元データと改ざんデータを散布図で打ち出して、
紙の縮尺変更と回転で合う座標とそれ以外をしらべたよ。
後は順番に並べて合う座標の相関みたら0.99だった。
合わないデータに使用したと推定される一次関数を調べて終了。
という感じのごり押しで今回は処理できました。
プロクラステス回転は勉強してみます。レスサンクス。
50%の勝ち負けなら2項分布だろ。と。 だけど、スポーツの勝敗は、統計に馴染まない気がする。 グーチョキパーの関係もあるし、 賞金が高いと「それは無いだろ」と言うのが、逆にありそうにも思える。 格闘技なんか、サンプル少ないし。 体壊れるからね。
252 :
251 :2010/01/31(日) 02:09:14
あ、別に50%でなくても良いよ。 うっかりした。
>>251 とりあえず複雑な因子は考えず、単純に勝敗だけを見るつもりでいます。
二項分布とデータの分布がどれだけ違うか(逆に言えばどれだけ一致しているか)を表す、指標のような物は求められないでしょうか?
254 :
132人目の素数さん :2010/01/31(日) 07:38:48
>>251 言ってることがちょっとわかんないわ
あと、どんな分析なら統計に馴染むの?
>>248 プレイヤーの実力差を見るならベイズだと思うが。
・Aの実力
・Bの実力
・環境や運の寄与
の三要素で事前確率(仮定)と実際を考えていく。
最初にA-nの実力を仮定して、対戦結果で修正していくわけだ。
またまた残差プロットの質問です。 重回帰分析にお詳しい方にご教授をいただけると幸いです。 さて、線形判別関数を用いた判別分析は、従属変数をダミー変数とした重回帰分析と等価です。 そこで、「あやめ」の"Iris-setosa"か否かをダミー変数1,0に置き換え、重回帰分析に供しました。 独立変数として"sepallength"と"sepalwidth"を用いたところ、 R2=0.79,p<0.0001の有意な重回帰式を得ました。 各要因の係数推定値も有意で、てこ比も良好なモデルが構築されました。 で、y予測値に対する残差プロットを観察したわけですが、 斜めに二本の明瞭なパターンが観察されました。(正規性はありました) 一般の重回帰分析では、意味のある序列で並んだ残差間に相関があるとき、 重回帰分析の前提のひとつである、誤差項のランダム性の仮定が成立しない、 と見なされるはずです。 yにダミー変数をおいた本例は重回帰モデルとして間違っているのでしょうか? (単回帰でも同様の現象が認められます)
257 :
132人目の素数さん :2010/01/31(日) 18:42:42
>>256 判別分析と回帰分析は統計的モデルが違うよね。
だから判別式の「係数推定」にダミー回帰を使えても、
偏回帰係数以外の回帰分析結果は正しくないんじゃない?
というか、その場合、回帰式の説明変数の方が確率変数で、
従属変数の方は定数値だから、回帰モデルとは逆。
あと、残差を「確率変数」と考えるには、あるアヤメがその2種の
どちらになるかの確率分布(2項分布)を考える必要があって
なんか不自然な気がする。
258 :
132人目の素数さん :2010/01/31(日) 21:16:06
区間推定とかは少しできるようになったのですが少し形式が 変わると何をすればいいのかわかりません。 以下の問題お願いします ある県内のコンビニ1店舗当たりの1日の売上xは 平均60万円、標準偏差6万円の正規分布に従っているとする。 1.売上が80万円以上の店舗は何%存在するか 2.売上が50万円以下の店舗は何%存在するか
259 :
257 :2010/01/31(日) 21:41:24
んと、二項分布というよりベルヌーイ分布ね。
>>258 それは区間推定問題じゃなく、
ある区間における正規分布の面積(=割合または確率)を求める問題。
教科書だけで解くには巻末の標準正規分布表を使う。
一般の正規分布の変域を標準正規分布の変域に変換する必要があるので、
そのために標準化(規準化とも言う)の関係式を使う。
261 :
132人目の素数さん :2010/01/31(日) 23:53:48
どなたこのの問題の解き方教えてください↓ n=の復元抽出、有意水準は5パーセント 47 52 58 55 48母平均μは58と言えるのか
263 :
132人目の素数さん :2010/02/01(月) 02:51:36
まったく分からないので、ここに質問します(´・ω・`) ある県の高齢者121人無作為に抽出して、1日のテレビ視聴時間を調査しました。その結果、標本平均は76.0分、標本標準偏差sは19.8分でした。 @この県の高齢者の1日の平均テレビ時間を信頼係数95%で区間推定しなさい。 A標本平均と母平均の差(推定の誤差e)を2.0分以下にするためには、標本の大きさnを少なくともいくら以上にする必要がありますか。信頼係数95%で求めなさい。 この答えを教えて下さい><
264 :
132人目の素数さん :2010/02/01(月) 19:14:24
>>263 さすがに指定の教科書か講義ノートに書いてあるだろう?
>>262-263 どの部分がわからないか聞けばヒント貰えるかも。
全くわからないというのは教えようが無いから
大学1年レベルの問題なのですが お教えください。 A大学の授業の毎年の出席者数は平均60.2、標準偏差14.4人で 今年度の授業から無作為に16回選んで出席者を調べたら 今年度の出席者平均は71.4人、標準偏差11.3人だった。 今年の出席者数は増えたのか、というキム仮説・対立仮説を使って解くのはわかる んですが、今年の出席者数の標準偏差11.3人 はどこの計算で使うのでしょうか? 無視して毎年の平均と標準偏差と有意水準5%の片側検定では間違ってるのでしょうか? ノートを見ても書いてないのでお教えください(´・ω・`)
>>263 >>103 ,
>>104 に参考になりそうなレスがあった。
良く読んでみて、分からないなりにもまずは問題を解いて、解答をここへ書いてみては?
問題の丸投げにはレスがつきにくくても、「解いてみました!でも自信がないので検算お願いします!」
くらいならレスがつきやすいかもよ?
268 :
267 :2010/02/02(火) 01:39:20
今気づいた。
なんかオレ、
>>113 と同じようなこと書いてるな。
お前は俺か!?
今、そんな気分なんだ。
>>266 母標準偏差が今年も同じで既知(σ=14.4)として解く場合は、
標本標準偏差11.3人は検定に使わないね。(正規分布による検定)
けど、今年の母標準偏差が未知の場合は、
標本平均と標本標準偏差を含む t 統計量を使った検定になる。
(t 分布による検定)
この場合、去年までの σ=14.4 という情報は使わない。
現実の問題なら後者の型の方が検定として妥当だけど、
授業でその問題をやった時の型がどっちなのかはわからない。
>>257 なるほど、おっしゃるとおり本例では確率変数と定数値があべこべですね。
あやめの例示は不適切でした。
以降、思考実験でお願いします。
従属変数としてなんらかの連続変数をなんらかの事情で2値化してダミー変数化したとします。
これはロジスティック回帰等にも使用される確率変数となります。
これに対してこの従属変数との間に関連の見込まれる連続変数定数値を独立変数に据えたとします。
この従属変数と独立変数の関係が、あやめの例の様になったとします。
残差プロットは斜めの二本線でした。
さて、この判別分析風重回帰モデルの評価はいかに。
>>270 ロジスティック回帰を誤解しているのかな?
ロジスティック回帰は二項分布の成功の確率pを説明しようと
するもので連続量を2値化するものではないのだけど。
>>271 まさかp(a)が約分できるって思ってないよね?
示している式はp(a)が一様分布なら正しい。
p(a)は一様分布以外の事前分布も考慮してのこと。
>>273 p(m,n|a)が事前分布と思っていたんですが、そうではなく、
m,n,aの出現率の見込みが事前分布ということなのでしょうか?
うーん、難しいなぁ。
>>274 p(a)が事前分布ってそのページに書いてあるでしょ。
p(a|m,n)が事後分布。
m,nを観測することでp(a)からp(a|m,n)に分布が変化し、
aの状況がよりよく分かるようになる。
276 :
132人目の素数さん :2010/02/03(水) 01:50:35
>>272 ロジスティック回帰を誤解しておりました。
ロジスティックの文言はとりあえず
>>270 から削除させていただくことにします。
しかしそもそも、ダミー変数を確率変数として従属変数に用いて、重回帰分析風にモデル化する
例ってのは無理なんでしょうか?
>>275 たしかに書いてありました。
しかし、頭が混乱してきてさっぱりわかりません。
p(a)が事象aが発生する事前確率なら、二項分布の式であるp(m,n|a)は何になるんでしょうか?
二項分布の定義自体が事前確率のように思えてしまいます。
278 :
132人目の素数さん :2010/02/03(水) 17:47:04
俺がキタからもう大丈夫
>>276 だからその従属変数は0,1をどのようにとるの?
二項分布に従って取るならロジスティック回帰でいいんだよ。
ただし、モデルを立てるのはpに対してでその従属変数に
対してではない。
>>277 よくあるリンゴのパターンで説明するよ。
樽の中にリンゴがたくさん入っていてそのうちaの割合で腐っている。
aは未知だけどもしそれが分かったらリンゴを取り出したとき
m個は腐っていて、n個は腐っていないという結果が得られる確率は
p(m,n|a)で表される。
しかし、aは未知なのでp(a)という事前分布でその状態を規定する。
(通常は何の先見情報もないとp(a)は一様分布)
そして実際にリンゴを取り出し、M個の腐ったリンゴとN個の腐っていないリンゴ
を得たとしたら事後確率はp(a|M,N)と更新されてaがありそうなところが
少し絞られる。
(一様分布からスタートするとこの分布はベータ分布で
a=M/(M+N)あたりが山になった分布になる。)
>>280 どうもです。
大体分かった気がします。
事象aが「ベルヌーイ試行の成功確率」であり、事前分布も事後分布もある事象aの出現率を求める関数と理解しました。
>>281 それでよいよ。確率が2階建てになっているということだ。
正規分布してる抵抗素子(分散σ)があるとして、 n個直列接続すると分散の加法性でnσになると思うんですが 並列接続した場合ってσ/nになるんでしょうか?
284 :
132人目の素数さん :2010/02/04(木) 23:58:23
>>279 例えばこんな例はどうでしょう。
小学生の集団に同じ授業を受けさせ、その後テストを行います。
テストの点数を60点で区切って合否を決めます。
そして、合格者を1,不合格者を0と割り振り、従属変数とします。
この合否の要因を解析するために、授業開始時点での小学生たちの身長やら年齢やらの連続変数を集めて独立変数とします。
これですと、従属変数は確率変数、独立変数は固定値です。
適用モデルはロジスティックでも判別分析でも可、、ですよね?
ね?
判別分析を重回帰分析風にモデル化したときの残差プロットが斜めの二本線だったら、
どのように解釈しますか?、と。。
>>284 そもそも何をしたいんでしょうか?
判別問題として扱いたいのなら判別境界を作ることが目的で誤判別率を
下げるような方法を模索するところにあります。そうすると2次判別など
別の方向に進む可能性が高いです。
ロジスティック回帰なら独立変数の集まりからどの程度合格するかの
確率をダイレクトに予測するわけで正確に二項分布を扱えます。
まず重回帰分析風なるものが何らかの意味で確率的に正確なモデル化を
できないと割り込む余地がありません。
286 :
132人目の素数さん :2010/02/06(土) 01:00:17
>>285 >そもそも何をしたいんでしょうか?
線形の判別分析は従属変数をダミー化した線形重回帰分析と等価ですので、
重回帰式で表現したときの判別モデルにおける誤差項に関する仮定も
重回帰分析と同様だと考えられます。
まずは、上記の推量が統計数理的に妥当なのか否かを知りたいのです。
適切な例示ができずにご迷惑をおかけしております。
>>286 式が形式的に一致するからといってすべてが同じではありません。
重回帰は最小二乗法で解きますが、その時点では誤差に何の仮定も
置かなくても解けます。したがって、それだけで誤差の仮定も同じであるというのは
錯覚です。
その2本線は横軸に独立変数、縦軸に誤差と思われるものを取って出てくると
思いますが、その2本が2つの群を表しています。
その線の状態で判別のよしあしは分かるかもしれませんが、
全体として1つの誤差を表すというのは無理があります。
288 :
132人目の素数さん :2010/02/07(日) 00:08:35
>>287 ご回答ありがとうございます。
判別分析に関する考え方は分かりました。
ところで私は、数量化理論I類と同様の要領で、従属変数にダミー変数を置く重回帰分析も成立するものと考えておりました。
この考えは誤りでしょうか?
>>288 誤りです。
Y=aX+eで考えるとXとYは同じようには扱われません。
Xは固定されているので量的でも0,1でもよく
eが正規分布に従えば、Yも正規分布に従います。
Yを0,1にしてしまうとそれはそもそも正規分布には
なりえませんし、Xは固定ですからeも正規分布にはなりえません。
290 :
132人目の素数さん :2010/02/07(日) 01:44:09
>>289 >Yを0,1にしてしまうとそれはそもそも正規分布には
>なりえませんし、Xは固定ですからeも正規分布にはなりえません。
重回帰分析の仮定にYの正規性はありませんので、その点では01でも良さそうです。
さらに、eはたとえ01だろうと正規性を持つ場合があるようです。
重回帰分析の例示としては不適切の嫌いがありますが、思考実験例として
また「あやめ」を使わせていただきます。
独立変数として「がくの長さ」を用います。
従属変数として「virginicaか否か」をダミー変数として使用します。
残差の正規性は正規分位点プロットでも適合度検定でも確認することができます。
>>290 同じ事を「花びらの長さ」の方でやってみてください。
こちらの方が分離がよいので誤差が全体として正規分布になるのは
単なる分離が悪いときの偶然であったことが分かります。
また、Yに正規性の仮定はないと言いますが、何度も言うように
Xの項は定数扱いなのでeが正規分布ならとYも正規分布ならざるをえません。
Yが0,1のときeはXのみかけの分布の裏返しのように振る舞うだけです。
Xは定数扱いなのでほんとうは0,1だろうがなんだろうが構わないのですが、
たまたま正規分布と似たような振る舞いをしているとeもそう見えるだけです。
(正確にはy=0の場合とy=1の場合は別々に動くので重ねて正規分布に
見えるのは本当に偶然です。)
292 :
132人目の素数さん :2010/02/08(月) 17:21:36
>>283 >正規分布してる抵抗素子(分散σ)があるとして、
>n個直列接続すると分散の加法性でnσになると思うんですが
>並列接続した場合ってσ/nになるんでしょうか?
直列値は和だから n×分散 で合ってる。
並列値は逆数の合計の逆数なので非線形関数。
なので正確な分散は、簡単な一般式では表せない。
けど
並列値 = (1/n)・調和平均値
と表せる。また分散が小さければ
調和平均値 ≒ 算術平均値
となる。なので工業製品精度を持つ素子なら、近似的に
並列値の分散 = 分散 / ( n^3 ) ( ^ はべき乗)
で評価できる。(近似の度合いは、数学的に評価するより、
実測して評価した方が早くて説得性があると思う)
模擬データを作りたいのですが、困っています。 100個のサンプルのうちn個があたりです。 nは平均10のポワソン分布に従うことが分かっています (n=10ではないかもしれない)。 j=1,100のうち、あたりの番号は何番になりますか、っていう問題で 乱数を使って、100個のサンプルをいくつかつくりたいのですが、 これってどうやればいいのでしょう。
「何番」て問題として意味わからん。何番でも皆同じ確率で起きるから。 あとデータを作る手順なら使うソフト環境がわからないと・・・
給与に関するデータについて、 ・過去と現在とを比べて給与が増えているかどうか ・過去よりも給与格差は拡がっているか という2つのことを検定を用いて検討するなら、どのようにすれば良いでしょうか。 データは、1年ごとに調査されていて、 給与階級別にそれぞれの人数が見られるようなものです。 | H10 H11 … H20 ------------------------------------------- … | … 400万円以下 | 4,800,000 4,820,000 … 4,850,000 500万円以下 | 5,150,000 5,200,000 … 4,750,000 600万円以下 | 4,210,000 4,150,000 … 3,600,000 … | … 表にするとこのようになります。 左の列が給与階級で、上の行が年ですね。 t検定を、H10年とH20年の2つのデータに対して使うのかと思ったのですが、いまいち確信が持てません。 例えば、薬を投与する前と後で云々といったものならt検定を使えば良いとわかるのですが、 このデータはやりづらく感じます。 あるいは、給与が増えているかどうかということに関しては、t検定を使わなくても、 「給与が増えていないなら、過去でも現在でも、階級別の給与所得者数の比率は同じだ」 と考えて(仮説を立て)、 階級ごとに、 (現在の人数) / (過去の人数) の計算から、移り変わりの比率を出し、 それらの比率に対してカイ二乗検定を適用すれば、理論的な比率と観測値との適合具合がわかるので、 給与が増えているかどうかを検討できると思ったのですが、これは間違いでしょうか。
298 :
132人目の素数さん :2010/02/08(月) 22:34:05
>>291 (たぶん)お忙しいところご丁寧なレスをありがとうございます。
さて、ご提案の「花びらの長さ」を用いると、あたかも二項分布を代表しているかのような
二峰性分布の残差を得ることになりますね。
しかし、「花びらの長さ」にはもともと二峰性が認められます。
このdetaのスプリットはsetosaか否か、によって規定されます。
試しに、「花びらの長さ」の二峰性を排除する目的でsetosaを削除して、
残ったvirsicolorとvirginicaを各々0,1として従属変数にしてみます。
すると「花びらの長さ」を独立変数とした重回帰分析の残差は再び正規性を取り戻します。
この結果は、非正規の原因が「花びらの長さ」の二峰性にあることを示唆しています。
そんなわけで、残念ながらあんまり説得力のある例示とは言えません。
299 :
132人目の素数さん :2010/02/08(月) 22:36:17
<つづき>
そこで、virsicolorとvirginicaを各々0,1としたモデルにおいて、
独立変数による正規性の比較を行いました。
独立変数は「がく長」、「がく幅」、「花びら長」、「花びら幅」を順に解析しました。
残差の正規性はShapiroの適合度検定のP値を比較しました。
その結果、正規性は「花びら長」、「花びら幅」、「がく長」、「がく幅」の順で小さくなりました。
次に、線形判別分析によって、各変数の判別具合を調査しました。
判別率は「がく長」、「がく幅」、「花びら長」、「花びら幅」の順に、
73%, 56%, 92%, 94%でした。
すなわち、判別率は「花びら長」、「花びら幅」、「がく長」、「がく幅」の順で小さくなりました。
この結果は、残差の正規性の順序と完全に一致しています。
以上の結果は、Yをダミー変数とした重回帰モデルの残差の正規性は
判別分析の判別率順位を見事に反映していることを示唆しています。
>>291 さんのご解説では説明できなさそうな現象ですが、どうしましょ。
>>293 累積分布関数と一様乱数の組み合わせで考える
302 :
132人目の素数さん :2010/02/08(月) 22:58:21
備忘録 ちなみにこのときの各独立変数の正規性を比較すると、 正規性は「花びら長」、「がく長」、「がく幅」、「花びら幅」の順で小さくなりました。
>>295 t検定もχ2検定も母集団が正規分布を仮定できるときに使える検定だったかと思います。
お尋ねの問題では給与(=年収のことのようですね、値から推すと。)が対象のようですが、
年収の分布は対数正規分布に従うことが多いという記述をあちらこちらで見かけます。
ですので生データである給与(年収)毎の人数の対数を取り、その分布を改めて眺めて見て
正規分布を仮定できそうなら(正規性の検定なんかの方法もネット上で解説されています。)、
そのデータに対して検定を実施してみてはどうでしょうか?
また、過去と比べて給与が増えたかどうかについては、現在と比べる”過去”がいつなのかを
決めずに漠然と過去と言っていては比べようがないように思います。
(現在と去年を比べて給与が増えたのかを検定したいのか、それとも現在と10年前を比べるのか、
あなたが比較したいと思う過去がいつなのかをはっきりと決めた方が当然比較し易いと思います。)
特定の過去と比べたいのではなく賃金が上昇傾向なのかどうかを検定したいのなら、各年度の平均
賃金を縦軸に、各年度を横軸にとった散布図を描き、その回帰直線に対しての検定を行うことに
なるのではないかと思います。回帰分析 検定等のキーワードで検索なさってみてください。
得られた回帰直線の傾きが正である((右上がり)であるようであり、かつ検定の結果、傾き=0の
帰無仮説が棄却できるのなら、得られた回帰直線は検定で設定した信頼率で信用できますから、
賃金は上昇していると判定できるのではないかと思います。
一旦切ります。
>>295 303からの続き。
給与格差については、ある特定の年度間の比較であれば、上述した対数正規分布から各年度の分散を
求め、比較したい年度間でおのおのの分散をF検定すればよいのではないのでしょうか?
ただ、先のように”給与格差が増加傾向にあるかないか”を検定したいということになると、
どうすれば良いのか、私にも考えが浮かびません。
例えば回帰分析のように各年度と分散の散布図を描いて、その回帰直線(分散に関する)の信頼性を
検定することになるのかも知れませんが、分散を回帰直線で推定したり検定したりする事が統計的に
正しいのかどうかに自信がありません。
あるいはもっとスマートな方法があるのかも知れませんね。もし、今後分かるようなことがあったら、
むしろお教え下さい。
この回答が正確で、あなたのご参考になれば良いのですが。
ノンパラメトリックでいいじゃん。 対数正規にしなくっても。
検定にこだわるのは前時代的だと思うけど 大学の教育は変わってないんだよね
>>299 少しシミュレーションデータで調べてみました。
分かったのは次のようなことです。
・方法
Xが正規分布に従っていて同じ分散で群ごとに平均がずれているとする。
それと群のダミー変数Yで判別分析にあたる重回帰風な計算をする。
ずれを少しずつ変えて調べる。
・結果
分離がよいほど残差が正規分布に従いやすくなる。
分離がよいほど残差が正規分布に従わないと思ったのは逆だった。
分離がよいのに残差が正規分布に従わない場合は、等分散でないとか
別の理由があると思われる。
ただXの裏返しを見ていることは変わりません。
Xが正規分布でないと当然残差も正規分布ではありません。
この重回帰風な計算は平均の補正をしてくれるだけです。
>>298-299 291とは別人だけど、もしも「残差全体」に見かけの正規性があるとしたら、
それは偶然じゃないかな。
いま2群の判別を、多変量 X の線形関数 a + Xb によって行うとする。
また、1つの群の X (X0とする) ともう一つ群の X (X1とする) とは
各々多変量正規分布に従うが、その平均および共分散行列は異なるとする。
0, 1 ダミーと線形重回帰を使って求めた係数 a, b による群毎の残差は、
e0 = 0 - a - X0・b
e1 = 1 - a - X1・b
となる。したがって標本 X0, X1 が各々多変量正規分布形を持っていれば、
e0, e1 は各々(平均・分散の異なる)正規分布形を持つ。
また、変数の数が多ければ、X0, X1 の標本分布形が多変量正規分布に
近くなくても、(中心極限定理と同じ作用が働くので) e0, e1 は各々
正規分布に近い形を取る。
しかし2群を一まとめにした残差は、一般には2峰分布形になる。
>>308 検出というより、
今は現象を説明出来る最適なモデルを作る方が大切と考えられているのではと素人コメント。
>>303-305 言葉が足りませんでしたね。
過去と比べるというのは、特定の年同士を比較するという意味で、
例えばH10年とH20年を比べるといったものです。
ただ、今の自分の知識だと、まだまだ難しいように感じました。
もっと勉強してから取り組んだ方がいいかもしれません。
とても丁寧な回答ありがとうございました。
>>309 検出力の違いは何から来ているか、お分かりですかね?
#ヘンテコな回答者が増えたなあー、ここ
315 :
132人目の素数さん :2010/02/10(水) 00:08:49
>>310 >ただXの裏返しを見ていることは変わりません。
>Xが正規分布でないと当然残差も正規分布ではありません。
Xの正規性と残差の正規性は一致しませんでした。
昨日のあやめの例で示したように、
残差の正規性の順序は
「花びら長」、「花びら幅」、「がく長」、「がく幅」
の順で小さくなりました。(
>>299 )
一方、X自体の正規性は
正規性は「花びら長」、「がく長」、「がく幅」、「花びら幅」
の順で小さくなりました。
もし、残差が単純にXの正規性を反映しているというのなら、
このような事態は生じないはずです。
316 :
132人目の素数さん :2010/02/10(水) 00:10:33
>>311 >しかし2群を一まとめにした残差は、一般には2峰分布形になる。
良い判別結果は残差の2峰分布形を伴う、ということですね。
一見統計数理学的に妥当な説明をされているような雰囲気を感じますが、
非常に残念なことに、
>>299 で示したあやめの分析結果を説明できていません。
良い判別結果はより良い正規性残差を伴います。
この結果は、
>>310 さんのシミュレーション実験によって検証されています。
論理に誤謬が含まれている可能性があります。
自然科学において、実験結果を説明できない論理はダメな論理です。
317 :
132人目の素数さん :2010/02/10(水) 00:11:37
>>314 >#ヘンテコな回答者が増えたなあー、ここ
あなたはヘンテコな回答者ではない方とお見受けします。
しかし、人間的に大変薄っぺらな印象を拭えません。
しばらく外界で修行されることを強く推奨致します。
318 :
311 :2010/02/10(水) 02:30:09
>>316 >>しかし2群を一まとめにした残差は、一般には2峰分布形になる。
>
>良い判別結果は残差の2峰分布形を伴う、ということですね。
いやいや、逆々。
判別力が高くなるほど、残差 e0 と残差 e1 の平均が
両方ともゼロに近づいて、2峰性が検出しにくくなるということ。
検出できなくても2峰性は存在するし、また実際的な意味でそれを
単峰と見なせるような場合でも、e0 の分散と e1 の分散が異なると
正規分布よりも尖度の高い分布形になる。
数値でないと納得しないのなら、以下のような1変量の例を作り
値を変化させながら残差を調べれば、何が起きてるかがわかると思う。
Y X
----
0 0
0 1
1 1 → 2 → 3 …
1 2 → 3 → 4 …
319 :
132人目の素数さん :2010/02/10(水) 21:25:48
くだらない質問だと思うんですが 5%有意で不等分散って 5%等分散の可能性があるってことで良いんですよね?
321 :
132人目の素数さん :2010/02/11(木) 00:32:50
>>318 >判別力が高くなるほど、残差 e0 と残差 e1 の平均が
>両方ともゼロに近づいて、2峰性が検出しにくくなるということ。
やってみましたが、下二つのXが大きくなるほど決定係数が大きくなりますが、
それに従って2峰性が際立ってきます。
残差はそりゃゼロに近づきますが、それが原因で2峰性が検出しにくくなって
正規性が出てくるなんてことはあり得ません。
もしかして残差の形状を絶対値で評価していませんか?
>>315 純粋なコンピュータ思考と実データでは一致しないのは当たり前。
Xそのものは正規分布の重ね合わせだし、不等分散だけでも影響を受ける。
その4つの変数が全く同じ分布に従っていて重なり具合だけが違う
というわけではあるまい。
>>315 ちなみに裏返しになっていることはすぐ分かる。
Xと残差で群ごとに相関係数を求めると-1となる。
324 :
311 :2010/02/11(木) 01:57:04
>>321 一番簡単な例なら、グラフを見ずに残差数値でわかると思ったんだけど、、、
じゃあ、少しリアルにした↓の例ではどうでしょう?
ちなみに、e0 の分布のピークは i=3、e1 の分布のピークは i=8 (*印のi)。
i Y X
--------
1 0 0
2 0 9
* 3 0 10
4 0 11
5 0 20
6 1 10 → 100
7 1 19 → 109
* 8 1 20 → 110
9 1 21 → 111
10 1 30 → 120
325 :
321 :2010/02/11(木) 10:33:02
>>324 わざわざリアルな例まで用意してくださってありがとうございます!
残差が小さくなるというより両群間の残差の差が小さくなるということみたいですね。
結果として二峰性は消失していくことがわかりました。
ただ、分離すれば残差の正規性が向上するというわけでもなさそうです。
>>299 で示したあやめの分析結果や
>>310 さんのシミュレーションでは、
「分離がよいほど残差が正規分布に従いやすくなる。」
という結果が得られております。
どう解釈したら良いのでしょうか。
どうもものわかりが悪いようで大変申し訳ございません。
質問ばかりで恐縮ですがよろしくお願いします。
326 :
132人目の素数さん :2010/02/11(木) 11:57:34
ARIMAとSARIMAの違いを教えてください。 一般に、ARIMAで分析する時は、以下のフローに従うと思います。 原系列 -> log(原系列) -> 階差(log(原系列)) -> p=arma(階差(log(原系列))) -> 累積和(p) -> exp(累積和(p)) では、SARIMAの場合、ARIMAのどの過程でどのような処理が行われるのでしょうか? お詳しい方ご教授願います。
327 :
311 :2010/02/11(木) 18:50:19
>>325 >
>>299 で示したあやめの分析結果や
>>310 さんのシミュレーションでは、
>「分離がよいほど残差が正規分布に従いやすくなる。」
分離が良い → 二峰の頂上が近寄る → 単峰に近い姿
分離が悪い → 二峰の頂上が遠ざかる → 単峰とは異なる姿
上の「単峰」を「正規性」に置き換えれば、アヤメの例の検定結果と一致する。
ただし、「残差全体の正規性」が「見かけの上」で成立した場合には、
さらに以下の性質も成り立っていると思われます。
1) 両群の残差がどちらも「正規性」を持つ。(通常は成立する場合が多い)
2) 両群の残差の分散が極端に違ってはいない。(データによって異なる)
あと、一番最初の書き込み(
>>256 )にある「重回帰モデル」との違いですが、
A) 誤差項と独立変数との無相関性が成り立たない。
(=残差プロットが、きれいな斜め線になる)
B) 誤差項の平均(および分散)が両群で異なる。
(=残差プロットが、上下段差を持った斜め2本線になる)
あたりが一番顕著なのではないでしょうか、、、
328 :
321 :2010/02/12(金) 01:39:31
>>327 よく分かりました。
判別分析と重回帰モデルの相違は残差プロットの示す通りだと言うこともわかりました。
実は判別分析にはまだ何点かの疑問があるので成仏はできないのですが、
そこはもう少し自習してみることにします。
粘着質問におつきあいくださった方々に深謝いたします。
ありがとうございましたm(_ _)m
329 :
132人目の素数さん :2010/02/12(金) 13:16:24
新しく開発された検査の感度・特異度を調べる為に前向き研究をデザインしようと考えました このときサンプルサイズを決定する必要があるのでしょうか?またあるとすればどのような方法で 計算するのがいいでしょうか?
>>329 必要性はばらつきを評価する気があるのかにかかってるんじゃないか?
あるならある精度には収めたいという要求が出てくるだろう。
デザインするとすると2段階法しかないね。
331 :
132人目の素数さん :2010/02/13(土) 14:34:14
全体で見ると綺麗に分散しているのに、 個別にみると同じ事象が連続して起こることを何というのでしょうか? なんかの雑誌で悪いことも良いことも続けておこると書いてあったのですが、 何の雑誌だったか思い出せません
332 :
132人目の素数さん :2010/02/13(土) 14:49:14
>>331 残差の相関ってことなのかな?
例えば、最小二乗法の回帰分析をおこなったりして、
回帰式はうまくあてはまるっぽいけど、
残差をプロットしてみると、なめらかな曲線っぽくなってるとか?
そういう場合に、残差の相関をあらかじめ入れる必要があるとか?
SUR modelとかでググってみたら?
333 :
132人目の素数さん :2010/02/13(土) 14:54:18
>>331 訂正:
残差の相関でぐぐったほうがいいかも?
>なんかの雑誌で悪いことも良いことも続けておこると書いてあったのですが、 お互いの事象に何かの関係があると証明できれば、それも良いのですが。 TVなんかコメンテーターを雇って、 ○○は××です。 とか、喋らせて視聴率稼ぐよね。 放送法で、嘘の内容を流すと、即免許停止な訳なんだが、 「ある人」はこのように言っております。 と、やればそれは(ある人がこのように喋ったことは)事実なので、局は責任なし。
データ量がN倍になれば、統計推定量の信頼度のN倍になると考えていいのでしょうか?
> 統計推定量の信頼度のN倍になる 何が? (主語が無いぞ)
常識的には 統計推定量の信頼度「が」N倍になる って読むべきでしょうね
信頼度がN倍ってのはどう考えても不自然な気がするな。 元の信頼度が51%なら 2倍になったら102%か?
もし「信頼度」が主語だとしたら、データを何倍にしても 1を超えないような演算で無いとまずいと思う。 質問者はそんなことすら判断できていないと考えるのか そうではなくなにか別の間違いなのかは 常識的な判断ではなんとも言えないわな。
生物学での統計処理に困っています。 【状況】 30程度の植物を一つのチューブに入れ、 遺伝子の発現量を標的遺伝子(A)について三回、 内部標準遺伝子(X)について三回ずつ測りました。(Technical triplicate) これを三回独立に実験を繰り返しました。(Biological triplicate) 【質問】 A/Xは1〜3回目A/Xの平均で良いと思いますが、 Q1 ここでは標準偏差を用いるべきか、標準誤差を用いるべきかがわかりません。 Q2 標準偏差を使わねばならない時 Technical triplicateでの3回分の標準偏差を誤差の伝播を考慮にいれてBiological triplicateの標準偏差を計算するべきでしょうか それとも、実験誤差は無視して実験間の標準偏差だけを考慮すればよいのでしょうか。 Q3 標準誤差を使わねばならない時 この場合はどうしたらよいのでしょう。 わかりにくくてすみませんが、切実です。よろしくお願いします。
>>340 データの個数がN倍だというのは皆さん承知だと思います。
データの個数がN倍になると、それに比例して何がN倍になるのかというところが不明なのです。
ここの回答者は日本語の機微も分からないのかw
>>342 平均の推定精度(例えば信頼区間)はデータ数の1/2乗で改善しないか、例えば?
>>343 ひょっとしたらあなたも
広義単調増加や右肩上がりなどを
みなまとめて比例と言うかたですか?
データ数の1/2乗というと 1件なら1、100件なら 10、10000件なら 100ですが それで改善というのは、どういう意味ですか? 1や10や100がなにに比例するのですか?
>>346 世の中にはその意味で「比例」を使う人は多いとは感じるが
せめて数学板や統計スレではやめて欲しいというか
もし誤解を生んだとしたら、使ったほうが悪いとおもうな
いくらなんでも数学板や統計スレではね
349 :
132人目の素数さん :2010/02/17(水) 17:30:08
計算はできるけど、基本的は確率や統計の考え方が分からない人が吠えているような気がする
うむ。 同じ母集団からのサンプルであるとき、 データ100個の平均とデータ10000個の平均では 同じ平均でも違うんだよ、っていうのは 気がついていない人が多い。
真の値と推定値の違いを意識しないと 仮定して計算して、それがすべて、になるかねえ。
文系の大学教授で統計学者を名乗ってる人って、実際どれくらい勉強してるんだろ この前不偏分散について質問したら 「母分散を推定する際にはサンプルの一つを固定して、残りのサンプルで分散を計算するから、偏差の二乗和を n-1 で除しているのですよ」 って言われたんだけど、これって信じていいの? 標本分散の期待値と母分散とのバイアスを修正しているだけであってそれ以上の意味はないんじゃないの?
>>352 感覚的に理解させる説明としてはいいんじゃないの。
他には、
標本分散の方が母集団の分散=不偏分散よりも小さいからその補正のため
という説明もありますね。
正確に理解するには数学的に導くしかないと思うけど。
データから推定する量が2個になるから、1個の場合との差がつく
自由度が1下がる
まあ、感覚的には
>>352 で間違ってないと思う
標本分散の方が母集団の分散=不偏分散よりも小さい、って これも、感覚的にしか私は理解してない
X1とX2が互いに独立に、平均α、分散βの正規分布に従ってるとき、X1と−X2が独立になることを証明したいんですが、証明出来ません どなたか詳しく教えてください
357 :
132人目の素数さん :2010/02/18(木) 23:07:40
不偏分散の分散が0でない限り、母集団の分散=不偏分散とはならなくね?
>>355 母分散N(μ, σ^2)からの標本変量(X1, …, Xn)の標本平均をAとして
標本分散
S^2 := {(X1 - A)^2 + … +(Xn - A)^2}/n
の期待値 E(S^2) を計算すると、まあ展開するだけなんだけど
{(n-1)/n}σ^2
となるんだよね。これは母分散σ^2より小さいよね?標本分散が母集団の分散より小さいってのはそういうことだと思う
ちなみに
U = {n/(n-1)}S^2
とすると、期待値 E(U) はσ^2になる
この推定量Uを不偏分散というんだと思う
このスレにおられる統計の熟達者からみると上記は間違いだらけの説明だろうから、「〜思う」ってした
教えてください 正規分布をする母集団から、2つのサンプルを取ったとき、 その差はどういう分布になるのでしょう? (あるいは、差が1σや2σになるのって、どれぐらいの確率になるのでしょう?) ポアソン分布ならどうでしょう?
N(a, b) → (X, Y) Z=X−Y とすると Z 〜 N(0, 2b) では?
>サンプルの一つを固定して、残りのサンプルで分散を計算するから、 平均を固定すると、最後のひとつが固定されるから。 因果関係が逆のような。
統計の抽象的な理論の大発見の例にはどういうものがあります? 恥ずかしながら自分には確率論以外思い浮かびません。 見聞きしたことないんで教えて下さい。
抽象的理論とはどういう意味で使っているのか?
仮定を立てるとそれをもとにして演繹的に結論が導けていくような理論のことです。 例えば、確率論のマルチンゲール理論のようなものです。
>>365 違うの?
同一分布に従う互いに独立な確率変数X, Yの確率分布をそれぞれf(x), g(y)として、その同時確率分布をh(x, y)とすると、
X + Yの確率分布もX - Yの確率分布も同じくh(x, y) = f(x)g(y)
だと思ってたよ…
ちゃんとした解釈を教えて
Rで遊んでみたけど、おそらく2bになると思う
うむ ポアソンでも同じかねえ
何分布だろうが同じ、b が分散ならね。
どんな分布でも分散は2bだけど、分布がもとの分布と同じとは限らないよ 正規分布なら同じだけど
372 :
132人目の素数さん :2010/02/22(月) 10:37:20
パレートの法則なんてものは、研究されつくされているのでしょうか?
ポアソン分布だとこの場合、λ=2bなのかな? それともそもそもこの場合の再生性は成立しないのかな?
X〜N(0,1) のとき X と X^2 は明らかに独立ではない とあったんですが なぜですか???
375 :
132人目の素数さん :2010/02/23(火) 02:02:25
>>374 条件分布を考えるとわかりやすいかも。例えば、x>1のときのX^2の分布は、
0<x<1のときのX^2の分布と明らかに違うよね。x>1だったら、X^2は1以上だから、
P(X^2>1|x>1)=1だよね。逆に、 0<x<1だったら、P(X^2>1|0<x<1)=0.
つまり、X^2の条件分布はXの値に依存しているから独立じゃない。
XとX^2が独立の例も、条件分布を使うと見つけやすいよ。
たとえば、XがP(X=-1) = 0.5, P(X=1)=0.5の離散分布だとするよね。そうすると、X^2の
分布は退化分布、P(X^2=1)= 1. この場合、Xの与えが1であろうと−1であろうと、X^2
の条件分布分布は全く変わらない、P(X^2 = 1|x=-1) = P(X^2=1|x=1)=1。つまり、
この離散分布の場合、XとX^2は独立。
統計学はおもしろいですね。
回帰直線で変数 x と変数 y の分散が等しくなければ直線が原点を通らず切片が生じる? 平均じゃなくて?
>>376 どういう理屈?
xとyの分散が等しいと原点を通ると思っているの?
378 :
132人目の素数さん :2010/02/27(土) 01:05:52
とても基本的な質問です。 母集団X(構成員x人)のことを知りたくて標本A(構成員a人)にアンケートを取る時、 十分な精度を確保するにはaは何人以上であればいいのでしょうか? 具体的な数値を導けるようになりたいので、必要な定理などを教えて欲しいです。 お願いします!
>>378 Xがあまり大きくなければ超幾何分布、大きければ二項分布でぐぐれ。
>>378 これって、どういう統計手法でデータ解析をするかによらね?
古典的な検定なら既にいろいろなサイトや本にあるけど、
重回帰分析とかGEEだとまた、サンプルサイズの見積もりって難しいよね。
382 :
378 :2010/03/01(月) 01:16:53
ありがとうございます!
383 :
132人目の素数さん :2010/03/03(水) 23:11:26
逐次最小二乗法と、単純な最小二乗法の違いを教えてください。
尤度関数ってどんな確率分布のどんな母数の推定であっても、その描く曲線は上に凸のグラフになるの?そうであるならばどうして?
なるわけないだろ
>>385 そうなんだ
下に凸となることもあるのか…
387 :
ごろ :2010/03/04(木) 09:51:24
先日、最尤法のイメージ図をググッてみたけど あんまりいいのがないんだよね。 最小二乗法と最尤法の違いを図で示したくって。
388 :
132人目の素数さん :2010/03/04(木) 15:40:36
最小二乗法は最尤法の一種なので、、、
>>388 そりゃそうなんだけどさ。
そういうくくりで議論してるわけじゃないでしょ?
おれはすっげー馬鹿なんだけど、
そのぐらいはわかるような希ガス。
390 :
132人目の素数さん :2010/03/04(木) 16:48:28
あんた何歳なの? 若いなら、他の仕事さがすか、クンマーの会社に雇ってもらったら?
残念ながら、もう若くないもん。 クンマーの会社ってどこ? クンマーは会社作ってたの? つか、クンマーの写真(wikiの)みたら、 すげーブさいくな希ガス。
392 :
132人目の素数さん :2010/03/04(木) 17:29:55
くまーは自称イギリス貴族の会社オーナーだ 詳しくは代数的整数論のところへ行け 健闘いのる ただしケツには注意しろよ
>>388 もうちょっと詳しく書くと、
回帰モデルの係数推定などで、
残差を正規分布と仮定しているときには、
一致する、ということなんだが、
そもそも異なる考えに立脚しているものだから、
やはり、「最小二乗法は最尤法の一種なので、、、」
という説明は、正しいとはいえないと思うな。
でも、実際に分析するときには、一致することが
多いから、まあそういうふうに説明したがる人も
いるみたいだけど。
数学的な立場からは、厳密には異なるものだ、
といっていい。
394 :
ごろ :2010/03/05(金) 01:06:32
>>388 いま、ちょいと数式をいじってみた。
Bochner's theoremが使えるかと思って
ちょとだけ考えてみたが、やはり最小二乗法と最尤法は
異なる系である。(同形にもできないし、強い仮定がないと近似もできない)
よって数学的には別のものであると断定できる。(と思う)
一致するのは、例えば、前に書いたとおり残差が一致するとか、
の場合だが、あまりに仮定が強すぎて無理やりのような希ガス。
しかし、実際のデータは残差が正規分布することが多い、
というのが勘違いの原因のひとつだと思う。
>>395 ちょっと教えてくれろや。ワシが知るボホナーっちゅうたらやナ、
ボホナー矢野の定理とボホナー積分しかないのや。そやしアンタ
が言わはるボホナーっちゅうんは何やねん? ワシにも教えてや!
猫
>>396 猫しゃん。
私は数理統計は専門じゃないでつけど、
伊藤清「確率論」の36ページの定理8.1(S.Bochner)までを
読んでくだしゃいましまし。
猫しゃんも数理統計はご専門じゃないので不思議と思うと
妄想してまつけど、実は確率論とか数理統計ではよく参照される
重要な定理なんでちゅ!
よろしこでちゅー!
つか、猫しゃんにつっこまれて嬉しいでつー!
ハアハアしそうでつ!
>>392 ああああ!
代数的整数論のスレで、クンマーしゃん発見ーーー!
私は目が悪いので、なかなかスレも読めないので、
気がつかなかったでつー!
むかしのドイツの数学者もちだして
いったいなんの話だろうと思って、???状態だたですー!
しかし、ケツには注意しろとはいったい???
もしかすて、オカマでつか?
わたしゃそういう趣味はありましぇん!(きっぱり!)
また鬱鬱になてきた ねるかな
説明がわかりにくくて申し訳ありません。 オリコンランキングやTUTAYAランキング等の1位から10位までの曲を元にして それらを集約した新たなランキングを作成したいと思っているのですが 統計的に正しい集約手法を教えて頂けないでしょうか?
まずオリコンとTUTAYAにランキング指標の算出方法を聞く 次に両者の指標の単位を合わせて足し算する 終わり
誰か教えてくれたら嬉しいです。 ある地域の小学校低学年の睡眠時間は、平均8時間30分、標準偏差は30分でした。 無作為に選んだ25人の小学生の睡眠時間の平均が8時間15分から8時間42分に入っている確率を求めなさい。 という問題の解き方が一切解らないのでご指導いただけたらと思います。
>>400 順位をあらわす番号は、(絶対的にも相対的にも))量を表さないから
順位そのものを優秀さの根拠にするためには
量を問題にしないように、優秀さを定義しなくてはならない。
または順位が両そのものを表すように変換しなくてはならない。
>>400 言い方は乱暴だが、
>>401 のようにするのが適切。
すなわち、順位の元になっているポイントが分からないといけない。
それがないなら
>>403 の言うように変換が必要でどんな変換がいいのかは
簡単には分からない。(逆数変換が一つの手ではあるが)
ポイントが分かったなら
>>401 は単位をそろえろと言っているが
これも簡単ではない。単に偏差値を用いることはできるが、
重要度で重みづけするとすると重みをどうするかの問題が残る。
405 :
132人目の素数さん :2010/03/07(日) 10:34:19
質問です。 20個の変数(X1、X2、・・・、X20)が互いに独立で、正規分布に従うランダム変数と仮定して、エクセルで期間1、2、・・・ごとに エクセルで「=NORMINV(RAND(),0,1)」を使って正規乱数を発生させています。 ↓こんなイメージ X1 X2 X3 ・・・ X20 期間1 -0.57 0.01 1.03 0.31 期間2 1.01 -0.39 0.01 -0.82 ・ ・ ・ 乱数の発生の仕方でX1+X2+・・・+X20=0という制約条件を加えることは可能でしょうか。
作るのは「新たなランキング」なのだから TUTAYAなどが順位の元にしているポイントなど知る必要はない。(必要条件でない) 403の言うように、なんらかの優秀さの根拠があれば十分で TUTAYAなどと同じ量を規準にする必要はないのである。 たとえば、 「(TSUTAYAトップテンに登場した回数)のトップテン」を作ることを考えればわかりやすい。 これなら順位すら必要でなくなる。 また、これが優秀さの指標にはまったくなっていないと言う人も少ないだろう。
>>405 エクセルでは乱数の発生法そのものをかえることはできないので
その制約になるように、乱数でないものを混ぜるしかないと思う。
たとえば、ひとつ乱数を作って使ったら (1-その乱数)も使うようにするとか
408 :
405 :2010/03/07(日) 11:23:02
>>407 さん
ありがとうございます。
もしかして専用の統計ソフトを使うなどすればこのような処理も可能になるのでしょうか。
そうやってコントロールしたものを乱数と呼ぶのに抵抗がないなら可能だと言うしかないが
(もちろんエクセルでもそのような操作は可能
>>407 のようにも他の方法でも)
たとえば、n個のデータがあり、n-1個が決定すれば最後の1個は自動的に決定してしまう。
このような数の集合を乱数と呼べるだろうか?
410 :
ごろ :2010/03/07(日) 13:06:38
>>405 良く分からンですが、
単純に、乱数20個発生させてから、その乱数の総和Sを計算して、
X1/S-1/20で補正してやればいいんじゃないかな?
ちょっと教えておくれ・・・。 「帰無仮説」ってのは捨てたい(採用したくない)仮説だよね。 その仮説を採用しない確率が有意水準(α=1%とか5%) それじゃ、採用する確率が99%とか95%ってこと?わけわからん・・・。
「採用しない確率・採用する確率」と考えると納得できないのも無理はない 「この仮説を採用したとして、それが間違っている確率」が5%とか1%と考えると 合点がいきやすいのでないか?
413 :
132人目の素数さん :2010/03/07(日) 17:00:47
414 :
ごろ :2010/03/07(日) 17:35:01
>>412 ベイズ的にはそれでいいかも。
そうじゃないなら、仮説を採用したら、その仮説は間違っているか当たっているかのどちらかってつっこまれるよ。
> ベイズ的にはそれでいいかも。 どのあたりがベイズ的なの? ベイズってそういうもんなの? どの本の何ページに、そういうことが書いてあったの? または誰かに聞いたの?
416 :
132人目の素数さん :2010/03/07(日) 23:40:14
>>411 「採択したくない」仮説を帰無仮説に持ってきているのなら、帰無仮説を「棄却すること」が検定の目的と考えちゃえばいいんじゃないかな
有意水準が1%で
検定したい実績値がその中に入ってる→帰無仮説を棄却
っていうのは
「仮に検定統計量が帰無仮説の分布に従っているのならば、この実績値が生起し得る確率は1%以下である。だからこの検定統計量は帰無仮説の分布には従っていないと言える」
って意味なんだと思うよ
逆に帰無仮説を採択するっていうのは
「仮に検定統計量が帰無仮説の分布に従っているのならば、この実績値が生起し得る確率は1%以下でない。だからこの検定統計量が帰無仮説の分布に従っていないとは言えない」
って意味なんじゃないかな
>>413 事務職でSPSSなんか使うとは思えないけど
たんにデータの打ち込みやらされるだけでないのかね
SPSSによる統計入門的な本でいい気がする
>>417 レスありがとうございます。
医療系の専門職の人が集まる部署です。
SPSSを触ったことがないのですが、どうやらデータの入力とか
データをダウンロード?して加工するみたいな業務みたいです。
データの加工業務でも、頼まれたときに統計の知識がないとダメかなと思って
色々本を買ってしまいました・・・
SPSSとタイトルにある本だと、統計の基本知識はある程度あることが
前提で書かれているのかなと思って、純粋に統計入門みたいな本で考えてました。
>>413 あれこれと手を広げてもダメです。 苦手ならなおさら。
内容的にはいまもっている(2)でも十分ですよ。
とりあえずは、流すだけでもいいですから、全部読みきってみましょう。
2度目は、先のほうに何が描いてあるのかの予備知識があるのですから
話がどこに向かっているのかがわかりやすいので理解もしやすくなっています。
理解を深める読み方をするのは、読んでわからないところが何もないところまで
にして、最初に出てきたわからないところはしっかり考えましょう。
それでもわからなければ、その先は流して読む。
それを繰り返せば、だんだんとわかるようになります。
>>406 ポイントは必要条件ではないが、あった方が楽だ。
トップテンの回数という場合、いきなり1位になって次はもう11位以下
となるのばかりだと区別がつきにくいし、10位-10位という方が優れているのか
というと疑問が出てくる。ポイントがあれば合計で比較すればいいのだが、
順位しかデータがないと扱いづらい。
さらにトップテンに入ったか入らなかったのかというデータだけで
順位データがないとそういったことすら見えなくなるのでさらに困る。
順位があるならトップ30にするとか修正が可能だが、
何位ぐらいまで見るとよいのかという問題は難しい。
優秀さの指標として全く使えないわけではないが、
どうすればよりよくなるのかは試行錯誤だな。
「楽、辛い」 は主観なのでここでは考えない。 必要条件でないことを理解しやすいために作った例よりも 優れた集計法についての感想を、誰かが必要としているのか?
422 :
ごろ :2010/03/08(月) 03:55:17
>>415 問題提起ありがとうございます。
ちゃんとした文献は紹介できませんが、
Webでこのような記載は良く見かけたので間違って理解していたのかもしれません。
この機会にちゃんと理解したいです。
http://www.qmss.jp/appstat/contents/bayes/ ちなみに、次は検定の理解に役立つと思いました。青木先生のHPからの抜粋です。
スネデッカー・コクランの「統計的方法」岩波書店の,7ページに,
標本が抽出される前に我々は,予期される信頼判定が真である確率を定めること
ができる。すなわちつぎのように言うことができる。
「自分は無作為標本を抽出し,それによって区間推定を行う。
そのときの区間が母集団比率をおおう確率は0.95である」と。
しかしながら,標本が抽出されたのちでは,
信頼判定は真であるか偽であるかのどちらかである。
したがって,ボーン郡での標本抽出の結果を報告するにあたって,
「1950年のボーン郡の噴霧農家の数が345と 736の間にある確率は0.95である」
といえば誤りになる。
この論法は難解であるが,信頼区間判定の有効性を弱めるものではない。
信頼判定をある場合に適用したとき,その判定が正しい95%の判定の一つ
であるか,あるいは誤った5%の判定の一つであるかは知るわけにはいかない。
>>422 ごろさん、こんにちは。
観測値はあくまでも確率変数であって、
分布からとってきたもの、というのが非ベイズ。(x=f(θ))
とってきた観測値は、もはや確率変数ではなく
確定値であるから、そこから母数を推定しよう、
というのがベイズ。(θ=f(x))
という面から、ベイズを理解しています。
間違ってますかね?
なんというか、そのスネデカー&コクランの説明も、
そのように読めますデスー!
>>423 アンタな、ソンなカキコをしたら自分の専門が皆にバレるよ!
ほしたらや、個人特定なんてスグに出来るんとちゃうかァー
そやからいっその事や、もう自分から吐いたらどうや? ナ。
猫
425 :
132人目の素数さん :2010/03/08(月) 12:30:49
陰性=統計学で31歳
>>425 「35歳までに何年アルか?」への返答からソレは既に明白。
またレスの内容から数理統計関係と予想。精々確率論関係。
なのでソレも既に明白。だから追加情報にはナリマセンな。
猫
統計やってる31才ですか。。。 それはもうばっちり当たってますね! さて、コクランを読みますかね。。。 なんちゃって!
428 :
413 :2010/03/08(月) 12:45:25
>>419 ありがとうございます!
そうですね、とにかく流すだけでもい全部読み切ってみます。
>>427 しかもアンタは関東圏やろ、恐らくやけどナ。
そやからアトは虱潰しでアンタが誰かが判るがな!
そやし自分から吐けや、楽になるゾ!
ちょっとやってみ!
猫
>>427 コラァ、どうせ見とるんやろ! ソヤシちょっとワシにだけ言うてみいやナ。
他の奴には黙っといたるさかいナ。
猫
これからバイトだから 猫相手してる暇ないの。。。
>>431 当店と致しましても、是非とも貴方様の所属とお名前を控えさせて
戴きたいと考えて居ります。お客様のご都合の良い時で結構ですか
ら是非とも一度当店にご来店戴き、当店特製の焼却炉をお試し戴き
たいと存じます。尚、お試しの際には棺はご用意戴かなくても結構
ですから、お気軽にご用命下さいませ。
バイトのお帰りの後にお待ち申し上げますので、次回のバイトは
キャンセルなさってからお越し下さい。
猫商店店主
自分から名乗るのが最低限の礼儀じゃないのか?
>>393 最小自乗法は最尤法の一種ですよw
そんな基本も分からないなんて
>>418 本屋に行けばいくらでも医療系の統計の本はありますよ
>>422 検定しているつもりなんだが、95%とか90%の数字の大小が気になる人多いですよね
その考え方が間違えだってことです
>>421 作業の程度の問題なら主観だが、
ポイントがなければ何らかの方法を考案しなければならないし、
その妥当性も検討しなければならないことを考えると
ポイントがある方がよいという方向性は客観的なものだ。
それともポイント総計より今回の例の方が優れていると
主張するのだろうか?情報量の損失の観点から無理だと思うが。
まあこれ以上は元の質問者が帰ってこないと意味がないのは確か。
438 :
132人目の素数さん :2010/03/08(月) 19:34:55
>>434 > 最小自乗法は最尤法の一種ですよw
馬鹿すぎて誰も相手してくれないから2chにきてるんだね。
笑える。
439 :
132人目の素数さん :2010/03/08(月) 23:56:21
>> 423 とってきた観測値は、もはや確率変数ではなく
確定値であるから、そこから母数を推定しよう、
というのがベイズ。(θ=f(x))
理解しているのか理解していないのかわらかないようなザックリとした説明ですね。
ベイズと非ベイズを論ずるのであれば、
ベイズは母数を含む未知のもの(主観的なものも含む)を確率分布をもちいて確率的にとらえ、
サンプル(データ)はあくまで固定されている。
非ベイズでは、サンプルは何度も繰り返し同じ条件下で採取可能と考えらる為そこから確率分布
が生じるが、母数自体は常に一定である。
くらいの最低限のこと書けませんか?
ベイズの説明でθ=f(x)って,
>>423 の書き方だったら、左辺の母数は確率変数で右辺は実数
になりますよね。院生なのにザックリしすぎてませんか?
サンプルより母数が定数か確率変数かが問題。
441 :
132人目の素数さん :2010/03/09(火) 02:22:32
>>440 サンプルが固定されて母数が確率変数がベイズ。
サンプルが確率変数の集合で母数が定数が非ベイズ。
Frequentistの確率分布はサンプルによってのみ決まるので、
>>サンプルより母数が定数か確率変数かが問題
という言い方は、ベイズと非ベイズ両者の違いをを説明する上では
不十分ですよね。非ベイズに言わせれば、サンプルの確率分布こそが
推定の基盤ですので。
442 :
132人目の素数さん :2010/03/09(火) 03:29:05
教えて下さい。 ある集団に対して行ったアンケートを元に因子分析を行いました。 この時、別の集団に対して同じ項目で行ったアンケートに対しても 因子分析を行った場合、データによっては 目的変数の項目も数も異なったり、導き出す説明変数が変わる場合も あると思うのですが、これを集団の性質が異なるからだとみていいのでしょうか? これについて何か参考になるポインタなどありましたらご教授下さい。
443 :
ごろ :2010/03/09(火) 04:29:30
エラい人、教えて下さい。 ピアソンの相関係数を求める時、二つの変数は連続変数でないといけないと思います。 例えば、勤務日数が変数とすると、勤務日数の平均値は連続変数になると思いますが、 その元の値は、整数値しかとらないので連続変数ではありません。 この場合、勤務日数の平均値を連続変数とみなして、 ピアソンの相関係数を求めることに何か問題は生じるでしょうか? よろしくおねがい申し上げます。
ド阿呆の陰性っちゅうんは何処へ消えたんや? 猫
445 :
132人目の素数さん :2010/03/09(火) 07:08:49
>>395 最小二乗法と最尤法の違いでBochner-Khinchinって本気じゃないですよね。
>>いま、ちょいと数式をいじってみた。
なんの数式かしりませんが、数式いじる必要ありませんよね。
最小二乗法により推定量を求めるにあたって分布を仮定する必要ありませんが、
分布を仮定しなければ最尤法は成り立ちませんから。
確かに、最小二乗法の平均と分散の推定量は正規分布を仮定した最尤法の
推定量は同じになりますが、これは正規分布が一次モーメントと
二次モーメントにしか依存していない確率分布だからですよ。
三次以降のモーメントが0ではない確率分布だったら、同じにはなりませんよ。
数式以前に、コンセプトが違いますから。
わたしのような学部生につっこまれないよう勉強してくださいね。
446 :
132人目の素数さん :2010/03/09(火) 09:14:28
はあ?
>>438 434は合っているよ
最尤法の表面的なことしか理解できていない人は、434を間違いだと思う
>>440 母数は定数ですよね
それを定数と思って推定するか、確率変数だと思って推定するか、でしょう
>>443 基本的な統計の本を1冊読むのをおすすめします
お手軽なところで
統計数字を読み解くセンス―当確はなぜすぐにわかるのか?
青木繁伸
などどうでしょう
>>445 >
>>395 > 最小二乗法と最尤法の違いでBochner-Khinchinって本気じゃないですよね。
>
> >>いま、ちょいと数式をいじってみた。
> なんの数式かしりませんが、数式いじる必要ありませんよね。
> 最小二乗法により推定量を求めるにあたって分布を仮定する必要ありませんが、
あります
> 分布を仮定しなければ最尤法は成り立ちませんから。
> 確かに、最小二乗法の平均と分散の推定量は正規分布を仮定した最尤法の
> 推定量は同じになりますが、これは正規分布が一次モーメントと
> 二次モーメントにしか依存していない確率分布だからですよ。
ここは意味不明
> 三次以降のモーメントが0ではない確率分布だったら、同じにはなりませんよ。
> 数式以前に、コンセプトが違いますから。
コンセプトは同じです
やれやれ
数式を変形するだけで統計が分かった気になるのはやめてくれ 学部生でも
452 :
132人目の素数さん :2010/03/10(水) 22:48:39
>>443 エラくない人だけど、相関係数の定義対象は整数でもOKですよ。
分散と共分散が定義できて、それに意味があれば良いだけです。
あと勤務日数は、1.3日とか、3.8日とかもありますよね。
遅刻・早退・残業とかの時間数(時・分・秒・・)も入れて測れば、、、
現実データで「実数」と呼んでるのも皆同じで、単に有効精度の問題にすぎないです。
>>452 計算はできるけど、それに意味があるかは別の問題
454 :
ごろ :2010/03/11(木) 02:45:54
>>452 >単に有効精度の問題にすぎないです。
なるほど、納得の考え方です。
確かに、何か検査しても測定限界を考えると厳密には連続変数ではないですね。
でも何かの教科書で、こういうのは連続変数ではないという記述があったような気がした。
ちょっと調てみる。
455 :
ごろ :2010/03/11(木) 07:58:12
mixed modelでR2 Statistics(寄与率・決定係数)を出す方法を探しているんですが、 誰か教えてください。
456 :
132人目の素数さん :2010/03/11(木) 08:49:03
>>455 mixed modelってなんですか?
>>455 どの本を読んでいるのか、それを紹介してくれ
あと、生物板や医療系の板にも統計スレあるから
そちらをおすすめ
ここはあなたを手取り足取り指導することはしないから
458 :
132人目の素数さん :2010/03/11(木) 09:57:17
>>457 おまえ、馬鹿なんだから他の板へ行け。
算数もできない馬鹿(笑
460 :
ごろ :2010/03/11(木) 11:42:27
461 :
ごろ :2010/03/11(木) 13:09:46
全然関係ないですがAICの赤池先生はお亡くなりになられたんですね。 でも日本人の名前を冠する指標があるというのは誇りでもあり、刺激になりますね。
464 :
132人目の素数さん :2010/03/12(金) 07:02:09
465 :
132人目の素数さん :2010/03/12(金) 07:24:06
SPSSを使って医療系分析をやってるところ。 ここ数ヶ月でバイトがはいったところは2社しかない。
466 :
132人目の素数さん :2010/03/12(金) 08:54:52
>>445 モーメントの件は間違いです
よく言ってる事がわからないですが、正規分布の場合3次モーメント以降の奇数モーメントは0ですが偶数モーメント
は0ではありません
コンセプトが違うという事には同意しますが、もっと勉強がんばってください
>>450 >>445 が最小二乗法が分布の仮定を必要としないと言ったの正しいです
線形回帰と仮定して、推定量だけなら、min sum(y-a-bx)^2の解なのでそれを求めるのに分布は
必要ありません
ただ、推定量の分散を求め更に信頼区間などを求めるには、残差の2次モーメントまでの仮定が必要ですが、
それでも分布を指定する必要はありません
2次モーメントまでの仮定を加えると、この推定量はBLUEになります
残差の二次モーメントだけではなく分布を完全にしていしなければ、最尤法使えません
最小二乗法と最尤法は違った手法です
同じになるのは、残差が独立であり正規分布を仮定したときのみなので、そのほかの分布
の時は2つの方法は異なります
残差の二乗の和を最小化するのと、尤度関数を最大化する事は上記の例以外は別物です
最小二乗法が分布を指定しない数学的解法であり、確率分布を考慮する最尤法は統計的手法といったところでも
2つの方法は別物です
乙。そこまで書いて教えるのが面倒だからスルーしてたw
468 :
132人目の素数さん :2010/03/12(金) 11:22:13
>>466 ご苦労さまです。
「最小自乗法は最尤法の一種」というのでググったら、
ブログありましたね。
それを書いている奴じゃないかな?
すでに、そのブログ閉じてるみたいですが。(笑
469 :
132人目の素数さん :2010/03/12(金) 11:31:19
test
470 :
132人目の素数さん :2010/03/12(金) 17:49:03
>>466 計算だけしか知らないとそう思うのだろうけど
最小自乗法は最尤法の一種ですよ。
最尤法ってどういうものか、っていうのが理解できていない人は
わかんないかもしれないね。
計算だけできても統計学は分かったことにはならないよ。
否定派が必死だけど、実は min sum(y-a-bx)^2の導出の背景が分かっているかどうかじゃない?
>>466 は惜しいところにいってるんだよな
> 最小二乗法と最尤法は違った手法です
> 同じになるのは、残差が独立であり正規分布を仮定したときのみなので、そのほかの分布
> の時は2つの方法は異なります
1)それ以外のときに最小自乗法を使っていいの?
2)最尤法の定義式から初めて、残差の仮定を加えるとmin sum(y-a-bx)^2が導出できる?
最小二乗法が最尤法の一種なら別に名称は要らないと言うことだよね? 非線形最小二乗法や重み付き最小二乗法はどうなるの?
475 :
132人目の素数さん :2010/03/13(土) 01:11:03
ある女子集団の身長の平均値が157.0、標準偏差が5.0。 身長が150以下または164以上であったものは、多くとも全体の何パーセントであると考えられるか。 初歩的な質問かもしれないけど教えてください。 下痢がひどくて過去レス調べる余裕ないです!!!!!!!!
476 :
ごろ :2010/03/13(土) 03:13:01
>>475 Rでやってみた。
この助士集団が正規分布していると仮定して
> (1-pnorm(164, mean=157, sd=5))*100
[1] 8.075666
150も164も157からちょうど7cmずつ離れているので
上記結果を2倍して
答え16%
これでいいかな?
477 :
132人目の素数さん :2010/03/13(土) 08:51:25
>>471 否定派がどちらかは知りませんが、その通りです
最小二乗法は16世紀には天文学でもう使われていました
19世紀になってGaussが最小二乗法に二次モーメントまでの仮定を加えて、最小二乗法によって
もとめられ推定量の特性を導き出しました(Gauss-Markov Theorem)
一方、尤度関数は19世紀末になってでてきて、Fisherによって20世紀になってから広められました
つまり、最小二乗法によってもとめられ推定量の特性は最尤法以前からしられていたものです
最尤法なる方法が現れ、残差の独立、正規分布、等分散という仮定をしたら(そのときだけ)、最小二乗法と最尤法
から導き出される推定量が「一致」した、ということです。
もし、「最小自乗法は最尤法の一種」というのであれば、最小自乗法は尤度関数なしには成り立ちませんよね
なぜなら、全ての最尤法は尤度関数を最大化することではじめて導き出されるのですから
しかし、Gauss-Markovが示す様に、最小二乗法によってもとめられ推定量の特性は尤度関数など使っていません
最小二乗法をタダの操作だと思っている人がいるのかな? そこが誤解の始まりだと思う
>>474 名称は必要
トラックは自動車の一種です
わかる?
>>477 歴史はどうでもいいのです(苦笑)
>>472 の指摘するように最尤法の定義から最小二乗法の式が導出できるのです
それが理解できているかどうか
最尤法そのものの理解が間違っているんじゃない?
>>480 同意
歴史に気を取られている人は本質が見えていないと思う
最尤法がすぐれていると思い込んでいる最尤推定オタクの臭いがする
482 :
ごろ :2010/03/13(土) 10:36:54
>>477 いや私のような素人にはとても分かり良い説明でしたよ。
メールでこの話題を教えてもらったのだが、
>>477 おまえさんは分かってないと思う。
歴史的経緯は関係ない。数学的に考えろ。
必死に最小自乗法は最尤法じゃないと否定している人は 最尤法も分かってないんじゃないかなあ。 形式的な理解しかしてないように思う。 手を動かして考えてみればいいのに。
で結局、非線形最小二乗法については誰も教えてくれないんだね。
>>485 正規性の仮定の下でそれを否定している人はいないと思いますが?
また、正規性が仮定できないときも最小自乗法は最尤法だと主張される方も
いないでしょう。
すなわち、最小自乗法を正規性が仮定できない場合も使ってよいのか
どうかの議論だと思います。
488 :
132人目の素数さん :2010/03/13(土) 21:03:41
>>487 あんまり馬鹿相手にしないほうがいいでつよ。
疲れるでそ?
まあ、見てるほうは面白いけど。
489 :
132人目の素数さん :2010/03/13(土) 21:36:18
>>476 エセ統計学を履修した文系の学部生が横槍してみるけど、この問題はチェビシェフの不等式を使うと思うんだ。
490 :
ごろ :2010/03/14(日) 00:38:35
492 :
132人目の素数さん :2010/03/14(日) 06:54:03
493 :
ごろ :2010/03/14(日) 08:31:33
>>489 でも正規分布しているという仮定ができなかったらチェビシェフしかないのかな。
494 :
132人目の素数さん :2010/03/14(日) 08:32:05
>>481 おもしろ〜
最乗二乗法が最尤法の一種だったら最尤法がのほうが優れてねぇ?
495 :
sage :2010/03/14(日) 08:32:25
>>490 どっちがアバウトだよw
この典型的な問題を見てチェビシェフが使えないってことは、もしかして大数の弱法則さえも満足に証明できなかったりするんじゃね?
「多くとも」という問題文から考えてチェビシェフでFA。
497 :
ごろ :2010/03/14(日) 13:52:27
>>493 チェビシェフ
Pr(|X-μ|>=kδ)<=k^-2
設問より
kδ=k*5=7 よってk=1.4
よって
Pr(|X-μ|>=7)<=(1.4)^-2=0.51
よって答えは51%ってことでしょうか?
498 :
ごろ :2010/03/14(日) 14:10:07
>>495 アバウトと書き込んだのは、
たとえばXが正規分布しているのにチェビシェフを使うと
Pr(|X-μ|>=kδ)<=k^-2
単純化するために μ=0 δ=1とすると
Pr( |X| >= k ) <= k^-2
例えばk=1.96の時を確かめてみると
Pr( |X| >= 1.96 )=0.05 <= 1.96^-2=0.26となり
5%と26%と差があるのではと思ったからです。
問題の意図が女子学生の身長の分布に何の仮定もできないのであればチェビシェフが良いと思います。
>もしかして大数の弱法則さえも満足に証明できなかったりするんじゃね?
算数を専攻したことがないんでそういう証明をした経験はありませんが、
統計ソフトが使えるだけでは物足りないのでもっと根本から理解したいとは思っています。
今後ともご指導宜しくお願い致します。
実際Mixed Modelを理解するために行列をまた勉強し直さなきゃと思っているところです。
499 :
132人目の素数さん :2010/03/14(日) 21:33:23
わぁ〜 最小二乗法が最尤法の一種って、レベル低っ
ってことは、線形回帰くらいしかしらないんだ
残差が独立って、時系列ではありえなくねぇ?
どんだけ狭い範囲で議論してるんだよw
>>487 GLMって知ってるよね
最小二乗法が最尤法の推定値ちがうけど
>>499 GLMはもちろん知っています。
それは正規性が仮定されない場合なので最尤法の一種だとする提案者は
範囲外だとおっしゃるかと思います。GLMで最小自乗法を使うのは邪道だと
言われるのではないでしょうか?
日本語のWikipediaも英語版と違って雑な説明のようですから
提案者の考えのような人は多いのかもしれません。
(提案者がWikipediaを編集していたのなら別ですが。)
501 :
132人目の素数さん :2010/03/15(月) 08:20:02
GLMって、残差に相関があるとき 使うんじゃなかったでしたっけ? 正規分布っていう仮定あったかな? 忘れた。。。
略語はややこしいですね。 私はGLMを一般化線型モデルの意味で答えました。 一般線型モデルなら正規性ありで相関も考えますね。 こちらで最小自乗法を使うことはあるのでしょうか?
>>487 使ってはいけない場合に使っちゃう人がいるのは
手法の責任でもなんでもないよ。
そこから抜けられないのは視野が狭いとしかいいようがない。
>>499 残差が独立っていうのは時系列でもありえますよw
どういう時系列データなのかによるから 時系列というだけでは残差独立を肯定も否定もできないけど
ひょっとして最尤法の一種だ、っていう表現が理解できていない? 最尤法にさらに仮定を加えたときに最小自乗法と等価なモデルが出せる、という意味だと思うけど まさか最小自乗法がより広義の最尤法と同一だという主張でもないでしょ。
>>501 そのあたり、よく間違える人が多いけれども、
残差に相関があっても使える、というだけ
無相関のときに使ってはダメであるということはない
制限が弱い手法と制限の強い手法では
後者が使えないが前者が使える場合があるというだけ
GLMも人によって指すものが違うよね
>>506 そういう可能性はあるかな、と思った
あと、最小自乗法を使っている人の多くは本当にその手法が使えるかどうか
その確認を怠っている人が多いのだが、それを手法の内容とは関係ないのに
無理やり結び付けてる感じ
最尤法が大好きで他の手法をバカにしてる、って印象
>>509 なぜそう思うのかが疑問。
最小二乗法が最尤法の一種なら最尤法の方が優越であり、
そういう人たちからは文句は出ないだろう。
一種じゃないという人たちは最小二乗法には他の使い方もあるという
ように感じるが。
大体数学的には最小二乗法は単にフィッティングであり、
分布と関係なく議論する余地が残っている。
これがコンセプトの違いであり、歴史的背景でもある。
511 :
132人目の素数さん :2010/03/15(月) 20:07:05
最小二乗法も、 最尤法も、 ソフトにおまかせして 何も考えてないおれが通りますよ。
最小二乗法を単に計算だと思って使っている人は多いと思う あやしげなデータ処理をしている研究者が多いということ
>>510 優越とかそういうのにこだわっているようでは、、、
>>510 > 大体数学的には最小二乗法は単にフィッティングであり、
数学が分かってないねえ(笑)
君は一般化逆行列とか、ちゃんと分かっているのかねえ?
>>513 こだわっているのではなく事実を述べているだけ。
実際包含関係にあるなら「最小二乗法で解きました」という表現は
不要になる。まあ俺はそう思ってないけどね。
>>514 コンセプトの話をしているのに分かっていないのはどっちだろう。
もしかして歴史なんて不要と言っていたのと同一人物かな?
516 :
132人目の素数さん :2010/03/16(火) 02:24:51
統計スレが伸びてるねー。 めずらしいことじゃないか?
517 :
132人目の素数さん :2010/03/16(火) 07:39:16
>>510 は
>>515 ?
同意
最小二乗法が最尤法の一種という人は最小二乗法やGauss-Markovの意義を理解していないという印象
>>506 最尤法にさらに仮定を加えたときに最小自乗法と等価なモデルが出せる、という意味だと思うけど
これって反対ですよ
最小二乗法に正規性、等分散、さらに分散値が既知(ほぼあり得ないですが)の仮定を加えたときに
尤度関数を最大化する事と残差の二乗和を最小化する事が一致するということです
>>513 >>510 が言わんとすることがまさにこれじゃないですか? 単純な優越などつけられないですよ、
ふたつの手法は異なる仮定の基に成り立つ別物なんですから
>>514 君は一般化逆行列とか、ちゃんと分かっているのかねえ?
難しいこと言ってみたつもりですか? っていうか知らない人いるんですか?
最小二乗法は最尤法によって20世紀に編み出された手法だとでも?
最小二乗法理解していますか? Gaussが1次と二次のモーメント仮定を加えるまで最小二乗法に
Stochasticな要素は一切ありませんよ
>>510 が言う様に単なるフィッティングです
>>514 一般化逆行列とか、そのランク落ちの意味とか
そこまで知って最小二乗法を使っている人は少ないだろうね。
でも、ここは数学板なので、ちゃんと勉強してから発言してほしいと思う。
>>515 >
>>513 > 実際包含関係にあるなら「最小二乗法で解きました」という表現は
> 不要になる。
えー、論理学も分からないレベル?
>>517 >
>>506 最尤法にさらに仮定を加えたときに最小自乗法と等価なモデルが出せる、という意味だと思うけど
> これって反対ですよ
> 最小二乗法に正規性、等分散、さらに分散値が既知(ほぼあり得ないですが)の仮定を加えたときに
> 尤度関数を最大化する事と残差の二乗和を最小化する事が一致するということです
えー、最小二乗法っていうのは正規性、等分散、さらに分散値が既知っていうときにしか使えないものです
(数学板の議論のレベルでは)
そこを誤解してない?
逆問題の勉強とか、最近の院生はしないの? 最尤法が何か、理論的に理解していない人には難しいかもしれないかな。 歴史的には最小二乗法は最初は単なるデータフィットの道具であったのは事実。 それが(ある条件のもとでは)最適なフィットであることが その後、数学的に示された。 これとは独立に、データを説明するモデルを求めるという問題を考えるなかで 最小二乗法がある意味、再発見されることになった。 広く分類すれば最尤法の一種で、特殊な例であるという位置づけ。 上で誰かが書いてるけど、最尤法の枠組みからmin sum(y-a-bx)^2の導出ができるから。
>>519 バカにしてやるな
本人は皮肉のつもりで書いているのだろうから
524 :
132人目の素数さん :2010/03/16(火) 19:48:58
>>518 一般化逆行列とか、そのランク落ちの意味とか そこまで知って最小二乗法を使っている人は少ないだろうね
基本は大切ですよね
>>520 酷い理解力ですね
Gauss-Markovは残差の分布は関係ありませんよ
tー分布であってもDooubel Exponentialであっても、最小二乗法は使えます
そして、それによって求められた推定量はBLUEです 理解出来ない人多い様ですが
もともと最小二乗法は分散などという概念など考慮されてできたものじゃありません
だからこそ、最尤法とは別物なんですが
525 :
132人目の素数さん :2010/03/16(火) 20:21:30
あのー、授業では、最小二乗法は等分散を仮定 している、とか言ってたんですが、 それは間違いですか?
方法の包括関係と、登場した歴史の順に なにか関係があるのか?
>>525 ん?t分布を仮定してももちろん等分散だが?
>>526 誰もそんなことは言っていないが?
それは定積分と不定積分も考えてみるとよい。
>>527 > 誰もそんなことは言っていないが?
あそ。
>>477 なんかはそういっているように見えたが、オレの誤読か。
>>528 >>524 を挙げるならともかく
>>477 からはそこまでは読めない。
前者では分散を考慮しなかったと書かれているが、
歴史的背景のことだろう。一般的には分布は正規でなくても
等分散は仮定する方がよい。(仮定しなくても使えるが、
フィッティングの観点からもよいとは言えない。
重み付き最小二乗法などを使うべき。)
530 :
132人目の素数さん :2010/03/17(水) 07:50:51
>>477 のポイントはむしろ最後の部分
背理っぽいね
531 :
132人目の素数さん :2010/03/17(水) 08:25:55
>>527 t分布を仮定してもというのは
最小二乗法の残差をt分布で仮定しても残差は
等分散になるという意味でしょうか?
もしくは、最小二乗法では残差がどんな分布をしていていも、
等分散を仮定している、という意味でしょうか?
そうすると、残差が等分散から離れるときほど、
そのデータには最小二乗法は使わないほうが
いいということですよね?
最尤法の場合には、分布を仮定しなければいけないのですけど、
分布さえ仮定できれば、残差の等分散はあまり関係ないというか、
残差は等分散じゃなくても全然OKということなんでしょうか?
532 :
132人目の素数さん :2010/03/17(水) 11:30:54
最小自乗法をただのフィッティングだと信じ込んでいる人には
何を言っても通じないかもしれないねえ、と思ってきた
>>524 算数としては計算できるけど、それが「統計学」的な意味があるかの問題ではないかと思います
等分散でないときは重みつき最小自乗にすればよいだけ 正規分布でないときはそれでも使えないけどね
534 :
132人目の素数さん :2010/03/17(水) 13:15:30
>>532 > 最小自乗法をただのフィッティングだと信じ込んでいる人には
> 何を言っても通じないかもしれないねえ、と思ってきた
だねえ
Gauss-Markovから抜けられない人が必死みたいだけど
頭固いなあ
Gauss-MarkovはGauss-Markovでいい筋だと思うけど。
536 :
132人目の素数さん :2010/03/17(水) 13:37:35
以上、結論としては、統計学では立場が違うと いがみ合いが激しい、というのがわかりますた。
なにやらわかりやすい自演が繰り広げられていて関わりたくないが、一応聞いておく
>>521 >広く分類すれば最尤法の一種で、特殊な例であるという位置づけ。
どういう基準で分類すれば、最小二乗法が最尤法の一種になると言えるの?
>>531 >>527 ではないが。
質問の意味がよくわからないが、最小二乗法を実行するためにはモデルが特定化されていればよい。
例えば y= a+bx+e としよう。これだけで最小二乗推定量を計算することはできる。
しかし、その推定量が望ましい性質を持つためには、いくつかの仮定が必要だと言うこと。
その仮定の一つが「等分散」なんだけど、それはt分布でもいいでしょ、ってことだよ。
自演に見える? 少なくともおれ以外にもうひとりかふたり居るよ 逆問題っていうのは統計学の範疇におさまる問題ではないので ここではすれ違いな感じもしてきた
539 :
132人目の素数さん :2010/03/17(水) 19:32:01
>>534 そこに疑問を持つ事自体、最尤法や最小二乗法を理解していないという事だと思います
正規分布の仮定がどれだけ強い制限なのか実際統計をやっている人には簡単に想像つくと思いますが?
540 :
132人目の素数さん :2010/03/17(水) 21:34:56
>>539 あんた、自分の書いていることが理解できてないだろ?
少なくとも数学者でも統計学者でもない。
数学者や統計学者が最も嫌う表現を使っている。
それがどこだかわからんだろ?
ここまでの流れを読んで分かった。 ・最小二乗法が最尤法の一種と主張するグループは最尤法を嫌っている。 ・普段使っているのは最小二乗法。 ・最尤法を勧める人たちがうるさいので最小二乗法は最尤法の一種でないと困る。 ということだ。 それはどんなグループだ?というのは想像がつくがたぶんそこに 踏み込むのは不毛なことだと思う。ということでスルーして察しろ。
そのグループが釣りでないとすれば、特定のモデルと仮定の下で、 arg min(y-a-bx)^2 と arg max L(a,b; x,y) は等価な問題を解いている、ということか? それを推定法として包含関係にあるとはいわないと思うが
543 :
132人目の素数さん :2010/03/18(木) 07:30:09
>>540 はい、全然わかりません
>>539 で言ったここというと、あなたが最尤法や最小二乗法を理解していないと言ったこと
ではなさそうなので、多分、モデル(回帰でもなんでもいいですが)に正規性の仮定をすることは
強い制限であると言ったところでしょうか?
是非、
>>540 が数学者や統計学者が最も嫌う表現を使っているとおっしゃった意味を教えて頂きたいです
楽しみにしてます
ここでお聞きすることではないかもしれませんが、ヒストグラムの 階級数の設定には何か指針があるのでしょうか。これぐらいがよい とか書いてある本はあるのですが根拠が示されていません。
>>544 確率分布とデータ数とか
データが100以下だとスタージェスの公式とか・・・
あんたがヒストグラム描くとして、
どうしたら最善のヒストグラムだと思うかで指針が分かるんじゃね
546 :
132人目の素数さん :2010/03/18(木) 20:44:59
>>543 > どれだけ強い制限なのか
「強い」ってどのぐらい強いのか全然わかりませんよね?
547 :
544 :2010/03/18(木) 22:28:12
>>545 ありがとうございます。スタージェスの公式って知りませんでした。
ここから勉強します。
よくわからんが 通常は A⊂Bのときには Aのほうが制限が強いと言うような気がするんだが それとは関係ない話なのか?
549 :
132人目の素数さん :2010/03/19(金) 07:29:48
>>546 期待以上におもしろかったです
よく、数学や統計ではunder mild condions, under strong conditions, with stonger conditions
と言った使い方をしますよね
もちろん仮定の強弱は量的ではなくより質的な強弱ですから、正規性の仮定の強さを数値化はできるとはいってません
順序変数みたいに考えて下さい そこにも強弱がありますよね
言葉の一部だけを見ず、全てを読んで判断して下さい
わたしは、実際「統計をやっている方なら」正規性の仮定の強さを経験上理解出来るのでは?と言ったまでです
>>546 が「強い」ってどのぐらい強いのか全然わかりませんよね?
と言うのも仕方のない事、とも思いますが
550 :
132人目の素数さん :2010/03/19(金) 13:37:59
>>549 よく使う、
その「よく」というのはどの程度かね?
言いたいことはわかるけどね。
高校生なの?
釣り餌が急激に腐ってきたな
>>549 > わたしは、実際「統計をやっている方なら」正規性の仮定の強さを経験上理解出来るのでは?と言ったまでです
数学ではなく経験的にしか語れないようなものなのか?
ある3つの群について測定値の平均値の検定をしています 平均値が同じだという帰無仮説を検定することになるのですが、 A群とB群ではp値が0.1、A群とC群ではp値が0.01となった場合、 それぞれの有意水準で帰無仮説は棄却されます。 さて、 A群とB群の「違い」と、A群とC群の「違い」を比べたときに、 後者の方が大きいっていうことはいえないですよね?
>>549 統計学をやっている人と、データ処理をやっている人で
「強い」っていうののは違うんじゃね?
>>553 説明不足じゃね
マジな質問者って大抵、冷静になれてない人、
もしくは問題そのものがわかってない人が多いんだが・・・
A群とB群の平均値が同じという検定?p値って何?
P値が平均からそれぞれどれだけ違うかの数値ならそうだろ
分散も比較済みなのか、何の「違い」のハナシなのか
自分の質問が説明不足だと思うが・・・・
ちなみに統計でよく使うp値って確率とか確率分布とかを表すのに
よく使うけど、それだったら「確率の違い」だから、
「違いの大きさ」は言えない
他人に聞いても、検定で出てきた数字は検定者が
データと合わせて判断するしかないよ
結局、検定の意味をしっかり勉強した方が早い
>>544 とかも、一応答えたが、
ハッキリ言えば質問が良くわからん
ヒストグラムに作成するときに指針はあるか?
だとYESだけど、
ヒストグラムの描き方に正解はあるか?
だと、ヒストグラムの活用の仕方によるから
決まった正解なんかないと思われ
あと2chで質問、返答レベルなのを充分に理解するように
>>553 不明な点もあるが、A, B, C群の平均をそれぞれmA, mB, mCと表すとき
p値の結果より|mA-mB|<|mA-mC|と結論づけてよいかという意味と理解した。
その意味でなら結論づけられないが答えだ。
結論づけると言うことは検定なのだからp値に差があればよいという
わけではない。(p値が0.011と0.01の場合を考えるとよい。)
ではどうするかというとちゃんと検定すればよい。
仮にmA>mB>mCと言う順序が想定可能ならほしい結論はmA-mB<mA-mC
となり、移項するとmB-mC>0がほしい結論となり、mB-mC=0を検定すれば
よいことになる。
普通はそのような順序は想定できないので絶対値のすべての場合で
有意水準を分ける必要がある。
その結果一番一般的なのはシェフェ型の多重比較ですべての対比を
押さえておくと言うことになるだろう。
>>554 まあ、データの量が自由に設定できないとか、
実データを扱うと教科書通りにはいかないからね
558 :
132人目の素数さん :2010/03/19(金) 22:21:10
>>555 素人がしゃしゃり出るスレじゃないと思うよ
>>558 そりゃスマンかった
じゃ、気に障るオレにムダレスしないで、
あんたが適切に答えてあげれば?
560 :
132人目の素数さん :2010/03/19(金) 23:49:13
統計はわかったつもりの人が多い分野
ふつうに考えれば、P値が何か分かってりゃ、 出来ない質問だし、イミフの質問 何のどの種類の検定かも、何の違いの大きさなのかも 何やってるかわからないから 自分で勉強しろというのは、正しい答えだと思う
562 :
ごろ :2010/03/20(土) 06:46:00
>>553 やっていることはANOVA post hoc comparisonsだと思います。
しかし、せっかくANOVAで3群一緒に検定したのに、二群どうしで事後比較するのは
t検定を繰り返すことになるので問題が起きてきます。
一般的!?現実的!?には、Bonferroni法などを使用してこの多重検定の問題を回避しようとしていますが、
個人的にはすっきりしていません。
そのため、私はMixed ModelのようなPanel Data解析ができる新しい手法を勉強したいと思っています。
563 :
132人目の素数さん :2010/03/20(土) 08:34:36
>>552 数学的違いは正規性を仮定した時点で明らかですよね。
正規性を仮定するということは全てのモーメントを固定してしまうという事ですので。
それが数学的に強い仮定だと理解できるとおもいますが、無理ですか?
>>554 同じだと思います。
知識のみとして統計学を学んだ人にも正規性の仮定の強さが全てのモーメントの固定として
数学的に理解できますし
多少なりとも統計学の知識がありデータを多く使っている人にとって歪度や尖度を含む高次モーメントの値を固定するという事が
実際扱っているデータの分布が正規分布と比べ、裾が重かったり軽かったり、
ピークが平坦だったり、歪んでいたりというところで視覚的に正規性の仮定の強さを理解出来ると思います
どちらも中途半端だと仮定の強さは理解出来ないかもしれませんが
なんだ結局釣りか・・・ 検定方法が特定されてるし、 最後は勉強したいと思うとかになっちゃてるしww
565 :
132人目の素数さん :2010/03/20(土) 11:57:16
>>554 実務で簡単なデータ分析をやっています。
多いとか、少ないとか、強い、弱い、などという形容詞・副詞を
日常的に使っていましたけど、数理統計学をやってらっしゃる先生に
教えていただける機会がありまして話をしていましたら、
「そういう形容詞や副詞は使わないようにしたほうがいいですよ。
多い、少ないというのは人によって取り方が異なりますから。
基本的には数値で示すことが統計学の責務ですからね。」
と注意を受けました。
だから、形容詞や副詞はあまり使わないほうがいいのかと思ってます。
でも実務でやってますとどうしても使ってしまいます。
>>565 数学的な仮定が「強い」というのは、一方が他方を論理的に包含している、ということで、曖昧さは一切ない。
この文脈では、最尤推定量を計算するための正規性の仮定は、
最小二乗推定量がBLUEであるための2次モーメントの仮定より「強い」ということ。
これは数学的な真理であるので、応用分野によってこの強弱関係が逆転することは無い。
567 :
132人目の素数さん :2010/03/20(土) 12:51:41
>>566 そういうのあまりわからないんですけど、
論理的に包含している、ということと
数学的に包含関係にある、というのは同じことでしょうか?
またはモデルとして包含関係にあるとかでしょうか?
>>567 モデルに関する数学の論理で、ってことだから、どう言っても同じです
569 :
132人目の素数さん :2010/03/20(土) 13:39:53
>>568 それは仮定の部分の強い、弱いですよね?
仮定の部分の強い、弱いがはっきりしていても、
仮定部分の包含関係で、モデル(つまり数式?)の
包含関係も、言っていいんでしょうか?
実務家からみたら、よくわかんない話になってると思うのですけど?
最小二乗法と最尤法は、あきらかに数式が違いますよね?
そして誰かが書いてましたけど、それらの数式は異なる、とありました。
だから、結論としては最小二乗法と最尤法は異なる、ということでOKなんでしょうか?
たまたま同じになる、ということは、例えば、例は悪いですけど、
対数曲線と直線が交わっている点があって、たまたまその点においては
XとYの値が同じだけど、同じ式とは言えないですよね?
まあ、どちらも関数と言えば、関数なんですけど。
なんか、話が飛躍しすぎているように感じてしまい、わけわからんです。
571 :
ごろ :2010/03/20(土) 15:58:12
>>570 コメントありがとうございます。
>>553 への回答を書くつもりはありませんでしたが、キーワードになるかなという
くらいの気持ちで書き込みました。
指摘があったので改めて回答します。
私もシロウトですが、勉強のためにいろいろつっこんでみます。
>A群とB群ではp値が0.1、A群とC群ではp値が0.01となった場合、
>それぞれの有意水準で帰無仮説は棄却されます。
一般的にはp値0.1を棄却基準にはとらないとおもいますが、
基準は研究内容で決めれば良いので間違いとは言えないでしょう。
私の先の回答は、A,B,Cの順を決めたいならば最初からANOVAを選択せず、
明示的に行えば良いという思いもあったからです。
>A群とB群の「違い」と、A群とC群の「違い」を比べたときに、
>後者の方が大きいっていうことはいえないですよね?
p値の大小では、平均値の差の大小を言う事は典型的な間違い例だと思います。
すっきりした反例をあげられれば良いのですが、例えば、A群が10例、B群が100例、C群が1000例
とサンプル数が異なった場合には、反例が作れそうです。
572 :
132人目の素数さん :2010/03/21(日) 15:51:08
573 :
132人目の素数さん :2010/03/21(日) 15:52:00
>>563 データ解析をしているひとは、
正規性の仮定ができるかどうか、そこから考えるのでー
574 :
132人目の素数さん :2010/03/21(日) 15:53:04
575 :
132人目の素数さん :2010/03/22(月) 11:02:55
>>573 まあ、そうですよね。
どこか、正規分布するところはないかと探して、
そこから分析方法を構成したりしますもんね。
>>573 仮定を確認するのは当然ですね。
>>563 は、その過程を通じてデータ解析をしているひとが正規性の
仮定の強さを理解しているって言ってる訳だが
どこが不満なわけ?
通りすがりだけど、「強さ」の意味が議論する人達の間で二通りに解釈されてね? ・様々な分布族の中でも正規分布であることがすでに知られているのなら、 一般の分布族に対してよりもはるかに「強い」結果が出せる。 ・分布族が不明であるとき、中心極限定理を念頭に置いて 正規分布に近いだろうという「強い」仮定を置いて議論していることによって わかりやすい結果が出ているが、本当に元の分布が正規に近くない場合、 正規性の仮定は「強すぎる」ことになる。 別にこの辺の混乱ってのは「初心者にありがち」なわけじゃなく、 正規性仮定の下に導かれた主成分分析が全然正規じゃないデータに 「なんかよくわからないけど便利なツール」として使われていた時代が相当 続いたことを考えると根深いものだという気がするけどな。
>>577 前者を「強い」と言うのはどこの世界?
数学ではそういうのを強いとは言わんよな。
>>578 確かにフォーマルな言葉遣いじゃないだろうけど、
「この定義は一見自然そうに見えるが、定義1.39を表現の連続性の定義に採用すれば、
条件が強すぎて、重要な表現が"連続表現"ではなくなってしまう.」
(小林・大島 「Lie群とLie環」より)
みたいな言い方は普通に数学でも使いますよ。
>>579 論点ずれてるし。
>>578 がいいたいのは「正規分布なら強い結果が出せる」
という言い方を聞いたことがないということだ。
単に「2次までのモーメントが存在する」より
「正規分布に従う」の方が強い条件であるというような
条件の強弱の話とは違うようだからだろう。
X:正規分布に従う確率変数 Y:Y=f(X)に従う確率変数。 例えばf(X)=X^2とか、 このとき、Yの分布がどうなっているか 一般的な方法・アルゴリズム等は存在するのでしょうか? 独学できるようキーワードだけでも教えてください。
>>581 f()に逆関数f^{-1}()が存在するなら
P{Y<y}=P{f(X)<y}=P{X<f^{-1}(y)} または P{X>f^{-1}(y)}
なので正規分布関数から直接計算できるが、
f(X)=X^2のように逆関数がない場合は無理なので一般的な方法はない。
ちなみにf(X)=X^2のとき、Yの分布は非心カイ二乗分布。
>582
ありがとうございます。
では、一般的な方法が無い上で、特殊事例としてf(X)=X^2の場合は非心カイ二乗分布になるということですか?
582の内容だと、μ
>>0 かつμ>σのときf(X<0)≒0なので、
f^{-1|(y)}=√Xで近似してやるという訳にはいかないのですか?
584 :
581 :2010/03/25(木) 00:10:23
>583のf(X<0)≒0ではなく、P{X<0}≒0ですね。
>>583 ,584
近似式でよいならそうしてもよい。
近似式の話になると一般論はないので自分で考えるしかない。
(近似精度はどのぐらいかとか)
今日バイト先で、333円の買い物したやつが、千円札を出してきたから、 レジに打ち込む前に、つり銭777円をソッコー渡してやったら、 俺の暗算の能力とそのスピードに、すげえビックリしてたみたい。
587 :
132人目の素数さん :2010/03/27(土) 11:31:45
「p値」って「ぴーち」って読むの? なんかマリオブラザーズっぽいね^^
588 :
132人目の素数さん :2010/03/27(土) 12:51:35
よくしらべてみたけど 最小自乗+正規分布なら、 最尤法から導出できるんだな。 ということで、おれは納得した
589 :
132人目の素数さん :2010/03/27(土) 12:52:56
590 :
132人目の素数さん :2010/03/27(土) 12:55:56
592 :
132人目の素数さん :2010/03/27(土) 19:03:35
大学などの研究環境に居れば その世界での方言は自然と身につくだろ 強い弱いっていうのは、かなり良くきくことば
593 :
578 :2010/03/28(日) 05:28:31
>>592 統計学は数学じゃないですから、数学の話はどうでもいいです。
我々は現実を扱ってる。数学みたいな空虚な学問と一緒にしないで
ください。
594 :
132人目の素数さん :2010/03/28(日) 12:11:09
数学でなくっても、どの世界でも強い仮定弱い仮定っていうのを ジャーゴンで使うでしょ? 自分は物理っぽい方面で統計の知識をつかいながら仕事してるけど 強い弱いっていうのは学会発表でも聞くよ 厳密な定義はなくっても、その場の前後関係で どういう制限の話をしているのか、分かる
統計学の話題に戻ろうぜ
596 :
ごろ :2010/03/28(日) 23:55:25
>>594 仮定の強い弱いを、そんな言い方をしないと言っている人はいない。
結果の強い弱いは、普通に言うというひとと、そんな言い方はしないといっている人がいる。
>>578 は数学では一般的な言い方ではないと言っている
>>589 は口語では言うと言っている
>>591 は「
>>578 は数学をよく知らない」と言っている
総合すると、数学をよく知っているならば、口語では一般的にそう言うことを知っている
という主張となる。
詳しくない人は知らないようなことが、一般的だと言えるかどうかについては考えていない。
599 :
ごろ :2010/03/30(火) 09:08:08
偉い人、教えて下さい。 これまでの回答から分かる通り、私は数学の専門家ではありません。 もちろん、ちゃんと根本から理解したいと努力を開始していますが、 時間が差し迫っていることと、とりあえず、統計ソフトを動かして 結果を出さなくてはいけません。 そしてついさっき、再来週の学会用データ解析で、 とんでもない間違いをしていたのに気が付きました。 データと解析したいことは次のようなものです(内容は変えています)。 データ:営業担当社員の入社時のTOEFLスコア(基本的には1回のみですが、 テストした日付は入社後1ヶ月以内から3ヶ月以内です。) 社員別の入社後の月毎の外国人顧客からの受注額。 その他データ:社員別の毎月毎の英語研修時間、海外出張・旅行日数 解析したいこと:linear mixed modelを用いて受注額を 入社時のTOEFLスコアで予測するモデルを作成する。 間違いは、wide形式からlong形式にデータを変換するときに、 TOEFLスコアも入社何ヶ月目に何点だったかというデータ形式にしました。 つまりlong形式シートに営業社員ひとりに付き一つのTOEFLスコア。 この状態で統計ソフトを走らせると、どうも、TOEFLを受けた月の受注額しか 見ていないようで、多数のデータをomitしているようです。 これを避けるためには、long形式にしたときに、 同一営業担当社員の全ての行にTOEFLのスコアが入るようにすれば良いのは 分かったのですが、せっかくの時系列データなのに不自然な感じがします。 長文で分かりにくいと思いますが何かヒントを頂ければと思います。 宜しくお願い致します。
600 :
ごろ :2010/03/30(火) 09:12:40
>>599 longとwide形式の補足
wide形式例
社員ID TOEFLスコア TOEFL受験月 受注額1月目 受注額2月目 受注額3月目
0001 500 1 10 15 20
0002 600 3 0 10 -
long形式例1
社員ID 入社後月数 TOEFLスコア 受注額
0001 1 500 10
0001 2 15
0001 3 20
・・・
0002 1 0
0002 2 10
0002 3 600 -
long形式例2
社員ID 入社後月数 TOEFLスコア TOEFL受験月 受注額
0001 1 500 1 10
0001 2 500 1 15
0001 3 500 1 20
・・・
0002 1 600 3 0
0002 2 600 3 10
601 :
ごろ :2010/03/30(火) 12:24:28
>>599 longとwide形式の補足
wide形式例
社員ID TOEFLスコア TOEFL受験月 受注額1月目 受注額2月目 受注額3月目
0001___500__________1___________10___________15___________20
0002___600__________3____________0___________10___________-
long形式例1
社員ID 入社後月数 TOEFLスコア 受注額
0001___1___________500___________10
0001___2_________________________15
0001___3_________________________20
・・・
0002___1_________________________0
0002___2_________________________10
0002___3___________600___________-
long形式例2
社員ID 入社後月数 TOEFLスコア TOEFL受験月 受注額
0001___1___________500__________1___________10
0001___2___________500__________1___________15
0001___3___________500__________1___________20
・・・
0002___1___________600__________3___________0
0002___2___________600__________3___________10
ずれてしまったので再掲しました。
当然、ソフトによって使うデータ形式も違うとおもうのですが、
私が使うのはStataとRです。
>>594 人とディスカッションする機会のない人は
そういう使いかたを耳にすることもないんだろう。
書斎派というか一人というか
603 :
132人目の素数さん :2010/03/30(火) 19:12:06
>>601 入社前の宿題は自分の力で解いたほうがいいですよ
>>603 「再来週の学会用データ解析で、」と書いてあるのは嘘と思っているということね。
帰無仮説: 「再来週の学会用データ解析」
データをソフトにぶっ込むだけの学会員は棄却域でつか?
607 :
ごろ :2010/03/30(火) 23:35:25
>>603 コメントありがとうございます。
入社試験でMixedモデルの問題を出してくるのはかなりレベルの高い会社ですね。
興味あります。
608 :
132人目の素数さん :2010/03/31(水) 12:02:43
再来週の学会用ってどこでしょうね(笑)? プログラムももう発表されているかな 再来週の学会用データ解析を今頃やるようではw
609 :
ごろ :2010/04/01(木) 10:17:53
>>608 いや、ロジスティック解析など別の解析で確かめても問題がないので、
嘘は言っていないと思うんだ。
しかし、ちゃんと統計学的に正しい解析をしたい、正しく理解したいということで
直前まで粘っているんだな。
でも今日明日中にポスター印刷しないといけないからそろそろケリつけるわ。
でも、mixed modelに詳しい人がいたら是非教えて欲しいです。
この例のようにTOEFLスコアを測定した日が多少ばらばらで、この一点スコアで
営業成績を予測するような場合は、TOEFLスコアを測定した日は無視していいか
どうかという質問になると思います。
610 :
ごろ :2010/04/02(金) 08:01:21
・・・
ここに何かを期待しても無駄らしいです....
612 :
132人目の素数さん :2010/04/03(土) 00:47:50
すいません、初歩的な質問なのですが、 X〜N(0,1),Y=X^2 XとYは明らかに独立ではない。 とあったんですが、なんでですかね??
614 :
ごろ :2010/04/03(土) 10:09:27
>>613 ガイシュツだったんですね。面白いですね。
615 :
132人目の素数さん :2010/04/04(日) 14:57:00
質問です。 XバーR管理図の作成方法の紹介で、 上部管理限界線 :UCL=xb +A2Rb A2は管理図用係数表を使うとあるのですが、 係数を使わずにxb+3σとしてはいけないのでしょうか? データの標準偏差を求めて単純に3倍すればそれでいいんじゃないかと 思うのですが、いかがでしょうか?
616 :
132人目の素数さん :2010/04/04(日) 15:01:12
>>611 丸投げするようではねえ、、、
このスレで相談するレベルでもないもの
617 :
132人目の素数さん :2010/04/04(日) 15:02:38
>>615 係数表の数字と、自分で計算した3σと比較したら、どうなりますか?
618 :
615 :2010/04/04(日) 15:15:29
>617 違う数値になりました。 係数表の数字にRbarをかけるとσに近い数字になりました 3σに近い数字になると思っていたのですが・・
619 :
132人目の素数さん :2010/04/04(日) 19:19:06
では、なぜ違う数値になるのか、考えて見ましょう
620 :
132人目の素数さん :2010/04/05(月) 10:10:54
>>618 近い数字、っていうのは一致してないってことだよね
621 :
132人目の素数さん :2010/04/05(月) 21:19:36
>>616 wide とか long とか特定ソフトのファイル形式のことを書いてるし、
なぜmixedモデルを使うのかも何と何のmixなのかも書いてないしで、
DQN扱いされてるだけだと思う
622 :
132人目の素数さん :2010/04/06(火) 00:21:11
P(A|B,C)/P(D|B,C)=P(A,B|C)/P(D,B|C) って成り立ちますか??
>>622 P(A,B|C)はP(A∩B|C)ってことですか?
それなら、条件確率の定義により成り立ちますよね。
624 :
ごろ :2010/04/06(火) 10:01:06
>>621 データの背景、解析したいことは書いたので後は常識的に考えて欲しいんですが、
Fixed effectは入社時のTOEFLスコアでRandom effectは個人差とか入社した日付などその他の要因です。
社員別の英語研修期間や海外出張日数はFixedに組み込んで良いと思いますが、重要な要素ではありません。
AICなどを見てモデルを選択するつもりです。
なぜmixedモデルを使うかと言うと、通常のlogistic解析では、月毎の時系列データになっている
受注額を正しく扱えないと思うからです。
このデータ、リサーチクエスチョンに対してもっと正しいアプローチがあるならば是非教えて下さい。
625 :
132人目の素数さん :2010/04/06(火) 11:14:45
626 :
132人目の素数さん :2010/04/06(火) 15:35:41
はじめまして、初歩的な質問なんですがよろしければご教授ください。 3500人の生徒に帽子を選んで着てもらいます。 帽子の色は、赤、青、白、黒・・・など、全部で33色から自由に選んでいただきます。 そして、 3500人の生徒にランダムに並んでいってもらいます。 そして着用している帽子の色を一人ずつ数えて行くんですが。 1人目は赤、2人目は黒・・・・ というような感じでどの色の帽子を何人が着用しているのかを数えていくんですが 全員調べるのには少し大変です。 1番目が○色の帽子で×人の生徒が着用。2番目が×色の帽子で○人の生徒が着用・・・ という風に33色のなかから選ばれた色の人数とランキングを付けます。 最初から何人(何%)までの生徒の帽子を数えれば、ある程度、信頼できる統計的データの予測値がとれますでしょうか?
627 :
132人目の素数さん :2010/04/06(火) 17:32:17
>>626 2項分布で、成功の確率 p が p = 1/33 ぐらいだと仮定して、
95%信頼区間幅を希望値以下にするには、試行回数 n はどれだけ必要か。
という入門教科書用の定式化で、平均的な色のケースを見積もれるような気が、、、
628 :
132人目の素数さん :2010/04/06(火) 18:13:22
分散共分散行列の固有値は非負になるってことが 書いてあるんですけど、読んでいる本に証明は載ってないんです。 その証明か詳しく書いてある書か、またはサイトを ご存知でしたら教えてください。 いちおう検索してみたんですけど、みつからないんです。
実行列 A = U Σ V^T と特異値分解できるとき、 分散共分散行列 A A^T = U Σ^2 U^T と書けるから、 固有値は非負ってことじゃねぇの?しらんけど
実対称行列の固有値は正である という線形代数の定理を見てください。
分散共分散行列だから非負実対称行列 よって、固有値は正である。
632 :
132人目の素数さん :2010/04/07(水) 22:23:10
ある試行のN回のアンサンブルにおいて、ある事象が起こる相対頻度r、その確率の理論値pとして、 Σ_r (r-p)^2 c(r) ただし、c(r)はN回中Nr回その事象が起こる確率です。 って、どんな意味でしょうか。 何か名前がついてます?
633 :
132人目の素数さん :2010/04/08(木) 01:52:32
統計学は文系の使うものだという感じがするので嫌い。 コンサルやMBA(笑)みたいな胡散臭い奴らが学んでるし。 理工系のエンジニアとしては彼らと一緒にされたくないので 統計学を学ぶのには嫌悪感がある。
>>633 統計学は文系の使うものだという感じがするので嫌い。
ん?
>>633 は単に文系レベルの統計学しか知らないという事では?
635 :
132人目の素数さん :2010/04/09(金) 10:16:44
>>633 意味不明、ゆとり脳か。
工学系ってそんなに偉いのか。
数学や物理が出来なかったただの
落ちこぼれだと思っているけどな
工学系といってもいろいろあるんだぜ
統計に詳しければ簡単でしょう。 「プレイヤーの前に3つのドアがあって、1つのドアの後ろには賞品の新車が、 2つのドアの後ろにはヤギ(はずれを意味する)がいる。 プレイヤーは新車のドアを当てると新車がもらえる。プレイヤーが1つのドアを選択した後、 モンティが残りのドアのうちヤギがいるドアを開けてヤギを見せる。 ここでプレイヤーは最初に選んだドアを、残っている開けられていないドアに変更しても良いと 言われる。プレイヤーはドアを変更すべきだろうか?」
639 :
132人目の素数さん :2010/04/10(土) 13:56:58
糞有名な問題
統計の問題ではない
その番組のコーナーが実際に何回か開かれてその結果がどうであったかの データがないと統計の問題ではない。
標本1 2 3と それを10倍した標本 10 20 30とでは 後者のZスコアが10倍になると主張する上司をどうやって説得すればいい? 100点満点で偏差値70の人は、1000点満点で偏差値700にはならないでしょといっても納得してくれない。
すべてのXが10倍されたら平均も標準偏差も10倍にらるから、 と言ったら普通の人は理解するかも Z=(X-μ)/σ=(10X-10μ)/10σ
645 :
132人目の素数さん :2010/04/11(日) 00:29:42
X〜Bin(N,p),Y〜Bin(N,1-p) ⇒Cov(X,Y)=-Np(1-p) の証明なのですが、どなたか教えていただけませんか??
>>645 XとYの関係が分からないと計算できないんだけど…。
Y=N-Xなんだろうな。それなら自明だろ。
647 :
132人目の素数さん :2010/04/11(日) 00:44:51
はい、Y=N-Xです、 自明なんですか??すいません、ビギナーなのでちょっとわかんないんですが・・・
自明Death。 共分散の公式...Y=N-Xを... ウッ...
651 :
132人目の素数さん :2010/04/11(日) 23:45:16
ちょっと相談させてもらいたいのですが、パラメータa,bを持った統計モデルで 真のaを固定したもとでのbの最尤推定量\hat{b}(a)と、aの最尤推定量\hat{a} の共分散が0であることの証明は可能でしょうか? なんか直感的には0っぽい気がして、今取り扱ってるモデルだとシミュレーション上では 共分散が0になってるのですが、どうも証明法が思い浮かばなくて。 ちなみに、最尤推定量\hat{a}、\hat{b}は無相関ではないです。 よろしくお願いします。
652 :
132人目の素数さん :2010/04/12(月) 00:41:02
普通の硬貨2個と、両面とも表になっているインチキ硬貨1個が入った箱がある この箱から1個の硬貨を無作為に選んで、選ばれた硬貨を3回投げて3回とも表が出たとして それがインチキ硬貨であった確率を求めよ テキストの答えは2/3と書かれてますが、5/12の間違いだと思うんですがどうでしょうか?
653 :
132人目の素数さん :2010/04/12(月) 00:59:17
>>652 そこに書いた問題の答えは 4/5 だと思うけど、、、
ちなみに 5/12 は3回表が出る確率ね
654 :
653 :2010/04/12(月) 01:11:54
ついでに、インチキ硬貨1枚と、普通の硬貨4枚なら、テキストの 2/3 が答えになる。
>>653 すいません
解説してもらっていいですか?
すいません 出来ました ありがとうございました
657 :
132人目の素数さん :2010/04/12(月) 01:45:37
また質問です 2個の黒球と2個の白球の入った袋から1個の球を取り出し 黒球が出たら白球と、白球が出たら黒球と取り換える この後、この袋から1球を取り出すとき、取り出した球が白球であったとして 最初に取った球が白球であったという条件つき確率を求めよ 解答では1/4と書かれてましたが、私は2/3と出ました 判定お願いします
>>642 その上司の下で働くのを辞めるという選択のほうが賢明。
659 :
653 :2010/04/12(月) 18:47:04
>>657 白→白の確率(1/2)×(1/4)=1/8 …(a)
黒→白の確率(1/2)×(3/4)=3/8
2回目が白の確率(1/8)+(3/8)=1/2 …(b)
2回目が白であったことが判明している時点で、1回目が白であった条件付き確率は
(a)/(b)=(1/8)/(1/2)=1/4
661 :
653 :2010/04/12(月) 21:08:03
>>660 「取り換える」ってそーゆー意味なの?
それを文章から理解しろというのはムリありすぎな気が、、、
>>661 問題文が
>>657 の通りなら、少々よろしくない気はするが、
他に解釈のしようが思いつかなかったので。
逆に、どう解釈したら2/3となったのか教えてちょ。
663 :
653 :2010/04/12(月) 21:49:34
>>662 >2個の黒球と2個の白球の入った袋から1個の球を取り出し
>黒球が出たら白球と、白球が出たら黒球と取り換える
黒が出たケースだと、、、
袋: 黒黒白白
↓
一個取り出す: 黒
袋: 黒白白
↓
「黒球が出たら白球と取り替える」=「黒を袋に戻し、白を袋から取り出す」と解釈
↓
結果袋から取り出されたのは: 白
袋: 黒黒白
よって、次の試行で袋から白を取り出す確率 1/3
657ですが、お二方ありがとうございました
666 :
132人目の素数さん :2010/04/17(土) 05:53:50
5枚の札をもつあるポーカーの手に、10以上の札が少なくとも3枚あるとして、7以下の札が全くない確率を求めよ という問題で 本の答え 161/1456 私の答え 103/1258 どちらが正しいですか
>>666 問題文に突っ込みどころが多すぎるが、作問者の意図を汲んで
常識的に恣意的な条件付き確率の問題と解釈すると
103/1258となった。
市販の本なら、それが何かを晒してくれ。
>>667 ありがとうございました
本のタイトル
入門数理統計学 P.G.ホーエル著
平均と中央値の使い分けについて質問です。 プロ野球監督の 就任する前の年、就任した年、2年目、3年目、などの勝率の違いを調べたいです。 エクセルで計算するので、平均も中央値もすぐ出るのですが、 中央値が使えるなら中央値を採用したほうがよいのでしょうか? サンプル数は、セリーグ6球団、30年分、監督の交代回数は全部で60回ほどでした。 標準偏差も出した方がよければ出したいです。 いろいろ調べたところ、中央値のほうが平均よりよろしい?みたいな説明は多いのですが、 こういう時は平均を使うべきみたいな記述は見つかりませんでした。 毎回、中央値を使えばよいのかな?と悩んでおります。
>>669 勝率の違いを調べるために
「何」の平均・中央値を求める話?具体例あげて説明してみて
>>670 レスありがとうございます。
監督が就任した年の平均勝率、(もしくは中央値)
例えば、巨人では 93年に長島監督就任、 その年の勝率.492
2002年に原監督就任、その年の勝率.623
2004年に堀内監督就任、その年の勝率.526
2006年に原監督就任、その年の勝率.451
こういった形で、監督就任一年目の勝率を集めて、平均もしくは中央値を出してみました。
両方出してもいいのですが、どちらかひとつ出すならどちらがいいかなと思っています。
>>671 野球の勝率って
勝率=勝数÷(勝数+負数)
だよね?平均とか中央値とかを使うところが無いんだけど
673 :
672 :2010/04/17(土) 16:21:00
>>671 ゴメソ最後の2行を読まないでレス書いた。
いろんな監督の1年目勝率の分布を考えるまでは良いけど、
その平均値だとクソミソ・ミックス率みたいであまり意味ないね。
比較の基準値としては、中央値がわかりやすいと思う。
けど、監督「偏差値」を作るとかの目的なら、平均値もあり。
「平均」が良いわけじゃないけど、指標として「偏差値」が普及してるので、、、
>>673 ありがとうございます。
ちょっと理解が深まりました。
675 :
132人目の素数さん :2010/04/20(火) 04:33:47
68 放射性物質の原子がt時間内に崩壊する確率は1-exp[-at]で与えられるとしよう ここでaは物質に関係する定数である このような原子の寿命の長さXの密度関数を求めよ 69 問題68の放射性物質は1000単位時間内に崩壊するとき この物質の原子の寿命が2000単位を超える確率を計算せよ 68の答えは、aexp[-at] 69の答えは、0.25 とありました 問題69の意味が正直よく分からないので教えてください (問題文は句読点以外はそのままです)
676 :
132人目の素数さん :2010/04/20(火) 12:36:43
>>675 「問題68の放射性物質の半減期が1000単位時間のとき」なら、答え 0.25 になるね。
半減期1000時間:
1/2 = 1 - exp[-1000a]
exp[-1000a] = 1 - 1/2 = 1/2
この物質の原子の寿命が2000単位を超える確率:
exp[-2000a] = { exp[ -1000a] } ^ 2 = (1/2) ^ 2 = 1/4
677 :
132人目の素数さん :2010/04/20(火) 23:39:10
臨床試験で使う統計の方法に悩んでいます。ご教示をよろしくお願い致します。 糖尿病患者に、入眠時間の乱れの程度をアンケートし、 乱れが1時間未満群と1時間以上、2時間以上、3時間以上、 4時間以上の群で血糖コントロールの指標(HbA1c%)に関し比較すると、 3時間以上では、p=0.023と有意である。 ただし、性・年齢・BMI・昼寝習慣・内服・睡眠時間で調整する必要があります。 このような結果が出ている統計で実際使用する統計法は何でしょうか? 具体的に思いつくのが、ロジスティック回帰分析なのですが、 従属変数があり、なしの二種類の時に使用できるとのことで、このようにHbA1cという数値を従属変数とした 多変量解析はどのようなものがよいのでしょうか?ご示唆をいただけますと幸いです。よろしくお願い申し上げます。
>>676 ありがとうございました
何か狐に包まれたような気分・・・
>>678 問題文のミスでしょうなあ。
>>676 さんの言うとおり、「半減期が1000単位時間のとき」でないと
全く意味が通らない。
物凄く基本的な事だと思うのですが質問させてください。 200人の中から、性別、髪型といった見た目から分かる情報から 出生地、家族構成といったこちらからは知り得ない情報を考慮した上で この中から20人程度バランスよく選び出すにはどのような方法を取れば良いのでしょうか?
>>677 >>680 この掲示板には、mathematicianはいてもbiostatisticianはいません。
http://aoki2.si.gunma-u.ac.jp/taygeta/statistics.cgi 青木先生の掲示板で質問するのが吉でしょう。
でもいちおうシロウトの私なりにコメントしてみます。
>>677 このデータは繰り返しデータをとっているので、古典的な手法を使うと、
検定の多重性という問題が出てきます。
本来なら、Mixed Modelなどを使った手法が良いのではと思います。
数値をアウトカムとした古典的な多変量解析の手法は、
Linear regression線形回帰分析になると思いますが、前述の通り、
最近はロジスティック解析も線形回帰分析もGLMとして扱えるようになり、
更には複雑な時系列データを扱える統計手法もあります。
>>680 一般的には、全ての情報を伏せてランダムに選ぶので良いと思います。
あとは、選び出したサンプルを使って何を調べたいかによると思います。
調べたいことがらによってはマッチングとかもできます。
ランダム化の方法でも、男女の数が同じとして、男女のバランスを良くしたければ、
例えば4つのブロック 男男女女、男女男女、男女女男、女男男女・・・・
というブロックをランダムで選ぶ手法もあります。
四分位についての質問ですが 25パーセントずつ区切って、四分位点としますが (データの数)*25%が整数とならない、例えば7.25の場合は 7番目と8番目の間に四分位点があるとしてよいのでしょうか?
684 :
132人目の素数さん :2010/04/25(日) 19:37:28
サンプルは有限なので、分位点は順番(整数)の途中になるのが普通。 なので線形補間する。 中央値も偶数サイズの時はそうしてるよ。
階級値についてなんですが・・・ 四捨五入の連続変数の場合 「体重50kg」というのは実際には「49.5kg以上〜50.5kg未満」のことなので、階級「50kg以上〜60kg未満」は「49.5kg以上〜59.5kg未満」となる。従って階級値は、 (49.5+59.5)÷2=54.5 となる。 と解説されているのですが 身長の場合で、階級「170cm以上〜175cm未満」の時は、体重の時と同じように「170-0.5」と「175-0.5」をして 「169.5以上〜174.5未満」となる。従って階級値は、(169.5+174.5)÷2=172となる。としていいんですか? なんだか混乱してます・・・
687 :
132人目の素数さん :2010/04/25(日) 20:52:22
細かいことだけど、順番は 1 から n の整数で、分位数は 0〜1 の実数だから、 そのまま掛け算すると範囲がずれる。例えば中央値もそう。 なので、 (データの数 - 1) *25% + 1 で計算するのが正確。誤差を無視してる文献も多いけどね
689 :
686 :2010/04/25(日) 21:10:21
>>687-688 ありがとうございます。質問しておきながら色々検索して調べてみたのですが
「170cm以上〜175cm未満」の階級値を172.5と表記しているある大学のPDFを見つけました。
172、172.5。どちらが正しいのでしょうか・・・。
連続的なデータの場合、「正しい」というのは無いんだよ。 データの有効精度との関係において、「どちらがより正確か」というだけ。
691 :
132人目の素数さん :2010/04/29(木) 06:11:08
f(x)=(1/2)^x (x=1,2,・・・) の積率母関数を求める問題で下の回答のうち、おかしい所を教えてください M(θ) =Σ[x=1→∞]e^(θx)・(1/2)^x =Σ[x=1→∞](e^θ/2)^x ={e^θ/2}/{1-(e^θ/2)} =(e^θ)/(2-e^θ)
692 :
132人目の素数さん :2010/04/29(木) 07:48:44
693 :
132人目の素数さん :2010/05/01(土) 05:39:09
21. Xが密度関数f(x)=1/2,0<x<2をもつとき,次の確率を計算せよ. (a)2個の標本値が両方とも1を超える. (b)1個の標本値のうちちょうど2個が1を超える. 22. Xが密度関数f(x)=x/2,0<x<2をもつとき, (a)3個の標本値のうち少なくとも2個が1を超える確率はいくらか. (b)3個の標本値のうち2個がaを超える確率が1/2となるようなaの値を求めよ. 付いてた答え 21.(a)9/16 (b)27/128 22.(a)1/2 (b)1 この答えって本当に当たっていますでしょうか?
694 :
132人目の素数さん :2010/05/01(土) 18:51:18
>>691 パッと見、合ってるけど、モーメント求めると合わないの?
695 :
132人目の素数さん :2010/05/01(土) 19:03:15
>>693 21の方は、問題の写し間違いかミスプリ。
>密度関数f(x)=1/2,0<x<2
⇒ f(x)=x/2
>(b)1個の標本値のうちちょうど2個が1を超える
⇒ 4個の標本値のうち
22の方は見てないけど、自分でやった計算経過を書けば、誰か教えてくれるかも、、、
Xが密度関数f(x)=1/2,0<x<2をもつとき,次の確率を計算せよ. であっているよ。 [0,2]上の一様分布です。 ちゃんと積分の計算をしてください。
697 :
132人目の素数さん :2010/05/01(土) 21:45:28
>>696 答えから問題を推測するか、問題文を正しいとして答えを間違いとするか、
取る立場の違いでもあるな。
21(b)は問題文が正しいとすると頭がヘンになるが、、、
698 :
132人目の素数さん :2010/05/01(土) 22:17:50
691の付いてた答え 2/(2-e^θ) 訂正 21.(b) 4個の標本値のうちちょうど2個が1を超える. 自分の答え 21 P(X>1)=∫[1→∞]f(x)dx=∫[1→2](1/2)dx=1/2 より (a) (1/2)^2=1/4 (b) C[4,2](1/2)^2*{1-(1/2)}^2=3/8 22 P(X>1)=∫[1→∞]f(x)dx=∫[1→2](x/2)dx=3/4 より (a) C[3,2](3/4)^2*{1-(3/4)}+(3/4)^3=27/32 (b) P(X>a)=pとおくと C[3,2]p^2*(1-p)=1/2 ⇔6p^3-6p^2+1=0
699 :
695 :2010/05/02(日) 20:39:34
>>698 問題 22 (
>>693 の記述) の方は、こう↓修正すると答えと辻褄が合うね。
>Xが密度関数f(x)=x/2, 0<x<2をもつとき,
⇒ f(x)=1/2
>(b)3個の標本値のうち2個がaを超える確率が1/2となるようなaの値を求めよ.
⇒(3個の標本値のうち)少なくとも2個が・・・
それなら辻妻が合いますね・・・ ありがとうございました
701 :
132人目の素数さん :2010/05/05(水) 15:45:23
統計学初心者で質問なんですが 論文を読んでいて、ある仮説を立てて実験した結果、思うような結果が得られなかった(仮説が通りにいかなかった)場合 『結果に有意性が認められなかった』という表現をするのでしょうか 有意性の意味を自分が間違えてるのかもしれないので多少調べてみたのですが意味がよくわかりませんでした 間違った使い方かそうじゃないかだけでも教えていただけると助かります
702 :
132人目の素数さん :2010/05/05(水) 17:17:56
>>701 大体そんな感じ。
1. あることを検出しようと実験する。しかし実験データは偶然変動を持っている。
2. 「偶然変動」の方を「統計的仮説(帰無仮説)」に置いて、「これは偶然変動ではない(=有意)」と言いたい。
3. 検出に使う統計量の偶然変動範囲を、確率的に計算してみる。(有意水準, P値)
4. 「あれっ?普通に偶然変動の範囲じゃん」(=結果は統計的に有意ではない)
703 :
132人目の素数さん :2010/05/05(水) 17:28:02
704 :
132人目の素数さん :2010/05/05(水) 23:11:31
>>701 お節介だと思われるかも知れないけれど・・・・・。
”思うような結果が得られなかった”ということが真に筆者の意図であるかどうかには注意して欲しいところです。
例えばライバルグループの結論を否定するために、あるいは既存の方法を否定するために”有意性はみられなかった”と言っている場合は
その結果にはより注意が必要です。
「差があるとは言えなかった」という主張は「差があると言える」という主張よりも比較的簡単に主張できるので・・・。
>>701 たぶん、そういう結論を出すときには、サンプルサイズとか、
得られたp値が重要になってくると思います。
p値が0.051とかでカットオフを0.05にした場合は、統計学的に
有意差は無いわけですが、N数を増やせば有意差がでるかもしれませんよね。
サンプルサイズの見積もりに誤りがなかったのかどうかなどが考察になりますよね。
また、難しいのは、有意差があるという研究は行い易いんですが、
例えば、新しい薬Newを開発したとき先発の薬Oldと比較して、
薬Newは薬Oldと比較して同等の効果があった、という研究は行いにくいですよね。
で、統計学ってもうかるの?
損はしにくい
フェルミ推定も統計学ですか?
710 :
人生初心者 :2010/05/10(月) 20:51:19
2chも統計も人生も初心者です。 対比の検定について疑問がありまして, 教えていただけると嬉しいです。 SPSSで群が3つ以上あるときに対比の検定をするには 「一般線形モデル」→「一変量」で 「対比」のボタンから指定する方法があると思います。 やってみると「ユーザー指定の仮説の検定」として 「対比結果」が表示されますが, 対比の検定結果のt値が表示されません(p値は表示される)。 どうすればt値を知ることができるでしょうか。 SPSSの仕様であってどうすることもできないのでしょうか。 共変量を投入した分析を行う必要があるので, どうしても「一般線形モデル」のプロシージャを使う必要があります。 t値を表示する,あるいは何らかの手段で産出する (p値,自由度は分かっているので)方法があれば 教えていただければ幸いです。 SPSSのバージョンは11.0 J for Windowsです。 どうぞよろしくお願いいたします。
>>710 t検定は、2群間のパラメトリックな検定で、3群には使えないから
と答えてみる。
名義尺度×名義尺度の統計処理は相関係数とカイ二乗検定しかないでしょうか。 この2つの違いは、何か教えていただけますか。
713 :
132人目の素数さん :2010/05/23(日) 11:56:03
昨夜テレ朝の番組に、 東海大学の準教授、鳥越規央が出ていた。 「無限母集団からは50のサンプルで 十分に信頼のおける結果が出る」と何度も言っていた。 必要とされるサンプル数は求める精度によって異なるわけだが、 そういう説明なしに、何度も何度も、 「無限母集団からは50サンプルで十分」などと、 言っているので、馬鹿じゃないかと思った。 検索してみたら、講演や発表は何度も行っているが、論文はゼロの人だった。 東海大学って、論文ゼロでも準教授になれるんだね。 まあ、学生が馬鹿ばっかりだからね。
>>713 精度のことは分かるが、お前が英文を読めないことも分かった。
715 :
132人目の素数さん :2010/05/24(月) 02:52:45
鳥越規央の馬鹿は英語で書いてるの? まさか(笑 共著かな? どこのジャーナル?
あおるならセイバーメトリックスを叩けばいいのに
入門書を読んでいて気になったことがあるので質問させてください。 「統計的推論」は、"標本から母分布について推論する"というような説明が書かれていたのですが、 標本から標本の母分布以外のモデルについて推論することも「統計的推論」と言って良いですか?
Bayesian inference is statistical inference in which evidence or observations are used to update or to newly infer the probability that a hypothesis may be true.
>>717 >母分布以外のモデルについて推論することも
例えばどんなモデルのこと?
隠れマルコフモデルとかがそうだな。 とりあえず、確率モデルを定めて観測データでそれを推論するのは ぜんぶ統計的推論って言って良いんじゃないの?
あまり広げるとORまで範疇に入ってくるけどいいのかな?
ぶっちゃけ適当でよい。
contrast って統計学で言うと何のことなんですか??
Aが「10,11,12,12,12」 平均は11.4 Bが「11,23,21,23,10」 平均は17.6 Excelの分散が等しくないT検定だとp値が0.05185(片側) RのWillcoxだとp値は0.3932 有意差ありで棄却したいんだけど、いいのかな?
どちらも棄却されていませんが? (そもそも片側でよいのかもこの情報からは分からない)
回答有難う、日曜なのでレスないかと思ってました。 両側だとますますp値が大きくなってしまうので・・・ 11.4と17.6なので、棄却したいのですが、 採択しないとダメでしょうか。
片側、両側はp値を見て決めるものではありません。 (もしそうなら常に片側になる。) 平均に差があるように見えてもそれはばらつきの点からすると 大した差ではないということです。 どうしても差を見いだしたいならもっとデータを取るべきです。
なるほど、お蔭様で大分つかえが取れました。 分散値も幅があるように思えていますが、 サンプル数が小さいせいと理解するべきですね。 また明日考えて見ます、有難うございました。
すみません質問させて下さい。 3n+2の分散と平均値を求めよ という問題が出て、分散の方がどうやっても分かりません。 答えは3(n2乗ー1)./4 となるのですが、どなたか教えていただけないでしょうか。 ここで聞くのが間違っていたらすみません
>>730 問題が不備だけどなんとなく分かる。
5, 8, ... ,(3n+2)の平均と分散な。
平均の3(n+1)/2+2は出せたんだよな?
それなら分散も同じく定義通りに計算するだけだぞ。
>>731 今確認して、平均の2を足すのを忘れてました!
数式の書き方も間違えた上に、こんな下らない事に気付かずに書きこんでしまいすみません
明日の授業であたる問題だったので本当に助かりました
レスを下さったおかげで間違いに気づけました
本当にありがとうございます
733 :
132人目の素数さん :2010/06/02(水) 21:59:43
すいません。質問させてください。 ある数値データの平均値(例えば2)と標準偏差(例えば3)がわかっていて、それがある数値(例えば-10〜10) の範囲内に収まる確率を出したりできる方法があれば教えていただきたいのですが。 突然申し訳ございません。
734 :
132人目の素数さん :2010/06/02(水) 22:07:19
補足です。 データの数は40-50くらいで、その平均値と標準偏差がわかっている状態です。
735 :
あい :2010/06/04(金) 01:39:04
統計の問題おしえてください… 一ヶ月に誕生した200にんの子供の中で男子の数を調べたとき 男子の数に対する確率モデルは二項分布モデルでいいですか? 2 ある町で1日に起こる火災件数を調べるとき、用いる確率分布モデルはポアソン分布モデルでいいですか? 3 平均点60点 標準偏差五点のテストで試験の成績分布が正規分布のとき 50点以上は何%ですか? 50点から70点のあいだの 人は何%? お願い致します。
しがない文系学生です PCAと二次元相関法の長所短所、使い分けの具体例を教えていただけませんか? よろしくお願いします
737 :
132人目の素数さん :2010/06/05(土) 00:32:24
簡単な問題なんだと思いますが、自信が無いので教えて頂きたいです。
ある大学の入学試験で、全受験生34567人の全教科350点満点の得点分布は
ほぼ正規分布をしており、平均点は190.00、標準偏差は40.85であった。
(1)280点の得点者はほぼ何位か
(2)4000番目の得点はほぼ何点か
こんな問題です。
自分で出した答えは、(1)480位 (2)239.02点
なんですが、あってますかね。
標準正規分布表は
http://staff.aist.go.jp/t.ihara/normsdist.htmlを 参照してほしいと思います
質問する奴は、丸投げせずに、じぶんではどこまでできているか 理解しているかも書いたほうがいいと思う。 そうでないと、答えるほうも、なにから書いていいのかがわからず、 よほど暇なときでもないと、1から全てを書くのは面倒なので 結局答えることをやめてしまう。
739 :
132人目の素数さん :2010/06/12(土) 21:05:55
LASSOについて教えてください LASSOは変数選択と推定を同時に行えるということがいくつかの論文で見たのですが、 これは有意な変数とそうでない変数を区別することができるということでしょうか? それとも有意とか有意でないとかは関係なく、単に係数の推定値が0に近ければ 説明力がないと判断するのでしょうか?まあ後者の場合、統計分析をする意味が あまりないように思えますが・・・。
そうじゃないみたいだな。推定値が正確に0になることができるからのようだ。 推定値が0というこいとは不要と言うことだから推定と同時に変数選択が できるということらしい。この点はリッジ回帰より優れているな。 その割にリッジ回帰より知られていないようなのはなぜなのだろう? リッジ回帰より歴史が浅いからか何か欠点があるのか。
741 :
132人目の素数さん :2010/06/12(土) 22:22:13
普通の回帰分析だと推定値が0に近くても有意な場合もあるし、0からかなり 離れていても標準誤差が大きくなって有意じゃなくなる場合があるけど、 LASSOは係数の大きさが重要で、いわゆる推測には無関係ということになるのかな? 高次元小標本データの分析に興味があるのですが、説明変数の数がサンプルサイズ よりも大きい場合でも係数を一致推定する方法はあるのでしょうか?
0に近いのと0とは違うよ。0だと分散がいくらだろうと棄却はできない。 で、0に近くて棄却されない変数があった場合はどうするのかは 知らないな。 一致推定って標本数を増やしたときに話だよね。 それだとすでに小標本の話じゃなくなってるんだけど。
743 :
132人目の素数さん :2010/06/13(日) 09:50:28
質問です。 「個人はそれぞれ違うけど、集団の統計は驚くほど同じだ」というような 意味の名言?を残した人がいたと記憶しています。(多分、統計学の初期に貢献した人) この言葉を残した人を知っている方、教えてくださいm(_ _)m
誰だろ?社会統計っぽいからケトレーあたりかな。 ケトレーだとそれを突き詰めて平均人まで行っちゃうけどね
745 :
132人目の素数さん :2010/06/13(日) 21:16:30
回帰分析では例えば1近辺の数値しか取らない説明変数X1があったり、10000近辺の数値 しか取らない説明変数X2があったりします。このような場合、X1の係数が大きくなって、X2の係数が 小さくなる傾向が多いと思いますが、標準誤差を無視して係数の大きさだけで0に近いかどうかを判断すると 本当に正しい判断が出来ているのかなあと思ってしまいます。例えばあるデータをグラム表示した場合と キログラム表示した場合で結果が異なったりするのかなあと。 LASSOの計算方法が分かっていないだけなのかもしれませんが、どうなのでしょう? LASSOの計算の前にはデータを標準化するとかの作業が必要なのでしょうか?
計算式を見るに係数は対等に扱っているので確かに説明変数が大きさが違う場合は 標準化をしないと問題が生じるね。いくつかの流儀があるようだからその欠点を 修正した方法がすでに提案されているのかもしれないけど。
今年からB4のドシロウトです 多重比較する際に様々な手法があるそうですが とある比較でテューキー・クレーマー法とライアン法のふたつを用いたら それぞれで天と地ほどの差が出てしまいました。 先輩がたは得体の知れない分析法(=ライアン法)なぞ信用できないとおっしゃった上 ネットにもライアン法がどのような比較法であるのか、テューキー・クレーマー法と何が違うのか に関する情報が少なく行き詰っています。 どなたか詳しい方ご教授願います
748 :
132人目の素数さん :2010/06/14(月) 18:38:38
証明問題です。 ・∫[0〜∞]x^s-1 exp(-ax)dx=Γ(s)a^-sを示せ ・∫[-∞〜∞]e^-z^2 dz=√πを導け ※Γ(1/2)=√πを利用 まったくわからないので教えてください。
>>747 ライアン法はボンフェローニ法を多段階に改良したもので群の数が多い場合
その改良効果も高くなり、テューキー・クレーマー法より検出しやすくなるでしょう。
そのような場合、多段階のテューキー・クレーマー法を使うとライアン法に
負けないはずなのですが、実装している統計ソフトがほとんどないため
自力で努力するしかありません。その方法の名称はテューキー・ウェルシュ法とか
ライアン・エイノット・ガブリエル・ウェルシュ法(REGW法)とか呼ばれています。
あとはぐぐってください。
>>748 最初のは部分積分、2番目のは2次元に拡張して極座標変換。
751 :
750 :2010/06/14(月) 21:57:05
見間違い。変数変換だけだな
752 :
132人目の素数さん :2010/06/18(金) 21:25:46
∫[0〜∞]e^-z^p dz=(1/p)Γ(1/p)
753 :
132人目の素数さん :2010/06/19(土) 22:35:13
質問です ばらつきを示す数値を大きく分けるとして、分散、標準偏差、範囲、四分位範囲、平均偏差、があるらしいことは調べたのですが、不偏分散というのは六個目としていれていいのでしょうか? それとも分散の中に含めてしまってよいのでしょうか… そうすると、標本分散などもでてきてわかわからなくなりました。教えて下さい。
>>753 不偏分散、標本分散は分散の中にいれていいよ。
この二つの違いは、標本があった時に、それから母集団の分散を推測する場合と標本自体の分散を計算する場合の違い。
統計学をきちんと勉強すれば、すぐにわかるようになります。
755 :
132人目の素数さん :2010/06/20(日) 12:17:35
>>754 さん、ありがとうございます!
これからしっかり勉強します
「ばらつき」の指標は標準偏差。分散じゃない
757 :
132人目の素数さん :2010/06/20(日) 19:44:03
ちょいと質問 y=ax+bを推定するときによく使う最小二乗法は、 測定値と理論値のyの値の差分の平方を最小にするようにするけれども、 これを測定値と理論値のxの値のの平方を最小にするように求める方法ってあったよね? なんて名前だったか教えてもらえると有難いのだけれども…
759 :
132人目の素数さん :2010/06/21(月) 00:14:26
質問の説明とは全然違うが直交回帰とエスパーしてみる
>>757 の式でいうところのaが1より大きいとき
>測定値と理論値のxの値のの平方を最小にするように求める方法
のほうを使いたくなる
762 :
132人目の素数さん :2010/06/23(水) 02:59:19
十分統計量を具体的に言うとどのようになりますか? 最尤推定量が母数を使わずに求められるってことでいいんでしょうか?
763 :
132人目の素数さん :2010/06/23(水) 18:01:27
多重共線性に関してです。 変数yi(i=1〜p)について rjj:相関行列の逆行列のj番目の対角要素 Rj^2:yjを被説明変数とした場合の重相関係数 とした時、 rjj=1/(1-Rj^2) を証明したいのですが、まったくわかりません。残差をだすくらいしかできなかったのですが、どなたかわかりませんか?
ものすごく初歩的な質問をしますが 統計の標準化のメリットってなんでしょうか? 平均が0,標準偏差が1になるように母集合のデータを相対的にずらすんですよね?
>>764 一種類の数表があれば検定ができるようになる。
昔は今みたいにいろんな状態をPCで簡単に検定ができなかったわけよ。
766 :
132人目の素数さん :2010/06/25(金) 21:17:56
非常に基本的な質問で申し訳ありません。 いままでPASW17でデータ解析をしていたのですが、 この度大学で新しくPASW18を使うことになりました。 同じ統計解析の手法を用いても、バージョンの違いによって、 p値などの数値や結果が変わることなどはないのでしょうか? (もしあるようなら、また1から解析をやり直さないと いけないので・・・) 諸先輩方、ご教授よろしくお願いします。
>>766 そのソフトがどうかは分かりませんが、一般的には変わる可能性もあります。
1. 元のバージョンにバグがあった場合
2. ルーチンが変わったせいで計算精度が変化し収束計算がさらに進んだりした場合
3. 方法を変更した場合(たとえば、主成分の軸の方向の決定法)
これらは手法に寄るので簡単な例でもよいので同じ解析方法で比較するのが
よいのですが、古い方のバージョンがもう使えないとするとやっかいですね。
どこかでバージョンの変更点がまとめられていると思うのでそれを調べるしか
ないですね。基本的に1以外は大きな変化ではないのでやり直す必要は
ないと思いますが。
768 :
766 :2010/06/25(金) 22:25:21
767さん、ありがとうございます。 早速バージョンの変更点を調べてみます。 難しい統計はしていないので、大丈夫だとは思いますが・・・。 返答ありがとうございました。
ソフトによるp値の違いという話が出ましたので、私も便乗させてください。 たとえば次のような4x2の分割表でchi^2による独立性検定を行なうとします。 + - 1 700 200 2 120 200 3 170 120 4 530 180 統計パッケージでの出力はほぼ0.00017くらいになるはずですが、Excelのみ CHITESTでもCHIDISTでも6.16651E-44という値を出します。これはExcel の計算誤差に起因すると考えるべきなのでしょうか。
>>769 Rで計算するとchisq.testでX-squared = 203.8648, df = 3, p-value < 2.2e-16、
独自に正確なp値をpchisqで求めると6.16651e-44とEXCELと同じとなった。
統計パッケージの方がおかしいかデータの入力ミスかだと思う。
>>770 Rでの検証ありがとうございます。Excelの方が正しい値だとすると、
おっしゃるように入力ミスという初歩的なミスだったのかもしれません。
今検証環境がないので、明日以降チェックしてみることにします。
>>770-771 Rでの計算結果
> result <- chisq.test(matrix(c(700,200,120,200,170,120,530,180),ncol=4))
> str(result)
List of 8
$ statistic: Named num 204
..- attr(*, "names")= chr "X-squared"
$ parameter: Named num 3
..- attr(*, "names")= chr "df"
$ p.value : num 6.17e-44
$ method : chr "Pearson's Chi-squared test"
$ data.name: chr "matrix(c(700, 200, 120, 200, 170, 120, 530, 180), ncol = 4)"
$ observed : num [1:2, 1:4] 700 200 120 200 170 120 530 180
$ expected : num [1:2, 1:4] 616 284 219 101 199 ...
$ residuals: num [1:2, 1:4] 3.38 -4.97 -6.69 9.87 -2.03 ...
- attr(*, "class")= chr "htest"
内部ではちゃんと6.17e-44と計算されています。
>>769 Stataでの結果
6.167e-44
774 :
132人目の素数さん :2010/06/28(月) 23:48:28
>>774 Excelにデータを入力
Excelでグラフ作成ボタンをオス。
できたグラフをパワポなど別ソフトで編集し完成
以上
SPSSで CASE1 (VAR1, VAR2... ) CASE2 (VAR1, VAR2...) .. .. .. という形の元データでなく、集計済の分割表から分析をスタートするには どうしたらよいのでしょうか?
777 :
776 :2010/06/29(火) 21:36:23
解決しました。お騒がせしました!
統計学の確率の問題が全く理解できません. i)ガンを診断するための検査法(たとえば,腫瘍マーカ)があるとしよう. Cを被検査者はガンであるという事象,Aを検査の結果が被検査者はガンであると示す(すなわち,検査結果が陽性となる)事象とする. P(A|C)=0.95,P(A^c|C^c)=0.95であれば,検査法は一応信頼できるものといえよう. 検査を受ける人の中で,実際にガンの確立がP(C)=0.005のとき,P(C|A)を求めよ.(数字は仮のもの.) i)はなんとか自力で解くことができ,答えがP(C|A)=0.0872と著しく低い となりました. ii) i)において検査の信頼性が0.95でなく,一般にP(A|C)=P(A^c|C^c)=R(0<R<1)としよう. P(C)=0.005は変わらないとするとき,P(C|A)≧0.90となるためには,Rはどの範囲の値であるべきか. 上記のii)が分かりません.途中式などを含めて,教えてください.お願いします.
正規母集団からのサンプル平均の分布は正規分布になります。 いま一回のサンプルの分布が正規分布にならなかったら 正規母集団でないことをを疑った方がよいですか? もちろんサンプルサイズにも依ると思いますが。
>>779 最初の文と次の質問がどうつながるのか分からない。
平均だけを議論したいので多少ずれててもいいですか?ということを聞きたいのか?
>>780 母平均推測するためにとった一回のサンプルのヒストグラムが
正規分布になってなかったとき。(非対称とか)
→サンプル平均のヒストではないので正規分布にならなくてもよい。
といいつつも、前提の"母集団は正規分布"が崩れてるのではないか不安が生じる。
といった疑問です。わかりにくくてすいません。
>>778 数値で出せるんなら、一部が記号でも同じでしょ。最後に不等式を解くだけ。
一般式:
P(C|A) = P(A∩C) / P(A) = P(A∩C) / { P(A∩C) + P(A∩C^c) }
P(A∩C) = P(A|C)・P(C)
P(A∩C^c) = P(A|C^c)・P(C^c) = { 1 - P(A^c|C^c) }・{ 1 - P(C) }
783 :
132人目の素数さん :2010/07/01(木) 08:21:44
aからeの群間で比率の比較を調べています。 全体で有意差あり、多重比較でaとcで有意差あり、 a10%b80%と大きな差があるにもかかわらず有意差なしの場合、 aとbの関係についてはどういった記載ができるのでしょうか? (bはaより大きい傾向がある?差がない?) よろしくお願いします。
784 :
783 :2010/07/01(木) 08:50:09
先ほどの質問に関連しますが、データとしてaからe群まで提示する場合、 比較の関心領域がabの2群間の大小だけだとしても、 やはり多重比較するべきでしょうか? あわせてよろしくお願いします。
>>784 基本姿勢としては、多重検定は避けるべき。
検定を繰り返すほど、偶然に帰無仮説を棄却できてしまう可能性が高くなる。
まぁ、その回避策としてボンフェローニとかがあるわけだが。
786 :
784 :2010/07/01(木) 18:04:29
コメントありがとうございます。2群間の比較を行おうとデータを集めたら、5群に分類されてしまったのです。うまくいかないものです。
>>786 c,d,eには全く興味がないなら、初めからa,bだけで検定して全体の検定を行わない
という方法もあるけど?
>>781 データの歪み具合とデータ数によると思いますが、
平均の推測のみならまだ正規性は近似的に保たれていると
考えてよいのでは?
検定ならノンパラを使うという手もあるけど。
789 :
132人目の素数さん :2010/07/02(金) 16:44:31
2群×4因子(順番あり)のクロス表があります。 いろいろ調べてみて、マン・ホイットニーの正確確率検定の 適応と考えたのですが、SPSSのクロス表の欄にありません。 SPSSではできないということでしょうか? また、ある文献に順番のあるクロス表の検定では フィッシャーではなくマンテルをと書いてありました。 今回多層化していませんが、適応できるのでしょうか? ご教授よろしくお願いします。
>>789 累積カイ2乗検定は?まあSPSSにはないけど。
791 :
789 :2010/07/03(土) 14:10:58
>>791 データ数による。多いのならカイ2乗でもいいだろう。
カテゴリーに順序があるという情報は使っていない。
その情報を使うのが累積カイ2乗。
累積カイ2乗とカイ2乗の違いは検出力に現れる。
すなわち、カイ2乗でも棄却されるなら差があることは
言えている。しかし、なんらかの傾向性があるという
ことは累積カイ2乗のようには言えない。
793 :
789 :2010/07/04(日) 00:11:16
>>792 ご教授ありがとうございます。
もうひとつ教えてください。
拡張マンテル検定、累積カイ2乗検定、
マン・ホイットニーやクラスカル・ウォリスの検定の
正確確立検定などが、順序データに用いられると思いますが、
それぞれの検定の違いとはなんでしょうか?
前2つは傾向がわかるとおもうのですが、後2つで有意差が
出た場合も傾向があると言えるのではないでしょうか?
質問ばかりで申し訳ありませんが、よろしくお願いします。
>>793 差があることは言えるが、傾向は分からないだろう。
傾向が分かるかどうかは順序のついている列を入れ替えたら
検定結果が変わるのかで確認できる。
795 :
132人目の素数さん :2010/07/04(日) 13:04:53
統計学を応用して、競馬の賭け予想をするという試みはどうでしょうか? 多変量解析を利用して、各データを分析して、各レース毎に可能性の高い組み合わせを計算するという方法です。 競馬に限らず、競輪、ボートでもいいのですが、既にやっている人がいって、理論的に結果が出ているのなら、今からやっても意味がないのですが。
796 :
132人目の素数さん :2010/07/04(日) 14:55:28
休眠状態のようでしたので、数学スレに投稿させて頂きました。
>>795 それをしてるやつはたくさんいると思うよ。
その上、ある程度当てるのも可能だろう。
しかし、儲けるのは別で簡単ではない。
>>797 レスありがとうござます。
たくさんいるのにも関わらず、レスが少ないということは、
多分やっている人がいてある程度儲かっているけど、
それを隠したがってるのかも、と予測しました。
儲け話は、誰にも教えたくないですものね。
早速、私なりにやってみたいと思います。
週末のこの時間にとても良いことが聞けたと感激しております。
どうもありがとうございました。
>>798 ちゃんと読めよw
儲けるのは簡単じゃないんだって。
競馬で言うと各馬の勝つ確率をみんなが適正に判断できたら
それに応じたオッズになって儲けの期待値は限りなく
理論の期待値になって胴元の取り分があるので確実に
取り返せないものとなる。
大体パチプロなら聞いたことがあるが、競馬のプロなんて
聞いたことないぞw
小説家の浅田次郎は、売れる前、競馬で食ってた時期があるそうな。 そのかわり、ここぞというレース以外には手を出さなかったらしい。 テラ銭に25%も持ってかれるんだから、当然だけど
浅田次郎はパドック派だった UPROはオッズ分析といわれているが真相は不明
>>800 「3着までに入らない『はずれ馬』を除外したうえで、
残りのほとんどの組み合わせの馬券を買う手法だったため、
資金力のない一般のファンにはまねのできないやり方」
だそうだ。
804 :
132人目の素数さん :2010/07/05(月) 00:46:39
統計学で数学の知識が占める割合は何割くらいですか? 逆に数学以外の知識が占める割合は何割くらいですか? 統計学のクラスを一つ取ったことあるんですけど 積分ばっかりやっていた記憶があります。 線形代数 複素数 群 環 などは使わないですよね?
>>804 複素数は使わないけど、他のは普通に使うでしょ。
たいして勉強していないのでは?
806 :
132人目の素数さん :2010/07/05(月) 01:26:18
>>805 ということは、統計学は数学の部分集合なのでしょうか?
そして結局、数学はどの辺りまでやればいいのでしょうか?
先に統計学勉強し始めて足りないところを後で補うような方法でいいのでしょうか?
>>806 不完全部分集合という方が正しいね。
で、数学なら線形代数、微積分は基本として位相や偏微分方程式あたりまでつかんでおけばだいたい大丈夫。
数学は体系的な学問だから、一部だけつまみ食いするような勉強の仕方だと、
わけが分からなくなるし、応用が全くつかなくなるよ。
808 :
804 :2010/07/05(月) 02:15:18
>>807 ありがとうございます!
位相や偏微分方程式あたまりまでですか・・・
まだまだ道は遠そう(今は多変数の微積+複素関数)ですが
仰る通り、つまみ食いのような勉強方法だと躓くでしょうし、
数学は大好きなので時間はかかっても必ずそこまで到達したいと思います。
すいません、統計について質問があります。 今"効果量"について勉強してるのですが、 二(多)元配置の分散分析において偏イータ2乗や偏オメガ2乗を求める時に 「修正総和」という値が必要なのですが これはどうやって算出できるのでしょうか? できる限り調べてみたところ、SPSSではこの値を返してくれるようなのですが 私自身、SPSSを使える環境にいません。 そして、手計算での情報が見当たりませんでした。 どなたか手計算での算出方法を知っている方、アドバイスよろしくお願いします。
>>809 修正総和は「総和−切片」だと思います。
811 :
132人目の素数さん :2010/07/07(水) 01:49:06
質問です。 正規分布(65,100)の母集団があります。 そこから20個の標本値を無作為に選んだ時、標本分散値がX以上である確率が0.01となるXの値はいくらですか。 誰かわかる方、教えてください。
>>811 ヒント:標本分散に何かを掛けて何かで割るとカイ自乗分布にしたがう
813 :
809 :2010/07/07(水) 08:17:40
>>810 返答、ありがとうございます。
ただ分散分析でいう「切片」とはどのように算出するのでしょうか?
調べてみたところ、「切片=要因Aの平均値」という情報があったのですが
他の要因は扱わなくて良いんでしょうか?
統計の初心者なので、質問が多くて申し訳ないですが
よろしくお願いします。
>>813 修正総和を式で書くと
Σx_i^2 - (Σx_i)^2/n
じゃないかな?
815 :
809 :2010/07/07(水) 12:29:55
>>814 ありがとうございます!
それらしき値が出ました。
ただ、その値が普通の総和とほとんど変わらない点が少し不安ですが・・・
とにかく助かりました。
>>815 そもそも元の平均が0に近いなら修正項も小さいので総和とそんなに変わらないよ。
817 :
809 :2010/07/07(水) 21:54:39
また相談があります。 よろしくお願いします。 心理統計における“第1種の誤り”は5%や1%に定めることができるが、 “第2種の誤り”は定めることができない、と聞きました。 これは本当ですか? 本当であるならば、なぜなのか、お分かりになる方はいますか?
こういうスレッドがあるとは初めて知りました。 多変量解析、統計学を何度が勉強しようとして(独学)いつも挫折してます。 テキストの最初のほうにいきなり正規分布、ひずみ、とがりの式が 出てくるんですが、この式を導く過程を理解しないでいいもんなんでしょうか?
>>817 基礎的すぎて誰も返事しないな。
説明しようとすると検定とは何かというところからしないとだめだし…。
身近な人に聞いた方がよいよ。
>>818 目標が何かによるな。
あくまでもユーザとしてならどのように使うのか式の意味さえ理解すれば
式を導く過程は要らないと言える。
突然変なカキコで申し訳ありません 100人の生徒がいるとします 上から20番目の生徒の点数が700点であったとします 上20人の生徒の平均点数が750点であったとします ある生徒の点数が650点であったとき、この生徒は上から何番目ぐらいにと考えるのが妥当でしょうか?
38番目
>>819 コメントありがとうございます。
自分はあくまでユーザとして使うだけです。ビジネス上のデータ分析とか。
が、式の導出もわかってないと、完璧に理解していない気がして気持ちがわるい・・
完璧主義者的なところがあるんですよね。
>>820-821 正規分布を仮定した倍精度計算では
μ = 624.6114341
σ = 89.57542905
P{ X ≧ 650 } = 0.388422815
となったけど、これって 38番目それとも 39番目?
824 :
820 :2010/07/10(土) 10:31:49
>>821 >>823 レスいただきありがとうございます
とりあえず倍精度計算をぐぐるところから始めたいと思います
そこからかよw
826 :
名無しさん@そうだ選挙に行こう :2010/07/11(日) 00:35:21
X, Yをそれぞれ幾何分布に従う独立な確率変数とします。このとき、X/(X+Y)はどのような分布に従いますか? ただしX+Y=0のときX/(X+Y)は0の値を取るとします。
828 :
名無しさん@そうだ選挙に行こう :2010/07/11(日) 07:14:03
サマージャンボのあたりくじの分布図について
829 :
名無しさん@そうだ選挙に行こう :2010/07/11(日) 07:15:59
≪1位〜25位≫ 1位:東京都 44本「ドリームジャンボ」 62本「サマージャンボ」 121本「年末ジャンボ」 72本「全国通常くじ」 8本「地域医療等・振興自治宝くじ」 合計307本 2位:大阪府 21本「ドリームジャンボ」 26本「サマージャンボ」 53本「年末ジャンボ」 33本「全国通常くじ」 1本「地域医療等・振興自治宝くじ」 合計134本
>>826 知恵袋の方は消したみたいなのでヒント:
X, Y ≧ 1 で Y/X の既約分数を m/n とすると
m / ( m + n ) = 2m / ( 2m + 2n ) = 3m / ( 3m + 3n ) = …
が Z = X/(X+Y) の同じ値のすべて。よって
P{ Z = X/(X+Y) } = P{ X=m }P{ Y=n } + P{ X=2m }P{ Y=2n } + …
831 :
830 :2010/07/11(日) 18:09:10
○ Y/X の既約分数を n/m とすると
今参院選の当確とかやってるけど、これってどんな統計上の処理してんの? 数学的には開票率50%を超えない限り当確とは言えないはずだよね? 多分なんか統計的な処理をしてやってると思うんだけど・・・ どういう計算してどれだけの有意水準で結論出してるかわかる人いますか?
どういう計算かは極秘事項らしくどのTV局も公表はしていない。 有意水準は当確ミスから判断するしかないが、衆議院議員総選挙で 1つのTV局で4つぐらい当確ミスが出ているという状態からすると 少なくとも1%、競っているところでのみミスが起きるとすると5%なのか? 最近はミスが減っているように思うので1%かもな。
開票速報は出口調査と過去の得票数からの推定 統計的な処理もあるけど基本は勘 昔は某研究室が請負してたけど今は知らん
>>834 え、投票総数と、開票された割合について、
開票されたものの分布が正規分布に従うとして・・・
みたいな処理してないの?
まぁ今回はなんにせよなかなかいい結果だったな。
中央値(メディアン)って確率分布の重心にあたるの? 平均は重心とは限らない?
平均の方が重心です。
突然すみませんが、幾何平均の問題で、実質GDP成長率の平均成長率を求める時、例えば4年間の平均成長率を求めるときは、 各年度の実質成長率を掛けて1/4乗するとでると思うのですが、マイナス成長の時(−0.3%など)はどうしたらいいのでしょうか? 例として、(1.037×1.008×1.019×1.030)^1/4 -1≒0.023 平均成長率2.3% ↑ 各年の成長率(3.7%) それでこれにあてはめると、-0.3%の場合は0.097を掛けて計算すればいいのでしょうか? どなたかヒントでもいいので教えてくれるとうれしいです。長文失礼しました。
0.997な。
>>839 ホントだ!
0.097掛けてたのでやっぱりおかしかったんですね。こんな凡ミスだったとは・・・。
お恥ずかしい。
ありがとうございます。助かりました。
842 :
841 :2010/07/14(水) 13:48:47
人口の偏りはあるかもしれませんが、この分布は検定したら確実に棄却できますよね 人口との比で計算したほうがいいのかな 千葉市中央区 14.197 千葉市花見川区 11.183 千葉市稲毛区 12.196 千葉市若葉区 10.200 千葉市緑区 9 千葉市美浜区 8 銚子市 3 市川市 33.259 船橋市 31.492 館山市 0 木更津市 4.097 松戸市 33.458 野田市 11.305 茂原市 4 成田市 13.288 佐倉市 11.252 東金市 8 旭市 5.172 習志野市 6 柏市 20 勝浦市 1 市原市 12 流山市 4 八千代市 9 我孫子市 13 鴨川市 4 鎌ヶ谷市 5
いわゆる組織票がメインの候補は地区による偏りが大きくても当然でしょ。 うちの町内会長なんか選挙の度に特定候補の応援やってるしw
交互作用と交絡因子、シンプソンのパラドックスはどう違うんですか?
845 :
132人目の素数さん :2010/07/14(水) 20:37:54
はじめまして。 私は文系でいま卒論を執筆中なのですが、 卒論で@χ二条検定、A残差分析を行わなければならないことがわかりました。 統計学は一度も触れたことがなく、@、Aが初歩的なものなのか、応用的なものなのかすらよくわかりません。 もし差し支えなければ、@、Aの定義、どういったデータを分析するときに用いるのか、分析手法、などをご教授 いただけないでしょうか。また、それが面倒な場合はお勧めの参考書などを教えていただけると幸いです。 それから、@、Aはどちらもエクセルで分析可能なのでしょうか? 初心者の質問で大変申し訳ないのですが、よろしくお願いいたします。
カイ自乗検定は入門レベル。エクセルで可能。 「残差分析」は応用的で、その内容も幅がありすぎて、それだけでは 手法の説明もできないし本も決まらない。
847 :
132人目の素数さん :2010/07/14(水) 21:10:35
>>846 早速のお答えありがとうございます。
残差分析についてですが、
aを含む・含まない×bを含む・含まないの2×2クロス表における、
a、bをともに含むセルの標準化残差を使用する。
と書いてありました。初心者であまり意味も理解できていないのですが、
これ以外に情報が必要でしょうか。よろしくお願いいたします。
848 :
132人目の素数さん :2010/07/14(水) 23:06:34
物凄い初歩だと思うんですが、誰か答えをお願いします。 データ数が11、標本分散が3.0の時の不偏分散を教えてください。 よろしくお願いします。
>>847 要求されてるのがそれならそれでいいんじゃないか。
大学1年です。使っている参考書に答えが分からない上、 答えが載っていない問題があったので質問させてください。 男子学生の体重X〜N(60,8^2) 女子学生の体重Y〜N(50,6^2) という設定で、 最初に「男子3人と女子2人の体重の合計が従う分布を求めよ。」 とあり、この答えはN(280,264)だと思います。 しかし、次に「3X+2Yの分布は上で問われているものと異なる。違いを説明せよ。」 とあるのですが、そもそも問題の意味がよく分かりません。 「一人の男子学生の体重の3倍と一人の女子学生の体重の2倍の和が従う分布」 はどうなのでしょうか。
3X+2Yの分布の平均と分散計算してみれば?
E(3X+2Y)=3*60+2*50=280, V(3X+2Y)=3^2*8^2+2^2*6^2=720 分散が違うことが分かりますが、それの意味する所は何なのでしょうか・・・ まぁこれを答えにしても、ある程度点数貰えるでしょうけど
意味するところは、、、 5人調べるところを手抜きで2人で代用すると精度が悪くなる
>>853 ありがとうございます。すっきりしました。
課題のために統計局HPにアクセスしたいんだがここ3日間アクセスできないorz
googleのキャッシュによると 「情報提供の一時停止のお知らせ:平成22年7月16日(金曜日)19時00分から 19日(月曜日)24時00分(予定)の間、メンテナンス作業のため情報提供を 一時停止します。」 だそうだ。
キャッシュにしかその情報が残ってないとは それなんて糞システム?
サーバの置き換えなど大がかりなメンテナンスだろ。 そのぐらい察しろよ。
統計無知な自分にご教授を。 10個ある作品に対して20人が、作品ごとに5点満点の整数で点をつけた。 作品によって点数のばらつきがある・ないはどう評価したらいい? 標準偏差でるんだからばらつきがあるのは当たり前なんだが、それに有意水準みたいなのとかないの?
>>859 「ある・ない」というのが分からない。
なんの基準もなく絶対的なばらつきの大きさは測れない。
「10個の作品の点数はそれぞれ同じばらつきと見てよいか」なら分かる。
多変量解析 のカテゴリーてこちらでよい? 文科省の通信教育の、統計士・データ解析士 を受講している人いませんか? いや、いたら情報交換したいなと
>>859 分散が等しいかの検定はあるから、それでいいんじゃないかな。
文科省認定と言うけど国家資格というわけじゃないんだよな。
統計技術士とか何とかいう名称があるが、そっちの方は国家試験。 但し、院試レベルの純粋数学も出るし、合格するのは至難の業。 実技試験は、長い論述式だし、合格までに3年以上掛かると言われている。
>>863-865 着目している人いるんですね
でもちょっとすれちがいだったかも
失礼しました
>>865 技術士って土木系以外あまり役に立たないって聞くけど
統計の場合は役に立つの?
最近は、データマイニング的な仕事が数年前に比べて相当増えてきた。 公的な能力証明がない統計の世界にあって、技術士を取っておけば、 就職にかなり有利でしょ。 ちなみに、自分は某新興上場企業でデータ分析しているけど、 なかなか数理統計をマスターしている人材が少なくて、常時募集している。
経営工学部門じゃね?
統計学を生かした仕事をしたいのなら、 技術士よりも、統計学修士の方がニーズはありそうだけど。
873 :
132人目の素数さん :2010/07/26(月) 21:26:00
当方、文系大学生3回生で、 わけあって夏期休暇に統計学を一から学びたいと考えているものです。 これから統計学を学ぶにあたって、 『マンガ 統計学入門』 ↓ 『完全独習統計学入門』 ↓ 『マンガでわかる統計学』 ↓ 『マンガでわかる統計学 回帰分析編』 と本を読み進めていこうと考えておりますが、 効率的な統計学の学び方があればご教授していただきたいと思い このスレッドに書き込みをさせていただきました。 ちなみに私は高校3年生から完全に文系になり、数学はUa、Ub までしか学んでおりません。 統計学を学ぶ先輩方のアドバイスを頂くことができたらと思います。 よろしくお願いします。
874 :
873 :2010/07/26(月) 21:29:31
すみませんあげてしまいました。sageます。 よろしくお願いいたします。
>>873 その手の本を読んでも、とっかかりには良いけど、応用力が効かない。
早い段階で、東大出版が出しているようなハードの本を読み解くことをすすめる。
>>873 わけによる。特定の解析を学びたいならそれに特化した本を読んだ方が手っ取り早い。
また、応用分野によって同じ解析でもアプローチが違うこともある。
まあなんの知識もないならマンガは方向付けにはよいので
素早く読んでそれらの一般書に移るようにすればよい。
877 :
132人目の素数さん :2010/07/26(月) 23:52:39
たぶんとても基本的な問題なんだと思うのですが、分からないので教えてください。 100題の○×問題を解いたとき、回答者が偶然よりも有意に高い確率で問題を解けたと判定できるのは何問正解以上でしょうか。 よろしくお願いします。
878 :
873 :2010/07/27(火) 08:58:42
>>875-876 ご返答感謝します。
当方は社会学専攻で、
後期から卒論指導&社会調査指導が入るため、
高度な統計学の知識が必要になるのです。
今までもΧ二乗検定やt検定は(原理等もそれほど理解せずに)使ってきましたが、
分散分析や回帰分析、重回帰分析(標準化残差を用いた残差分析など)がおそらく必要となるため、
ここで一からやり直してみようかと考えております。
夏期休暇においては、今までの知識の確認および統計学の基礎、
回帰分析、重回帰分析(残差分析)の原理や方法について学びたいと思っています。
>>875-876 さん達にお伺いしたいのですが、
回帰分析や重回帰分析に特化した教科書をご存知でしょうか。
もしご存知であれば教えていただきたいです。
よろしくお願いいたします。
880 :
132人目の素数さん :2010/07/27(火) 21:22:37
寄与率について教えてください。 エクセルを用いて、国内総生産の各項目の寄与率を求めています。 1981年から2008年までの、 民間最終消費支出、政府最終消費支出、総資本形成、財貨サービスの純輸出の 寄与率を求めましたが、解釈不明な数字が出ました。 テキストによるとそういう場合は、変化幅を一定にする変換をとあります。 しかし、その変換の仕方が書いておらず、たとえば、変化幅を100の一定にする 変換の方法をお教えください。 よろしくお願いいたします。
>>878 原理も重要だが、どういうソフトを使うのかも肝心。
回帰分析はメジャーだからソフト名+回帰分析という範囲で
調べてから書店へ行けばよいものが見つかるかも。
実際自分の目で見ないと自分のとって読みやすいかどうかは
分からないよ。
つかぬ事をお伺いします。 私の友人が52枚のトランプを使って裏返しのカードの黒と赤を当てる、という「実験」をしました。 そして37枚を的中させました。 的中率は7割を超えています!! インチキはしていないと言っていますが、こんなこと偶然に起こるのでしょうか?! もしかしたら、もんのすごい才能の持ち主なんでしょうか。 私は自分で言うのもなんですが、かなり打算的な性格なせいか、ちょっと尊敬しちゃいそうです。
>>882 常にそれならすごいでしょう。
もちろんトランプに仕掛けがないとしてですが。
>>882 んとね、記憶力がよければ、例えば最期の一枚は必ず当たるってのはいいよね。
カードが減って行くにしたがい、残ったカードに何が入っているかの情報が増えて行くので、単純なランダムよりもあたる確率は高くなります。
カジノで、でたカードをカウントするのは基本です。
52枚のカードを順に確認するんじゃなくて、抜いたカードを戻してきちんとシャッフルして52回やるか、単純に2枚のカードでやってみるといいでしょう。
>>884 なるほど!
わかりました、シャッフルですね。
でも真っ正直なひとなので、そんな手の込んだことやりそうにないんですけれども。
で、こんどは何枚中何回くらい当たったら「異常」と判定できます??
おいおい、10枚中7枚正解ってのとおんなじじゃん。 無作為でも平均5枚アタるんだから、7枚なんて偶然の範囲内。 あほくさ
>>886 >10枚中7枚正解ってのとおんなじ
じゃないでしょ。試行回数が問題だから。
まあ同じじゃないかも知れんが、50回中7割なら偶然だろ
>>886 統計学スレで、大数の法則に全く無知なコメントつけるって、
どんだけ恥ずかしいことか小一時間・・・
891 :
873 :2010/07/28(水) 08:17:09
>>879 ご返答感謝します。
予定の文献を読み終えたら
早速借りてきたいと思います。
ありがとうございます。
>>881 ご返答感謝します。
ソフトも重要ですよね。
SPSSを使用しているので、
ソフトの使用法とあわせて学べる
教材も準備したいと思います。
ありがとうございました。
割算学派から反撃w
895 :
132人目の素数さん :2010/07/28(水) 13:48:28
とりあえず、1回の抽出で当たる確率が50%を仮定して、52回引いたとすると
偶然に37/52>71%当たる確率は0.2%くらい。
ま、
>>888 とか
>>893 みたいな割算学派にとっては、理解できない話かな。
896 :
132人目の素数さん :2010/07/28(水) 13:58:51
ただそ、今回の場合は、
>>884 が書いてるように、出たカードから残りのカードを
当てる確率を上げることができるので、50%が最小値で、普通はそれ以上当たる。
最初から全部「赤」と言えば絶対に50%当たるわけだから、それ以上当てられない
方がおかしい。
例えば、残り1枚であれば、100%あたる。
残り2枚であれば、残りが同じ色ならこれも100%あたる。
残り2枚が違う色の場合、1枚目が当たれば2枚目は当たるし、1枚目が外れても
2枚目は当たるので、全部当たる期待値は75%。
で、最初からのやり方としては、1枚目は適当に言う。2枚目以降は残り枚数の
多い色を言う。これで50%以下になることはなくなる。
期待値がどれくらいかはだれか時間があったら計算して。w
>>877 キーワードは二項分布、95%信頼区間、片側or両側検定
ここでは有意水準5%、片側検定をRで計算してみた。
> pbinom(58,100,0.5)
[1] 0.955687
> pbinom(57,100,0.5)
[1] 0.9333947
つまり58問以上正解の場合、偶然で解ける確率は5%未満ということ。
ただし片側なので、偶然に間違えすぎる場合のことは考えていない。
>>882 全然関係ないけど
アウトオブディスワールドという手品を思い出した。
http://mybkm.blog.shinobi.jp/Entry/217/
本当に通りすがりの者だがw
>>896 > で、最初からのやり方としては、1枚目は適当に言う。2枚目以降は残り枚数の
> 多い色を言う。これで50%以下になることはなくなる。
確かに!
統計学は基礎の基礎しか取ってないからいい加減なこと言わせてもらうと
75%くらい当たるんじゃない???
・・・割算学派に入門させてくださいw
900 :
898 :2010/07/28(水) 18:19:18
そつなく
>>900 をghetto!
>>899 いやいやw
ろくに計算もせずにいい加減なこと言わせてもらったんで
俺にも割算学派に入門できる資格があるんじゃないかと思って(^^ゞ
黒と赤で50%
残りのカードを数えて75%
・・・れっきとした割算ですのじゃ!
>>900 あぁ!
それなら、割算派だね。(^_^)
>>896 モンテカルロ法で1000回ほどやってみた。
当てるポリシーは、残り枚数の多い方の色、残り同数なら五分五分で赤黒ランダム。
当たり枚数:最小値 26枚、平均 約30枚、標準偏差 約2.35枚
右に歪んだ単峰分布で、37枚以上は約 1%。
テンプレに ●学校の宿題の丸投げはやめましょう。 とあるのですが、問題に対して自分なりに回答を出して、 間違っていた場合解説をいただきたいというのはダメな感じなのでしょうか? 特定のデータに基づいて期待値と分散を計算せよという問題なのですが、 分散の計算の仕方がわからなくて困っているところです。
自分なりの解答が出ているのに計算の仕方が分からない… 謎かけのようだな。 それとも「答えが間違っているのではないでしょうか?」という回答か?
なんか日本語おかしかったですね。すみません。 計算の仕方をテキストやネットで一応調べたのですが、 その計算の仕方が正しいという自信がないという意味です。
「丸投げ」というのは、問題だけ書いて、解き方とか答え教えてくれという場合。 自分で解いてみた内容が書いてあれば構わない。 でも試験中の場合もあるので、質問から24時間経たないと、 コメントは付かないと思うけど
ありがとうございます。それでは書かせていただきます。 ──────ここから問題────── 金融資産一口の収益Xを考える。 x = 5 / 10 / 15 Pr(X=x) =0.3 / 0.5 / 0.2 xの数値は収益を示す(単位:万円)。Prはその確率を示す。 この金融資産を10口持ったときの期待値と分散を計算しなさい。 ──────ここまで問題────── 期待値:0.3*5+10*0.5+15*0.2=9.5 分散:=(5-9.5)^2*0.3+(10-9.5)^2*0.5+(15-9.5)^2*0.2=12.25 これで計算の仕方はあっているのでしょうか?
>>902 ありがとう。
平均が26から30にはなるのか。
15%くらい当たりが増えるってことだね。
>>907 んとさ、分散の方は10個もった時は、それぞれが独立と考えるの?それとも同じものなの?
株があって、同じ銘柄で、10個とも同じ結果がでるのか、収益のパターンは一緒でも違う銘柄で、結果が違うのかって話ね。
銘柄が違うなら、分散投資になるので、計算される分散は、数の影響をうけるよ。
10銘柄ぢゃなく10口だからね。一口を X とすると 10X の平均・分散と思われ
>>897 ありがとうございました。
お礼が遅れて申し訳ございません。
レスなんて諦めていたのに、Rの計算法まで分かって超ラッキーです!
ところで、もし○が90問で×が10問しかなかったとして、解答者がその配分に感づいていた場合は当然計算法もかわりますよね?
912 :
897 :2010/07/31(土) 12:31:38
>>911 確率統計の問題というよりは、その場合は、解答を全部○にするという戦略が成り立ってしまうのでは?
もちろん、もっと高度に問題を捉え直すこともできますが。
913 :
897 :2010/07/31(土) 15:12:53
>>911 真面目に考えてみた。
解答者は問題の答えが完全に分かるか、全く分からないかどちらかの状態しかないとする。
答えが完全に分かる場合には、当然正解を選ぶ。答えがわからない場合には、事前の情報で、
9/10の確率で○と分かっているので、解答者も9/10の割合で○を選ぶ。
> pbinom(95,100,0.9)
[1] 0.976289
> pbinom(94,100,0.9)
[1] 0.9424231
よって有意水準を片側5%とすると95問以上の正解で偶然でないと言える。
横レススマソ
>>897 ,911,913 を眺めてふと思いましたが
正解がちょうど50問が○で50問が×のとき
この事前情報があってもなくても
>>897 の検定になりますね
ということはこのときだけは解答者は事前情報を利用して
有利に解答することができないということでしょうか
>>914 自分の回答が正しいかどうかに自信がない時、○と×が半分半分という情報は、追加的な情報として意味があるか、考えてみたら?
袋の中から、色付きのボール(白か黒)を取り出すと考えてもいいよ。
916 :
132人目の素数さん :2010/08/01(日) 01:16:43
いきなりごめん。教えてほしいことがある。 サイコロがあるが、「偶数の目のほうが奇数の目より出やすいのではないか」という 疑惑がある。 1)10回ふって8回以上偶数になる確立を求めよ A. 7/128 …P1 2)5回ふって4回以上偶数になる確率を求めよ A. 3/16 …P2 3)大小関係を求めよ A. P1<P2 4)以上の計算結果に基づいて、偶数の目の出やすさに関して どのようなことが推測できるか? たくさん回数ふったほうが、判別しやすいってことなのかな?
>>897 >ここでは有意水準5%、片側検定をRで計算してみた。
>> pbinom(58,100,0.5)
>[1] 0.955687
この計算法だと、100問中100問正解の可能性が0になるね。
同様に、2問中2問正解の可能性も0.
なんかおかしくね?
なんのために57の場合も計算していると思っているんだ?よく考えろよ。
>>918 でも
>>897 は結果の読み方間違ってるけど、、、
|> pbinom(57,100,0.5)
|[1] 0.9333947
|つまり58問以上正解の場合、偶然で解ける確率は5%未満ということ。
58問以上正解の確率は 1 - 0.9333947 = 0.0666053。
なので 5%有意じゃないw
>917 精度が低いので切り捨てられてるんだと思います。
n問中n問正解はpbinom(n - 1,n,p,FALSE)やけんね
100問の○×問題でp=0.5なら50問正解が最大値になりそうなものだけど、なんでpbinom使うとそうなんないの?
>>919 そうだな。59問以上だな。
>>922 え?pbinomは分布関数だよ。ちゃんと計算すれば最大になるよ。
まあdbinomを使った方が分かりやすいけど。
> dbinom(50,100,0.5)
[1] 0.07958924
> dbinom(49,100,0.5)
[1] 0.07802866
> dbinom(51,100,0.5)
[1] 0.07802866
>>923 ありがとうございます。
dbinom使ったらこんなんなったです。
> dbinom(55,100,0.5)
[1] 0.0484743
> dbinom(45,100,0.5)
[1] 0.0484743
これって、55問以上と45問以下の正当が5%有意って意味になるんじゃないんですか?
925 :
132人目の素数さん :2010/08/02(月) 06:56:55
すみません。以下の問題を解けなくて困ってます。 1〜14の数字のうち3個が正解であるとする。 ランダムに5個を選択した場合の正解数の期待値はいくらか?
答えは直感的に自明だけど、もしもその期待値の式を導出する必要があるのなら、 一回選んだ数字を次に選べるか選べないかで扱う確率分布が違ってくるよ。
927 :
132人目の素数さん :2010/08/02(月) 07:49:19
>>926 一回選択した数字は選べないです。
>答えは直感的に自明だけど
すみません。ヒントだけでも。。。
>>927 >すみません。ヒントだけでも。。。
長期化するね
>>926 > 一回選んだ数字を次に選べるか選べないかで
925は試行を繰り返すのか?
>>925 どの数字も 3/14の確率で正解である可能性がある。
数字を5個選ぶと、 3/14 × 5 の正解である可能性がある
よって 15/14 。
931 :
132人目の素数さん :2010/08/02(月) 08:38:48
おそらく期待値の定義からは自明ではない計算法なので 正解数が0、1、2、3のそれぞれについて起こる確率を算出し その総和をとるという方法も回答できるようになっておいたほうがいい。
本に関する何か2種類の数値の相関を見たいのですが 【価格とページ数】の組合せ以外で、 因果関係のありそうな数値って何かありませんでしょうか。 ちなみに20冊の本の【縦と横の長さ】でとってみましたが、 ほぼ横一列にデータが並び相関係数も0.2という結果が出ましたorz
934 :
132人目の素数さん :2010/08/02(月) 20:22:56
ageさせて頂きます
>>933 ページ数と重さ
重さあたりの値段と発行部数(負の相関)
発行部数と話題の軽さ
936 :
132人目の素数さん :2010/08/02(月) 22:17:49
>>935 ありがとうございます。どれも知るのにヨイショがいりそうですね
できれば本そのものを見てその場で分かり、
適切に数量化できるデータがよいのですが…
937 :
132人目の素数さん :2010/08/03(火) 23:43:22
相関が高い時系列で計算した分散共分散行列の逆行列をエクセルのminverse関数で計算したのですが ちゃんとした結果が得られませんでした。(逆行列と元の行列をかけても単位行列になりませんでした) 相関が高い分散共分散行列での逆行列の算出は何か問題が生じるのでしょうか? それともエクセルの関数に問題があるのでそうか。
938 :
132人目の素数さん :2010/08/04(水) 00:02:49
>>937 Excelの逆行列関数はごく普通のレベルで、特には問題ないと思うけどね。
相関が強い多変量系列の場合、共分散行列の逆行列は数値計算誤差が
大きくなりやすいので、相関行列でやった方が安全。
もちろん相関係数の絶対値に 1 のものがあれば、逆行列は存在しないし、
1でなくても変数群の一部が Z = aX + bY のような線形関係を持つと、
逆行列は存在しない。
線形従属関係になる変数がある場合は、1部の変数は除いて、
従属性の無い変数群にしてから、逆行列を計算する必要がある。
940 :
132人目の素数さん :2010/08/04(水) 14:29:50
散策前後の血圧変化の優位差について調べたいのですが・・・ Wilcoxonの符号付き順位検定と Wilcoxonの符号付き順位和検定 というのは違う検定なのでしょうか。 「和」が付いているかいないか。 超初歩的で申し訳ありませんが教えて下さい。 よろしくお願いします。
941 :
132人目の素数さん :2010/08/05(木) 16:39:32
調べたのですが分かりません。 教えて頂けませんか。 Xを標準正規分布に従う確率変数とするとき、次の確立を求めよ。 1)Xが0以下の確立 2)Xが−1以上、1以下の確率 3)Xが−2以上、2以下の確率 よろしくお願いいたします。
943 :
132人目の素数さん :2010/08/05(木) 20:24:27
テキストとか指定ないんですよ 教授がPower Pointで講義進める形です
すまない 「PowerPoint以外のいかなるテキストも参照してはならない」 などという制限があるとはしらなかったんだ。
すげー基本的なことなんだけどな。今まで何をどう調べてきたんだ。 テキストがないならExcelでも関数使って計算できるよ。
つか、ググれば標準正規分布表もあるし、計算してくれるページもあるぞ
学校の宿題が分からないので相談にのってください・・・ 「多層パーセプトロンニューラルネットワークを使って何らかのデータを分析して新事実を発見しろ」というものなのですが ニューラルネットワークって「非線形的なものに対する予測に使うもの」だと思っていたので、分析といわれてもさっぱりです 回帰分析や主成分分析なら「○○と××の関係が〜」とか「寄与率が〜」とか言えたんですが、 ニューラルネットワークでそんな解析的な利用の仕方って可能なんでしょうか? 結合強度を利用しようとも思ったんですが、この数値群の利用の仕方が複雑すぎて何もいえない・・・
>>940 > Wilcoxonの符号付き順位検定と
> Wilcoxonの符号付き順位和検定
>
> というのは違う検定なのでしょうか。
順位の合計値を計算するので、キーワードとして「和」があってもなくても同じ。
英語でも
Wilcoxon signed-rank (sum) test
と sum は省略されることが多い。
むしろキーワードとしては「符号(付き)」がポイント。
それが付かないと、別の検定(マン・ホイットニーのU検定と同等)になる。
949 :
132人目の素数さん :2010/08/10(火) 09:13:06
不動産の過去の事例のデータベースを使って、査定をするロジックを作りたいと思っています 精度はそこまで求めていませんが、査定に使える項目は50程度あり、それを複数組み合わせて 査定できるようにする方法が、いまいちうまく思い浮かびません。 何次曲線?に近似するか求めて、それを項目ごとに繰り返すのかな?とも思いましたが、 たとえば、マンションの階数は、上に行くほど価格が高くなりますが、エレベータが無いと逆に 安くなっていきます。そのような複数相関?している項目が多数あったりで、スムーズにいきません。 項目を一つ一つ考えずに一気になんとかできるような方法があるものでしょうか。 また、専門家の人にアドバイスをもらえる方法も探しております。もちろん報酬も出せます。誰か紹介してください!
>>949 なんか面白そうだなー
査定価格をアウトカムとして、部屋の階、築年数などを予測因子とした多変量線形回帰を使って
今あるデータからモデルを作成して、係数を評価してみればいいような気がするな。
3元表について勉強してるんですが、 オッズ比均一モデルについて調べてて、 その期待度数の最尤推定値mの周辺和が観測度数nの周辺度数と等しい m_{ij+}=n_{ij+} (行、列についても同様)とあるんですが、 さっぱり導けません。お助けください。
952 :
132人目の素数さん :2010/08/11(水) 14:11:26
>>950 レスありがとうございます。データベースサーバに対してプログラムを実行しようと思っていますので、
それで通用するSQLやphpプログラムなどのロジック部分を完全に作っていただけるようであれば20万円程度で
外注したいとも思っています。とりあえずいただいた用語で調べてみます。ありがとうございます。
>>924 規制解除でやっと書き込める…もう見てないかもしれないが…
dbinomはその値だけの確率なので
「ちょうど55問の確率」であって「55問以上の確率」ではありません。
だから59問以上で正しいです。
954 :
950 :2010/08/12(木) 13:35:11
>>952 プログラムは組めないけど、プログラムを決めるための関数はデータがあれば
趣味で作ってみたいと思ってしまった。
955 :
897 :2010/08/12(木) 13:36:06
956 :
897 :2010/08/12(木) 13:39:07
>>921 今さらですが、ありがとうございます。
勉強になり、良く分かりました。
でも何故
p(k-1,n,p,FALSE)でk回のときわざわざk-1で入力させるように
しているんでしょうか?
自由度とか何か理由があるんだと思いますが分かりません。
自由度じゃないよ。 pbinom(k,n,p)はk以下の確率。 pbinom(k,n,p,FALSE)はkを超える確率。 (すなわち、1-pbinom(k,n,p)) したがって、k以上の確率がほしければpbinom(k-1,n,p,FALSE) となるんだよ。
958 :
132人目の素数さん :2010/08/12(木) 20:38:21
ttp://2chradio.com/?id=mnewsplus1273537567 このサイトに出ている有意差の検定の計算式で、
pとq、lとmというのは何を意味しているのか、わかる方教えてください。
pとqは、どうやら比較対象の2つの番組の視聴率のように思えます。
lとmというのは何でしょうか?
標本のうち、2つの番組の視聴者の数でしょうか?
たとえば標本数600で視聴率調査を行った場合、視聴率10%の番組は
60名が見たことになるので、lかmには60が入るんですか?
>>958 l,mはそれぞれの標本サイズだよ。
視聴率調査ではともに600だね。
961 :
897 :2010/08/13(金) 05:24:16
>>957 丁寧にありがとうございます。本当に勉強になりました。
>>953 見てます。
よくわかりました。
ありがとうございました。
質問させてください。 仕事でアンケートをまとめざるお得なくなり超初心者です。 マンガでわかる統計学とアンケートの本は読みましたが 実際アンケートを目の前にするとどう分析していいのかさっぱりわかりません。 ×■に対するイメージを調査して複数回答可としもっともあてはまるものに◎をつけてもらいました。 ○がついてるものを1.ついてないものを0.◎の物を2として計算する。と書いてあったのですが どうやって計算するんですか?0.1.2.とあてはめてなにをどうすれば計算してグラフに表せるんですか? また、そのイメージが職業(主婦・パート・正社員)で有意差があるかを出すには どうすればいいのでしょうか? 私の持っているソフトはエクセルのみです。 アドバイスをお願いします。
964 :
132人目の素数さん :2010/08/20(金) 16:35:43
>>964 さん
誘導ありがとうございます。
>>963 です。
さっそく聞いてみます。
本当にありがとうございました。
複数回答化の分析で◎が2点とかするんだ。
>>966 もっとも当てはまってるものって書いてあるし、いいんじゃないの。
私の関心事は土曜日のラジオ文化放送のアニラジが定時放送されるかです。 そこには、その前に放送している野球の試合の延長の有無が大きく関わってきます 野球の延長時間の予測は可能ですか?
>>968 統計学ってのは、可能性を評価する学問なので、過去のデータからみて平均でこれくらい延長されてるとか、これくらい余裕をみておけば最初からラジオが聴ける可能性が何パーセントとかはわかる。
でも、毎回欠かさず、最初から聴きたいなら、延長は考えずにラジオの前にいるしかないね。
>>967 たくさん○をつける人とそうでない人で差があると思うんだけど。
そこが一律だとしても2倍というのはどこから出てくるのかな?
972 :
132人目の素数さん :2010/08/25(水) 14:40:46
>>972 Howell はダブルエルな。
「母集団分布形」を「正規分布」と仮定してるから「パラメトリック」。
その平均や分散が全観測値について同じかどうかは関係ないよ。
974 :
132人目の素数さん :2010/08/25(水) 19:47:07
もの凄くアホな質問かも知れませんが教えてください。 例えば、1000人の人がいて1年間の服の色について集計するとします。 Aさんのデータが最大の365データ Bさんはいくつか欠損があって300データ Cさんはなんとか100データ Dさんはほとんどなく10データ このような状況の時に○データ以上あれば、 その人のデータは有効データとして使用できる というような感じになるのでしょうか?
>>974 そんなことはない。
ノンパラメトリックの方が等分散性が仮定されるのが普通。
>>975 一般に通用するデータ数なんてないよ。
どんな分析をするかに依存するよ。
978 :
132人目の素数さん :2010/08/25(水) 23:31:19
>>976 そうなんですか?ますます混乱してきました。
ノンパラは前提条件がほとんど無いことが特徴で、それには等分散性も含まれると思っていました。
Games-Howellが特殊で、パラメトリックであってもノンパラであっても等分散性は要求されるという理解でよいでしょうか。そうすると、等分散性が仮定できない場合のGames-Howellのノンパラ版ってのはあるのでしょうか?
>>974 つか、その定義
>パラメトリックな手法
>
>母集団の特性を規定する母数についてある仮説を設けるもので,
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
は一般的な定義と異なるし、ちとヘンだよね。
これだと中央値の差の分割表検定も「パラメトリック」になっちまうような気が・・・
セミパラメトリックなるものもあるんだよな…
283
0
>>979 要するに、不等分散の2群を比較する方法はないと?
985 :
978 :2010/08/29(日) 10:26:40
>>984 等分散性と正規性の両方が仮定できない場合は無理だと思います。
正規性を仮定できず(あるいは正規化もできず)、不当分散だとすると母集団を推定できないから、だと理解しています。
正規性さえ仮定されればWelch's t-testとかGames-Howellとかで検定できるはず。
以上で、あってますか?教えて、エライ人。
二百八十六日。
最近はデータ数がバカみたいに多く集まることが多いので、統計的検定は無意味だと聞いたんですがホント? たしかにnが万単位あれば僅かな平均値差でもバリバリ有意になっちまいますね。 そこらへん、プロの統計家はどう考えてるんでしょうか。
>>987 統計的な検定が無意味かどうか以前に、ヒストグラムを書いてみろ、ってことやね。
>>988 万単位なら正規分布でないこともばっちり分かっちゃうだろうな。
センター試験の点数分布が正規分布でないことは分かってるし。
>>987 >プロの統計家
なら闇雲な検定が無意味だって指摘するでしょう。
ただし、統計学以外の統計を用いる学会発表だと
nが万だろうが100万だろうが検定・有意水準の報告
が必須な状況が続いているしょう。
>>990 せっかくの質問を無難に軟着陸させないでください。
問題は、nがむやみに大きな場合に闇雲じゃない検定なんてあるのか?ってことでしょうに。
検定にこだわる限り無理なんじゃない?
二百八十八日八時間。
二百八十九日。
二百九十日。
Ume
二百九十日十時間。
二百九十日十時間一分。
二百九十日十時間二分。
二百九十日十時間三分。
1001 :
1001 :
Over 1000 Thread このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。