統計学なんでもスレッド4

このエントリーをはてなブックマークに追加
936903:2006/04/04(火) 10:51:10
ネットで調べると「21日移動平均」で多数のサイトが引っかかりますが、
なぜかを書いているのはないですね。みんなが使っているからとしか。
ちなみにそれが短期で中期は90日、長期は200日だそうで。

また、解析では営業日のみしか扱わないことも多く21日は3週間でも
ない中途半端なものになります。みんなが使っているから以外の
意味は(少なくとも今となっては)ないのかも。
937132人目の素数さん:2006/04/05(水) 22:31:44
age
938132人目の素数さん:2006/04/08(土) 09:18:47
>>934

【1】ベイズの定理の適用についての問題。
以降、スペードが5回中3回出る事象をDとする。
また、二項分布をbinomdist(成功数,試行数、成功確率)とする。

(1)トランプAを選んだ条件の元でスペードが5回中3回出る確率をP(D|A)とすると、

P(D|A)=binomdist(3, 5, 13/52)の二項分布を計算すれば良い。

(答え)8.79%

(2)(1)と同様に、

P(D|B)=binomdist(3, 5, 26/52)
=31.25%・・・・・・(答え)

939132人目の素数さん:2006/04/08(土) 09:19:35
(3)単にP(D)を求める問題。
ここで、

P(D)=P(A)*P(D|A)+P(B)*P(D|B)

となり、P(A)とP(B)はどちらも同じ確からしさから、P(A)=P(B)=1/2なので、

P(D)=1/2*P(D|A)+1/2*P(D|B)
=20.02%・・・・・・(答え)

(4)ベイズの定理

P(A|D)=P(D|A)*P(A)/P(D)

を用いると、Aを選んでいた確率P(A)は1/2なので、

P(A|D)=8.79%×50%÷20.02%
=21.95%・・・(答え)

940132人目の素数さん:2006/04/08(土) 09:20:17
【2】(1)確率変数

z=(xの平均−母平均μ)/標準誤差

は標準正規分布N(0,1)に従う。
ここで標準誤差とは

標準誤差=標準偏差÷サンプル数

を意味する。
xの平均が45万円、母平均μが50万円、
標準偏差が10万円、サンプル数が4なので、

z=−1

zが−1以下になる確率は標準正規分布表より15.87%。
またはエクセルで=normsdist(-1)としても計算できる。

(2)C大学の標準偏差(と言うよりは母分散)
は既知であるが、D大学に於いては知らされていない。よって、検定手法に持ち込むわけにもいかない。
結論としては、差があると言える言えない以前に問題の不備だと思う。等分散を仮定して良いのか否かこれでは丸っきり分からない。
941132人目の素数さん:2006/04/08(土) 09:21:40
>>940

訂正:

標準誤差=標準偏差÷√(サンプル数)

の間違い。
942132人目の素数さん:2006/04/08(土) 16:42:11
回帰分析の原理を説明しろって言われて、教科書を読んだんですが
イマイチ原理が良く分からなくて困ってます。

誰か教えてください。
943132人目の素数さん:2006/04/08(土) 16:58:44
>>942
回帰分析といっても、立てるモデルや、モデルの何を分析するかによって
めちゃくちゃ範囲が広くなるので、簡単に説明できるものじゃあない。
944132人目の素数さん:2006/04/08(土) 17:29:02
例えば、身長と体重の関係で、身長が1cmあがった時の体重の値の誤差が知りたいのです。
よろしくお願いします。
945132人目の素数さん:2006/04/08(土) 18:09:32
>>944
日本語でおk
946132人目の素数さん:2006/04/08(土) 21:57:01
>>944
まず、回帰分析を適応するデータがどういうものか記載すること。
次に、回帰分析でなにを推測するつもりなのか記載すること。
話はそれから。おそらく、上記2点を踏まえないと、その課題を与えた人は満足しないよ。
947132人目の素数さん:2006/04/09(日) 00:22:27
まずは下の経済産業省発表をみてほしい。
ttp://www.meti.go.jp/policy/consumer/seian/denan/kensakekka.pdf
この発表では、PSEマークの無い中古電気製品は2%弱の不合格品がでている
のに対して、PSEマークの付いてる電気製品では不合格品は0%だけど、
この場合、PSEマークの無いものとPSEマークの付いてるものでは、
統計学的な差があると言っていいのでしょうか?
統計学に詳しい人、回答、お願いします。
948132人目の素数さん:2006/04/09(日) 00:41:38
>>947
結論から言えば,たぶんマークは関係ない.


仮説「マークの有無は不合格数に無関係」を立てて,並び替え検定をする.

この仮説の下では,そもそも 739個の対象中,11個が不合格であって,
グループを 679 と 60 に分割したとき,60 側に1つも不合格が混じらない,
というのが観測された事象に対応する.

これが起こる確率は (728/739)*(727/738)*...*(669/680) = 0.39
これはよくあることなので,仮説は棄却できない,
949947:2006/04/09(日) 01:01:06
>>948
回答、ありがとございます。
こちらもこのデータからは、マークに関係ないしか
いえないと思っていたのですが、先日の国会で、
二階経済産業省大臣は、マークがない方は、
不合格品があるが、マークがある方は不合格品が
ないので、マーク付き製品がよいと力説されていました。
この力説の根拠を探したら、さきほどの経済産業省の
発表資料が見つかりました。

さきほどのご回答だと、大臣の力説は統計学的には
間違っていると言っていいのですね。
どうもありがとうございます。

950132人目の素数さん:2006/04/09(日) 11:34:53
>>949
統計学的に有意な差がないことは、関係ないということの証拠にはならない。
947のデータではマークに関係ないと判断するには検出力が十分でない。
よって、
「マークがある方が良いという主張には統計学的な裏付けはない」
という受け止め方ならば正しいけれど、
「マークがある方が良いという主張は統計学的に間違い」とか
「統計学的にはマークがあっても無くても同じ」
という受け止め方は正しくない。

念のために書いておくが、948の「たぶん」関係ないという感覚は理解できる。
951132人目の素数さん:2006/04/09(日) 19:01:38
>>936
5日移動平均は一週間の株価(の終値)の平均で、
21日移動平均は一ヶ月の株価(の終値)の平均ではないですか?

一週間で市場が開いてる日は月〜金の5日間だし、一ヶ月では約21日になる。
952947:2006/04/09(日) 20:17:30
>>950
こちらの書き方がまずかったみたいです。
こちらの言いたかったことは、まさに
>「マークがある方が良いという主張には統計学的な裏付けはない」
です。

二階大臣が、このデータに統計的に意味があるように
言っていたので、それは違うのではないかと。


953903:2006/04/09(日) 20:58:54
>>951
それも考えたが、それだとやはり20日移動平均の方がいい。
たとえ1日でももし週単位の周期性があったら影響を受けるから。
まあ偶数の移動平均は扱いづらいので21日なのかもしれないが、
そうすると週単位の周期性はあまり気にしていないことになる。
約1ヶ月で週単位で奇数となると25日移動平均となるが、
それは見たことがない。
昔は週6日だっただろうし、結局どれも後付の理由なんだろうな。
954132人目の素数さん:2006/04/09(日) 23:12:19
相関関数を求め、その有意確率をランダムな相関のないデータを使って求めたとあるドキュメントに書いてあるのですが、その場合有意確率はどうやったら求まるのですか?

よろしくお願いします。
955132人目の素数さん:2006/04/10(月) 00:33:10
>>954
状況が全然足りないので、答えられない。

ドキュメントをうp。
956132人目の素数さん:2006/04/10(月) 04:22:51
>>954
帰無仮説の元での検定統計量の分布が判ればp値は求められる。
この場合は、帰無仮説は相関0で、検定統計量は相関係数。
実際に得られたデータのサンプルサイズをnと書くことにする。

相関0の二変量分布に従う乱数を発生させてn組のデータを得る
相関係数を計算する

以上を何度も(例えば1000回とか10000回)繰り返し、
帰無仮説の元での相関係数の分布を得る

この分布の、実際に得られた相関係数よりも大きな値をとる部分の割合がp値

どういう二変量分布を想定して計算したのかはドキュメントを見ないと判らん。
二変量正規分布のようなパラメトリックなものを仮定する方法もあるし、
一つの変数毎の周辺分布を実際に得られたデータの経験分布で置き換えて
二つの経験分布からそれぞれランダムにリサンプリングしたデータを
組みにしてn組のデータを得るという方法も考えられると思う。
957132人目の素数さん:2006/04/13(木) 01:17:27
判別分析において,2群を超える場合(n群)に正準判別を用いたんですが,
得られたn-1個の判別関数からの得点から,具体的にどうやって判別がなされているんでしょう?
2群だと,単純に,得点の正負だったと思うのですが うーん
958132人目の素数さん:2006/04/14(金) 19:49:08
反応無し??
959132人目の素数さん:2006/04/15(土) 01:33:48
age
960132人目の素数さん:2006/04/15(土) 12:47:53
確率の問題について教えてください。
ある国の自殺率が10万人当たり10人だとします。
そこで、社員1万人の会社で3年連続自殺者が3人いました。

この場合、この会社はその国の平均レベルより自殺者が多いので問題、と言い切れるのでしょうか?
それとも10万人サンプルが無いので駄目と言うことでしょうか。

年齢差や性別、勤労人口などの社会的な状況は無視してください。

できましたら、解き方も合わせてご教授願いたく。。。
961132人目の素数さん:2006/04/15(土) 15:29:48
>>960
例えば、
1.帰無仮説(「その会社はその国の平均レベルと自殺率が同じである」)を仮定する。
2.帰無仮説の下で、社員1万人の会社で3年連続で自殺者が3人を超える確率を計算する。
3.2.で求めた確率が0.05より小さいかどうかを見て、判断する。
962132人目の素数さん:2006/04/15(土) 15:32:10
メコスジがパイパンな確率が0.05%より小さいかを見て、判断する。
963132人目の素数さん:2006/04/15(土) 15:43:39
>>962
0.05に%を付けるところが面白い。
何か意味があるんだろうね。
964132人目の素数さん:2006/04/15(土) 15:44:31
超厳しく判定したいんだろう
965132人目の素数さん:2006/04/15(土) 16:19:23
ちょっとわからない問題があるので質問させてください.
I個の母集団からとられたデータY_ij(i=1,...,I,j=1,...,n_i(i番目の母集団
からとられたデータのサンプルサイズ))が存在し,その分布は平均u_i(母集団ごとに
異なる),分散s^2(共通)の正規分布であるとします.
このとき,u=(u_1,u_I)’とおき,この平均ベクトルuに線形制約
Cu=0(C:任意のr×I行列)
をおくと,uの推定量は
\hat{u}=Y-N^{-1}C'(CN^{-1}C')^{-1}CY
となる.ここに,N=diag(n_1,...,n_I),Y=(1/n_1ΣY_1j,...,1/n_IΣY_Ij)'
である.//
推定量というのはおそらく最尤推定量だと思います.ラグランジュの未定乗数法で
解くのかとも思ったのですがどうもうまくいかないような気がします.
どなたかよろしくお願いいたします.
966132人目の素数さん:2006/04/15(土) 16:20:13
因みに推定量の導出方法がわかりません.
よろしくお願いいたします
967132人目の素数さん:2006/04/15(土) 16:33:28
>>961
>2.帰無仮説の下で、社員1万人の会社で3年連続で自殺者が3人を超える確率を計算する。

この部分が分からないんですよ。10万人当たり10人だと仮定したときに1万人だと3人になる確率ってのが
分からないです。

正規分布していると仮定して平均値と標準偏差を取らないといけないってのは予想できるのですが、
サンプルが一つしかないのに標準偏差を出すってのが分からなくて・・・

解き方を教えてもらえないでしょうか。
968132人目の素数さん:2006/04/15(土) 16:45:47
>>967
正規分布ではなく、二項分布を仮定すべき。
969132人目の素数さん:2006/04/16(日) 01:32:27
970132人目の素数さん:2006/04/16(日) 07:29:30
>>967

例えば、10万人辺り10人の自殺率ってのは

p_0=10人÷10万人
 =0.01%

でしょ?つまり、自殺者ってのは仮定として、二項分布B(n, 0.01%)に従うとする。

んで、帰無仮説H_0、対立仮説H_1はこうね。

帰無仮説H_0:会社の自殺率pは自殺率p_0に等しい(p=p_0)
対立仮説H_1:会社の自殺率pは自殺率p_0に等しくない(p≠p_0)
有意水準は5%とする。

さて、会社の自殺者も二項分布B(n, 0.01%)に従うとすると、3人自殺した場合のp値は

p値=1−Σb(10000, 0.01%)・・・(3人から1万人までの総和を取る)
=1.898203%

で統計的に有意である。
よって会社の自殺率は国の自殺率に一致しない。

でイイと思うんだけど?
だから、

>1万人だと3人になる確率

じゃなくって「1万人で3人以上自殺する確率」ってのが正しいと思うよ。
971132人目の素数さん:2006/04/16(日) 07:47:08
でもね、多分「会社の自殺率が国の自殺率より“大きい"か?」だったら、
上でやったような「両側検定」じゃなくって、「右側検定」だと思いますよ。
まあどっちもp値変わんないから結果同じですけどね。

あと、正規分布使うんだったら、「比率の差の検定」ってのがあります。
標準正規分布で、

H_0:p_1=p_2
H_1:p_1≠p_2

の時、検定統計量

z=(p_1hat−p_2hat)÷sqrt{phat*(1−phat)*(1/n_1+1/n_2)}

は標準正規分布に従います。
ただし、

p_1hat=r_1/n_1
p_2hat=r_2/n_2
p_hat=(r_1+r_2)/(n_1+n_2)

で、且つn_1, n_2≧30です。
972132人目の素数さん:2006/04/16(日) 13:13:06
>>970
詳しい説明ありがとうございます。

> 帰無仮説H_0:会社の自殺率pは自殺率p_0に等しい(p=p_0)
> 対立仮説H_1:会社の自殺率pは自殺率p_0に等しくない(p≠p_0)
> 有意水準は5%とする。

ここまでは理解できたのですが、

> さて、会社の自殺者も二項分布B(n, 0.01%)に従うとすると、3人自殺した場合のp値は
> p値=1−Σb(10000, 0.01%)・・・(3人から1万人までの総和を取る)

ここの式がどうしてこうなるのかが分かりませんでした。
すみませんが、できたら解説をお願いします。
2項分布なんて
4C3とかしか知らないもんで。。。

>>971
こちらの解き方は比率の差の検定でぐぐったら、
http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/diff-p-test.html
のページで分かりました。
973132人目の素数さん:2006/04/16(日) 15:11:22
>>972
下記の表現の方が判りやすいかと。

H_0 の下で、会社の自殺者が3人「以上」になる確率=1-会社の自殺者が2人「以下」になる確率
=1-(会社の自殺者が0人になる確率+会社の自殺者が1人になる確率+会社の自殺者が2人になる確率)

>>971
この問題の設定だと正規近似は使えないと思います。近似の精度が悪すぎて。
974132人目の素数さん:2006/04/16(日) 17:28:26
>>973
レスありがとうございます。

Excelで計算してみたのですが、
BINOMDIST(成功数、試行数、成功率、関数化)に代入して
=BINOMDIST(0,10000,0.0001,false)
=BINOMDIST(1,10000,0.0001,false)
=BINOMDIST(2,10000,0.0001,false)
はそれぞれ、0.367861、0.367898、0.183949となり、1から合計を引くと0.080292となってしまい、
8%となるので、棄却されません。
3人を入れると>>970さんの計算結果と同じになるのですが、3%も含む形にしてかまわないのでしょうか?
975132人目の素数さん:2006/04/16(日) 17:29:42
>>972

>2項分布なんて 4C3とかしか知らないもんで。。。

ええと、それは「二項定理」で「二項分布」そのものではありません。
まあ、二項定理ご存知でしたら、pを母比率(パラメータ)として、

f(x)=nCx*p^x*(1−p)^(n−x)

で表される確率分布が「二項分布」です。通常f(x)の代わりにB(n, p)と表現したりもします。
さて、上の二項分布はxが任意の数の場合の確率を表しているんですが、例えば

f(0)+f(1)+f(3)+・・・・・・・・+f(n)=100%

になる、ってのは何となくお分かりでしょうか?こういうのを「累積確率」と呼びます。
そうすると、x=0から任意のxまでの和を取った場合、これを「累積確率分布」と
呼びます。具体的にはF(x)として

F(x)=ΣnCx*p^x*(1−p)^(n−x)・・・・・・(x=0から任意のxまでの和)

これが>>973氏の示唆している事で、「3人以上になる確率」ってのは
自殺者が0人になる確率+1人になる確率+2人になる確率の累積
確率を総和である100%から引けば良い、と言った計算の元ネタに
なってます。
この計算がこの問題の場合のp値(p-value、有意確率、または確率値
等と呼ぶ)にあたります。
976132人目の素数さん:2006/04/16(日) 17:30:38
>>973

そうですね。こちらでも計算して確かめましたが、正規近似だと帰無仮説は
棄却されないようです。思ったより誤差が大きいですね。
まあ、パソコン全盛時代、僕個人的にもそんなに「正規近似」に拘る必要なんて
ないんじゃないか、と思っています。
二項分布ゴリゴリ計算させれば充分なんじゃなかろうか、とwww
977132人目の素数さん:2006/04/16(日) 17:43:02
>>974

あ、ゴメン。計算間違ってるね。
>>974氏の計算で正しいと思いますよ。帰無仮説は棄却できないようですね。

ちなみにExcelの書式ではこの場合のp値は

=1−binomdist(2, 10000, 0.0001, true)

で計算出来ますよ。
978132人目の素数さん:2006/04/16(日) 17:49:40
>>977
即レスありがとうございます。
やっと理解できました。
これ実は自衛隊員の自殺率でして、自衛隊は自殺率が高いって発狂してる人にやっと対抗できますw

ここからは興味本位なのですが、もし5%を越えて統計的には有意差があるとされた場合、
どれぐらい有意差があるというのはどのように計算すればいいのでしょうか。

何倍程度という形では結果は出せなくて、有意差のあるなししか出せないのでしょうか。
979132人目の素数さん:2006/04/16(日) 18:03:05
>>978
愚直な方法だと、「通常の三倍自殺率が高い」を仮定して同様に検定。
何倍……ってのを増やしていって、棄却できなくなったあたりがボーダーと見る。
980132人目の素数さん:2006/04/16(日) 18:07:22
>>979
ということは今回の場合は2回と3回がボーダーラインだったので、2倍自殺率が高いとなるのですね。。。
ありがとうございました。
981132人目の素数さん:2006/04/16(日) 18:10:17
一番最初に計算したのは、実はRのRcmdrでの上側確率を計算させて、
無条件にその結果を信頼した、んですが、これっておかしな計算結果ですね。
以後気をつけます。

>>978

知ってる範囲で話をすると、原則的に「統計的仮説検定」ってのは○×式判定法
なんですよ。正確に言うと○か?なんですが。
今回「帰無仮説が棄却できなかった」って事は原則的に対立仮説が棄却されたワケ
ではなくって、あくまで

「自衛隊員の自殺率は通常より高いとも低いとも言えない。」

言い換えれば

「良く分からん」

って事です(笑)。ですから、そう言った意味では安心できないかも(笑)。

「どれくらい有意差がある」と言うのは原則的に統計的仮説検定では言えないと
思います。あくまで「○か?か」ですからね。
ただ、AIC(赤池情報量基準)ってのがありまして、それだと「どのくらい仮説が尤も
らしいか」と言った指標が計算できるらしいです。
ちょっとその辺りは僕側からはハッキリと言えないので、どなたかその話に詳しい
お方の登場を願いましょうか。
982132人目の素数さん:2006/04/16(日) 19:42:13
>>980
それ、愚直すぎ。
自殺率の信頼区間を算出するのが普通だと思う。
983132人目の素数さん:2006/04/16(日) 20:02:20
>>982
980 は信頼区間を出すのと本質的に同じことになる。
984132人目の素数さん:2006/04/16(日) 21:00:23
初歩的な質問で申し訳ありません。

摂氏温度や華氏温度の他に、
間隔尺度に当たるデータにはどのようなものがあるのでしょうか?
985132人目の素数さん
西暦とか、経度はどうだろう?
あまり自信ないけど。