1 :
132人目の素数さん :
2008/11/18(火) 13:14:26
2 :
132人目の素数さん :2008/11/18(火) 13:14:56
早く立てるのなら後のこともちゃんとやってくれ
4 :
統計初心者^^; :2008/11/25(火) 21:37:39
初めまして★早速ですが質問があります>< もし、わかることがありましたら少しでも良いので教えてください。 えっと「平均の分布」と「分布の平均」というのがありまして、この二つは具体的にどう違うのかがさっぱりわかりません><
5 :
132人目の素数さん :2008/11/26(水) 21:00:28
>>4 「ヒモのパンツ」と「パンツのヒモ」の違いがわかれば簡単よ
うるさい。
7 :
132人目の素数さん :2008/11/27(木) 20:02:30
>>5 king of kings がわかればの方がよくないか?
8 :
132人目の素数さん :2008/11/27(木) 20:09:03
>>5 算術平均と幾何平均の違いが判りません。
同じ平均なのになぜ違う値なのですか?
なにか面白い回答希望。
VIPへ行け屑
10 :
132人目の素数さん :2008/11/27(木) 22:09:14
塩ラーメンと醤油ラーメンは、同じラーメンでも味が違うけどね
11 :
KingMind ◆KWqQaULLTg :2008/11/28(金) 00:09:52
Reply:
>>7 私を呼んでないか。
Reply:
>>8 同じ平均ではない。
12 :
132人目の素数さん :2008/11/28(金) 21:48:33
ベイズの手法のメリットとして、新たに得たデータを これまでのデータに追加して分析を行えるというbayesian updateが ありますが、この方法は、新たなデータをこれまでのデータに追加して、 頻度理論の手法で分析することと、どう違うのでしょうか。
13 :
12 :2008/11/28(金) 21:53:15
ちなみに、面白い回答は希望しません。
式の形が違う
15 :
132人目の素数さん :2008/11/30(日) 01:02:36
ブートストラップ法とは要するに、 少ないデータからさらにサンプル抽出して、 統計量を計算することを繰り返し、 その繰り返しの平均値をもって近似解が得られたとする手法のことですか?
16 :
132人目の素数さん :2008/11/30(日) 02:00:47
平均値だけじゃなく、 統計量の分布そのものがほぼ十分な精度で得られるから、 期待値だろうが信頼区間だろうが、何でも求まるよ。 しかも数式じゃなく数値の固まりだから、計算も楽(コンピュータなら)。
17 :
132人目の素数さん :2008/11/30(日) 13:52:22
データx(1〜1,000の)平均値をブートストラップ法で求めたいです。 下記方法でよろしいでしょうか?(エラーになりますが・・・) また、ブースとラップ法とは意味があることなのでしょうか? 単純にmean(x)で良いような気が・・ > x <- 1:1000 > boot( x , mean , R = 1000 )
>>16 つまり数学的素養がない人でも結果だけは使えるように
よく使うと思われる部分だけを抜き出したのが「〜法」
ってことでいいの?
19 :
132人目の素数さん :2008/12/01(月) 03:50:49
>>17 線形統計量の期待値に限らず、理論的にわかってるものを
自力導出させても意味ないよ。
理論的に解かれてないとか、理論化しようにも複雑すぎて
見当も付かないような問題で威力を発揮する。
>>18 言ってることは違ってるような希ガス
統計分布の密度関数は、式を書くだけなら簡単だけど、
積分値とかその逆関数を求めるのが大変なんだよ。
計算式なんて線形計算しかないからMATHEMATICAに突っ込めば一発
少しモンテカルロ法と 似てるな。
22 :
132人目の素数さん :2008/12/01(月) 15:21:48
>>20 線形計算て何の話?
>>21 パラメトリック・ブートストラップだと
母数を推定値にした同サンプルサイズのモンテカルロ
23 :
132人目の素数さん :2008/12/03(水) 01:27:24
大学のレポート(回帰分析)の質問です。統計学初心者の馬鹿でごめん。 回帰式の決定係数(R^2)が0.1と求められたのですが、 この式の回帰係数(β)について、t分布やP値による仮説検定を有意水準5%で行った結果 どちらも有意となってしまいました。 決定係数が0.1なのにこのような結果になることはあり得ますかね?
24 :
132人目の素数さん :2008/12/03(水) 02:05:19
観測個数が多ければ(数百以上とか)起きるよ。 データが十分沢山取れれば、どんな微妙な影響でも しっかり検出できるからね
25 :
132人目の素数さん :2008/12/03(水) 02:58:03
サンクス! サンプル数は47です。 考察書きにくいけど、そういうことって起きるんですね・・・
まず、標準正規分布に従う乱数をいくつか作成します。 さらに、その乱数を用いて自由度nのカイ二乗分布に従う乱数を作成します。 そうして作成された乱数の平均値と分散を求めたところ、 理論上は平均値はn、分散は2nとなるはずですが、 実際に抽出するデータにはばらつきがあるため、 平均値と分散も理論上の値からややばらつきますよね。 そこでそのばらつきのある値が統計的に有意であることを示したいのですが、 そのためにはどういった証明の仕方が考えられるでしょうか?
27 :
132人目の素数さん :2008/12/03(水) 17:18:13
28 :
132人目の素数さん :2008/12/03(水) 17:20:54
>>25 もしかして、そのレポートの提出期限は明日までではないか?
>>27 なるべく分かってもらえるように書いたつもりなんですが・・・理解が曖昧ですいません。
標準正規分布に従っていくつか作成というのは、エクセルによってランダムに生成するということです。
表現の誤用等ありましたら指摘お願いします。
あと実際に抽出するデータとはランダムに生成された乱数のことを指します。 連続レス申し訳ない。
>>26 χ^2分布に従う乱数を
生成したのなら平均、
分散は理論値になる
んじゃないの?
生成に問題があって
近似とかそういう話
なのかもしれないけど。
>>31 χ^2分布に従う乱数すべての平均や分散を取ったら確かに理論値にならないとおかしいと思いますが、
χ^2分布に従う確率変数の一部をランダムに生成しただけでは理論値と一致する可能性は低く、
若干のばらつきが生じると思うのですが、いかがでしょうか?
つまり今回の質問では、そのばらつきが生じた値がどの程度信頼できるものであるか
(有意性があるか)を検証する手段をお聞きしたいということです。
分かりにくくて申し訳ないです。
χ^2分布に従う確率変数 から得られたデータ であれば、 理論値と一致する と思うけど。ただし、 局所的にはχ^2分布 だけど全体としては 微妙に違う あるいはその逆 とかいうケースであれば 話は違ってくる。
34 :
132人目の素数さん :2008/12/03(水) 19:00:11
>>26 本当は分布の検定だけど、知識なさそうだから
信頼区間を求めて入ってるかどうかで判定すれば?
35 :
132人目の素数さん :2008/12/03(水) 19:50:51
>>28 と同じ大学で同じ授業でワロタ
困ったときは2ちゃんねるwww
36 :
132人目の素数さん :2008/12/03(水) 19:52:07
大学の宿題を2ちゃんに
投げるのはいかがな
ものかと。まあ
>>23 は
いいけど丸投げもたまに
あるからなあ。
39 :
24 :2008/12/04(木) 01:32:38
>>25 観測個数47って、そういうケースとしては少ないなあ
と思ってたんだけど、今気が付いた。47って都道府県別データか?
だと北海道(変数による)とかを除いて推定したら、有意じゃなかったりしてw
大学のレポートなら、P値だけじゃなく、グラフも見ろよという例かもね。
もう提出期限すぎて手遅れみたいだけどw
40 :
25 :2008/12/04(木) 21:32:28
>>39 いろいろサンクス。
提出する直前に周りの奴の見せてもらったら、
他にも似たような結果になっている人も多かったので、多分単位は大丈夫です。
なぜそうなるのか、ってとこまで考えて本当の勉強なんだろうけどww
分布の検定ってどうやるの?
稲垣宣生著 数理統計学を授業でやってるんですが、 ついていけないので自習しようかと思ってます。 この本は演習の解答が省略されすぎで自習できないので で、この本のレベルについていける演習所とか問題集ってありますか? 本屋でざっと探したところ、レベルの低いものしかなかったんですが・・・
43 :
42 :2008/12/05(金) 03:21:44
言葉が抜けた この本は演習の解答が省略されすぎで、この本だけでは自習できないので
45 :
132人目の素数さん :2008/12/05(金) 14:15:58
>>40 この時期に単位が出ると大学といえば、
国内で限られてくるよね。ニヤニヤ
このスレの住人はルベーグ積分はなにで勉強しましたか? やっぱ伊藤清三先生の本とか?
オマンチン
ゆとり用の統計学テキストおしえてください 経済分析のための統計的方法って本読んでるけどワケワカメ IQ20でもわかるゆとり本を教えてください ネバーギブアップ
出ると思ったw
すみません。 非定常データ(予算支出)を定常化したいのですが、 adf.test(x)とpp.test(x)とでp値が違うのがよくわかりません。 両方とも、 帰無仮説:単位根あり 対立仮説:単位根なし ですよね?変化率に変換することで定常化されたか確認したいのですが、これは、どうなのでしょうか。 > x <- Dataset$V2 > pp.test(diff(x)/x[1:length(x)-1]) Phillips-Perron Unit Root Test data: diff(x)/x[1:length(x) - 1] Dickey-Fuller Z(alpha) = -39.5082, Truncation lag parameter = 3, p-value = 0.01 alternative hypothesis: stationary > adf.test(diff(x)/x[1:length(x)-1]) Augmented Dickey-Fuller Test data: diff(x)/x[1:length(x) - 1] Dickey-Fuller = -2.3884, Lag order = 3, p-value = 0.4181 alternative hypothesis: stationary
>>48 岩田さんの本ね。
つうことは慶応かな?
あの本は院生向きなんで
初心者向けじゃない。
ただ全部が全部理解不能
ってこともない
と思うが…。
貴方一体なにもの!? くわしすぎ・・・w あの本は難しすぎます・・ でもマンガの本は簡単すぎます・・
独立な確率変数x,yが、それぞれ区間[-1,1]の一様分布に従う時、 以下の確率変数u,vについて共分散、独立性を調べよ。 u=x+y v=x-y
___,,,,,..... -一ァ / ̄;;;´;;、;;;ヾ;;;, -──--、,! . /'´|;;;;,、;;;;;;;;;;/ ,! . /:.:.:.レ´:.ヾ;;;;;;i 断 だ ,! /:.:.:.:.:.:.:.:.:.:.:ヾ;i る が ,! . /:.;.イ:.:.:.:.:.:.:.:.:.:..ヽ ,! . /レ' ;|:.:.:.:.:.:.:,:ィ:.:.:.:〉 __,.,! /-、ヽ,:|:.:.:,/ /:.:.://.:,:ィ:.:.:.,! /'ヽ、ヾi ゙´.: /__;:;:-'"´ ,;|:.:.:.,! . /ゝ-`';:/ .:〈ニ=-=ニ二 ̄ヽレ',! /::::;;;;;/ ' ,, ニ`ー-,、__\〉ィ,! . /;:::::/ ::. ::.,,\_ゞ;'> 〈;,! /i!:::::iヾ-'、::.. '';~ ,;:'/,! . /;;;i!fi´l_、,.` .: ,;:' ,! /;;;;;i' ('ー、ヽ ..: ,;:'' ,! ヽ、jゝ、`ヾ:、゙、 ,..:'.:'" .: ,! ``ヽ.、_ ¨` ,:' (_r:,! ``ヽ.、.. ノr;ソ~,! ``ヾ、 / 7,! ``ヽ,!
ゆとり用つったから書き込み式の本とかを探してるのかと思ったよ。 とりあえず東京大学出版会から出てる奴とかを読めば良いんじゃない?
57 :
132人目の素数さん :2008/12/09(火) 12:54:56
>>56 じっくり読んでる時間がないので目がちかちかするような本じゃなくてハンバーガーの本買いました
どうもありがとうございました
質問です "ある調査機関は、25%の世帯が過去三年間に少なくとも一度は引越ししていると発表した ところで、500世帯に対してインタビュー調査をしたところ、 120世帯が過去三年間に一度は引越ししたことがあるという結果を得た 有意水準5%でこの調査機関の発表が正しいか検定せよ" という問題についてなんですが 自分がやったやりかたでは 25/100-120/500 ――――――――=0.523 √120*380/200^3 となり正解の統計量-0.5155と違います 何が間違っているのか教えてください
RのライブラリMASSの中にあるBostonデータで、どんな地域で犯罪発生率が高いのかを 調べたいのですが、どのような分析をしたらいいですか? > Boston crim zn indus chas nox rm age dis rad tax ptratio black lstat medv 1 0.00632 18.0 2.31 0 0.5380 6.575 65.2 4.0900 1 296 15.3 396.90 4.98 24.0 2 0.02731 0.0 7.07 0 0.4690 6.421 78.9 4.9671 2 242 17.8 396.90 9.14 21.6 3 0.02729 0.0 7.07 0 0.4690 7.185 61.1 4.9671 2 242 17.8 392.83 4.03 34.7 ------------------- 504 0.06076 0.0 11.93 0 0.5730 6.976 91.0 2.1675 1 273 21.0 396.90 5.64 23.9 505 0.10959 0.0 11.93 0 0.5730 6.794 89.3 2.3889 1 273 21.0 393.45 6.48 22.0 506 0.04741 0.0 11.93 0 0.5730 6.030 80.8 2.5050 1 273 21.0 396.90 7.88 11.9 crim 人口あたり犯罪発生率 zn 一定面積以上の宅地の割合 indus 小売以外のビジネス用の土地の割合 chas Charles川に面しているか(yes=1,no=0) nox 窒素酸化物の濃度 rm 平均部屋数 age 1940年以前建築物(自家用)の割合 dis 5つのボストン中心部(職場)への距離の加重平均 rad 放射線状のハイウェイへのアクセスの容易さ tax 不動産税率(1万ドルあたり) ptratio 生徒と先生の比率 black 黒人の比率をBkとするとき、1000(Bk - 0.63)^2 の値 lstat 下層階級の人口比率(%) medv 住宅価格の中央値
>>59 分母が違う。分子も逆。
あと微妙に模範解答の
数値も違う気がするが
まあ誤差の範囲だろう。
すぐ人に聞くのは
やめて、教科書の
母比率の検定の部分
を再度読み直す
ことを勧める。
なんであなたはそんな 変な改行の仕方をする んですか?読みづらくて 仕方がありません。
携帯だからだろう
64 :
132人目の素数さん :2008/12/11(木) 13:34:35
重回帰分析の際に独立変数間に強い相関があると多重共線性の問題が生じますが、 偏相関分析ではそのような問題は生じないのでしょうか? 例えば、AとBに強い相関があるとき、Bを制御変数にしてAとCの偏相関を求めると 係数が不安定になるなどの問題は起こるのでしょうか? 数式を見てもよくわかりません……。ご教授ください。
>>64 その場合だと
偏相関係数は
A-B,B-C間の相関性の
影響は取り除かれる
ような数式のはず。
66 :
132人目の素数さん :2008/12/11(木) 15:27:45
Excel VBAでのガウシアンフィッティングの仕方について教えて下さい。 A1・・・A1001にx軸の値が B1・・・B1001にy軸の値が入っているとします。 このデータをグラフ化したのちに、ガウシアン関数y=a+b*exp(-(x-c)^2/d^2)に対してフィッティングを行い、それぞれの定数を算出及び、その算出されたグラフを上に乗せるということをしたいのですが、 Excel VBAを使ってどのようにすれば良いのでしょうか? また、ピークが1本ではなく2本ある場合Multipeak Gaussian fittingというものでそれぞれのピークに対してフィッティングすることもできるそうなのですが、できればその方法についても教えて頂けないでしょうか? 自分でひな形くらい作って質問したいところですが、全くどうやって作れば良いのか検討もつかないのでどなたかよろしくお願い致します。
67 :
59 :2008/12/11(木) 17:44:35
68 :
132人目の素数さん :2008/12/11(木) 19:15:47
計量経済学を学んでいる者です。 確率・統計の数学テキストを探しています。 しかし、巷にあるテキストや入門書だと、 証明を抜かしていたり、適当な説明で終わっていて 消化不良になってしまう。 そこで、少なくとも集合の基礎から書き起こしてあるくらいの、 解説のしっかりした確率・統計のテキストが欲しいと思っています。 なにか、定評のある、お勧めのテキストはご存じないでしょうか。
70 :
132人目の素数さん :2008/12/11(木) 21:22:56
>>64 AとCの偏相関係数の式で、ABの相関係数を 1 に近づけてみればわかるよ。
>>71 いきなり英語で書かれた数学文献とは、なかなか厳しい
しかも2万3千円とは・・・
73 :
64 :2008/12/11(木) 23:55:37
>65 レスありがとうございます。 そうだとは思うんですがどうも確証がもてなくて質問した次第です。 >70 ABの相関が高くなるとACの偏相関は小さくなっていく…ということでしょうか。 そもそも重回帰を数式レベルで理解していないので 偏相関との違いがわからず、多重共線性がなぜ生じるか(実際にどう係数が不安定になるのか) というのがピンと来ないんですよね…。 重回帰のほうも勉強してきます。
>>71 ちょw
ケンドールかよ…
この本出されたら平伏すほかない
75 :
132人目の素数さん :2008/12/12(金) 01:17:30
今のテキストはヤワだかんな。 昔は大学院1年目のテキストが ケンドール&スチュワートの第一巻だったとか、、、
>>73 マルチコリニアリティ(多重共線性)
は経済系の統計本に
載ってることが多い。
一例として
東大出版会の
「人文社会科学
の統計学」。
偏相関も重回帰も、
もっと言えば分散分析も
手法は違うが、発想的
には同じなんだけどね。
偏相関と回帰については
田中勝人さんの
「計量経済学」が
分かり易いと思う。
77 :
132人目の素数さん :2008/12/12(金) 20:39:45
場違いであるとは重々承知しておりますが、わたくし、宝くじ板の 【甲第弐拾五号証】ロト6・宝くじ・イカサマの可能性 というスレから お邪魔させていただきます。 皆さんはどう思われますか。 392 :なんでだろー:2008/12/12(金) 18:33:46 ID:4phcCKn1 偏りのない数字に、理論値にかなり近い結果となりました。 第424回(08.12/11)03・13・17・25・40・41・B04 販売実績 22,388,787口 理論値 実際 1等 3.7口 5口 (理論値×1.35) 2等 22.0口 22口 (理論値×1.00) 3等 793口 774口 (理論値×0.98) 4等 36,688口 37,821口 (理論値×1.03) 5等 570,695口 575,531口 (理論値×1.01) 393 :なんでだろー:2008/12/12(金) 18:36:46 ID:4phcCKn1 となると、第409回とかやっぱり不思議。 第409回(08.08/28)06・13・17・27・28・36・B33、キャリーオーバー発生中 販売実績 25,854,451口 理論値 実際 1等 4.2口 6口 (理論値×1.43) 2等 25.4口 44口 (理論値×1.73) 3等 916口 1,497口 (理論値×1.63) 4等 42,367口 59,388口 (理論値×1.40) 5等 659,036口 805,669口 (理論値×1.22) 今回と特に変わらんような並びの数字と思うが、理論値をかなり上回る… なんでだろー
78 :
132人目の素数さん :2008/12/12(金) 22:07:41
>>73 「プログラミングのための線形代数」ってのが、オーム社からでてる。
プログラミングのためのと書きながら中身は線形代数のわかりやすい教科書。
この中に画像処理の具体例でマルチコの問題点が示してある。
具体的には犬の画像を行列で変換する、それにノイズを乗せた上で
逆行列で元に戻す。これって、回帰分析とやってることは一緒。
ある情報(上記では変換されてノイズの乗った画像)から、ある情報
(基の犬の画像)を推定(再現)するってことね。
著者としてはデジカメとかの画像処理の話として説明しているけどね。
このとき、行列に含まれるベクトル(行または列ってこと)が似たよう
な状況(向きが近いってこと)だと、基の画像を再現するときに、ノイズ
が拡大されて、基の画像がうまく再現できなくなる。
マルチコってのは、似たようなベクトルを使って基の状態を再現しようと
するために、ノイズを拡大させてしまうこと。
行列の変換と面積の関係を理解した上で、逆行列をかけるとどうなるか
と考えるとわかりやすいと思うよ。
>>77 どんな理論値かそれが正確でないだけだろ。
80 :
132人目の素数さん :2008/12/13(土) 16:45:41
>>78 線形空間なら、一次独立なベクトルの組(基底)と空間の次元で
終わってしまう話。
あとは、データと浮動小数点形式仮数部有効桁数の限界を
どう回避するか、と言った情報処理技術の問題だよな。
線形代数学や数値解析を知らないで、多変量解析を扱うのは、禁止すべき
ルベーグ積分はどの本で学んだ?
82 :
132人目の素数さん :2008/12/13(土) 17:36:12
>>80 経済学、経営学でマルチコを教えるときに、変に数学的な説明を回避
するのでおかしなことになる。
一次独立なベクトルが取れなければ逆行列が計算できないので、俗に
いうマルチコは、基底を似たような方向で取ると逆行列による変換で
サイズの変化が大きくてデータにノイズがある場合は信頼性が失われ
る、ってだけなんだよね。
そこに検定を絡めてどれくらいなら許容できるかを考えないといけない
のはあるけど、基本的な発想を抜きにマルチコ、マルチコいってるのが
経済、経営に多いのが現状。
線形代数を学べば、自明で終わる話。
83 :
132人目の素数さん :2008/12/13(土) 19:57:08
質問させてください。 ある薬の効果があったものが A群は14人中6人 B群は25人中3人 この両群の間に有意差があるのかどうかを求める場合には どのような手法でどうやったらいいでしょうか?
母比率の差の検定
1要因3水準の分散分析を行ったところ,主効果に有意な差が認められた 次に多重比較を行ったら有意な差が認められなかった 一体,どういう事なんだろうか? 教えてエロイ人
86 :
77 :2008/12/14(日) 02:21:05
>>79 レスありがとうございます。
理論値は、販売実績に各等の確率をかけて適当なところで四捨五入しました。
ロト6では、購入者が作為をもって6つの数字を選ぶわけですから、
なかなか理論値通りにいかないのは当然と思いますが、それでも第409回は
あまりに異常なんではないかと感じてしまう次第です。
特に当せん数字が偏ってるわけでもないのに。
質問お願いします。 ベイズ確率と物理って何か関係あるんですか? たとえば統計物理学とか。
>>85 たぶん多重比較はTukey法だろう。
そうだとすると簡単な説明で言うと分散分析の棄却域は○型で
多重比較の棄却域は□型。うまく重ならないところで
そういうことは起こりうる。
そういうもんだと諦めるか、もっと高度な多重比較法を使う。
>>86 ネットを探せばあると思うが、選ぶ数字の好き嫌いは結構偏りがあり、
それは数字の見かけの偏りだけではない。
たとえば、後者は6つの数字の内、5つがカレンダーに出てくる数字。
(自分の誕生日やなんらかの記念日を入れたいと思う人は多いらしい。)
そういった影響(他にもあると思う)があるのだろう。
91 :
85 :2008/12/14(日) 17:51:41
>>88 レスサンクスです ちなみに統計処理はSASで多重比較はTukeyでした
しかし、卒研でこの部分の結果と考察はマジ書き辛い どう言葉で説明してよいやらorz
>>91 SASは今のバージョンだと高度な多重比較はできないんだっけ?
見てくれる人がその高度な多重比較を理解してくれているなら
手動でやる手もあるんだが。
93 :
77 :2008/12/14(日) 21:09:02
>>89 なるほど。そのお答えでもう頭を悩ますことはやめます。
ありがとうございました。
>>90 Thx
よく見たら本棚に眠ってたよその本。これから読んでみる。
>>83 #分割表でいかがでしょう?
分割表
14.000000 6.000000 20.000000
25.000000 3.000000 28.000000
39.000000 9.000000 48.000000
期待値
16.250000 3.750000
22.750000 5.250000
検定統計量χ2はこれらの総和
0.311538 1.350000
0.222527 0.964286
帰無仮説:各群の母比率に差はない
χ2乗 = 2.8483516
P値 0.0914677
chi(0.05,1) = 3.8414651
帰無仮説を採択
続く
イエーツの補正(連続性の補正)を適用した場合 帰無仮説:2群の母比率に差はない χ2乗 = 1.7230769 P値 0.1892972 chi(0.05,1) = 3.8414651 帰無仮説を採択 注意 期待値が5未満のものが20%以上あります フィッシャーの正確確率検定を適用 フィッシャーの正確確率検定(二項分布にもとづいて計算をする) 帰無仮説:2群の母比率に差はない 片側検定のP値 9.5387756618744282e-02 帰無仮説を採択 両側検定のP値 1.3657118428676662e-01 帰無仮説を採択 行と列に対応がある場合 b+cが充分大きい場合、マクネマー検定(χ2乗検定)でも良い ここでは、二項分布にもとづいて計算をする 帰無仮説:行と列で変化はない 両側検定のP値 8.7791029363870621e-04 帰無仮説を棄却 #「行と列に対応がある場合」は不要かも知れない。 #あなたが、判断しておくれ。 #の無い行は、PCからの出力。コーディングはおいらなので、とても怪しい。
97 :
132人目の素数さん :2008/12/15(月) 13:42:48
来年統計学の研究所でなにか研究するんだけど、 卒業研究の課題で面白い課題ない?
>>95 14人と6人の合計20と
25人と3人の合計28人
を何に使ったの?
>>97 ジョークだよな?
それとも研究室の間違い?
100 :
132人目の素数さん :2008/12/16(火) 01:36:31
正規分布、平均50SD10の、30〜100の平均値とその計算式が分かりません。 65ではなく、いわば面積です。 学校の宿題ではないので、ご教授頂けると幸いです。 失礼あるかと思いますが、よろしくお願いいたします。
101 :
132人目の素数さん :2008/12/16(火) 08:24:25
>>100 とりあえず、ちょっと遠まわしに
基準化して、30と100にあたるところを正規分布表で探す。
で、100にあたるところから30にあたるところを引けば面積がわかる。
>>100 なんで面積(確率値)
なのを平均値って
言ってるんだ?
103 :
132人目の素数さん :2008/12/16(火) 11:10:38
>>102 たぶん、テストかなんかで0点から100点で平均が50点、標準偏差が10の時に、
30点以下を除外(不可かな?)したときの平均点が知りたいんだと思う。
104 :
132人目の素数さん :2008/12/16(火) 12:57:24
>>97 「卒業研究における、自主的な課題選択の系時的変化と地域性」
なんてのどうだ
>>103 サンクス。
そうじゃないかなとは
思ったけど…。
質問者の意図が
掴みにくい
ことがあるね。
できる限り正確に
お願したい。
>>103 そうか、偏差値ね。
>>100 偏差値30→素点A を求め
素点A 以上の点数の人だけの平均値を計算
じゃないかな
数学的にきれいなので各種分布とかを全部連続関数に直して使ってるんだけどどんな問題がある?
いみふ
離散を連続ってことか。 ケースバイケースだろうな。
>>107 例えば、ベルヌーイ分布 X=0, 1, P(0)=1-p, P(1)=p を「連続化」したとして、
それを何に使うんだ?
107と目を合わせちゃダメーーー!
超準解析を確率論に、ってとこ?
115 :
95 :2008/12/22(月) 01:52:16
おっと、読み違えてたのね。 分割表 6.000000 8.000000 14.000000 3.000000 22.000000 25.000000 9.000000 30.000000 39.000000 期待値 3.230769 10.769231 5.769231 19.230769 検定統計量χ2はこれらの総和 2.373626 0.712088 1.329231 0.398769 帰無仮説:各群の母比率に差はない χ2乗 = 4.8137143 P値 0.0282343 chi(0.05,1) = 3.8414651 帰無仮説を棄却 続く
イエーツの補正(連続性の補正)を適用した場合 帰無仮説:2群の母比率に差はない χ2乗 = 3.2323571 P値 0.0721968 chi(0.05,1) = 3.8414651 帰無仮説を採択 注意 期待値が5未満のものが20%以上あります フィッシャーの正確確率検定を適用 フィッシャーの正確確率検定(二項分布にもとづいて計算をする) 帰無仮説:2群の母比率に差はない 片側検定のP値 3.7815029650643352e-02 帰無仮説を棄却 両側検定のP値 4.7455563484725571e-02 帰無仮説を棄却 行と列に対応がある場合 b+cが充分大きい場合、マクネマー検定(χ2乗検定)でも良い ここでは、二項分布にもとづいて計算をする 帰無仮説:行と列で変化はない 両側検定のP値 2.2656250000000000e-01 帰無仮説を採択
外の人なので、スルーを推奨。 と、自分で言っておこう。 統計は計算量が多いので、近似で済ませることが多い。 教育現場でも、0〜100しかないし、左右対象でもないのに、正規分布に近似して、偏差値出すし。 おいらが学生の頃は自由度に小数ついたものは、教えてくれなかった。
118 :
132人目の素数さん :2008/12/23(火) 11:48:27
有斐閣の『統計学 (New Liberal Arts Selection)』って 入門書プラスαとして結構いい感じだ エクセルの使い方も学べるし、ボリュームもある あれ一冊でかなりカバーしてると思う
120 :
132人目の素数さん :2008/12/23(火) 20:31:32
初歩的な質問すみません。 確率変数Xと関数gに対して、 g(X)の期待値を E(g(X))=∫g(x)f_X(x)dx (f_X:Xの密度関数) と定義すると書いてあったのですが これってY=g(X)自体を別の確率変数と見て(その密度関数は新たにf_Yとなりますが) E(Y)=∫xf_Y(x)dxを計算しても、実は同じ結果になるってことですか? でないとwell-definedじゃないですよね?
>>121 ありがとうございます。とりあえずgが同相写像の場合はできました。
>>120 E(Y)=∫y*f_Y(y)dy
を面積要素に注意して
変数変換すればいい。
面積要素を忘れやすい
から注意。
124 :
チャコ :2008/12/23(火) 22:43:19
高一の冬休みの宿題教えて下さい!! 等式(12−ルート3)a−(1−2ルート3)b=ab+3cルート3 を満たす正の整数の組(a,b,c)をすべて求めよ。 全然分からないので、できれば解き方と一緒に答えを教えて下さい
経済分析の統計的方法 とかいう本は数学科の学生でもそれなりに満足できる内容ですか? 回帰分析の説明が詳しいという話を聞いたんですが
127 :
132人目の素数さん :2008/12/23(火) 23:40:06
>>126 「経済分析のための統計的方法 第2版」岩田 暁一
ならば、いい本だよ。
ただし、実際の分析手法ではなくて、数理統計的な理論的背景を説明している本という意味ね。
特に回帰分析が詳しいとは思わないけど、行列を使った説明も含めてそれなりに満足できる本だと思う。
ちょっと経済学の要素が強いけど、回帰分析なら「計量経済学の基礎」(戸田山田)東大出版 がオヌヌメ。matlabの擬似ソフトoctaveの使い方も説明されてる 計量経済学なんて書いてるけど 理論に偏ってるから経済学以外の人もいいと思う
>>126 結構難しいけどね。
ただ岩田さんの本に
限らず、回帰分析自体
が線型代数の知識が
ないと深くは理解
できないと思う。
Σ計算だけでも
出来なくは
ないだろうが、
多変数になると
複雑すぎる。
線型代数は微積と
同じくらい重要。
多変量二項分布ってありますか? 例えば, X1 〜 B(n1,p1) X2 〜 B(n2,p2) で X1 と X2 は互いに独立ではないとして、 離散のデータの組 (x11,x21),(x12,x22)…(x1m,x2m) からモーメント法(じゃなくてもいいですが)で (X1,X2) の確率関数を推定したいのですが、 どうしたらいいでしょうか? 変数変換したら多項分布とみなせるのでしょうか? 質問が多くてすみません。ヒントや参考になりそうな本がありましたら お教えください
132 :
132人目の素数さん :2008/12/25(木) 01:56:30
《124 a=1 b=11 c=1/3を代入して見てください。合っていたら解法書きます。
オレは、118 じゃないけど。
>>119 スゲーな、それ。
Excel の危険性の具体的なものを、初めて知った。
もっと周知させるべきだ。
経営者が、販売分析などやって痛い目にあうのは、ありえる。
向上心のある農家でも、統計とか使いそうだし。
医療関係だともっと怖い。
Excelのひどさが認識されるのは良いことだな。 ただし問題は「MSという企業がダメ」なのではない。(確かにダメダメだがw) 「オープン・ソースでないソフトウェアが持つ宿命」だということ。 世の中はソフトウェア著作権保護ややアルゴリズム特許(人類の自殺行為)とかで、 これに完全に逆行しているが、その行き着く先はMSワールドだという警鐘。 Rが良いのはオープン・ソースだから。これはもう決定的な違いと言って良い
137 :
132人目の素数さん :2008/12/25(木) 08:18:49
いま経済統計のお勉強で、 正規分布の確率密度変数を使っているんだけど この複雑な式の意味がさっぱりわからない どの教科書見てもさらっとすまされていて この式の記号がなにを意味してるかわからない 統計の数学全般についていえることだが、教科書が消化不良をおこすようにできてると思う もっと詳しくよく納得できるような確率・統計の本ってないの?
そこにはまっちゃったか・・・ >詳しくよく納得できるような 理数系出身ではなさそうなので、数理的な解釈に走ろうとなるとこりゃ大変 う〜〜ん
>>137 統計学で正規分布の「式計算」は必要ないから、「実はこんな式だよ」と紹介するだけの本ばかりなのはしょうがない。
式の意味がわかりたくて、もし指数関数の微積分すら知らないレベルならあきらめるか、高校の理系教科書から始めるしかない。
指数関数を知ってるなら、正規分布の確率密度関数はeの肩が2次関数になっただけだから、それほど複雑な関数ではない。
いちばん簡単な2次関数はx^2。だからいちばん簡単な正規分布はe^(x^2) …と言いたいとこだけど、
これじゃxが大きくなるといくらでも大きくなって発散してしまうからマイナスのほうの2次関数でないとだめなので、e^(-x^2)
本質的にはこれだけだけど、確率密度ってことで積分して1にならないといけないから、e^(-x^2)の積分値で割っておく。
ちょうどベクトルを自分の長さで割って単位ベクトルにするようなもん。
その"規格化定数"が1/(√(2π))というのはちょっと難しい計算がいるけど、しょせん定数倍の調節にすぎない。
中心の位置や広がり具合が変化した一般の場合は、
2次関数で頂点の位置や開き具合が変化したものが a(x-p)^2+qになるのと同様。
ただし原点を通る2次関数しか考えないので、qはなくって、a(x-p)^2 でよい。
だから一般の正規分布は、要するに e^{-a(x-p)^2} という関数。
ただしa>0なのと、eの上に乗ってるせいで「aが小さい方が広がる」ことになるので、
aのかわりに1/σ^2と書く(こうすれば自動的に正だしσが大きいほど広がる)。
あと頂点のx座標はpじゃなくてmとかμを使う習慣。
なので e^{-(x-m)^2/σ^2} と書くことになるが、文字が変わっただけでしょ。
それと、積分値を1にするための調節の定数倍が、σの影響を受けて、1/(√(2π)σ)になる。
で結局1/(√(2π)σ)・e^{-(x-m)^2/σ^2} となる。
たしかに文字はいっぱいあるけど、定数・e^{2次関数}で、2次関数が平方完成された-a(x-p)^2の形になってるだけだろ?
傾き1で減点が頂点なら √(2π)・e^{-x^2} と簡単になるし(標準正規分布)、
一般の場合はこれを変数変換しただけ。
正規分布の 確率密度関数の 証明はモーメント母関数 によるのが 解りやすいかな。 数理統計の教科書には 大抵載ってると思う。 1回は証明を理解 した方が良いかな。 自分で証明できんでも いいけど、気持ち悪い でしょ。出来る限り 丸覚えは避けられたい。
式が分かっても、おそらく、じゃあ何でそんな関数に持っていくのか? というところから気持ち悪いんだと思うぞ。
>>131 iidじゃないが
ベルヌーイ分布に従う
複数の確率変数…
多項分布?
多変量2項分布って
多項分布じゃ
ないのかなあ…。
互いに排反事象と
言える必要があるが。
それに詳しい本は
不勉強で申し訳ないが
知らない。
β分布やディリクレ分布
を勉強してみると
い%
143 :
132人目の素数さん :2008/12/25(木) 15:00:15
>>137 というか、それを理解できるための準備に時間をかけるよりも、とりあえずは
そういうものだっていう形で進めないと、講義が終わらんのよ。
疑問に思ったのなら、それよりも難しい本を読んで勉強しなさい。
それと、正規分布の形が真ん中(平均)が厚くて、すそに行くほど薄くなるって
のは式の形から読めるので、正規分布の形(釣鐘型)になってるなってのがわか
ればOK。
全区間(−無限から+無限まで)を積分して1になるってのも、数学できるんなら計算
すればわかる。
仮に、上に書いたことがわからないようだと、そもそも数学の基礎が弱いということ
なので、なおさら説明に時間をかけても無駄です。
>>131 iidじゃないが
ベルヌーイ分布に従う
複数の確率変数…
多項分布?
多変量2項分布って
多項分布じゃ
ないのかなあ…。
互いに排反事象と
言える必要があるが。
それに詳しい本は
不勉強で申し訳ないが
知らない。
β分布やディリクレ分布
を勉強してみると
いいかも…。
145 :
132人目の素数さん :2008/12/25(木) 15:03:35
>>143 の書いているなんでそんな形になんて話になると、誤差と最尤法の話になるから
もっとわからんと思う。
とりあえず、使ってみてなれておいて、それから考えた方がいい気はするね。
(んなこといいながら、私は気持ち悪いので納得するまで調べたが。w)
>>137 ということで、
正規分布は良く出てくるので式を理解したい気持ちはわかるが
裏には恐ろしい理論がかくれている(文系では、まずお手上げ)というのが
実態。
二項分布とかで、分布とは何かを理解して。
>>143 の言っているようなことを、
前提に利用を考えることが必要。
でないと、
>>145 のような世界まで入らないと理解はできない。
ね〜〜、その方向に入ると、そら恐ろしいほど大変そうでしょ。
ちゃ〜〜んとした本が一冊かける理論になっちゃう。
まずは利用に徹しよう!!
147 :
137 :2008/12/25(木) 16:42:58
一から出直してきます
>>147 だから利用が無理というわけじゃないからね。
利用できるように正規分布の理論を用意してくれていると考えていいよ。
言い換えれば、そこまで理解しなくても、統計を使う・利用することはできる
ということ。
数理統計が専門なら別だけど、応用分野の人は専門家でも多くは
そういうレベルと思っていいよ。
149 :
132人目の素数さん :2008/12/25(木) 19:52:36
>>139 ∫ e^{-x^2} dx = 1 / √π
あれっ?
蒸し返すつもりは
全くないけど
>>137 も
一般的な数理統計の
本に書いてある証明
くらいは理解した方が
よいと思う。
釣り鐘型の一般的性質や
誤差の議論なんかは
まあ興味があればだけど。
式にある√(2π)とかも
重積分知ってれば
理解しやすいし、
モーメント母関数とかも
超重要だからね。
強要するつもりは
ないのでただ使えれば
いいと言うなら別だが、
興味があるなら高校の
数VC辺りからでも
地道にやることを
勧めたい。急がば回れ。
151 :
149 :2008/12/25(木) 20:28:42
あぁぁ.. orz ∫ e^{-x^2} dx = √π
152 :
132人目の素数さん :2008/12/26(金) 10:49:06
>>146 文系では、まずお手上げ
旧帝レベルなら十分に解るよ。
ちょっと中心極限定理
と勘違いしてた。
正規分布の確率密度
の証明はベルヌーイ分布から
導くことができる。
中心極限定理だと
モーメント母関数を用いる
んだったかな。
関係性は高いが。
>>152 地底とかでも
そうなんだが理論自体
というより所謂
文科系学生は
前提となる数学知識
が圧倒的に不足してる
ケースが多い。例えば重積分
も知らないとなると
上記の話はどうにも
説明できなくなる。
数VCも未習となると
もはや何も理解できない
に近い。
>>152 旧帝レベルでも、文系の数学しかやってないと、積分のスキルが足りないので
全区間で積分して1になるが導けないと思うよ。
156 :
132人目の素数さん :2008/12/26(金) 23:42:58
今はPCが使えるから、数値積分で確かめさせれば良いと思う。 ソフトは表計算(ただしエクセル以外w)で十分だし、、、 それで数理構造に興味を持った奴だけが、 解析学と線形代数を勉強してから、統計理論をマスターする。 あと、統計コース修了資格も作って、上と下の資格は区別するとかね
157 :
132人目の素数さん :2008/12/28(日) 08:27:50
素人質問ですみません。 区間I = [0,1]において x=1 のとき確立P=1 0<=x<1のとき確立P=0 の場合の確立密度関数f(x)はもとめられないんでしょうか? どうも ∫ f(x) dx = 1 となるような関数が作れそうにないんです。
158 :
KingMind ◆KWqQaULLTg :2008/12/28(日) 08:36:16
素人質問ですみません、確立とはなんでしょうか。
159 :
132人目の素数さん :2008/12/28(日) 08:49:44
δ(x-1)
160 :
132人目の素数さん :2008/12/28(日) 09:02:02
157です。 >> 159 回答、感謝です。 デルタ関数というものがあるんですね。
>>157 確率論の研究者を目指すのでもなければ、デルタ関数を持ち出したりせず、
確率密度関数は存在しない、と解釈しておいた方がいいと思う。
δ使えば
>>107 みたいに連続と離散を区別する必要なくなるけどね
連続と離散の区別を避けるため(だけ)に超関数を持ち出す、というのは鶏に牛刀かと。 カントールの分布(連続でも離散でもそれらの混合分布でもない)とかもあるし、 中途半端であまり実りが無いアプローチだと思う。
初心者の質問で申し訳ないんですが 1つの群(20人)にA課題(データ@、データA)・B課題(データ@、データA) ・C課題(データ@、データA)をさせてA・B・Cのそれぞれのデータを 比較するには何の統計を使ったらいいんでしょうか? EXCEL統計を使ってなんですが、ウィルコクソンとかマンホイットニーとか どれを使ったらいいか分からないもんで・・・
どうでもよいがVistaはExcel統計に対応しているのか?
>>164 不明瞭すぎ。
まず、「何と何を」比較するのか?A課題について、データ@の「点数」とデータAの「点数」を比較する、B、C課題についても同様、か?
A課題のデータ@とB課題のデータ@は、いずれも「データ@」と呼ばれているが、同じデータを指しているのか?
「点数」は連続値なのか順序カテゴリー値なのか名義カテゴリー値なのか?
167 :
164 :2008/12/30(火) 16:21:48
>>166 レスありがとうございます
知りたいのは、
A課題のデータ@とB課題のデータ@を比較した際の有意差(BとC、AとCにおいても)
A課題のデータAとB課題のデータAを比較した際の有意差(BとC、AとCにおいても)です。
データに関しては同じデータを指しています。
カテゴリー値については知らないため分からないのですが、データはそれぞれの被験者の
ある角度の測定をしたものです(データの測定方法は一緒で、課題を行った際の変化を比較しようと考えています)。
まず、データ@について(データAについても同様に行えばよい)。 各個体(各被験者)について、A課題とB課題の値の差を求める。 20個の値が得られるはず。 それを符号付順位和検定(一標本Wilcoxon検定)すればよい。 B課題とC課題、C課題とA課題についても同様。 検定の多重性を考慮する必要があれば、有意性を判断する際に シェイファーの方法(Shaffer's method)などを用いる。 可能なら、専門家に相談した方がいい。 実験の目的やデータの素性を説明すれば、正しい解析方法を教えてくれるだろう。 上述の解析方法は、「おそらく正しい」やりかたにすぎないので。
169 :
164 :2008/12/30(火) 18:49:39
>>168 わざわざありがとうございました。
年末年始で相談が困難なため、一応それですすめてみて
年明けに教えをいただいている方に確認してみようと思います。
>>158 スレ違い。
”確立"は、もしあったら、哲学板。
171 :
132人目の素数さん :2009/01/01(木) 20:06:08
一般化線形モデルについて質問です。 一般化線形モデルは、リンク関数と確率分布が肝になっていると思います。 そこでよく解らないのが、確率分布は観測値そのものの変動を表しているのか、 それともリンク関数で変換後の値を表しているのかということです。 例えばポアゾン分布の場合、 y = exp(aX1 + bX2 + c) の y の分布を表しているのでしょうか? それとも logy = aX1 + bX2 + c の logy の分布を表しているのでしょうか? どちらでしょう?
>>171 まちがって理解していないでしょうか。
Logistic 回帰が一般化線形モデルの一種であることは知っていますか?
Logit(E(Y)) = aX1 + bX2 + c というように、「期待値を」リンク関数(ここでは logit)で
変換したものが共変量の線形結合で書ける場合に一般化線形モデルといいます。
Logistic 回帰モデルで個々の観測値 Y は二項分布に従いますが、
期待値 E(Y) は X1 や X2 が与えられたもとでは定数です。
なるほどLogistic回帰の場合、 > Logit(E(Y)) = aX1 + bX2 + c 変換前の Y が2項分布に従うということですね? その上で Y は確率変数だが、 その期待値のE(Y)は定数であるとおっしゃっていますよね? ここまではお陰さまで理解できたのですがまた疑問が生まれました。 Y のLogit変換後の変数はどんな分布に従うのでしょうか? そもそもYの期待値をLogit変換するのだから、 Yの分布を論じるのは的外れなのでしょうか? (そういえばロジット変換後に最小二乗方でパラメータ推定していた、 レポートを見た記憶があります。よろしくはないと思うのですが・・・)
>Y のLogit変換後の変数はどんな分布に従うのでしょうか? 自分で考えてみましたか? Logistic 回帰なので、Y は 確率 p で 1、確率 1-p で 0 となる変数です。 Logit 1、Logit 0 の値は?実数ではないですね。 >Yの分布を論じるのは的外れなのでしょうか? でしょう。統計学の研究者にとっては意味があるかもしれませんが… >よろしくはないと思うのですが・・・ よろしくない理由を突き詰めて考えると勉強になりますよ?
175 :
132人目の素数さん :2009/01/02(金) 01:33:41
【1】>Logit 1、Logit 0 の値は?実数ではないですね。 実数ではないので、1や0の場合は、0.001など微小な数字を加減してLogit変換をしていました。 そうした後は期待値が直線になることは確認済みです。 でもその分布がどうなるかが解らないのです。 数式を展開する能力もないのでヒントでもご教授いただけるとありがたいです。 【2】>>Yの分布を論じるのは的外れなのでしょうか? >でしょう。 Yの分布を論じるのが的外れだというのなら最尤推定が成り立たないと思うのですが・・・ 【3】よろしくない理由は、Logit変換後の変数が正規分布でないからですよね。 2の質問に繋がると思うのですが・・・難しいです。
>数式を展開する能力もないのでヒントでもご教授いただけるとありがたいです。 解なし、です。考える意味が無いのです。混乱させたら申し訳ない。 >Yの分布を論じるのが的外れだというのなら最尤推定が成り立たないと思うのですが・・・ 「右辺が aX1 + bX2 + c + ε で ε が正規分布」、でないことはお気づきですね。 実は、logit(E(Y)) = aX1 + bX2 + … + c は「確率的でない」方程式であり、 誤差とか確率とか統計とか、考える必要はないのです。 で、E(Y) が定まったからといって、Y は定まりません。定まるのは、Y の分布です。 最尤法は、E(Y) (これは X の関数です) と、Y の実現値を結ぶときに使われます(ここが確率的)。 試しに、単回帰分析や logistic 回帰分析を一般化線形モデル流に書いて考えてみてはどうでしょう?
なるほど。お陰さまですっきりしました。 ただ、まだすっきりしない点もあるので、勉強を続けたいと思います。 ありがとうございました。
初心者で大変申し訳ございませんが、 テレビの視聴率は関東地方で600世帯を対象として調査されるという条件の下、 ある番組のスポンサーが世帯視聴率が10%に達しなければ番組を 打ち切りにしろと言っているとき、最低限何%の世帯視聴率を取れば 番組が打ち切られずにすむか、どうやったら解けるでしょう。 (スポンサーは統計学の正しい知識をもっており、 有意水準1%で判断するものとし、 世帯視聴率が10%に達しないという対立仮説を採択せずに すむにはどうすればよいかを考える問題です。) 仮説検定を逆から考えるのが出来ない、 つまり全然理解が出来てないってことで萎えてますorz
>>178 ・関東地方の世帯視聴率か?
・全部で何世帯あるとするのか?
という点は置いておくとして
世帯視聴率が10%に達しないという対立仮説を採択せずにすむにはどうすればよいか
ではなくて
世帯視聴率が10%に達しないという対立仮説を棄却するにはどの程度の視聴率が必要か
という話じゃないのか?
>>179 関東地方の世帯視聴率です。
僕の問題文の解釈では、
10%に達しないという対立仮説を棄却するために必要な視聴率
を出せばよいと考えています。
60万−2.326×√(不偏分散/n)
とかでしょうか・・・
>>179 関東地方の世帯視聴率です。
僕の問題文の解釈では、
10%に達しないという対立仮説を棄却するために必要な視聴率
を出せばよいと考えています。
60万−2.326×√(不偏分散/n)
とかでしょうか・・・
>>181 検定でなく推定で考えたら?
600世帯での標本比率がx%だったとき、有意水準1%での推定誤差は±2.58×√(x(1-x)/600)だから、
真の視聴率が最悪でも10%以上のはずと(1%の危険で)言えるためには
10≦x-2.58×√(x(1-x)/600) であればよい。
(なお、2.326は上側1%点だけど、片側にできる理由がわからんので
両側1%点である2.58を使うべきジャマイカ)
>>181 帰無仮説をH0:「視聴率はちょうど10%である」とすると、
標本比率がx%のとき、H0のもとでのp値は
(x-10)/√(10(100-10)/600)
となるので、これが>2.236であれば、H0は有意水準1%で棄却される。
xが大きい方への誤差だけ考えているので、片側でよく、
このとき対立仮説「視聴率は10%より高い」が採択される。
すなわちx>10+2.326√10(100-10)/600)であればよい。
>>182 とあまり変わらない式だが、標本分散の部分にxでなく
仮説値を使っているので式が簡単なのと、
パーセント点に2.58でなく2.326を使っている点が異なる。
自分も自信があって書いているわけではないので
(片側検定と両側検定の区別がイマイチわからない)、
専門家がいたらこれでいいかどうか教えてホスィ…
>>184 俺もこういう場合片側でいいのかと思ったんだが。
対立仮説が不等号な分けだし。
ただ(100-10)がなんでだか分からないのだが・・・
600は600万の間違い?
統計学をかじったことはないので、分かりにくければすみません。 テスト管理の実務についての疑問です。 2つの100点満点のテストA,Bがあります。 1000人がAのテストを受けました。 100人がBのテストを受けました。 Bのテストの受験者にはAのテストの受験者も含まれていますが、 全員がそうというわけではありません。 私はBのテストの主催者で、以下のことを知っています。 ・受験者全員のBのテストの得点 ・Aを受験した生徒についてはその得点 ・Aの平均と標準偏差 このとき、 ・Aを受験していないある生徒がBのテストで獲得した得点と偏差値 から ・もしその生徒がAを受験した場合獲得できる得点と偏差値 を知ることはできるでしょうか。もしできるのでしたら方法を教えてくだされば幸いです。
187 :
186 :2009/01/02(金) 19:55:06
ちなみに現在は、 A,Bの標準偏差を stdA,stdB、平均値を avgA,avgB Aを受けたBの生徒のA得点の平均,偏差値を innerAvg,innerStd 求めたいある生徒のBのテストでの得点を score とすると、 得点 score' = (score - avgB) / stdB * innerStd + innerAvg 偏差値 dev' = (score' - avgA) / stdA * 10 + 50 と求めています。 しかし、もっと正確な方法がありそうですね…
年末年始だがいつもにも増して質問ラッシュだね…
>>175 正規分布仮定がなくとも確かBLUEは満たすんじゃなかったか?だから最小自乗法自体を適用してはならないとは言えない気が。正規分布仮定がないと確かに推定値の推定や検定は行えないが…。
線型モデル式自体は線型代数を学んでないと解りにくいだろう。通常は説明変数が基底をなしている仮定が置かれている。ベクトルの線型独立や基底の概念が解らないといまいち捉えにくいだろう。
どうしてBLUEを満たすのさ?何の略語だか知ってる?
>>185 xを0≦x≦1の小数(つまり本当の比率)とするなら
x>0.1+2.326√0.1(1-0.1)/600)
だが(つまり本来の公式では√の中はp(1-p))、パーセントを単位としたため全体が100倍されているだけ。
(√の中では0.1と(1-0.1)の両方が100倍される)
分母の600は標本数n
>>185 >対立仮説が不等号な分けだし。
いや、対立仮説は恣意的に決めてよいわけではないでしょ。
帰無仮説p=0.1が棄却されたとき、対立仮説としてp>0.1を採用していいのか、
p<0.1の可能性はまったくないとしていいのかってこと。
それはデータが出る前に状況から確定していなければならないはず。
データxが0.1よりかなり大きく出る条件のことを考えているので片側でいいような気もするが、
データがでる前から「ちょうど0.1か0.1より大きいかどちらかのはずだ」とは
確信できないように思うんだ、この場合。
>>189 重回帰分析は(正規分布が指数型分布族なので)一般化線形モデルの一種で、
たまたま最小二乗推定が最尤推定になりますが、一般の一般化線形モデルでは
最小二乗推定の性質は個別に検討する必要があり、例えば logistic 回帰の場合は
観測値の logit が存在しない時点でそもそも最小二乗推定が不可能、ということです。
194 :
132人目の素数さん :2009/01/03(土) 02:35:06
竹村『現代数理統計学』を読んでいるのですが、10章の問題4がどうしても 解けません。 \int_{a}^{b} \partial/\partial\psi f_{n}(w, \psi) dw | _{\psi=1} = 0 を部分積分することにより a f_{n}(a, 1) = b f_{n}(b, 1) を導け、という問題(f_{n}は、カイ二乗分布の密度関数を少しいじった もの)なのですが、いくら考えてもわかりません。 どなたか、何らかのご教示をいただけませんでしょうか。 宜しくお願いします。
池◆◆◆田◆◆◆大◆◆◆作の本名はソ◆◆◆ン・テ◆◆チ◆◆◆ャク。
小◆◆泉◆◆純◆◆一◆◆郎、小◆◆沢◆◆◆一◆◆朗は朝◆◆◆◆鮮◆◆◆人。
9◆◆◆11では小◆◆◆型の水◆◆◆爆が使用されている。
http://r ◆◆◆i■ch◆◆◆ardk◆◆◆osh■im◆◆◆izu.at.we◆br◆y.in◆f◆o/
創◆◆◆価の◆◆保◆◆◆険金殺◆◆◆人事◆◆◆件。
オ◆◆◆ウ◆◆◆ム事◆◆◆件は、統◆◆◆◆一・創◆◆◆◆価.北◆◆◆朝◆◆鮮の共◆同犯行である。
C◆◆◆I◆◆Aが監◆◆修している。
http://www15.o ◆◆cn.ne.jp/~oy■◆◆ako■◆◆don/kok_web■site/ir■ig◆◆◆uc■hi.h◆◆◆tm
与◆◆◆◆党も野◆◆◆◆党もメ◆デ◆◆◆ィ◆◆アも全◆◆部朝◆◆◆鮮◆◆◆人だった。
http://jb ■bs.li■vedo■or.jp/b■◆◆bs/read.c◆gi/ne◆◆◆ws/20■◆◆92/11◆◆57◆94◆■13◆◆06/
2◆◆チ◆◆◆ャ◆ン寝るは「■とう◆◆◆◆一■教■■会■」が 運◆◆◆営して「個◆◆◆人じ◆◆ョ◆う◆ホ◆◆う」を収集してる。
駅◆◆前で「■手◆◆◆◆◆相を見せてください」 と「カ◆ン◆ゆう」してるのが「■と◆う◆◆◆一◆◆■教■■会■」。(カ◆◆◆◆ルト宗■教)
ユ◆ダ◆ヤ権◆力の◆子◆分→2◆ち◆ゃ◆ん運◆◆◆◆営=「とう◆◆◆一◆教◆会」上層部=層◆化◆上◆層◆部=自■民党清■和会=野党の朝■鮮■人ハーフの政治家=
与党の朝◆鮮◆人ハーフの政治家=金◆正■■日(キ◆ム・ジ◆ョン◆◆◆イル )=読◆◆売サ◆ン◆ケ◆イ=小◆◆◆沢◆十◆朗。
毎◆日■■■新聞◆◆◆スレを荒◆◆◆らしてる◆奴◆◆らも「◆とう■■■一■教■■■会◆」。
荒らしは洗◆◆◆脳するために「ネ◆ト◆ウ◆◆◆ヨ」などのレ◆◆ッテ◆ル◆付◆けレ◆スを何◆千◆◆回もする。
現◆◆◆実には「ネ◆ト◆ウ◆◆◆ヨ」などは存◆◆在し◆◆ない。
http://c ◆ha◆ng◆◆◆i.2ch.net/te◆◆st/r◆ea◆d.cg◆i/m◆◆s/12◆30◆36◆◆◆33◆8◆5/
>>186-187 試験Bの得点から、同じ生徒の試験Aの得点を予想する問題なので、
統計的には「回帰分析」を使う。
1. まず散布図を描く
標本:試験A,B両方を受けた生徒全員
横軸:試験Bの得点(score_B)、縦軸:試験Aの得点(score_A)
2.散布図に当てはまる直線
score_A = 切片 + 勾配・score_B
を推定すると、目的とする予想式(score_B → score_A)が得られる。
(Excelだと散布図の系列メニュー「近似曲線の追加」「グラフに数式を表示する」)
3.散布図が曲線的な傾向を持つ場合や、予想値が100以上や負の値になって
マズい場合には、またここで相談する。
197 :
132人目の素数さん :2009/01/03(土) 11:36:43
>>194 ψで偏微分すれば与式は
∫(n/2-w/2)f(w,ψ)dw = 0
となる。
ψ = 1を代入すると
∫(n/2-w/2)f(w,1)dw = 0
そして
(d/dw)(wf(w,1)) = (n/2-w/2)f(w,1)
となることから
a f_{n}(a, 1) = b f_{n}(b, 1)
を導けます。
199 :
194 :2009/01/03(土) 12:53:12
>>197 どうもありがとうございます。なるほど、納得しました。
これは、伺わなければわかりませんでした。聞いてよかった。
200 :
186 :2009/01/03(土) 20:37:55
>>189-190 >>193 最小自乗推定量が最小分散線形不偏推定量(BLUE)満たすかは誤差項の正規分布仮定でなく分散不均一か均一かによるのでは?
重回帰分析では最尤推定量と最小自乗推定量は一致し、確かに最尤推定量は誤差項の正規分布仮定がないと得られないが、最小自乗推定量自体は正規分布仮定がなくとも得られる。
最小自乗推定量は等分散仮定ならBLUEを満たすが、不均一分散なら不偏性は満たすが最小分散性は満たさない。
分散不均一の場合の一つのモデルがロジットモデルであり観測値が得られない場合は何らかの代替的処理が必要だが、加重平均最小自乗法なりに変える方が望ましいものの最小自乗法自体の適用は可能ではと思うのだが…。
可能だけどBLUEじゃないってのは解ったんでしょ?それが結論では?
>>202 まあそうなんだけど通常の最小2乗法だと満たさないから、満たすような変形モデル(例えば加重最小2乗法)を設定するのも可能だと言いたかっただけだよ。勘違いしてるとこあったらスマン。
204 :
132人目の素数さん :2009/01/04(日) 20:44:58
統計の考え方というか解釈についてお尋ねしたいのですが, ある2つの条件AとBがあって, 条件Aではある測定項目間に有意な相関があったがBではなかったとき その条件の違いはそれらの項目間に相関関係を生じさせる効果がある という推論はどのくらい妥当なのでしょうか。
205 :
132人目の素数さん :2009/01/08(木) 20:00:15
最大値10.0 最小値3.5のデータの範囲は6.5ですが、 これを階級数6となるようにするには R/6 としないとだめなのですか? きりがわるくなってまうんですけど。
>>204 条件Aと条件Bに差があるかということならこれだけでは分からないでしょう。
たとえば、Aのp値が0.049でBもAと同じ符号の相関でp値が0.051とかなら
2つの条件に差があるとは思えません。
フォーマルな解答の載っている問題集(問題がいっぱい載ってる解説書でも)知りませんか? もちろん統計学の。
>>206 7にしてもいいのであればしたいのですが、
R/6以外のにしてもいいのですか?
なんで 6 にしないといけないと思ってるの? 階級数 6 にしないと切りが悪くなるという意味が良く分からん。 階級値の区切りも階級幅もなるべく切りの良い数字を取るというのが ごく基本的なルール。因みに階級の数は n をデータ数としたとき、 大体 1 + log(n)/log(2) と同じくらいになるようにするのが適切と言われてるので ベストな階級数はデータ数にも拠るとしか言いようがない。
211 :
132人目の素数さん :2009/01/10(土) 01:32:04
収束と極限ってどういう意味ですか?
何でこのスレに? 文系の人かな。高校三年の数学教科書/参考書とか、 あと大学一年の微分積分の教科書とかに懇切丁寧に書いてあるよ。
>>210 まず問題が階級数6となるように区間幅を決定せよ、というものなんです。
データの最大値は10.0で最小値は3.5です。
こんばんは。 訳あって統計学を独学ではじめたのですが、基本書を調べても載ってなかったので 質問させてください。 標準偏差が平均値より大きくなってしまった場合の処理がよくわかりません。 例えば3人のテストの点数が1,2,100点として求めるとそのようになってしまいます。 そもそも、そういったデータは正規分布ではないから標準偏差を使って調べるのは適切 ではないということでしょうか。 よろしくおねがいします。
標準偏差は別に正規分布でなくても使って良いよ。 そこから偏差値とかを計算して どのくらいの意味があるのかは分からないけど。 ただこういう場合はまずヒストグラムとか作ってみて 大雑把に分布を把握したりするのが先じゃないのかな。 ほとんどの場合はそれで充分だし。
>>213 一世代前の統計ソフトのような問題だな。w
>>215 そうなんですか、その場合マイナスになったらどう考えればいいんでしょう?
上の例の場合平均34点 標準偏差46点ぐらいになりますから、
34±46内にデータの66パーセントが・・と考えてもどうもしっくりこないんです。
単に0〜80点の間にと解釈していいのでしょうか?
平均と標準偏差の意味とか役割を説明しなきゃいけない問題なので、
平均点は同じなんだけど ひとつは平均点周辺の点数が多いデータ
もうひとつは非常に偏った(1,2,100みたいな)データを用意して
この二つは平均点は一緒だけど、ばらつきは測定できないから〜
という流れで標準偏差を持ち出したかったんです。
数値は出ているので、その負になる考え方が理解できない・・という感じです。
218 :
132人目の素数さん :2009/01/10(土) 21:52:41
>>217 得られたデータに最もよく当てはまる正規分布を求めると
いわゆる平均と標準偏差の計算の結果と一致するようになっている
得られた正規分布をどう解釈するかはまた別の話
>>217 66%も何もサンプル3人でしょ…。正規分布だと2σ区間(偏差値なら30〜70ね)が約95%のデータが入るけど3人じゃt分布とも言えないような…。離散データを正規分布みたいな連続分布で近似するのはサンプル数が多い場合だよ。
>>213 階級数と区間幅はケースバイケースだと思うけど…。目安的な階級数にはデータ数に基づくスタージェスとかテレル・スコット基準とかあるけど、例えばレンジ(範囲)とかによって階級数が画一的に決められるわけではない。
>>219 言いたい事を上手く伝えられるように簡単な表現で書きました。
実際に考えているものでは15個くらいのデータを使っています。
それでも少ないと言われたら私の考え方自体間違っているのかもしれないです。
問題を解く上でまだt分布という考え方は与えられていません。
自分の聞きたい事と返答が一致しているように思えないので
たぶん私何か勘違いしてるみたいです。
明日勉強しなおします。色々教えてくれてありがとう。理解不足ですいません。
>>20 数学的には負になっても問題はないよ。データ数15じゃ正規近似は難しいね…。
ちなみにばらつきが大きくなるとイメージ的には正規分布の山型の裾がだんだん広がっていくんだよ。ばらつき∞なら分散0の分布(パルス)と丁度反対な水平線のイメージかな。
223 :
132人目の素数さん :2009/01/10(土) 22:52:47
予習してこいといわれたのですがわかりません。 区間推定の問題なんですが、56,40,70,68,76で、信頼係数95%で計算しろという問題です。 まず、5つの平均値を出して62が出ました。 次に普遍分数を出さなければいけないと思うんですが、普遍分数の出し方ってどうやるんでしたっけ・・・?orz
>>220 あくまで目安だけど近似に際してはデータ数が30以上くらいじゃないと正規分布に当てはめるのは微妙だよね。それ以下ならt分布が妥当かな。何でもかんでも正規分布で説明できるわけじゃないということだね。
普遍分数じゃなくて「不偏分散」だから。ぐぐれ。
226 :
132人目の素数さん :2009/01/11(日) 00:00:25
In(OR)=(O-E)/V と近似できる理由を教えてください
>>217 >上の例の場合平均34点 標準偏差46点ぐらいになりますから、
>34±46内にデータの66パーセントが・・と考えてもどうもしっくりこないんです。
>単に0〜80点の間にと解釈していいのでしょうか?
平均±標準偏差×倍率
という相対度数の計算は、平均を軸に「左右対称な分布」で無いとダメ。
なぜなら、「±」という演算が、平均の右側と左側を対称に扱ってるから。
そのケースだと、分布に強い右歪みがあるので、おかしな結果になる。
統計的手法としては、端点を無限に引き伸ばして定義域の矛盾を無くし、
分布の歪みを軽減するような変換を使う。例えば、ロジット変換など。
つまり、分布が対称で変数の上下限を意識しなくて良い状況で「標準偏差」を
使うか、そうでない状況では「標準偏差」を使わずに目的を達成するか、
どちらかを選ぶということ
統計学は習い始めたばかりなので質問させてください。 例えば、商品の売り方や商品の注文方法別の利益額、商品売上数等を計上し、 その結果に基づいて「売り方は○、注文方法は●のほうが最も多くの 利益をあげられる」という答えを導き出すことはできますか? ちなみに商品は1種類と考えた場合です。 先輩に聞いたところできることはできると言われましたが、 これは回帰分析や組合せ最適化あたりで導き出すのでしょうか。 よく分かりません。アドバイスお願いします。
商売のことは、先輩に訊いたらよかんべ。
度数分布表における階級度数fの求め方教えてよ。
>>230 階級の数が4以下なら、データを見ながら、第一階級を左手指、
第二階級を右手指、第三階級を左足指、第四階級を右足指で
カウントしてゆく。
階級の数が5以上なら、誰かに手伝ってもらう。
チンコは使うな。筋肉痛になるから
232 :
132人目の素数さん :2009/01/13(火) 16:03:03
5段階評価についての問題で意味と計算例を〜という問題でました。 それだけならなんとかだけど 合計人数が40人のときの人数調整は「3」のレベルの人数で行えと…。 意味がよくわからないです・・
おそらく四捨五入とかで5段階に割り振ると、合計が40人にならないので 3のレベルを加減しろという意味だろう。
馬鹿でごめん…。 3のレベルを加減がぴんときてないわ。 分類すると、2,8 9,6 15,2 9,6 2,8だし 3 9 16 9 3にすればいいんだろうか…。
9.6の四捨五入は10ね. で、第3階級は普通に四捨五入すると15になるけど、 合計40にするために14とするってことだろう.
なるほど。 ありがとうございました。 単語でぐぐってもぴんとこないのが…。 年齢別による人口全体の3区分法。 0〜14歳を年少人口 15〜64歳を生産年齢人口 65歳以上を老年人口 ただこれだと3区分なだけな気もして。 高齢社会(高齢化社会とは別です) 特化係数 各経済活動別総生産の構成比率を全国の構成比率で除したもの この3つです。
>>236 無関係ではないが統計理論というよりどちらというと社会調査的な話だな。こういうのは厳密に正しい答えがあるわけじゃないから、すぐに連続で質問するんじゃなくて少し自分で色々と調べてみると良い。
>>236 今じゃなくて暇ができたとき、どこかで、数値の丸め方にも目を通しておくと良いよ。
工業的にあるていど精度が必要な場合には、学校で習った四捨五入
とは異なる形でデータを丸めるのが普通なんです。
その方が統計的にみれば正しいということからなんですけど。
JISの規約を見れば書いてあるとおもいますよ。取引なんかでも使われ
ますので、知っておいた方がいいんじゃないかな〜。
標本数が多い場合→母分散の既知未知関係なく正規分布 標本数が少ない場合→母分散未知ならt分布 って書いてあるんすけど 標本数が少なくて母分散既知の場合はどっちになるんですか?
240 :
239 :2009/01/16(金) 13:36:51
やっぱ標本数少ないからt分布なんかなぁ・・ はっきり書かれてないから自信が持てない
分散が何故か分かっているという非常に不自然な場合は 標本数が少なくても正規分布で大丈夫だよ。
242 :
239 :2009/01/16(金) 16:01:56
241さん、待ってました! あの後も色々しらべたんだけど、おっしゃるとおり、正規分布のほうでよいみたいですね 確認できて助かりました。ありがとう(^o^)♪
243 :
132人目の素数さん :2009/01/16(金) 19:49:53
正規分布N(0,1)の[-1.96, 1.96]上の切断分布から乱数生成することを考えます。 このとき、(-∞, ∞)の正規乱数を生成し、[-1.96, 1.96]の範囲外の乱数は 破棄するという方法は正しいでしょうか。
コンジョイント分析について質問させて下さい。 例えば3属性のうち1属性に5水準を設け、ダミー変数におきかえる場合のモデル設定は、 他の残りの属性と同じような扱いで(パラメータ×それぞれの属性)よいのでしょうか? また、対数尤度関数の一階と二階の条件を計算する時にも、他の3属性と同じような扱いをしてよいのでしょうか?
245 :
132人目の素数さん :2009/01/17(土) 14:24:45
ウィキペディアでは一様分布の期待値がすべて(a+b)/2となってるけど 離散では(a+1)/2これはb=1ってこと? (0,a)上の一様分布の期待値は a/2 ? a+1/2 ?
246 :
132人目の素数さん :2009/01/17(土) 18:42:14
ウィキペディアはすべてただしい
>離散では(a+1)/2これはb=1ってこと? 意味不明です。 >(0,a)上の一様分布の期待値は a/2 ? a+1/2 ? (0+a)/2 で a/2。a=1 の場合などを考えればすぐわかると思うのだけど?
248 :
132人目の素数さん :2009/01/17(土) 18:56:28
>>247 離散のとき公式として?(a+1)/2と乗ってるけどこれは(1、a)上のときってこと?
249 :
132人目の素数さん :2009/01/17(土) 19:43:05
すみません、他の人がやった実験を手伝うことになったのですが、 統計をあまりやったことがないのでわけわかめです。 調べたのですが、そもそも何を調べていいのかよくわかりません。。 アドバイスお願いいたします。 2人が組になったグループが4つあり 質問してYESとNOを数回ずつ聞きく実験を2回行います。 問題は、それぞれのグループが行った実験回数がバラバラだということです。 これを最初の実験のYESの数、NOの数、 二回目の実験のYESの数とNOの数で4グループにわけました。 (たとえば↓) 実験1回目 実験2回目 yes no yes no グループ1 7 3 4 3 グループ2 12 4 6 3 グループ3 15 8 13 8 グループ4 11 8 11 10 ここで、それぞれの実験がYESの数の割合の方が高く、 さらに実験2のYESよりも実験1のYESの方が 有意に割合が高いといいたいのです。 分散分析でやればいいのかなと最初は考えていましたが、 それぞれの回数がバラバラなので、単純に数ではなくて 割合とか点数に直した方がいいのかなど 考えていたら、さっぱり進まなくなりました。 大変初歩的な内容だと思うのですが、お力を貸してください。。
>>243 特定の分布から得られるデータから正規乱数(ただし[-1.96,1.96])を生成したいということかな。正しいと思いますが…。
>>245 一様分布の期待値の公式は離散でも連続でも変わらない。ただし分散は異なる。離散の場合さいころで、連続の場合は適当に(0,1)範囲の関数でも設定して実験してみればよい。
「有意水準」「第一種の過誤」の意味に関して聞きたいです。初心者なんですが、助けてください。例えば、ある試験の得点についてある母集団(正規分布しているとする)から無作為に抽出したとき、 得点が 【 16,24,32,35,36,43,47,49,55,63 】だとし、「母平均が50点である」という仮説を有意水準5%で検定します。 帰無仮説:μ=50 対立仮説:μ≠50 t=(標本平均ー50)/√(不偏分散/n)=(40−50/√(203.33/10)=-2.21766 -t0.025(10-1)=-2.262 より、帰無仮説は棄却されず、採択されました。 ■このとき、「有意水準」の解釈を以下の点で伺いたいです。 1.「どういった状況で」 2.「どのようなことを無限回繰り返したときに」 3.「何が起きる比率が5%なのか」 4.「上の例で帰無仮説は棄却されないという判断を下したが、これは現実に観測された結果をどう考えた結果なのか。」 ■以下が僕の解釈です。(特に3、4が疑問です) 有意水準とは、ある統計的仮説が正しいという状況の下で、無限回仮説検定を繰り返したとき、帰無仮説が正しいにも関わらず、測定値において正しいH0を捨て、正しくないH1を採択するという、「第一種の過誤」が発生する確率である。だから上のケースでは、 1.「母平均が50点である」という仮説が正しいという状況の下で、 2.「無作為に標本を抽出し、仮説検定を行う、ということを無限回くり返したとき」 3.「母平均が50点である」という帰無仮説が正しいにも関わらず、これを捨て、「母平均は50点ではない」という対立仮説を採択してしまう(第一種の過誤)が起きる比率が5%である。 ※そもそも帰無仮説は棄却する為の仮説?なので、第一種の過誤が起きる危険率を5%として帰無仮説を棄却できるか検定している。しかし、 4.この場合、「母平均は50点である」という帰無仮説は棄却されなかった。 これはどういうケースにぶち当たったということなんでしょうか?実際に「母平均は50点である」は真と判断したということでしょうか。 何度考えてもよくわかりません。宜しくお願いします。
「母平均が50点である」という仮説が正しいという状況の下で というより、 テストが平均 50点の正規分布に従うという仮説が正しいという状況の下で のほうが良いかな。つまり実際に帰無仮説が棄却された場合には そもそもこの仮説は成り立ってないんだよね。 あと大雑把に言って仮説の棄却は背理法と同じ。 帰無仮説が棄却されなかたっというのは、あからさまに不自然なデータは 出ませんでした、というだけで、背理法で言うなら、 〜〜と仮定しても矛盾は起きなかった、ということ。 π+eが無理数だとする。こう仮定しても矛盾は起きない。 よってπ+eは無理数である、なんて証明にも何にもなってないよね。
>>253 レスありがとうございます!!助かります。
つまり4に関しては、
今回は「母平均は50点である」という帰無仮説を棄却できるデータではなかった、
(帰無仮説は棄却されない→対立仮説は採択されない
かつ、帰無仮説が採択されるわけでもない)
というだけということでしょうか。
またご指摘いただいた点以外で有意水準の解釈(1〜3の部分)は
あっているでしょうか?
>>253 「母平均は50点である」は偽であるとは判断されなかった。
が正しい解釈です。
第二種の過誤が生じているかもしれない、と考えて下さい。
「本当は母平均が50から"ある一定の値以上"ずれているのに、帰無仮説を棄却しそこなった」
可能性があるわけです。
"ある一定の値"をてきとーに定めることにより、第二種の過誤の発生確率は
データをとる前に(つまり、データを用いることなく)計算できます。
1. 2. 3. の解釈はあっています。
>>256 なるほど!
母集団すべてを分かるのが不可能な状況で、この標本から仮説検定で判断しようとしたとき、
「母平均は50点である」は棄却できず、偽であるとは判断できない、
ということですね。
第二種の過誤の確率は別の方法で求める、と。
逆にもし帰無仮説が棄却された場合は、
「母平均は50点ではない」を採択する(真であると判断する)が、
そのとき第一種の過誤が起きている確率(判断を間違えている確率)
が5%だと。
わかった・・・と思いますw
ゼミでちょっとした実験をしまして分析をしてるところなのですが 教員からはまず分散分析をすればいいと聞いていたのでいざやろうとしてみたところ 一元配置と二元配置の判断がつきません。 もしよろしかったらご教授いただけないでしょうか。 行った実験の内容は3種類の違った音を被験者に聞かせて血圧や心拍数を測定するといったもので それぞれ音の群間での有意差について調べる、といったものです。
259 :
132人目の素数さん :2009/01/19(月) 01:28:23
すみません・・ この問いをご教授いただきたいのですが・・ ある会社の株価収益率が日経平均株価収益率でどれくらい説明できるか。 最小2乗法を用いて検証しなさい 分からないのはβの値についてt検定する場合をexcelを使って何をどうやって回帰分析すればよいかということです
260 :
132人目の素数さん :2009/01/19(月) 09:21:33
>>252 さん
なるほど。
ありがとうございます!!!
調べてみます!!!!!!!!!!
>>258 音を聞かせる被験者が音ごとに違うグループなら一元配置、
同じ被験者にすべての音を聞いてもらうなら二元配置。
262 :
132人目の素数さん :2009/01/19(月) 10:17:27
すみません。 コインを240回投げたとき、表が130回以上出る確率を求めよ とゆう問題で、中心極限定理を使うようなのですが、うまく解けないのでどなたか教えてください。 お願いします。
>>260 >>262 1参照
学校の宿題は自分で考えましょう。
本当に調べてわからなかったの?
似たような問題探したり、教科書きちんと読み直したり、
それでも全く解き方もわからないの?
こう考えてこうなったんだけど、この部分がわかりません。
とかならわかるけど、考えもしない人が聞くのと同じような聞き方じゃ答えもらえないよ
>>261 さん
心より御礼を申し上げさせていただきます。ありがとうございました。
>>259 >>262 最小2乗法と回帰分析なら初歩。
まず基本はm^*(E+x)=m^*(E)
これは絶対。
そしてルベーグ外測度なのかスティルチェス外測度なのかについてだが
(x/1)+xってことは砧麺麭覆拿彙螺子の可能性もある。
コインを240回投げたとき、表が130回以上出る確率は簡単に中心極限定理を使えばよい。
まず知的ルサンチマン(=ルサウンチマン)のオランウータンビーツかもしれんが。
「(3) fがΣ可測でE⊂R^dならf_χ_EもΣ可測(但し,f_χ_Eは特性関数です)」で用いたf_χ_Eを考えればこのfは有界で非可測。
さらには堵虞慧螺、痲璽彙螺禰などとも並ぶね。
結構基本だよ。
266 :
132人目の素数さん :2009/01/19(月) 12:55:14
>>250 質問文を換えますと、
[-1.96, 1.96]上の切断正規分布に従う乱数はどのように生成するかという問題です。
[-1.96, 1.96]上の切断正規分布の分布関数と、(-∞, ∞)上の正規分布の分布関数を
[-1.96, 1.96]上で切断したものが異なったものになるので、どうすればよいか考えているのですが。
267 :
132人目の素数さん :2009/01/19(月) 13:36:26
>>266 Zが標準正規分布にしたがう時、
条件 -1.96 < Z < 1.96 の下での条件つき分布 = [-1.96, 1.96]上 の切断標準正規分布
なので、標準正規乱数を発生して、条件外の値が出現したら捨てればいいんだよ。
>>266 すまん。読んでなかったのはこちらだった。しかしまたレポート期間になったんだなあ…。
270 :
132人目の素数さん :2009/01/19(月) 14:11:08
>>267 ,
>>268 返答ありがとうございます。しかしながら、私の悪い頭では、
なぜそれで良いのかということが、頂いた回答文から理解できません。
>>258 少し補足だけど、血圧や心拍数の原因を音だけが原因(1因子)と考えるなら一元配置で、音のみならず被験者にもよる(2因子)と考えるなら二元配置で実験するとよいでしょう。
>>266 後半部分が少し引っかかる。異なるとあるけど、分布関数はどういう計算をしたのかな…?
273 :
132人目の素数さん :2009/01/19(月) 15:20:47
>>272 [-1.96, 1.96]上の切断正規分布の分布関数
=0*I{x<-1.96}+(1/0.95)*N(0,1)*I{-1.96<x<1.96}+1*I{1.96<x}
(-∞, ∞)上の正規分布の分布関数を[-1.96, 1.96]上で切断したもの
=0*I{x<-1.96}+N(0,1)*I{-1.96<x<1.96}+1*I{1.96<x}
I{}は指示関数。標準正規乱数を発生して、条件外の値が出現したら捨てる操作は、
後者に適用します。
274 :
132人目の素数さん :2009/01/19(月) 15:23:27
補足すると、例えば(5+c)×(4+2)÷(3×a)=X X+(4+3)×b+3+4+5+6・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ という数式が延々と続いてるのが「純粋理性批判」なのである。 例えば「超越論」という単語、例えば「超越論的観念論」という単語、 例えば「アプリオリ」という単語、例えば「分析判断」という単語、 「総合判断」という単語、延々と数十数百と続くこれらの単語を 数学の「変数aとかcとかc」と考えたまえ。そしてこの連立方程式は、 700ページにも及んでおり、変数の数は数十数百と続いている。
274 を見て、脱線するが オレにとって、分析哲学は、哲学に興味を失うきっかけだったな。 従来の哲学は「四角い三角形」とか外延が存在しない概念を 駆使していたように思えて。 主に分析哲学の初期論文が載っている現代哲学基本論文集1 坂本百大編 勁草書房 を持っているんだけど。 オットー・ノイラートの「プロトコル言明」がショックだった。 ノイラート 「アインシュタインはバントゥー語を用いてなんとか表現できるけれども、 しかし、ハイデガーとなるとドイツ語が可能にするような言語的乱用を 導入するのでなければ表現できない。」
>>273 つまりあなたの見解は分布関数が異なるので
>>267 の方法で正規乱数を生成できるか疑問がある、ということですね?分布関数の計算に問題があるんじゃないかなあ…?
277 :
132人目の素数さん :2009/01/19(月) 17:20:07
278 :
132人目の素数さん :2009/01/19(月) 17:59:31
>>273 後者の式だと、Pr{ x=-1.96 } = Pr{ x=1.96 } = 0.025 になるけど、
ヘンだよね。(理論的な意味での)正規乱数が、特定の実数値を
取る確率はゼロだから。
前者の式は、同様に Pr{ x=-1.96 } = 0.025/0.95 で、おまけに
1.96 - ε < x < 1.96 の区間で「分布関数値が1を超える!」w
279 :
132人目の素数さん :2009/01/19(月) 18:32:12
>>278 すみません。273において、N(0,1)はすべてΦ(x)に置き換わります。
>>後者の式だと、Pr{ x=-1.96 } = Pr{ x=1.96 } = 0.025 になるけど、
ヘンだよね。
条件外の値が出現したら捨てる操作を行うためにΦ(x)を切断しているため、
仕方ないかと思われます。実際、この後者の関数の逆関数を求め、
一様乱数の実現値を返すわけですから、問題ないのではないでしょうか。
前者の式はその通りですね。
それでは、この場合の分布関数は、どうかけるのでしょうか。
280 :
132人目の素数さん :2009/01/19(月) 20:36:16
>>279 捨てる=条件から外れた値は起きない=条件が確率1で起きる
=条件内の確率合計が1
条件つき確率=全空間の確率/条件が起きる確率
>>279 Φ(x)は分布関数?確率密度関数?あと指示関数I{}だけど具体的に何を表しているのかな?直感的には前者の式の1/0.95に問題があるような気がするけど…。まあ正規乱数を生成する場合、逆関数(逆変換)法だときついよね。他のやり方のがいいんじゃないかとは思うよ。
1, 4, 5, 8, 12, 15 こういうデータがあったとして 平均は9 分散は30.2 標準偏差は5.5 これで合っていますか?
283 :
132人目の素数さん :2009/01/20(火) 05:41:52
>>280 (-∞, ∞)上の正規分布の分布関数を[-1.96, 1.96]上で切断したもの
=0*I{x<-1.96}+\int_{-∞}^{x}\frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}*I{-1.96<x<1.96}+1*I{1.96<x}
の値域が、[0.025, 0.975]から[0,1]となるように変換したものが、
求める分布関数だということを言ってますか?
仮にそうだとしても、条件外の値を除外して生成した乱数は、
変換した分布関数から求めた乱数と同じであるということが良くわからないのですが。
どうやって証明すればよいでしょうか。
284 :
132人目の素数さん :2009/01/20(火) 05:44:05
>>281 Φ(x)は分布関数です。指示関数I{}は、
カッコ内が真のとき1,偽のとき0を取る関数と定義しています。
285 :
132人目の素数さん :2009/01/20(火) 10:14:30
286 :
132人目の素数さん :2009/01/20(火) 13:06:54
質問があります。大学を卒業すると視能訓練士の1年制専門学校に入学できるのですが 既卒の学校で統計学(数学含む)を履修していないと入学は出来ないのです。 放送大学での履修を考えていますが統計学(数学を含む)とは統計学、数学を 両方履修しなければならないのですよね?数学は高校以来、統計学に関してはまったく 勉強した事がありません。。。無知な私でも放送大学で60点C評価でかまわないので単位取れるものなのでしょうか? 分かる方教えてください。
>>284 ダミー変数みたいな感じね。とすると1*I{1.96<x}にも問題あるかな?{1.96<x}で分布関数は1とは言えないんじゃないかな。分布関数はx≒∞で1に収束するよね。
288 :
132人目の素数さん :2009/01/20(火) 14:01:46
ベイズ識別と線形識別の定義. また, ベイズ識別かつ識別面が線形, ベイズ識別だと線形にならない, 線形にするとベイズ識別にならない, 例を教えてください.よろしくお願いします.
289 :
132人目の素数さん :2009/01/20(火) 17:35:48
>>286 >放送大学での履修を考えていますが統計学(数学を含む)とは統計学、数学を
>両方履修しなければならないのですよね?
そういう大事なことを2chで聞いてはだめ。その専門学校に問い合わせるべき。
放送大学の「この」単位でいいのか、といったところまで聞いた方がいい。
>単位取れるものなのでしょうか?
大丈夫だろうと思うけど…
先回りして放送大学の教科書を買って読んでみたら?
本屋でも Amazon でも売っているはず。
t検定での両側検定と片側検定の違いがわかりません。
ttp://oshiete1.goo.ne.jp/qa2281682.html ここを読みましたがいまいち理解できませんでした。
たとえば、100人の風邪患者がいて回復までに要する日数の平均が5.5、標準偏差が1.5日で、
治るまでに要する平均日数の範囲を0.95の確からしさで求めよ。というような問題があったとします。
これは片側検定で求めるそうなのですがそれはどうしてでしょうか・・・・。
>>291 教科書読めと言いたいところだが、片側か両側かは対立仮説による。対立仮説を示したい(帰無仮説を否定したい)ということから考えると自ずから見えてこよう。
仮説が「AはBより〜であるか」のような"大きさの違いを調べる"場合は片側検定
仮説が「AとBには差があるか」というような"差の違いを調べる"場合は両側検定
このような解釈でいいのでしょうか。だけどこれを
>>291 に当てはめて考えてみようとしても理解できません。
同じような、範囲を求める問題でも片側を使っていたり両側を使っていたりしてわけがわからないんです・・・。
>>291 の問題は検定でなく推定(区間推定)に見える。
推定に片側も両側もないと思うが…?
検定なら、機無仮説は等式なので、対立仮説は必然的に不等式になるが、
状況からみて片側の不等式の可能性が無視できるなら片側検定、
どちら向きの不等式もありうる場合(つまり「≠」としか書けない場合)は両側検定。
検定者の希望で対立仮説を勝手に選べるわけではないことに注意(この点を誤解している人が多そう)。
>>294 標本というところでこの問題をやったんですが・・・。
仮説が〜というところは理解できました。ありがとうございました!
>>294 そうだよな。
あまつさえ検出力を上げるには片側にすればいいんだよと書かれている書籍を
見かけて目が点になった。w
297 :
132人目の素数さん :2009/01/21(水) 01:39:00
ふと自分で思いついた問題です。 この店では必ず商品を1人で2個セットで購入すると決められています。 このとき、ある人が商品Aを購入している場合 そのときに商品Bが同時に購入している確率を求めるにはどのようにすればよいでしょうか? またその確率の確からしさ(検定?)を求めるにはどのようにすればよいでしょうか? ただし、この店の商品数は全200個で過去の来客数は6000人とします。
298 :
132人目の素数さん :2009/01/21(水) 01:42:27
>>297 追加条件:
同じ商品は購入できないものとします。
必ず別の商品を1個つづ購入しなければなりません。
299 :
132人目の素数さん :2009/01/21(水) 01:43:40
>>297 例えば、商品A,B,C,D,E、・・・
ある人は商品AとDを購入
ある人は商品BとCを購入
・・・
です。
300 :
132人目の素数さん :2009/01/21(水) 01:56:19
>>299 おいおい・・・それ基本的な間違いを犯してないか?w
同時に購入している確率なんだから結局は砧麺麭覆じゃん。
順を追っていくだけだと単なるオランウータンビーツになる気が・・・。
痲璽彙螺禰じゃないんだからw
.l''',! .r-、 .,、=@ .l''',! ./ー、,,,_ .r-, .广''''″.¨゙゙! .,,,丿 {,,、、, .v-l゙ .!-r/i、 广''''″.¨゙゙! .!、, l゙ | .} ,, .゙l---, ぃ" .| .| .| _,,{゙l .ヽ ヽ--i、 .ぃ" .,,,,,,,,二i" .,..-" .ヽl、゙l r---┘.―'i、 "',! ./ニニニ、  ̄| .L,,,,,゙l,,i´ .r---┘.―'i、 .| :,! | .l .|、 |__ ._,,,,} ノ .| | l゙ ./ ゙'i、 .|__ ._,,,,} "''''ツ ./ "''ト .|゙i、 ||、゙l .,―-" | .ノ .l゙ `"゙゙゙'" ,i´,〕゙゙^'i、 | .,―-" | ../ `i、 l゙ ,l゙ | |.゙l.,ノ .l゙ .,,,,,, .\ .l゙ .l゙ ,, .l゙ .|.} | | .| / .,,,,,, .\ ../ .,.i、 | l゙ .l゙ .| .,! .゛ | し,,l゙ .、 ゙,! ,l゙ ,l゙.i".゙゙'''''"! ゙l .″.|.,!'''゛ l゙ | .l゙,,,,l゙ .、 ゙,! ,/`/ .| ."'゙゙l ./ .l゙r┘,l゙ .゙l,__.,/`∪ ゙〃 .`ー--丿 .゙'--ヽ{,,,./ .゙l,,__,,/`∪ .゙l.,i´ .!,_,,,/ .l゙../ |__.,i´
302 :
132人目の素数さん :2009/01/21(水) 02:02:30
文章が変ですか? ある人がこの店を出てきた。 商品Aを見せてくれた。 もう1つの商品を当ててみろという。 確率、妥当性(検定)を元に商品を当てなさい。
>>297 前提条件が足りなさすぎでは?
「全ての客が完全にランダムに200種類の商品のうちから2種類を選ぶ」
「各商品の個数は十分にある」
を前提条件とすれば、
「ある人が商品Aを購入している場合そのときに商品Bが同時に購入している確率」は 1/199。
>>302 >確率、妥当性(検定)を元に商品を当てなさい
確率、妥当性、検定(統計的仮説検定)といった言葉を理解して使っていますか?
>>297 その問題、過去の来客数関係ないでしょ!
商品の種類が200個だとして、お客が6000人きたからなんなの?
もしかすると、お客が6000人きて、その人たち全てに買った商品を見せてもらってる
ってことなのかな?
で、商品Aを買ってる人が、他に何を買ってるかの傾向がわかってるとかいう
情報があるってことかな?
305 :
132人目の素数さん :2009/01/21(水) 08:27:09
すいません。書き直します。 まず6000人に店で商品を2種類購入してもらう。何を組み合わせて購入したかの、データは採取済みです。(誰が購入したかはわかりません) ここで6000人の中のある1人がクイズを出してきました。 私は商品Aを購入しています。あと1つの商品を6000人のデータから推定しなさい。 また当たっている確率、妥当性を検定しなさい。
306 :
132人目の素数さん :2009/01/21(水) 08:54:18
自分でも混乱してきました。 いままでのは、なしで、再度書きます。 【問題】 多数の方(合計人数不明)がある店で商品を2種類以上(限定品なので同一商品は必ず1個までしか購入できない)購入したデータ(同時に購入した商品がわかる)があります。 データから ・購入された商品の個数は全200種類、計6000個でした。 ・商品Aを購入した人の全組み合わせは (商品A、B、D、F、H) (商品A、C、H) (商品A、B、G、H) (商品A、D) の場合、商品Aと同時に購入した確率が高い商品はどれか?その確率と確からしさを求めなさい。
つうか自分で考えた問題ならまず自分でよく考えてみろよ…
>>306 2個しか買わない人と3個以上買う人の購入パターンは現実的な状況を想定すれば異なると考えられる。
そこで、商品Aとあともう一つ商品を買った集団を抜き出し、A に併せて購入された商品のうち、
最も多く買われた商品について、その集団における購入確率を点推定・区間推定する。おしまい。
株式市場における価格変化率の自己相関の求め方を教えて下さい。 お願いします。
>309 株価だからと関係なく別に普通に自己相関求めればいいだろう。より詳しく調べるならダービンワトソン検定でもしなさい。
よく不偏分散をn-1で割る理由を自由度が1下がるからという説明を聞きますが ここでいう「自由度」とはどういうことなのでしょうか? よろしくお願い致します。
312 :
KingGold ◆3waIkAJWrg :2009/01/22(木) 21:16:36
Reply:
>>311 とりあえず、簡単のため正規分布の独立同分布に従う確率変数に限ることにして、n個の標本を採取するときの偏分散と不偏分散の期待値を計算してみよう。
313 :
132人目の素数さん :2009/01/22(木) 21:30:44
こんにちは。 自殺の現状について調べています。性別によって差があるようなので、それが有意かどうか計算したいのですが、少ししか統計を習ったことがなく手がつけられません。 この情報で有意かどうかわかりますか? 2006年自殺数(日本) ・総数:29921 ・男性:21419 ・女性: 8502 上記の情報で出せるのなら、自分で計算してみたいので、計算式(Excel?)教えてください。 よろしくお願いします!!
>>311 線型従属という線型代数の概念から分かる。
315 :
KingGold ◆3waIkAJWrg :2009/01/22(木) 21:35:07
私を追う国賊が自殺せよ。
316 :
KingGold ◆3waIkAJWrg :2009/01/22(木) 21:38:11
念の盗み見による私の周りへの関与を阻め。
317 :
132人目の素数さん :2009/01/22(木) 21:38:25
>>311 母分散μが既知なら観測個数が1でも分散が推定できる。
その推定値は (X1-μ)^2 で自由度1。
母分散μが未知なら標本平均で推定するので、観測個数が1の場合
分散推定値は (X1-X1)^2 = 0 になって推定できない。(自由度0)
観測個数が2になって、初めて推定できて
(X1-Xbar)^2 + (X2-Xbar)^2
=2 [(X1-X2)/2]^2 … Xbar=(X1+X2)/2 を代入した結果
=(X1-X2)^2 / 2
となる。すでに2で割ってるからこれ以上割る必要がないし、
変動する偏差の二乗の項は1個しかない。つまり自由度1。
(観測個数が3以上は行列を使わないと式が面倒になるので略)
>>313 有意かどうかは検定によるけど、その情報からでも実行できる。同一母集団における二項分布の(成功率の)検定が妥当かな。よく選挙の得票率の有意差とかで使われる。やり方はそんなに複雑じゃないし、ググればたくさん出てくるはず。
319 :
317 :2009/01/22(木) 21:41:49
×母分散μ ○母平均μ
>>313 男女別の対象人口総数が必要。
男一人が1年間に自殺する確率 pm で、自殺すれば成功、しなければ失敗。
女一人が1年間に自殺する確率 pf で、自殺すれば成功、しなければ失敗。
この試行を男女別対象人口分行った結果、得られた成功総数がその数値。
あとは「母比率の差の検定」でググると、仮説 pm = pf を検定できる。
321 :
132人目の素数さん :2009/01/22(木) 21:50:49
322 :
重回帰分析 :2009/01/23(金) 02:43:53
>>322 X1もX2も高度に有意だし、偏回帰プロット見ても問題ないね。
多重共線も強くなく、悪さもしてないから、何かの勘違いだと思う。
lm(formula = y ~ X...X1 + X..X2, data = Dataset)
Coefficients:
Estimate Std.Error t value Pr(>|t|)
(Intercept) 773986 42466 18.23 < 2e-16 ***
X...X1 34276 2270 15.10 < 2e-16 ***
X..X2 -2471779 295666 -8.36 1.23e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 45970 on 44 degrees of freedom
Multiple R-Squared: 0.8392, Adjusted R-squared: 0.8319
最近質問多いな.レポート期間かな?kingによるものもあるが。
卒業研究とかそんなのもあるんじゃね??
327 :
重回帰分析 :2009/01/23(金) 23:30:13
>>323 ご回答ありがとうございます。
このdataでX1の標準化偏回帰係数が1を超えることはどう考えたら良いでしょうか。
私も似たような事例に遭遇したことがあります。
>>322 の引用先では、多重共線性などによる場合が多い、といった解説をしていますが。。。
328 :
132人目の素数さん :2009/01/24(土) 00:52:19
>>324 真の平均とサンプル平均の違いから
出てくる問題だよ。
>>327 偏相関係数だったら -1 〜 1 の間しか取らないけど、
標準化偏回帰係数は、変数を標準化して単位を揃えているだけで
回帰係数だから、絶対値が 1 を超えても不思議じゃない。
目的変数から見て同じ方角に2つの説明変数があれば、
標準化偏回帰係数は遠い方が負で近い方は1以上になるよ。
例えば、こんな例
Y X1 X2
1 1 1
3 2 1
1 0 0
330 :
重回帰分析 :2009/01/25(日) 01:27:23
>>329 どういうわけか手持ちのソフトでは例示のお題は分析できませんでした。
が、標準化偏回帰係数が1以上を取り得ることはわかったつもりになれました。
御礼申し上げます。
331 :
132人目の素数さん :2009/01/25(日) 02:39:34
カイ二乗やFのモード、メジアンってどうやって求めるのか?
333 :
25個の染色体 :2009/01/25(日) 03:24:17
正規分布の平均と分散を求めたいのですが、いまいちよくわかりません。計算の過程も詳しく書いてもらえるとありがたいです。ちなみに、今密度関数を f(x)=(1/√2π×b)×exp(-(x-a)^2/2b^2)とし、 ∫f(x)dx=1 (区間-∞〜∞)を利用しても良い。 らしいです。ちなみに答えは平均がaで、分散がb^2です。 よろしくお願いします。
正規分布の平均と分散はそのまんまだろ μとσ^2
統計学つーより指数関数の微分積分の問題だから、 くだらねぇ問題スレで訊け
正規母集合の平均や分散を推定する場合、F分布やΧ^2分布を使いますが ポアソン分布や指数分布の場合にはどうすればよいのでしょうか? 正規分布の場合の証明は教科書に載っていますが、途中でたくさんの命題を使っているので 他の分布の場合は自分で導けと言われても無理です(´・ω・`)
337 :
132人目の素数さん :2009/01/25(日) 07:29:27
>>336 一行目は訳わからんから置いといて、、、
母集団がポアソンなら、母平均=母分散で、その推定値は標本平均。
また標本平均の分布はポアソン分布で表せる。
母集団が指数分布なら、母平均=母標準偏差で、その推定値は標本平均。
また標本平均の分布はカイ2乗分布で表せる。
わけがわからないとのことなので説明しますと 正規分布の場合、標本分散/母分散がΧ^2分布 (母平均-標本平均)^2/標本分散がF分布 この2つを使って推定します。
そのような知識はどういう本に載っているのでしょうか。
>>333 多分他の質問スレでは統計スレに書けとかマルチとか言われそうなんで、一応方針だけ言うと、平均、分散を求めたいときは基本的にはモーメント母関数を考える。
>>338 所々√とかの関係の不備が目立つが、それを置いといても、正規母集団の母数の推定の場合は、F分布じゃなく通常は標準正規分布かt分布を使うんじゃないか。
>>338 ちなみに不備を除いて正規母集団の母分散推定の方はχ^2分布で正しい。F分布は母分散比を推定する場合に使う。
342 :
132人目の素数さん :2009/01/25(日) 17:28:43
>>330 誤差なしの回帰だから連立方程式で解いても良いんだけど、
全変数を標準化した時の回帰式は以下のようになる。
y = √3・x1 - 1・x2
また(単)相関係数はこう。
r(y, x1) = (√3)/2, r(y, x2) = 1/2, r(x1,x2) = (√3)/2
--- 解題(以下、単位はすべて各変数の標準偏差で) ---
x1 が 1 単位増加したとする。
● 標準化回帰係数より y は √3 単位増加。( √3 > 1 が混乱の原因)
● 説明変数間の相関より、同時に x2 も r(x1, x2) = (√3)/2 単位増加。
標準化回帰係数より、y は -(√3)/2 単位増加(=減少)。
y の全変化 = √3 - (√3)/2 = (√3)/2 = r(y, x1) ≒ 0.866 単位増加。
(全変化 = x1 と y の相関係数。よって絶対値は必ず 1 以下)
--- 結論 ---
負の偏回帰係数または説明変数間の負の相関があると、
ある変数の標準化偏回帰係数は 1 より大きくなり得る。
このパターンは 3 変量以上の相関構造で出現する。
>>340 自由度(1,n-1)のF-分布は√をとれば自由度n-1のt分布になるから
>>338 の値を使うならF-分布でいい。√を付けるならt分布
>>343 確かに。F分布じゃなくという言い方は誤解を招くので良くなかった。訂正するよ。ただ通常√付けてt分布で母平均は推定するケースが多いような気がするなあ。自分がたまたま目にしてないだけかな…。
>>338 は自由度とかがどうにも分かりにくかったので、誤解を招くような言い方になっちゃったけど、F分布でもできます。
345 :
132人目の素数さん :2009/01/25(日) 22:23:51
SPSSの段階的回帰だと、変数選択時の t 検定を t^2 = F 値で表示してたりする。 分散分析の立場で考えれば、それで良いわけで、視点によりけりだと思う
346 :
132人目の素数さん :2009/01/25(日) 23:21:40
生物実験でANOVA使いたいのですが、誰か教えてください 1)等分散の検定は事前に必要なのでしょうか 2)n=5とか6でそもそも等分散の検定ができるのでしょうか。
347 :
132人目の素数さん :2009/01/25(日) 23:29:26
1群あたりのn数です、もちろん。
>>339 結構難しい話なのでやや専門的な数理統計の本に載ってると思う。標本平均の分布はそれぞれポワソン分布、ガンマ分布の再生性を用いる。が、通常、正規近似で推定することが多いと思う。
349 :
339 :2009/01/26(月) 01:49:30
ありがとうございました
母平均がmの時に標本平均がxになる確率Pm(x)を求めた上でmの関数に直せばいいのかな
>>346 1) まずプロットして様子見てみたら?
2) できるけど検出力は相当低いよな。それでも棄却されるようならプロットでも気づくだろ。
帰無仮説が棄却された場合、統計的に対立仮説は正しいと主張して良いか議論せよ 帰無仮説が採択された場合、統計的に帰無仮説は正しいと主張して良いか議論せよ というレポート課題が出たのですがさっぱり分かりません 誰か教えてください
このスレの上の方でも似たような話が出てたけど 教科書の帰無仮説のあたりをまず読んだほうが良いかと
第一過誤を第二過誤の確率を下げる為には 帰無仮説が棄却されるように設定すればいいの? 確信がもてない
レポート期間、試験期間で質問が急増してるけど、まず自分で充分に考えてから質問した方が自分のためにも良いと思う。熟読しないと何のための教科書だか分からない。
356 :
132人目の素数さん :2009/01/26(月) 14:55:41
下記の文章は他スレッドに有ったものをそのままコピーして
持ってきたものなんですが、下記のコピー文で出ている統計上のデータ
下記のコピー文を投稿をした当人の論説は本当に正しいのでしょうか?
文章だけ見ているとコピー文の投稿主は御自身の統計上のデータに関して
絶対的な事実、客観的な事実を見出しているようですが、完全失業率のように
統計上には表れない数字が潜んでいたりなど統計上の罠が有ったりしないのでしょうか?
下記のコピー文の他にも投稿主は新自由主義の正当性に関して論説しております。
ちなみに下記のコピー文のスレッドはこちらになります→
http://namidame.2ch.net/test/read.cgi/seiji/1228643668/401-500 GDP CPI 失業率 悲惨指数*
1980年 ▲0.2% 13.5% 7.1% 20.6%
1981年 +2.5% 10.3% 7.6% 17.9%
1982年 ▲2.0% 6.2% 9.7% 16.1%
1983年 +4.3% 3.2% 9.6% 12.8%
1984年 +7.3% 4.3% 7.5% 11.8%
1985年 +3.8% 3.6% 7.2% 10.8%
1986年 +3.4% 1.9% 7.0% 8.9%
1987年 +3.4% 3.6% 6.2% 9.8%
1988年 +4.2% 4.1% 5.5% 9.6%
(*)悲惨指数=GDP+CPI(消費者物価上昇率)
レーガン政権1期目(1981〜1984年)後半からCPIは低下し実質GDPは回復が顕著になった。
2期目(1985〜1988年)は経済成長は巡航速度を保ちつつ、CPIはさらに低下し、失業率は完全雇用に近い5.5%まで低下した。
結果、悲惨指数はカーター政権の20.6%からレーガン政権下では9%前後まで低下した。
kぉれは規制緩和を主体とする新自由主義の勝利である。
>>355 僕354だけど基本書+参考書+検索でもわかんなかったよ
358 :
132人目の素数さん :2009/01/26(月) 16:17:07
>>356 1) データ精度における「非標本抽出誤差」の問題は統計学の枠外(スレ違い)
2) 先進国の経済統計データは概ね妥当(変化率で1ケタ半精度ぐらいはある?)
3) 悲惨指数 = 物価上昇率 + 失業率
4) GDP成長率、消費者物価上昇率、失業率が好転する政策は、どれも好転
しない政策よりは有望。(ただし副作用の検出などに長期的な観察を要する)
359 :
132人目の素数さん :2009/01/26(月) 16:30:23
>>357 354は文章も内容も意味不明なので、質問を書き直せば、
親切な人が教えてくれる確率を p とすると p > 0 になる。
(現在値 p = 0)
360 :
132人目の素数さん :2009/01/26(月) 19:59:46
質問させてください。 実験データを比較したところ、有意差なしでした。しかし、数値の減少傾向には差があるように思えます。この傾向の差を伝えたいのですが、どのような統計を使えばよいのでしょうか? A→A' B→B'、それぞれの減少値を比較したいです。
>>359 どこが意味不明なんだろう?
第一過誤はしょうがないとして、第二過誤は帰無仮説を誤って採用したときのみに発生する。
つまり、過誤を防ぐ、と言う面で帰無仮説が棄却されるよう設定すればいいんじゃないかと。
違う参考書から得た知識だから、そう結論づけていいのか悩んでるんです。
>>361 (Type 1 error rate をある値に固定したまま) type 2 error rate を限界まで下げる、
というのは極めてナチュラルな発想であり、数理統計学の黎明期に Neyman & Pearson が研究しています。
その結果、単純な問題設定の多くでは、どの検定手法を用いればよいかが容易に判断できることが判りました。
"最強力検定"でググってみてください。
あと、明瞭な文章を書く練習をしておいた方がいいですよ…。
肉体労働や営業をするのでなければ、書いた書類の評価=あなたの評価、なので。
>>361 第1種エラーと第2種エラーはトレードオフの関係だよ。君の言うように検出力を上げるため第2種エラーを小さくしようとすると、第1種エラーが大きくなってしまう。だから最適な検定力を求める研究が行われてきた。どんな入門書にも書いてあるはず。
>>362 初めて聞きました。早速調べてきます。感謝です
>>363 私の読んでいる本には「検定という手法が功を奏するのは帰無仮説が棄却されるよう
設定された場合に限るのである。」と書いてあります。
この明確な理由がきちんと書いていないので自分で推測しだし、
過誤が関係があるんじゃないかと考えに辿り着き、ここでの意見を参考にしようと思いました。
じゃ私が考えたことは見当違いだったわけですね〜。
勉強不足ですいません。しかしながら入門書には目を通しています。
考え調べた上での質問であったことは了承ください。
>>354 要するに仮説が棄却されなかった場合に分かるのは
仮説を採択しても矛盾しない、ということだけで
仮説が正しいことじゃないって書いてるだけでしょ。
あと
>>354 の文章は普通の人が見ると意味不明なので、
どこが意味不明なのか分からないというのならば
日本語の勉強をした方が良い。検定で仮説を棄却するのは
第二種の過誤の確率を低くするためとかそういう理由じゃなくて
それ以前のもっと根本的な話。
>>361 とかを見る限り考え違いをしているみたいなので
もう一度勉強しなおしたほうが良いかと。
まあ検定が二者択一だと思うのは初心者にありがちなことだから責めるのはどうかと思う。
特に教科書では
>>364 のように書いてあるのさえまれだろう。
そもそも「採択」という表現がいやなんだけどその意味を丁寧に説明した本ってある?
367 :
132人目の素数さん :2009/01/28(水) 18:42:53
たいしたことじゃかもしれませんが・・・ 都道府県別かつ産業別(大分類、第一次第二次第三次産業)就業者人口と所得の推移を知りたいのですが 探してもなかなかいいのがなくて、知恵を貸してください。
>>367 内閣統計局とかメジャーなのしか分からないなあ.当然調べてるとは思うけど.
標準正規分布に従う母集団から標本をn個採取した場合の最大値の期待値の算出式は n * ∫[-∞,∞] y * 1/(2π)^(1/2) * e^(-(y^2)/2) * 〔∫[-∞,y] (2π)^(1/2) * e^(-(x^2)/2) dx 〕^n dy で合っていますか?
主成分分析について質問なのですが、 主成分得点を計算した時、 第1主成分 項目A 0.7 項目B 0.00000003 項目C 0.00000056 というようになったのですが、こんな極端に得点に差が出ることって あるんですか?もしかして計算間違えてるでしょうか。
373 :
132人目の素数さん :2009/01/29(木) 10:30:05
>>369 間違ってる。二項分布の考え方を参照せよ。
| | ∩___∩ | | ノ _, ,_ ヽ (( | プラプラ / ● ● | (=) | ( _●_) ミ _ (⌒) J )) 彡、 |∪| ノ ⊂⌒ヽ / ヽノ ヽ /⌒つ \ ヽ / ヽ / \_,,ノ |、_ノ
>>372 ・\bar{x}とμは別物ではないのか
yes. しかし下記にあるようにE(\bar{x})=μが成り立つ。
(これを「標本平均\bar{x}は母平均μの不偏統計量である」という。)
・限られたサンプルの期待値からμがでてくるのはおかしい
統計学では、サンプルx_iはすべて母集団分布にしたがう確率変数と
考える。
∴ E(x_i)=μ, Var(X_i)=σ^2
E(bar{x})=E(Σx_i/n)=ΣE(x_i)/n=nμ/n=μ
また、(ランダムに抽出されているから)X_iだちは独立であると考える。
∴Var(Σx_i)=ΣVar(x_i)=nσ^2
∴ E(x_i^2)=Var(x_i)+E(x_i)^2=σ^2+μ^2
・Var(μ)の変形がよくわからない(μは定数だから、Var(μ)=0ではないのか?)
Var(μ)は出てきていないはず。
Var(\bar{x})=Var(Σx_i/n)=Var(Σx_i)/n^2=ΣVar(x_i)/n^2=nσ^2/n^2
376 :
132人目の素数さん :2009/01/29(木) 13:47:18
>>372 日本語版の E[u^2] の導出は、2行目と3行目の間がスッ飛んでるねw
これは、そもそも導出方針がマズイから、書き直した方が良いよ。
以下の関係式を使うのが、数学的には一番簡単だと思う。
(Xi - Xbar)^2 = (Xi - μ)^2 - n (Xbar - μ)^2
統計学の順序では、標本平均の分散を先にやってからになるけど
>>375 x_iって一点からμとかσが出てくるのってへんじゃね
>>377 だからx_iは統計学では確率変数だって言ってる。
調査前の状態で考えること。
実際のデータ(ただの数)は、確率変数x_iの実現値(サイコロを振ってたまたま出た目みたいななもの)。
>>377 逆。E(x_i) が存在していることを仮定し、その値のことを μ と呼んでいる。
「μ の値を知らないまま」で。
>>379 そんなことして大丈夫だっていう数学的な裏付けはあるの?
質問なのですが、たとえば下記のような表があったとして 機械A 機械B 仕入方法がAの場合の売上額 20万 30万 仕入方法がBの場合の売上額 34万 12万 店頭販売の時の売上額 28万 29万 通販の時の売上額 56万 29万 ・・・ ・・・ 「どういう仕入方法を用いて、どういう販売方法を とった場合に機械が一番売れるのか」とかって統計分析でわかるものなんでしょうか。 重回帰とかじゃ分からなさそうだし、デーマイニングも微妙だし、 初心者なのでこういうのを解決する方法があるのかどうかも分かりません。
>>381 データマイニングのタイポだとして、データマイニングって何か分かってる?
表の「…」がどのぐらい続くのかによるけど普通なら分散分析だろ。
>>380 だって、xiは平均をμとする母集団から取ってきた
とかんがえるんだから、期待値はμだろ
384 :
132人目の素数さん :2009/01/30(金) 00:16:59
>>381 仕入れ方法でなぜ売上が変わるのかが納得できん。
無関係ではないのか?
385 :
132人目の素数さん :2009/01/30(金) 00:19:04
>>381 方法→売上だから
質的変数→量的変数なわけ。
重回帰分析は(量→量、ダミー変数0、1使ったら質→量もできる)
>>384 端から割り込みだが、
普通に考えれば、仕入方法によって購入価格が
変わるから安く販売可能になるということじゃないかな。
>>380 仮定をひとつと、記号の定義をひとつしているだけだから、大丈夫。
"期待値"にうさんくささを感じているのなら、確率論の教科書を勉強するしかないよ。
>>381 >仕入方法がAの場合の売上額 20万 30万
このときの販売方法がどうだったのか、記録はないのかな?
「下記のような表」っていうけど、表の省略はデータ構造をきちんと把握できる範囲に留めないとダメだよ。
>>384 >>386 想像だけど、欠品の発生状況が仕入れ方法によって異なるのではないかと…
そこまで想像してやる義理はないような気もするけど、つい考えてしまった。
388 :
387 :2009/01/30(金) 01:22:28
>>380 さいころを100回振ることとし、第 i 回めの目を x_i とする。
実際にさいころを振ってみたところ、x_1 は 2 だった。
さいころに偏りがないとしたとき、E(x_1) は?
正解は、3.5。2 ではない。OK?
ひょっとしたらこんなところで誤解があるのではないかと想像してみた。
横やりだけど、μって未知なんだよな? E(x_1)なんて演算を定義できるのか?
なんかくだらない質問が多くなってきたなw
くだらなくはないだろ
どうせ横槍じゃなくて上で聞いてる本人だろ。
>>379 でも書いてるように、そういう値が存在するものと
仮定してそれをμと書いているだけで、
少なくとも数学的には整合的なモデルだし、
それで現実をよく説明できているようだというだけ。
>>389 E(x_1) は x_1 の関数ではないよ。
E(・) は分布関数全体の集合を定義域とした「関数の関数」の一つで、値域に∞を含む。
分布 F の期待値は E(F) と書ける。F が未知であっても。
確率変数 x_i が従う分布が F であるとき、E(F) のことを E(x_i) と略記することがあるが、
暗黙に以下の関係が了解される。
分布関数 F →(Eという汎関数で変換)→期待値 E(F)
↓
(サンプリング)
↓
x_1, x_2, …, x_i, …
ここで、矢印(→、↓)は一方通行。逆方向は、「推測」するしかない。
理解できないやつが出るから確率変数はXと大文字で書いて区別してやらんとな。
質問です。 二群における発生率に有意差があるかを調べているのですが、 A群:100人中10人に発生 B群:100人中 5人に発生 のような場合は 10 90 100 5 95 100 15 185 200 の2*2直接確率計算で検定できると考えました。 A群:100人中 8人に1回発生 2人に2回発生 B群:100人中 5人に1回発生 というようなデータが取れている場合はどう検定すれば良いのでしょうか。 一人に複数回発生しうるため、10人に12回発生しているということなります。 上記のように考えた場合よりもより有意差が認められやすい気はするのですが。
>>395 それ、「発生率の比較」ではなくなってしまうかと。
発生した回数(ここでは 0 or 1 or 2)の比較ならば、Wilcoxon 検定でできます。
それなら3×2の直接確率検定でも出来るか 大変そうだが
398 :
396 :2009/01/31(土) 00:10:44
>>369 遅レスだけど割とすっきりした値になると思うけどなあ。最大値の期待値を考える場合、まず最大値が従う確率密度関数を考え、それには分布関数の積を考えることになるわけだから…
400 :
132人目の素数さん :2009/02/02(月) 13:55:07
質問スレでも質問をしましたが、こちらの方が適切だと思うので、こちらでも質問させていただきます。 推定の問題です。 小麦粉を袋詰めした。 大きさ20の標本をとり、その重量を測定した結果、次のデータが得られた。 ばらつきはどの程度であると考えるべきか。 102.5 102.4 101.6 101.2 100.7 101.8 102.0 101.3 101.1 101.7 100.9 102.2 101.9 102.3 101.8 101.7 102.4 101.4 101.3 101.5 (平均101.685 標準偏差0.5174 不偏分散0.268) この問題は何を求めればいいのかわかりません。 ※( )内の値は自分で計算したもので、最初から与えられていたものではありません。
>>400 何度も言われてるけどまず教科書を読もう。
>>400 「ばらつきの程度」を定量的に評価してやればいいのだろうけど、
指標はいろいろあって、どれが正解、というものではない。
出題者の意図は変動係数あたりかな、と思う。
403 :
132人目の素数さん :2009/02/02(月) 20:21:41
Root Mean Squared Error(RMSE)の95%信頼区間を求める方法はありますか。ME, MAEの信頼区間は、EXCELで計算できるのですが、RMSEでの求め方が分かりません。
E(X)・・・期待値 E(X^2)・・・分散 E(X^3)・・・ ? のようにE(X^n)の名前ってついてるんですか?
一般には n次モーメント。 あと、E(X^2) は分散じゃないよ。分散に等しくなることもあるけど。
E(X^n) は平均周りじゃなくて、ゼロ周り。
平均じゃなくて原点回りモーメントだった。
ダブったな。スマン。
>>411 統計的意味はよく知らないが、確率論的意味はある。
確率変数Xのモーメント母関数E[e^(tX)]がtのべき級数に展開できるとき、
t^nの係数がn次モーメントになる。
n次モーメントがすべてわかれば、(モーメント母関数が決まるので)Xの
確率分布が完全にわかる。
また確率分布が式で与えられたとき、その期待値や分散を知るのに、モーメント
母関数を求めてからそれらを導くほうが簡単になることが多い。
>>411 モーメント母関数が最大の利点だけど、統計的意味としては前述の平均分散以外に、3次,4次の原点回り標準化モーメントを歪度、尖度といい、分布の歪みや尖り具合が分かる。豆知識ね。
モーメントって訳すと離率だっけか? 最初力学で習ったときに凄くとっつきにくかった記憶がある
歪みや尖り具合を表わすのに
5次や6次のモーメントじゃなくて3次と4次のモーメントを使う理由って何かあるんですか?
分散が「バラツキ具合」を表わす、ということもそうなんですが。
手元にある参考書は、それ奇数/偶数だったら何でも良いじゃん、
というような理由しか書いて無いように思います。
>>413 原点周りじゃなくて平均周りでは?
単に計算の都合じゃね
418 :
132人目の素数さん :2009/02/03(火) 20:02:51
Rのノンパラ用パッケージに"sm"というのがありますが、 ここで使われているカーネル関数は何ですか?
>>416 標準化モーメントなので原点回りでよい。標準化自体に平均からの偏差は取ってある。
>>416 もっともσは定数だから平均回りと見ても勿論よい。
重心回りを単にモーメントと呼ぶこともあるし、呼び方はまちまちだが、それより式で覚える方が良い。
尖度、歪度の定義はいくつかあるけど、どれも「平均周りモーメントを標準化したもの」と認識した方が簡明でいいよ思うよ。 原点周りモーメントを平均と分散で標準化する、というのは直感的な理解には遠回りだから。
>>416 >分散が「バラツキ具合」を表わす、ということもそうなんですが
たしかにバラツキの尺度としてだけなら、E[(X-μ)^2]でなくE[|X-μ|]とかでもよい。
同じ基準で比べる限り、バラツキが大きいほどそれらの量もみな大きくなるから。
ただたとえばE[|X-μ|]だと数学的性質が不便。
それはちょうど、ベクトルの「長さ」を、成分の絶対値の和と定義しても、
抽象的な長さの性質(非負で三角不等式が成り立つなど)はちゃんとあって機能するが、
ふつうは成分の2乗の和の平方根を長さとするのと同じ。
高校数学あたりで、2次式ばかりよく扱うけど、絶対値の入った式が出たら
扱いにくくて嫌だよね? 次数が高いのも嫌だし。
同じ役に立つんなら、いちばん扱いやすくていろんな便利な公式や定理が
ある2次がいいじゃん。
423 :
132人目の素数さん :2009/02/04(水) 01:06:09
専門学校の学会の発表で、トレーニング前の腕の太さとトレーニング後の 腕の太さの比較を5人分行ったのですが、これを『T検定で有意差があったのか なかったのか判定しなさい』と言われ、『ソフトはWinSTATを使うとよい』 と言われてWinSTATを入手したのですが、統計の知識がない自分には どこにどう数値を入力していいのかさっぱりわからず困っています。 例えば運動前が『20、25、33、36、43』で、 運動後にそれぞれ『22、26、31、38、44』に変わったという データがあるとしたら、WinSTATでどう入力すればいいのか教えて頂け ませんでしょうか? 皆さんのような専門知識をお持ちの方にくだらない幼稚な質問で申し訳 ありませんが、よろしくお願いします。 (WinSTATを使えと言った先生には事情があって聞けないものですから・・・)
424 :
132人目の素数さん :2009/02/04(水) 01:07:10
プロテインを飲ませるといい
E[ |X-μ| ] を使ってばらつきを求める流儀もあるよ その方が特異なデータに左右されにくくて頑強だと知られてる
E[(X-μ)^2]を使うのはなんと言っても微分で解析的に一発で統計的な解が書けるのが大きい
>>421 というか俺は標準化モーメントとして理解してる。標準化変数のモーメントね。
統計手法に関してお聞きします. 以下のような集計結果(100人)があるとします. 1.手法Aが適している:44人(44%) 2.手法Bが適している:31人(31%) 3.手法Aと手法Bのどちらも適している:25人(25%) ここで,手法Aと手法Bに有意の差があるのかないのかを判定するため, 3.を排除し,1.と2.の二項分布に帰着させ,二項検定を行えば良いと考えました. どちらも適していると回答した3.を排除してもおk? ダメならどうすればいいですか? 結論としては,AとBに有意差がないことを示したいのです
>>427 歪度とか、とんでもなく汚い式になるのでは?三乗根とか出てきそうな感じ。
>>439 いんや。東京大学出版会の入門書に載ってるよ。標準化モーメントって言葉がね。
431 :
132人目の素数さん :2009/02/04(水) 21:21:33
実務的に使う範囲で統計学でいちばん簡単な入門書はなんでしょうか? 確率分布、検定、主成分分析あたりまで入っているといいのですが
>>430 標準化モーメントは使っても使わなくても構わないから、
歪度をある変量のモーメントで表わすとして、
その変量を明示的に表現してみせてよ。
やっぱり、その入門書の標準化モーメントって言葉は、
尖度が「標準化された何かのモーメント」という意味ではなく、
「モーメントを標準化したもの」という意味だと思うよ。
具体的には、平均周り3次モーメントを平均周り2次モーメントで標準化。
>>433 何かえらい拘るな。東大出版の「統計学入門」自分で見てと言いたいところだが、
E[{(X-μ)/σ}^3]だ。{}の部分が標準化変数。
ついでに言うと標準化するのは分布の指標を平均、分散の影響を排除した純粋な形で示したいから。
436 :
132人目の素数さん :2009/02/05(木) 00:24:40
>>423 ■まず目的は?
腕の太さがトレーニング前と後で
1.異なっている場合に、アクションを取るのか?
2.同じ場合にアクションを取るのか?
これによって必要サンプルサイズが異なってくる。
■サンプルサイズの決定
1の場合なら
帰無仮説:前=後
対立仮説:前<後
と置き、帰無仮説を棄却ればいい。
問題は、どれぐらいの確率で棄却できればよいかによって、必要なサンプル数を決める必要がある。
サンプル数が少なすぎると、本来は差があるにも関わらず棄却できない現象が起きる。(第2種の誤り)
2の場合なら帰無仮説を棄却されないぐらいのサンプル数が必要。
(詳細は省略)
■後は検定
サンプル数を取って、検定を実施すればよい。
437 :
132人目の素数さん :2009/02/05(木) 00:40:30
>>428 排除しては駄目。
手法Aが適している人=44人+25人=69人
手法Bが適している人=31人+25人=56人
帰無仮説:手法Aと手法Bは同じぐらい適している。
対立仮説:手法A>手法B
で、有意差がないことを証明できるサンプル数を求める。
あとは検定する。
438 :
132人目の素数さん :2009/02/05(木) 01:07:11
>>428 二群は等分散だと仮定して、二項検定。
二群は等分散といえないならばウィルコクソンの符号順位検定。
>>437 その場合、どんな分布で棄却限界値を求めるんだ?
>>439 同一母集団における二項検定でいいのでは?
二項検定(正確確率検定)でもいいし、母比率の検定でも良さそうだね。
442 :
132人目の素数さん :2009/02/05(木) 08:21:12
連続変数ならt検定 カテゴリ変数なら二項分布検定
>>440 共通に数えているのがあるのにそれでいいの?
444 :
132人目の素数さん :2009/02/05(木) 12:37:44
445 :
132人目の素数さん :2009/02/05(木) 17:55:20
同一母集団の意味を確認しるっ!
446 :
423 :2009/02/05(木) 20:34:15
>>436 ご丁寧な回答ありがとうございます。
>■後は検定
>サンプル数を取って、検定を実施すればよい。
これはどうやればいいんでしょう・・・?
WinSTATを開いてみたんですが、セルが並んでるだけで使い方が
さっぱり分からず、ネットでいろいろ検索しても統計の難しい用語
がたくさん並んでるだけで使い方は書いてなくて・・・
WinSTATに固執するつもりはないので、他に簡単に検定を行えるソフト等が
あれば(ネットで無料で入手できるようなもので)それを教えて頂ければ
それでやってみますので、どうかよろしくお願いします。
重複部分があるから、2項検定より同一母集団における母比率の検定のがいいかもしれないな。
標本に対応があることが問題なんじゃないの? マクネマー検定が妥当だと思うけど。
449 :
428 :2009/02/06(金) 14:55:29
>>437-445 >>447-448 適切なアドバイスをして頂いてありがとうございます.
二項検定や母比率検定などの適用を検討してみたいと思います.
大変助かりました(`・ω・´)
多項分布に従う変数の平均値の区間推定をしたいのですが、何か良い方法はあるでしょうか? 尤度比を使って漸近的にカイ2乗くらいしか思いつきません。
451 :
132人目の素数さん :2009/02/07(土) 01:26:44
>>450 素朴に思ったんだけど、尤度比区間推定って知らないんだけど、できるもんなの?
自分が知らないだけかもしれないけど。
尤度比検定ならその通りだと思うけど…。
推定なら月並みだけど点推定で最尤法とかはダメなの?
452 :
132人目の素数さん :2009/02/07(土) 06:59:53
>>450 2項分布の p の信頼区間の多変量版。
多変量信頼区間(信頼領域)で調べれ
>>451 勝手に考えてるんですか、
例えば信頼係数99%で、ある平均値を仮定して尤度比検定を行う。
次に平均値を変えて尤度比検定を行う。
これを繰り返して、棄却されなかった平均値を集めて区間を作る。
もしこの実験を繰り返し、その度にこの区間を作ると、
実験100回のうち99回は区間に真値が含まれませんか?
>>452 調べたんですが、見つけ切れません。
俺って、情報弱者・・
>>453 100回のうち1回よりもっと高い信頼度と考えられるんじゃないかな。
やり方は良いんじゃないかなと思う。
多次元正規分布の区間推定でも調べてみては?
>>453 済まない。100回に99回と書いてたね。
456 :
132人目の素数さん :2009/02/07(土) 18:50:11
どなたか下の問題の解答を教えていただけませんか? 観測によって(xi、yi)の対のデータを観測個数n=22として、集めた。 すなわち、i=1,・・・,22である。ここで、X=2、Y=4、(xi−X)²=4、(yi−Y)²=4、(xi−X)(yi−Y)=−2であった(狽フ上にはn、狽フ下にはi=1)。 ここで、Xはxiの標本平均値、Yはyiの標本平均値である。 (1)回帰モデルyi=α+βxi+誤差においてBの最小二乗推定量値を求めよ。 (2)R²を求めよ。 (3)xi,yiの相関係数rr,yを求めよ。 (4)s²、すなわち、残差分散を求めよ。 (5)Bの標準誤差を求めよ。 (6)帰無仮説β=0、対立仮説β≠0として有意水準5%で検定を行え。t統計量値、棄却域、検定結果を答えよ。 (7)帰無仮説:真のrr,y=0、対立仮説:真のrr,y≠0として有意水準1%で検定を行え。検定統計量値、棄却域、検定結果を答えよ。 (8)帰無仮説β=-1、対立仮説β>-1として有意水準1%で検定を行え。t統計量値、棄却域、検定結果を答えよ。 (9)βの99%信頼区間を求めよ。
457 :
132人目の素数さん :2009/02/07(土) 18:51:56
>>456 いやです。
問題丸投げは誰も相手にしないよ。
最小二乗法による直線フィッティングで、 傾きと切片の誤差をデータx_iとy_iの誤差から求める式を教えてください。 ネットで調べたのですがexcelで計算する方法しかありませんでした。 x_iとy_iの誤差はiについて一定です。
>>458 最小二乗法でググればいくらでも見つかるじゃん
>>454 ありがとう。
やり方が良くても、実行は難しくって・・。
がんばります。
461 :
132人目の素数さん :2009/02/10(火) 23:36:53
>458 x_iとy_iの誤差から求めるってのはよく分からないけど、要するに切片と傾きの標準誤差を求めればいいんでしょ? s^2={1/(n-2)}(Yi-Y'i)^2 Se(α')=s√{1/n+Xa^2/Σ(Xi-Xa)^2}…切片 Se(β')=s/√(Xi-Xa)^2…傾き 'は推定値、Xaは平均値 分散の推定量の平方根ってことだろ
462 :
132人目の素数さん :2009/02/14(土) 00:57:13
すいません教えて下さい。 xAVE=345.0 yAVE=289.7 Sx(x偏差平方和)=1198500-3450^2/10=8250.0 Sy(y偏差平方和)=844441-2897^2/10=5180.1 Sxy(偏差積和)=1005810-3450*2897/10=6345.0 偏差積和を求める問題ですが、1005810という値がどういう風に出るのかいまいち分かりません。 申し訳ないですが、分かる方お願いします。
Σx_i*y_i/n
>>462 どうでもいいけど随分写し間違いしてないか?分散や共分散求めてるだけなんだけど、それもサンプル数nで割る割らないというのもできれば明示した方がよい。
つうかテキスト嫁。
465 :
132人目の素数さん :2009/02/16(月) 11:40:35
質問です. 他群の比較にTukey HSDを用いる場合,分散分析をする必要はあるのでしょうか? 分散分析→Tukey HSDとしているケースが多く見受けられるのですが, Tukey HSDはF値を用いない多重検定なので分散分析は不要とする記述も見られます. 結果自体は変わらないようですが,どちらが正しいのかが分からず迷っています. ご回答,よろしくお願いします.
>>465 簡単言うと棄却域の形が違う。分散分析が○でTukeyが□だ。
それで境界の部分では違いが出て分散分析で棄却されたのに
Tukeyにかけるとどれも差がないということは起こりうる。
(□の角の方に値がいく場合。逆に□の辺の辺りの値だと
Tukey単独なら見つけられたのにスルーされる。)
その場合でも気にしないのなら分散分析を先に行ってもいい。
(多重比較としての有意水準は5%より若干小さくなる。)
467 :
132人目の素数さん :2009/02/16(月) 22:50:35
>>466 ありがとうございます.
微妙なデータの場合,Tukeyなら有意差がでるのに,
分散分析で有意差が出ないこともあるということですね.
分散分析を飛ばして(=どこかの群間に差があるかを確認せず),
いきなり多重比較を行っても(=どの群間に差があるかを確認しても),
統計手法としては特に問題ないと考えていいのですか?
Fisher法は必ず分散分析を先に行う必要がありますよね?
Tukey法の場合は単独で使うことに何か問題はあるのでしょうか?
>>467 Fisher法が分散分析を前提にした方法だったため、Tukey法もそうであるとの誤解が
生じたんだろう。単独で問題ない。(ちなみにFisher法は4群以上では分散分析をしても
有意水準を保てないよ。)
469 :
132人目の素数さん :2009/02/17(火) 00:29:53
>>468 ありがとうございます.
Tukey法を分散分析とセットで使っている研究が結構あるので,
ずっと疑問に思っていました.
470 :
132人目の素数さん :2009/02/18(水) 01:25:01
導出はすぐに分からんが、2つは同じものだよ。 上で(P1+P2-2P12)=(P1-P12)+(P2-P12)と直すと対応する。 (重複した部分は無視してるってことだね。)
2項分布からやり直しなさい 比率はベルヌーイ分布が母集団だから そこからのサンプル平均の分布は2項分布の横軸のスケールを変えたものになるだけ
>>470 本来は同一母集団の母比率検定をする場合、重複部分は考慮する必要がある。その例だと√の中の算式は
P_1(1-P_1)+P_2(1-P_2)+2P_1P_2
証明は森棟「統計学入門」。
超幾何分布の平均分散の証明をする際に超幾何分布を互いに独立でないベルヌーイ分布の集合と考えるのに似ている。
474 :
132人目の素数さん :2009/02/18(水) 16:36:37
大学のレポートでポアソン分布の特徴を 具体例を用いて説明せよとあったのですが 例えば競馬で14頭だと仮定し、 @勝った馬 A3着以内の馬 @Aはそれぞれ何番人気の馬が来やすいのか をポアソン分布使って調べられますか〜
475 :
132人目の素数さん :2009/02/18(水) 16:49:34
だめ
>>474 1枚100円で、1/10000の確率で46万円が当籤するくじ(それ以外は全てハズレ)を
n回購入した場合、m回当籤する確率、に当てはめてみるのがいいんじゃない?
>>477 一応先生がいうには
信号待ちをしてる車の数や
ある時間に家の前を通り過ぎる人
とか簡単なのでおkとのことだったのですが
どうせなら自分の好きな競馬にあてはめ
られるのではないか?
と思いました。
ちなみに実際の競馬ではなくスターホース
という競馬で、ランダムに200レースのサンプルを
採取し、
1番人気が勝った回数→○○回
2番人気が勝った回数→○○回
…
というデータはすでに持ってます。
>>477 ここで、n回、m回と回数で表示しているのはそれぞれの抽籤が独立試行で
あることを意味している。ある抽籤1回あたりの当籤確率は1/10000であり、
ある抽籤は他の抽籤に影響を及ぼさない。
例
1回に10,000枚のみしか発売しない前述のくじを1回につき1枚、
10,000回購入した場合→当籤回数はポアソン分布する
1回に10,000枚のみしか発売しない前述のくじを1回につき10000枚、
1回購入した場合→当籤回数は1回しかあり得ず、ポアソン分布しない。
1回に10,000枚のみしか発売しない前述のくじを1回につき5000枚、
1回購入した場合→当籤1回の確率0.50、当籤0回の確率0.50で、
ポアソン分布しない。
>>478 その例だとポアソン分布は難しいんじゃないの?
というかノンパラメトリックな方法しか使えないような。
>>478 200レースくらいだと当てはまらなくはないけどちょっと厳しいかも。
過去の統計から1/10000の確率で1着になるある弱い馬が、
今後もその確率でn回レースに出場してm回1着になる確率分布、
というのはどうかね?
>>481 ポアソン分布って二項分布とは違って、起きる
事象が稀な場合の分布ですよね?だから
競馬は確率論でいえば勝つ確率は
1/頭数
だからポアソンに当てはまるかな?と思いました。
人気別の分布より、人気を無視した馬の番号別
の方が分布になるんでしょうかね?
要するに10000回出場した場合、1着になる回数の期待値は1回だが、 実際に出現する(と思われる)回数とその確率は 0回 0.368 1回 0.368 2回 0.184 3回 0.061 4回 0.015 ということになる。 20,000回の場合、同様に期待値は2回だが、 0回 0.1353 1回 0.2707 2回 0.2707 3回 0.1804 4回 0.0902 5回 0.0361 6回 0.0120 などとなる。
>>482 14頭くらいでは不十分。
最低でも100頭立てくらいで、かつ出場する100頭とも過去の実力が全く等しく、
それが当該レースにも当てはまれば適用できるかもしれない。
ちょっと非現実的かと。
普通の競馬の場合は馬や騎手によって実力差があるので、
特定の馬が1着になる確率は1/(頭数)ではない。
競馬でもっとおもしろそうな当てはめ方はないかな?
>>474 ところで、学部学科と講義科目名はなんですか?
単に聞いてみたいだけなんだけど。
>>483 この数字にどういう特徴があるかというと、全然専門じゃないんだけど、
素人目に見て、
・期待値がx回の場合、出現回数がx回とx-1回になる確率が同じ
・特に期待値1回の場合、0回と1回の確率は等しい。
・しかしx+1回の確率になると急減する
・従って期待値よりも少ない確率が「期待値」の言葉から受ける印象より
高いことに注意が必要(数学的な表現じゃないな…)
・試行回数が多くなるほど山(分布)がなだらかになる
こんなところではないかと。
詳しい方の指摘おねがいします。
>>484 じゃあポアソンを使うのは無理っぽいですかね…?
>>485 お恥ずかしながら通信制の大学で
経済学部経済学科 科目名は統計学です
>>487 別にどこも恥ずかしくはないと思う。がんがってね。
数学関係の学科なのかなとちょっと思っただけだけど、
経済学には統計学の知識はほぼ必須だから、必要性の優先順位を
つけるとすれば高位になると思う。
>>481 みたいな場合ならポアソン分布が適用できると思う。
489 :
132人目の素数さん :2009/02/18(水) 18:53:01
理論在庫計算について質問です。 安全在庫を求める計算式は、 安全在庫=安全係数×標準偏差×√発注リードタイム で求められます。 標準偏差を求める計算式は、 標準偏差=√予測誤差の分散 で求められます。 ここでもし予測誤差の分散がゼロの場合、標準偏差はゼロとなります。 その場合、安全在庫はゼロとなってしまいます。 もし毎回予測誤差が一定ならば安全在庫を持たなくていい という結果に疑問を抱いています。 予測が外れる分だけ安全在庫は持つべきでないでしょうか? 統計学の強い方、どなたかご教授下さい!!
490 :
132人目の素数さん :2009/02/18(水) 22:00:59
>>489 在庫管理のことは知らないけど、「安全在庫」の定義が↓なら、それで良いのでわ?
>安全在庫量(zk-anzen)
>毎日の出荷量は多いときもあれば少ないときもあります。発注してから
>入荷するまでの調達期間で平均出荷量よりも多く出荷されると,
>入荷までに品切れが発生する危険がありますので,それを防ぐために
>余計な在庫を持つ必要があります。それを安全在庫量といいます。
http://www.kogures.com/hitoshi/webtext/zk-intro/index.html つまり予測誤差が無ければ、次に入荷するまでの出荷量は既知なので、
その分の在庫は当然前の発注で確保されている。
よって想定外の出荷による在庫切れは起きず、「安全在庫」は不要。
もちろん、「予測誤差の分散がゼロ=予測誤差が無い」が成り立つには、
系統的な誤差を持たない予測法、E[予測誤差] = 0、が条件だけど、、、
>>489 微妙にスレ違いぽいが…。予測誤差ってのが何の予測誤差なのかよく分からないが、在庫の数かな?
誤差が予め想定された一定値に収まっていれば在庫を持つ必要はないということなのかね。誤差といえども必然的に生じるのかもしれない。つまり予めそれを見越して生産すれば客の注文に応えられなくなるという事態を防げる。
例えば販売量9個を想定している場合、通常商品が紛失する可能性を考慮して在庫を持たなければならないが、毎月の誤差が1個だとすると、在庫もたなくとも毎月10個生産すれば需要に応えれなくなる事態は防げるだろう。
言葉も公式の意味も知らないから想像だ。2ちゃんで聞くより自分で調べた方が良さそうな問題だ。
492 :
132人目の素数さん :2009/02/18(水) 22:30:36
493 :
132人目の素数さん :2009/02/18(水) 22:46:57
>>491 予測誤差とは、需要予測-需要実績値のことです。
>例えば販売量9個を想定している場合、
>通常商品が紛失する可能性を考慮して在庫を持たなければならないが、
>毎月の誤差が1個だとすると、在庫もたなくとも毎月10個生産すれば需要に応えれなくなる事態は防げるだろう。
ズバリそういうことです!!だから安全在庫がゼロでも計画値に予測誤差分プラスすればいいってことですかね〜??
スレ違いとは思っていましたが、数学に強そうな皆様ならご返答いただけると考えました。
>>492 予測が毎月誤差100で外れるんでしょ?
予測誤差ってのは、予測と実績の差だよね。
で、予測誤差の分散っていうのは、実績を基準とした時に予測がどれだけ
離れてたかを計るものでしょ。
それなら、(予測−実績)=100 なんだから、
予測誤差の分散は n(100^2)/n=100^2で、標準偏差は100だよ
誤解してると思うのは、(予測−実績)という値について、平均と分散
を計算しているのではなくて、実績を基準とした予測の乖離の分散。
なので、予測と実績が等しければ分散がゼロだけど、違ってれば分散はプラス。
495 :
132人目の素数さん :2009/02/18(水) 23:35:14
>>494 それはMSE(平均平方誤差)ね。
分散は、期待値の周りの変動なので、その場合ゼロになる。
けど、毎回予測値が100大きいのなら、予測値を-100するのが当然なので、
現実的には予測誤差の期待値はゼロでいいんだよ。
それがわからない
>>492 はストーンヘッド
496 :
132人目の素数さん :2009/02/18(水) 23:50:07
>>492 出荷量から安全在庫量を計算する
=出荷量予測をしない時の在庫管理方式
=最大の安全在庫量
しかし出荷量時系列は、普通、系列相関(自己相関)や
マクロ要因など他のデータとの相関を持っているので、
その情報を使って予測すると、安全在庫量を減らせるんだよ。
497 :
496 :2009/02/18(水) 23:51:54
×出荷量から安全在庫量を計算する ○出荷量の標準偏差から安全在庫量を計算する
>>495 いや、この場合の期待値は、予測値だろう。
で、期待値を中心に、実績値がどれだけ外れているかで分散を計算するん
じゃないのか。
そうでないと外れているのに、誤差の分散がゼロとか言う、質問者の言う
おかしな話になる。
499 :
132人目の素数さん :2009/02/19(木) 00:26:21
皆様混乱させてしまいすみません。489です。 予測誤差の標準偏差を計算式に代入します。 その時、予測誤差が毎月毎月100プラスでずれていたとします。 その場合、予測誤差の標準偏差はゼロになるのでは?ということです。 現実問題こんなこと起きませんが、そもそも予測誤差の標準偏差を取ること自体に疑問に感じたからです。 たとえば、毎月の予測誤差が大きく外れているのにも関わらず、毎月の予測誤差にほとんど変化がなければ、 バラツキは小さくなり標準偏差が小さくなる。よって安全在庫が少なく設定されるという結果になりかねないと思いました。 スレ違いかもしれませんね。。。どこで聞けばいいのやら。。。
>>499 いや、そうじゃなくてさ、そもそも考えている状況がおかしいのよ。
予測が毎回大きく偏る、しかもプラスマイナス両方にばらついているのではなくて
+100とかいう風に片側にばらついていて、その誤差に自体にはばらつきがないと
すると、予測方法自体が、修正できるでしょ。
つまり、予測するってことは、少なくとも平均的に当たるように予測しているわけ。
単純な例だと最小二乗法。
でも、あなたの例だと、平均的に100ずれるように予測してるの。
となると、予測の段階でおかしいの。
なので、いつもプラス100ずれるなら、予測をマイナス100するように修正しないと
平均的にも当たってないでしょ。
なので、そもそも、あなたの考えている状況がおかしいのね。
>>499 ついでに書いておくと、きちんと予測されているならば、予測が間違うにしても、
片側にだけずれることはないので、その場合は、誤差の総和はゼロに近くなります。
つまり、誤差のデータだけから平均と分散を計算したものと、
>>494 、
>>495 の書いている
MSE(平均平方誤差)は、ほぼ同じ値になります。
なので、予測誤差の分散、標準偏差を使って(簡便法として)計算しているのでしょう。
>>499 寝る前に、もう一個追加。
予測って言うのは
Σ(実績値−予測値)/n=0
となるように行う。平均的にあたるってこと。
で、誤差=(実績値−予測値) だから
誤差の平均値=(実績値−予測値)の平均値=0
となる。
その結果、
誤差の分散=Σ{(誤差−0)^2}/n=Σ(誤差^2)/n
=Σ[{(実績値−予測値)−0}^2]/n=(実績値−予測値)の分散
となる。
これは、ついでに、MSE=Σ[(実績値−予測値)^2]/n と等しくなる。
つまり、
>>499 が勉強した状況は、予測がきちんと行われている状況の話なので、
誤差の平均値=(実績値−予測値)の平均値=0
誤差の分散=(実績値−予測値)の分散=MSE(平均平方誤差)
が、成立しているような状況。
でも、
>>499 は、
誤差の平均値=(実績値−予測値)の平均値=100で
誤差の分散=(実績値−予測値)の分散≠MSE(平均平方誤差)
を考えてる。
つまり、前提を(いつも100ずれるとか)おかしくしてるので、話がおかしく
なってる。
>>502 多分だけど、質問者
>>499 はおそらく知らないと思うけど最小自乗法、自己回帰ARモデルみたいな誤差自体の分布をイメージしてるはずなんだが、誤差平均=0という仮定をしてないんじゃなかろうか。
例えば毎月予測100実績200だとすると誤差は常に100となり誤差平均も100になる、分散0。
そんな感じで考えてるんじゃなかろうか。
俺は在庫うんぬんとかわからんけど、 要は、毎回誤差(?)を同じ値ドンピシャで予測できるなら、 それはもはや誤差ではなくて、むしろ実質的にズバリ予測できてるってことだよね。 まぁ明らかに予測としておかしいけど、計算上その結果安全在庫がゼロに なるのは、それはそれで (理屈上は) 筋が通ってる気はする。 ごめん素人。
>>503 は
>>500 と同じ内容になってしまった。まあ質問者はおかしな予測を前提の上で、安全在庫について知りたがっているんだろう。
506 :
132人目の素数さん :2009/02/19(木) 18:56:09
というか、予測 → {当たる:少ない、外れる:多い} というありがちな発想。 だから「予測」という行為そのものに、不信感を抱いてるふいんき(←変換できない)。 統計的予測 → 相関情報の利用による不確実性の減少化 Q) 政府発表の予測値のように、いつも過大評価とか過小評価になったりしない? A) しない。 政府発表の予測値は、予測の条件に「都合の良い想定値」を使うから眉唾になる。 「予測する時点で得られる観測値」だけから相関構造によって予測式を立て、 新しい観測値が得られる度に予測式(回帰式)を更新していれば、 分布の位置尺度的な意味において過大・過小評価が起きることはない。
>>487 良く考えたらポアソン分布で一番有名なのが
「プロシア騎兵連隊において馬に蹴られて死んだ兵士数」
だから馬関係ならあるよね。
こういう事故っぽいのはポアソン分布になることが多い。
レースで騎手が落馬する確率とか
509 :
V :2009/02/19(木) 20:35:32
次のようなゲームを考える。 コインを裏が出るまで投げ続ける。 それで表が出る度に賞金が倍になる。 例えば、表裏100円。 表表裏なら200円。 表表表裏なら400円。 表表表表裏なら800円のようになる。 このゲームの参加費はいくらが適切かを考えるために、 このゲームの期待値を考えると、 100×1/2+200×1/4+400×1/8+……= 50+50+50+… となり50も積もれば山となるで期待値は無限大となり、自分の全財産以上の参加費でも、 借金し続けてでも このゲームを長くやれば、 利益が出るのでやるべきだと数学?は言ってるが、、 これは明らかに事実と大きく反する。 みなさんはこのパラドクスをどう解釈する?
実際には主催者側が出せる賞金の額と試行できる回数は 有限。 それを考慮に入れると期待値はすごく小さくなる。 ってか、これって最近どっかで見たな。どこだっけ。
511 :
510 :2009/02/19(木) 21:02:02
「実際には」 ってのは、「現実世界では」 って意味ね
試行回数が有限なのはすぐ思い浮かぶけど、そもそも期待値で意思決定するというのが当てはまらないケースじゃないかな。
>>509 ゲームの参加費を変化させた場合の
そのゲームの勝ち負けの標準偏差を参加日ごとに求めてみれば?
514 :
132人目の素数さん :2009/02/19(木) 22:30:12
>471 ありがとうございます。 >472 勉強しなおしてみます。 >473 的確な回答ありがとうございます。ぐっすり眠れるようになりました。
>>508 それは
>>507 に近いからポワソン分布に従いそうだよね。
データがあるのかどうかはしらんが。w
>>508 はいいかも。
特払の発生
馬の禁止薬物の摂取が判明する
もポアソン分布しそうだと思う。
>>514 ぐっすり眠れるようになったのに申し訳ないが
元々
>>470 の問題提起とリンク先とが対応していない。
同一母集団から2度採取したなら
>>473 が正しい。
リンク先は採取は1度でそれに対して2つの製品の利用率を聞いている。
その場合、リンク先の方法で正しい。
518 :
132人目の素数さん :2009/02/20(金) 19:04:06
>>516 話はそれるが、サッカーの試合で警告やら退場やらをくらう選手の数がどうだこうだ
という連中がいたな。
たぶん独立していないからポアソン分布じゃないと思うが。
スレへの書き込みという事象もポアソン分布してないかな?
>>519 数日過疎かと思えば1日で極端に伸びたりするから、ポアソンではないように思う。まさに不規則。
過疎ってる掲示板って一人書き込めば 一気に伸びることもあるからな 最初のハードルが高い感じ
局所的にはポアソン分布で近似可能、な気がする。
局所的なポワソン分布ってどういう感じのこと?
>>523 狭い時間間隔、例えば 00:00:00 〜 00:00:10 の間のレス数は
(ある強度の)ポアソン分布で近似できるのではないか、と。
525 :
132人目の素数さん :2009/02/21(土) 01:29:10
ポワソン分布って、 「稀な事象が長時間にわたって起こるときの分布」 じゃなかったっけ? ちりも積もれば山となる的な
>>526 そうだね。ポツンポツンと起こる感じ。
局所的にポワソン分布するというのは意外に多いようだ。
>>525 そう?強度パラメータを時間の関数とみなして、トレンドの有無を検定できたりすると思うけど。
2ch のレス数自体に解析する意味などない、というのなら(同意はしないものの)理解はできるけど。
529 :
132人目の素数さん :2009/02/22(日) 10:44:27
>>524 ポアソン分布の大原則は独立かつ一様だから、チョット無理じゃないかな?
>>530 一応データ取って調べたんだろうから正しいんだろうけど。Wikipediaの編集数は相互に独立的と言えば独立的と言えるし。
ネットの書き込みは基本議論なので、1つのレスに連続でレスがついたりするから微妙だとは思うが。
編集合戦とかも総投稿数のなかで無視できない割合で 起こったりするとかいえばキリが無いけどデータ上はほぼポアソン分布してるんだろうね。
チャオリを引退させるのが次の目標か
534 :
ぼう :2009/02/24(火) 17:42:59
教えてください。 K次元のパラメータaがa=Hbというように別のK次元のパラメータbの線形結合になっていると 仮定します(Hは未知のKxK行列で逆行列が存在する)。 このとき、aの推定値のみがわかっている状況でbの有意性検定を行う方法は あるでしょうか? よろしくお願いします。
b の有意性検定、というのは b がゼロベクトルかどうかの検定ということ?前提条件より b がゼロベクトル ⇔ a がゼロベクトル だから、a がゼロベクトルかどうかの検定ができるのなら、それは b の有意性検定にもなっている。 最強力検定を構成したい、とかいうのなら、もう少し問題のバックグラウンドを示す必要がある。
536 :
132人目の素数さん :2009/02/25(水) 09:41:22
どなたかこれ教えてください 分散9の正規母集団の平均を推定するとき、推定値の誤差が1/2より大きくならない確率を0.80にするためには、何個の標本を取らねばならないか
538 :
132人目の素数さん :2009/02/25(水) 11:51:55
すいません反応がなかったので…
宿題丸投げに反応が少ないのは当たり前だな。
540 :
ぼう :2009/02/25(水) 12:46:48
>535さん 問題設定が不明ですみません。知りたいのは、aの推定値だけがわかっているときに、 bの中のどれが有意で、どれが有意でないかを検定する方法があるのか?ということです。
541 :
132人目の素数さん :2009/02/25(水) 13:13:17
>>539 宿題ではないです
参考書に全く解説がついてないので
>>541 区間推定の公式に当てはめるだけじゃん。それが分からないというのなら基礎知識不足。
>>540 まだまだ不明確です。
「aの推定値だけがわかっているときに、」とありますが、
例えば a の点推定値だけしか得られていないのなら、
特殊な場合を除いて a の検定すら構成することはできません。
a の分布は多変量正規分布に従っていると考えてよいのでしょうか?
a の標準偏差(or その推定値)は得られているのでしょうか?
およそ、参考書に載っているような問題は、与えられた仮定や条件を
全て使わなければ解が得られないように出来ているので、
説明を端折ることはできません。
544 :
132人目の素数さん :2009/02/25(水) 20:38:11
>>543 何度もすみません。考えているのはK変数の回帰モデル
y_t= a'x_t + u_t (t=1,...,n)
です。このモデルで、x_tにスペクトル分解を使って、固有ベクトルを説明変数にした
y_t= b'w_t + u_t
をさらに考えます。
知りたいのはy_tとw_tだけが既知のときにはbの有意性検定は(漸近的には)
正規分布で簡単にt検定できますが、上のモデルのパラメータaの各要素の
有意性検定ができる方法があるのか?ということです。
よろしくお願いします。
545 :
132人目の素数さん :2009/02/26(木) 01:47:38
統計学の入門書で、標本理論の基礎から 厳密に丁寧に書いてある本はあるでしょうか? 英語でもいいです。
>>544 a の第 i 要素 a_i だけについて興味がある場合を考える。
a_i は b の要素の線形結合で表現できる。
b の各要素の推定値が正規分布するなら、a_i の推定値はその重み付き和なので正規分布する。
帰無仮説 a_i=0 の下で、a_i の推定値は平均 0 で、ある分散を持つ正規分布に従う。
あとは、その分散を求めてやれば t 検定で検定ができる。
複数の要素を同時に検討する場合、難しいのは検定の多重性の処理。
解析者の方針によってアプローチが異なってくるはず。
いくつか疑問がある。まず行列の積の行と列が対応してるか考えた?通常の回帰モデル式と若干違う気がするが…。
まあ言わんとしてることは分かるから、それはいいとして、スペクトル分解ってことは対称行列の直交行列を使った対角化だよね?
>>544 のは特異値分解じゃないかな?
あと何か目的があって分解(変換)してるんならその理由があれば聞きたい。
549 :
ぼう :2009/02/26(木) 18:49:12
>>546 547
なんかごちゃごちゃしてすみません。
簡単に言うと重回帰モデル
y_t= a'x_t + u_t (t=1...n) a, x_t はK次元ベクトル、y_t u_tはスカラー
は主成分回帰モデル
y_t= b'w_t + u_t (t=1...n) b, w_t はK次元ベクトル、y_t u_tはスカラー
として書き換えることができますが、y_tとw_tだけがわかっているときに、
上の式の係数ベクトルaの成分のt検定をしてどの成分が有意であるかを調べる方法があるのか?を知りたいと思っています。
よろしくお願いします。
y_tとw_tからbを推定すれば、あとは逆変換でaを推定することになるのかな。 詰まる所、aとbは線型変換の関係にあるから推定や検定方法は同じでいいんじゃない。
552 :
132人目の素数さん :2009/02/27(金) 01:55:16
二乗項、交互作用項が入った非線形重回帰分析の 変数選択の手順を詳しく知りたいのですが、 掲載されている書籍やサイトがありましたら教えてください。
553 :
ぼう :2009/02/27(金) 14:46:49
>>551 bからどうやって1つのa_iを識別するのかがぼんやりしてます。
これは、説明変数x_tに主成分分析を使って主成分w_tを求めることは簡単にできますが、
主成分w_tだけが与えられたときに、w_tをもとのx_tに戻す方法があるのか?
ということと関連していそうなのですが・・・。
>>553 だから逆変換すればいいんじゃないの?
a→bの変換が分かっていれば、b→aはその逆変換でしょ?
あるいは逆変換が解析的に求まらないパターンかな…。
変換は行列の特異値分解をしてるんだと思ったが。
スペクトル分解なら相互に逆行列=転置行列かければ変換できるよね。
>>553 >>544 主成分分析を使って変数変換したのはいいんだけど、具体的にどういう変換したのかで変わってくると思う。
スペクトル分解したと書いてあるから、線型変換だと思ったんだけど、何か複雑な作用をしてて解析的に求まらない状態なの?
556 :
132人目の素数さん :2009/02/28(土) 02:03:38
>>553 たぶん皆がわからないのは、手法ではなく、その特殊な状況。
何のために、そんな「異常な条件下」で問題を考えているのか?
それがわかればスルーもできるし、無理に建設的に考えて
親切に説明し、質問者にスルーされることもないw
557 :
132人目の素数さん :2009/02/28(土) 13:33:54
統計不慣れで申し訳ないですが教えてください。 以下の試験を4回行い、次の2点について知りたいとおもっています。 捕食者6尾、被食者30尾を同じ場所に入れて、一定期間後被食者が何尾食べられているかを調べる 1.被食者の大きさによって食べられやすさに差があるかどうか? 2.捕食者の大きさによって食べる大きさに違いがあるかどうか? 1については、試験開始時と終了時に生き残った被食魚の大きさを比較すればいいとおもうのですが、この場合平均を比較(T-test?)するべきなのでしょうか? それとも分散(F-Test?)に差があるかどうかを比較するべきなのでしょうか? また4回試験を行った場合、1回毎に評価を行っていくものなのでしょうか? 2については、どのように比較すればよいでしょうか? なにぶん不得手なもので、どんな手法でどう比較すればよいかご教授いただけたら助かります。
あるコインの表が出る確率は1/2。コインをn回投げて表の出る回数を調べる。それを一セットと考えてm回試行する。 とりあえずnやmを大きくすればコインの表が出る回数は1/2の確率に近い回数値が出やすくなる…って感じで良いと思うのですが… ここで次のような仕組み、装置を考えるとします。 二つの箱A、Bがある。Aの中にはa1,a2、Bの中にはb1、b2と印のついた球が一つづつ入ってる(一つの箱には球が2つ) 球は触っても区別がつかない為、Aの箱からa1が選ばれる確率もa2が選ばれる確率も1/2、b1やb2も同じくBの箱から1/2づつの確率で取り出される。 a1とb1を取り出した場合とa2、b2を取り出した場合は表の出る確率が1/2となるコインが渡される。 a1とb2を取り出した場合は表の出る確率が1/4となるコインを渡される。 a2とb1を取り出した場合は表の出る確率が3/4となるコインを渡される。 コインをn回投げて表の出る回数を調べ、それを一セットとしてm回試行する事にする。 間に装置が入ったとしても装置全体として考えた時でもコインの表が出る確率は1/2のままであるから nやmが大きくなれば最初の場合と同じくコインの表が出る回数は1/2の確率に近い値になると思います。
次に箱の中に球が2つだけの場合を更に拡張して以下の場合を考えてみるとします。 Aの箱にK個、Bの箱にL個あるような場合。 更にはそれぞれの球が選ばれる確率が等しくない場合。 (ある球が出る確率は3/kだったり9/kだったりって程度の差の場合。 あるいはもっと小さく1/100kという球が混じってる場合) (ただし、どの場合でも装置全体としてコインの表が出る確率は1/2のままに調整されている) ここまで余分に付け加えて考えてみると、コインの表が出る確率が1/2のままと言っても 球が増えれば増えるほど、装置内部でのバラつきが増えれば増えるほど 一番最初の装置無しのケースよりもnやm値が大きなものとなる必要があるのではないか?というような感じがします そこで質問なのですが、1/2辺りで回数が安定するのに必要なnやmの値は最初の単純なケースと比べてどのように変わるものなのでしょうか? 自分の直感と異なり全くそのままで良いのか?少し増やす程度で対応できるのか?指数関数的に大きくなるものなのか?を知りたいです (例えば最初のケースがn=20、m=30で誤差が小さく安定してると考えるとして、後者の場合でもそれと同じ程度の誤差にしたい時。 元のままn=20やm=30でOKなのか、n=60、m=90ぐらいには増やす必要があるのか。あるいはn=8000、m=9000という値が必要になってくるのか) もしかするとKやLの個数によっても変わってくるかも知れませんので… 自分が具体的に考えてみたいケースは次のような感じです。 KやLの値は共に60以下、場合によっては簡単にする為に20以下まで抑えた値を取る。K=Lとは限らない (一応どちらも最大の値は250程度考えられて、更に厳密にやろうと思えば1000程度まで考える必要があるが、自分の力じゃ収集つきそうにないので) 球の出る確率のバラつきは3/1000〜16/1000ぐらいの差
>>557 以下のように試験を組むことが考えられる。
便宜上、捕食者の大きさを大中小、被食者の大きさも大中小で分ける。
(もっと細かくしてもよいが、後の解析で検出力が落ちる可能性がある。)
・1回目 捕食者大6匹vs被食者大10匹、中10匹、小10匹
・2回目 捕食者中6匹vs被食者大10匹、中10匹、小10匹
・3回目 捕食者小6匹vs被食者大10匹、中10匹、小10匹
この1回ごとに次のような分割表が得られる。
大 中 小
食べられた xx xx xx
食べられなかった xx xx xx
この全部で3つの分割表に対し、捕食者の大きさと被食者の大きさと
食べられたか食べられなかったかで対数線型モデルで解析する。
結局引退の理由は?
ほ
564 :
132人目の素数さん :2009/03/22(日) 18:37:48
age
565 :
132人目の素数さん :2009/03/22(日) 23:20:18
正規分布σ=1, 平均=0に従う分布を持つものがたくさんあって、 そこから10こ抜き出したときに、最大値がa〜a+Δaを取るときって Sum[Binomial[10, n]*(1/Sqrt[2*Pi]* Integrate[Exp[-1*x^2/2], {x, a, a+Δa}])^(n)* (1/Sqrt[2*Pi]*Integrate[Exp[-1*x^2/2], {x, -1*Infinity, a}])^(10 - n), {n, 1, 10}], {a, 0, 100}] であってますか?
最大値がa+Δaより小さく、少なくとも1つはaより大きい
あ、こんなレベルなんだ
568 :
132人目の素数さん :2009/03/23(月) 21:19:39
MCMCで出てくる棄却サンプリングとやらがちっとも解りません。 サルでも理解できる説明をしてくれる人はいませんか?
条件付確率の定義に従って馬鹿正直に計算してるだけ
すみません。私は社会人2年目の若輩者ですが質問がございます。 ここで訊ねるのが良いのかどうかよく分かりませんが、どなたか、お知恵をお貸し下さいませんか? お訊ねしたいのは”規格の幅”の決め方です。 ある機械で生産される製品の寸法規格(社内的な規格です)を設定したいのですが、 新しい製品であり、今のところ、”この寸法からどれだけ以内にしろ”といった要求はありません。 ですが、現場への仕様指示として、一定の規格幅(管理幅)を設けたいのです。 そこで考え付いたのが、t分布による区間推定を使えないかということです。 その製品の寸法平均値と不偏標準偏差を求めておいて、工程が順調に稼動しているときの 製品寸法を母平均μとして(もちろんμの具体的な値は分かりませんが、工程が順調なら 寸法はμになると仮定する)、その95%信頼区間をそのまま規格幅にしてみたらどうかということです。 (書籍など、私の手に入る範囲で調べてみましたが、こういう例はありませんでした。) 如何でしょうか。このような考え方で良いのか、どなたかご意見やご経験のある方、是非ご教授下さい ませんでしょうか? よろしくお願い致します。
95%ってことは作った製品の5%は 規格外ということで処分するつもり、ということ? というかその規格で、対外的に謳っている性能が保証されなかったりとか 自然発火とか破損とかそういうアクシデントが起こりやすかったりしたら 何%信頼区間だろうが意味無いでしょ。 作る人たちの一方的な都合で決めちゃダメなんじゃないの?
公差は厳しすぎても緩すぎても使い物にならんよ 適当に決めたら現場のオッサンにヤキ入れられるぞ
>571 早速のご回答をありがとうございます。 規格外になった5%は前工程へ戻すことになります。 (製品の性質上、再生することは可能です。もちろん、余分なコストがかかることにはなりますが・・・。 また、95%値を例には挙げましたが、今の時点でなら99%に変えても良いと考えています。 お訊ねしたかったのは570のような考え方による規格幅の設定という、その方法自体の可否に対するご意見です。 こういう考え方はやはり邪道なのか、それとも在りえる方法なのかということです。) ご指摘にありますように、まずは生産者側のみで設定しようとしている規格なのですが、やはり570で書きましたとおり、 現在は外的な規格要求は何もなく、かと言って現場に対して”規格なし”というわけにもいかず、 ”現状を維持して下さい。現状とはこの数値に入る範囲のことです” という意味での規格を設定したいということです。 (尚、ここでお訊ねしている規格化の対象物性としては寸法”のみを考えています。寸法以外の物性値については、 元々要求のない用途/製品ですので、ご考慮の範囲からは外して頂いても結構です。) 571様、ご意見ありがとうございました。
>572 572を書いている間のレス、ありがとうございます。 ヤキ、入れられてます、確かに・・・・・・。 そんな彼らも何とか説得できるような公差を設定したいです。 そのためには、どういう理屈で公差を決めたかが必要なのですが、お訊ねしているのは、 その理屈/考え方が、彼らを説得できそうなものかということです。 もし、見当違いの考え方なら、早速改めて違う公差を定めないと。 現場のおっちゃん達、コワイので・・・。
いや見当違いだろ 現場へ仕様指示して仕切りたいってだけだし 製品の用途によるだろ >今のところ、”この寸法からどれだけ以内にしろ”といった要求はありません。 今後そういう仕様を要求させていただくことになります、 ってのが常識的な考え方だと思うが
576 :
132人目の素数さん :2009/03/25(水) 04:20:35
>>573 JIS規格にもなってないの?
あれは全ての、といっていいぐらいの工業生産物について
規格化しているから、きっと探せばあるんじゃないかな?
5%というのも、ちゃんとJIS規格になってるんだから、
なにがしかあると思うよ?
>>570 規格の幅は、統計で決めるものではなく、どれくらいの精度を要求されるかで決めるもです。
極端な話、百個中1個しか製品として使用に耐えなければ残りの99個は捨てるしか無いでしょう。
初期のダイオードなんか、良品率が0.1%程度だったとか。規格の幅はお客様と相談して決めるべきです。
統計を使用するのはその後です。
実際にサンプルを作製するなり、今までのデータを参考にするなりして寸法のばらつきを推定すれば
製品の何%が良品になるか(規格内に入るか)予測出来るでしょう。
蛇足だけど
>>570 の方法自体はオーソドックスな手法
問題なのは目的と手段が逆転してること
製品の仕様は物理的経済的要因によって決めるもので
統計はその決定の際に必要な情報を補強する役割
実際的には分野ごとに精度の目安が決まっているから
先輩なりベテラン工員なりに聞くのが一番正確
もちろんJISとかノウハウ本とか読んで勉強することは必須
しばらく過疎だと思ったら凄い伸びだ…
>575-578 まとめてレスすることをお許し下さい。 まずはたくさんのご意見、ありがとうございます。こんなに反応があるとは正直、思ってもおらず、 何だか先輩が一度にたくさん増えたような心強さを感じました。 本当にありがとうございます。 質問差し上げた手前、背景をもう少しだけでもお伝え致します。 本来、推定や検定に使用されるt分布を規格幅の決定に使うことは可能なのかということが、今回の ご質問の趣旨でした。 570で申し上げました寸法はこれまで試作品であったものの寸法でして、特別な規格を設けたことがなかった のですが、今回、製品が流れ出すようになってから、ユーザーに規格についての話しを詰めようとした際、 ”現状でよい”とのコメントしか頂けなかったようなのです。 (どうやら、ユーザー側からは、現状品でうまく行ってるんだから、これと同じものを出してくれれば良いのだ ということになったようです。) しかし、現状で良いと言われても”では現状とはどういう状態だ?”となりまして、570(と573)でのご質問 となりました。 なら、いっそ規格なしでも良いのではと思ったのですが、そうなると”何をしても良い”ということになるらしく、 それはダメだ。少なくとも、今まで作ってきたものと同程度のものを作りなさいということで規格を設けたかったのです。 で、これまでの生産実績から規格幅を決めよう→570、573の趣旨のような発想に至ったということです。 今回、皆様のご意見を伺いまして、改めて、要求あっての規格、そして規格あがあればこその統計だと 再認識致しました。 もっと勉強してまいります。 若輩者の愚問にお付き合い頂きまして、本当にありがとうございました。 (また質問ができましたら覗きに参ります!)
581 :
132人目の素数さん :2009/03/29(日) 03:08:27
どっちも厳密ではない そもそも回帰分析と正規性に必然的な関連は全くない ある論点において正規性を仮定すると理解がしやすいと言うだけ
583 :
132人目の素数さん :2009/03/29(日) 09:15:44
>>581 後ろの方が正しいでしょう。たぶん・・・
>>582 誤差(残差)項に正規性がない回帰モデルを信用しろと?
>>584 どういったときに残差の正規性なしの回帰式が有効なのかご教示ください。
0.00から4.00まで0.01刻みで401種類の数値を取る可能性があるXというものについて、 度数が780、 それぞれの数値を取る確率が正規分布に従うとする。 有意水準を5%とすると、X>=2.53となる確率は何%か教えてください。
>>585 回帰係数の推定や検定を行うとき。
最小自乗推定量自体は正規性を仮定せずとも求められる。
これもたいてい教科書には載っている基本事項だが。
ちなみに正規性を仮定したときは、最尤推定量と最小自乗推定量は一致する。
>>585 物理的要請から残差に正規性が無いことがわかっている場合
>>581 >>585 >>587 は差し替えて。
>>581 の文は特に矛盾があるわけではなく、まあ正しい。
後者のがより正確な表現で、回帰係数の推定、検定を行う場合は、誤差項の正規性仮定は必要、ただし回帰係数の推定を最小自乗法で行うだけなら正規性仮定は不要。
目的変数に正規性は不要だが、単純回帰モデルだと通常誤差項の分散と目的変数の分散は一致する。
正規性仮定すると色々と都合が良い。
>>587 で言った最尤推定量とかね。
本当は正規性仮定に等分散仮定とかも絡んで、推定量の満たす性質が変わってくるんだよ。
補足。
>>581 の上文はおかしくはないが、正確に言えば誤差項に正規性仮定する結果として目的変数に正規性仮定が置かれると考えた方が分かりやすいかな。
通常、回帰モデルの場合、説明変数は確率変数としてではなく実現値として扱うからなんだけど…。
>>590 ご丁寧なご解説、痛み入りますm(_ _)m
>目的変数に正規性は不要だが、単純回帰モデルだと通常誤差項の分散と目的変数の分散は一致する。
とのことですが、重回帰モデルを構築する場合でも、正規性を気にする方がよいのでしょうか?
>>592 基本的に重回帰は単回帰の一般型だから正規性仮定は重要。
もちろん目的によるけどね。
重回帰の場合、行列の形で表現すると
>>581 の上文もシンプルに捉えやすくなると思うよ。
>>581 の下文からは、誤差項が正規になるなら、目的変数が非正規でも構わない、
と読み取れると思いますが、その解釈で間違いないでしょうか。
>>594 間違いないです。
例えば、説明変数 X_i が 0 又は 1 の値をとり、
モデルが Y_i = aX_i + ε_i、誤差項ε_i 〜 N(0,1) ならば、
(Y_i はともかく)Y は正規分布ではなく混合正規分布に従います。
そして、回帰分析は全く問題なく適用できます。
>>595 一連のご説明でかなりすっきりしました。
ありがとうございました!
597 :
132人目の素数さん :2009/04/02(木) 21:58:02
GLMについて教えてください。 T.GLMを利用する場合、下記の流れに従ってモデル化するという理解で正しいですか? (1)平均はどんな関数に従うかな?(リンク関数は?) (2)その平均はどんな分布に従うかな?(確率分布は?) U.リンク関数って何個ぐらいあるのですか? 私はlog・logit・identifyしか知りません。 マニアックなのも含めて全て教えてください。 以上2点です。お願いします。
598 :
132人目の素数さん :2009/04/02(木) 22:00:49
597です。もう一個追加させてください。 V.deviance、AICについて モデル選択には、devianceやAICを利用するが、 目的変数が、離散変数と連続変数間の比較はできない? という理解で正しいでしょうか?
599 :
132人目の素数さん :2009/04/03(金) 04:08:28
ξ 彡⌒ミ ( ̄З ̄)y-~~~ いいよ
すみません主成分分析と因子分析、コレスポンデンス分析の違いが良くわからないので、具体的に教えていただけないでしょうか よろしくお願いします また、わかりやすいサイトのリンクとかも教えていただければたすかります
601 :
132人目の素数さん :2009/04/03(金) 23:36:53
>>597 リンク関数は、非線型モデルを線型モデルに変換するための関数なので、
理論的にはいくらでも考えられるんじゃないかな。
その他だと例えばinverseとかもあるよね。
602 :
132人目の素数さん :2009/04/04(土) 00:43:21
>>600 そんなに詳しいわけじゃないからあくまでイメージで、厳密に言うと
微妙かもしれないが、
因子分析と主成分分析はどちらも説明変数の相関関係を集約する多変量解析
の手法だという点では共通している。
ただ違いとしては、因子分析は、複数の説明変数間に少数の共通因子が
存在すると仮定して、各観測データをその共通因子で説明しようとするもの。
主成分分析は、相関関係にあると思われる複数の説明変数を少数の変数に
合成して各観測データを説明しようとするもの。
コレスポンデンス分析は、説明変数を共通因子の仮定とか合成変数とかで集約するのではなく、
説明変数間の位置関係を知るために、グラフ上に説明変数のベクトルを
表してビジュアル的に捉える手法と思ってる。
例えば学力格差の要因は多数考えられて、説明変数は、所得水準、
ゆとり教育、家庭の経済力、地域、エンゲル係数、生活リズム、
学習方法、処世観etc
これらの要因には通常、相関関係が考えられる。その相関関係を
少数の共通因子を仮定してそれに集約するのが因子分析、
これらの要因たる説明変数を少数の変数に合成するのが主成分分析で、
イメージ的は合成積かな。
他方、集約するのではなく、これらの相関関係をビジュアル的にグラフに
表現するのがコレスポンデンス分析で、要因たる説明変数ベクトル間の相関係数
(ないし回帰係数)の値が高ければ近い位置関係にある。
「商品企画のための統計分析」という本で、商品の評価方法として ・評価項目間の偏相関を取り、 ・散布図を横軸:偏相関値、縦軸:評価の平均値、で作成 として、目的変数との相関が高いのに平均評価が低い=要補強点、のように 図示する話があります。 で、解説の中で、偏相関値の有意水準を求める方法として 有意点.05 <- 1.960 / sqrt(自由度 + 1), 1.960は自由度∞、有意水準5%時のt値 有意点.01 <- 2.576 / sqrt(自由度 + 3), 2.576は自由度∞、有意水準1%時のt値 で散布図に縦軸を入れることで、有意性を図上で見えるようにしているのですが、 この式は説明なく突然出現しており、どこからでてきたのかよくわかりません。 自分で調べたところ、ピアソンの相関値の有意性検定の式、 t0 = (abs(r) * sqrt(N - 2)) / sqrt(1 - r^2), N-2:自由度?, r:相関 が元で、必要なt値に対応する相関値を出しているような感じがするのですが、 これを変形しても => abs(r) / sqrt(1 - r^2) = t0 / sqrt(N - 2) ←なんか似てるが・・・ => r^2 / (1 - r^2) = t0^2 / (N-2) => r^2 = (1 - r^2) * X, X: t0^2/(N-2) => r^2 + X * r^2 = X, X: t0^2/(N-2) => r = sqrt(X / (1+X)), X: t0^2/(N-2) で、計算結果はまるで違った数値が出てきてしまいます。 冒頭の有意水準の求め方はどういう考えの元の式なのでしょうか?
602さん具体例まであげてくださってありがとうございました 大体のイメージがつかめました
605 :
603 :2009/04/05(日) 09:50:49
すみません、sageで質問してしまってたのでageさせて下さい mOm
606 :
132人目の素数さん :2009/04/05(日) 17:39:08
>>603 大体それで合ってると思う。
偏相関係数 r の有意性検定統計量 t (正規分布誤差の場合)
t = { r / √(1- r^2) } √df ( df = n - q - 2 )
http://aoki2.si.gunma-u.ac.jp/lecture/Corr/p-corr.html つまり
(t/√df)^2 = r^2 / (1 - r^2)
(t/√df)^2 - {(t/√df)^2} r^ 2 = r^2
よって、正確な式:
r^2 = (t/√df)^2 / { 1 + (t/√df)^2 }
自由度大&t小の時の近似式:(右辺の幾何級数展開の第一項)
| r | ≒ | t | / √df
また r と t は同符号なので
r ≒ t / √df
その本の「sqrt(自由度 + 1 or 3), 」という細かい補正項 1 or 3 は
気にしなくて良いと思う。近似式を微妙に補正する必要があるのなら、
そもそも正確な式を使えば良いので、、、
607 :
132人目の素数さん :2009/04/06(月) 14:16:22
すみません。サンプル数が少なくなるにつれて、分散が小さくなるような、具体的なデータってどういった物があるでしょうか。
1 10 100 1000 10000 10000... などの純増する数列はどう? 「1 10 100 1000 10000」より「1 10 100 1000」、それより「1 10 100 」のほうがサンプル数も分散も小さいよ。 (逆向きに取っていくとダメだけど)
609 :
132人目の素数さん :2009/04/06(月) 18:16:04
それって >607 が言うところの「具体的なデータ」でなく より「非」具体的なデータになっちゃってるんじゃ・・・
610 :
132人目の素数さん :2009/04/06(月) 18:19:28
>>608 ありがとうございます。しかし、現実世界に存在するデータとして、
どういったものがあるでしょうか。他にも募集してます。
サンプルの減り方に適当な仮定をおけば たいがいの分布で分散は小さくなる 逆にサンプルが増えると分散が大きくなる 分布というのもいくつか存在する あとは授業の進度に合わせて自分で考えて
>>607 >>608 をヒントにすれば色々考えられそうだ。例えば細胞分裂、癌細胞なんかは凄い勢いで増殖するそうだが、サンプル数を少なく取れば分散も小さくなりそうじゃない?
613 :
603 :2009/04/07(火) 00:24:14
>>606 ありがとうございます。なるほど、1 / (1 + X) を展開してたんですね。
実は最初厳密な方と結果を比較してrの有意点境界が0.1単位で違っていたので
悩んでいたのですが、実は計算間違いも同時にしていて、第一項だけでも
確かにrが0近傍ならまるで問題なしだったのも確認できました。ありがとうございました。
614 :
606 :2009/04/07(火) 15:41:55
>>613 スマソ、その本の t 値が、さらに標準正規近似なのを忘れてた(汗。
また数値計算してみると、t/√df より z/√(df+1 or 3) の方が良い近似になってる。
つーことは、いきなり一次近似せずに、偏相関係数 r の t 表現を
さらに Fisher z変換:
0.5 ln{ (1+r)/(1-r) } 〜 正規分布
して、それを一次近似&自由度補正してるのかも。。。
いずれにせよ、今は簡単に任意の自由度とP値に対する t 臨界値が
即時計算できるので、昔の正規近似式を使う意味はないけどね。
すみません統計学の超初心者です 仕事であるデータを見ていたのですが、どのような解析手法を用いて どのように処理をすれば良いのかがわかりません (単純化するために数値は丸めています) ある30000人の顧客データからA群(7000人)とB群(3000人)を取り出しました。 そしてその2群間同士の重なりを見ると2000人重なってました。この重なりが 偶然のものか、そうでないかという事はどういう統計手法を用いればいいのでしょうか? エクセルとJMPが使えます。申し訳ありませんが、お力を貸していただけると助かります。
30000人から7000人抜き出す組み合わせと3000人抜き出す組み合わせの 全ての組み合わせのうち、2000人以上が重なっている確率を計算して 自分が偶然と思う確率より小さければ偶然と言える 大雑把な計算でよければ、B群に属する人は全体の一割なので A群7000人のうち各人が1割の確率でB群に属しているとして 2項分布で近似して検定すれば、偶然ではなさそうだと言える
617 :
132人目の素数さん :2009/04/08(水) 00:07:09
それにしても統計って難しいな。 一体どれだけの人間がホントに統計のことを理解してるんだ
618 :
603 :2009/04/08(水) 09:08:54
>>614 うーむ奥が深い・・・
そのあたりを説明しだすと話が長くなってしまうので本のほうでは
黙って「おまじない」風に使っているんでしょうね。厳密解の場合は
Rの関数を余分に覚える必要があるので、黙って近似結果を採用したと。
>>615 Aにあてはまる Aにあてはまらない 合計
Bにあてはまる 2000 1000 3000
Bにあてはまらない 5000 22000 27000
合計 7000 23000 30000
という分割表をどう評価するかという話にならないかな
各セルの数値が大きすぎて、検定の意味がないか。
620 :
132人目の素数さん :2009/04/08(水) 10:45:55
>>615 何故その10000人のデーターを抽出することにしたのか、
というところで既に答えは出ているような気がするのですが、どうなんでしょうかね。
2つ質問があります。 1つ目。 A氏vsB氏の対戦データ、A氏vsC氏の対戦データがあるとします。 相性などの影響がないものとして、B氏vsC氏の勝敗の期待値を求めるにはどうすればいいでしょうか? 2つ目。 条件Aに一致した試合の対戦データ、条件Bに一致した試合の対戦データがあるとします。 条件Aと条件Bの勝敗への影響力が同じであるとして、条件Aにも条件Bにも一致した試合の勝敗の期待値を求めるにはどうすればいいでしょうか?
>>621 どっちもモデルによるとしか答えられない。
(設定次第で期待値をかなり自由に上下させられる)。
勝敗に影響するパラメータは何なのかとかをきちんとモデル化しないと
数学的な議論はできないよ。
>>622 言われてみればたしかに・・・。
thxでした。
>>616 ありがとうございます
すみませんがその2項分布で近似して検定すればと言うことが良くわかりません「
エクセルかJMPでできますでしょうか?
>>619 ありがとうございます
そのテーブルからどういう検定をしたら良いか教えていただけませんでしょうか?
625 :
132人目の素数さん :2009/04/08(水) 23:37:39
>>624 619じゃないけど、分割表でググる。
自由度1のカイ自乗検定ね
>>625 ありがとうございます
自分で調べてみます!
626です 調べてみました JMPでやってみましたが、尤度比のp値が0.05以下で有意。 つまりお互いに関連がないと言うことですよね? 今回は2*2でしたが、3*3とか4*2とかで同様の検定を行い 有意とでは場合はどういう理解でしょうか? 比較している群の中でどれかはわからないけど最低一つは他と異なっているという ことが言えるのでしょうか?この理解であっていますでしょうか?
>>627 尤度比検定がどういうものか知っていますか?
センター試験の数Bの選択問題で役にたちますか?
複数の被験者に対し,合図が出てからボタンを押すまでの反応時間を 計測しました.このとき,母集団の最大反応時間が n 秒以下となる ことを示したいのですが,どうすれば良いでしょうか? 反応時間の分布は正規分布ではなく,ヒストグラムを見た感じでは指 数分布に近い感じです.
>>630 もし本当に指数分布なら無限大まで行ってしまうのだが。
これは正規分布でも同じ。
やれることはきっと、反応時間の分布の形を推定して、 母集団全てが n 以下で反応する確率を計算して、 それが十分小さいと主張するくらいだな。
>>630 最大反応時間なんですか?なら「極値統計」で検索
634 :
132人目の素数さん :2009/04/14(火) 13:17:57
最大反応時間は実験計画値だろ。 「5秒以内に押さない被験者には、注意を喚起し、 10秒以内に押さなければ無効データとする」とか・・・
635 :
630 :2009/04/14(火) 13:22:19
>>631 たとえば 99.9% の確率で,最大反応時間は n 秒以下になることを
示したいということです.
>>632 ひょっとしてノンパラメトリックな手法がないかなと思ったんです
が,やっぱり無理ですかね.
分布の推定方法は手持ちの教科書には出ていないのですが,お勧め
の参考文献はありますか?
ちなみに,
「標本の最大値に(平均の)標準誤差の数倍を足した値を示せば,
まあこれ以上になることはなさそう,と思ってもらえるでしょ」と
いう意見ももらったのですが,標本数が増えると最大値も大きくなる
ので,それではイカンような気がしています.
>>630 被験者ごとの反応時間の分布を推定してみて、それをもとに最大反応時間が従う確率分布を計算してみては?
その分布の定義域が一定値以下のとき確率が充分大きいなら命題はある程度示されたと言えるのでは?
>>630 ワイブル分布を調べると幸せになれるかもしれません。
上手く説明できるか分かりませんが、質問です。 ある被検査対象Anに対して、検査機BとCがあります。 BとCそれぞれの測定誤差は標準偏差で(σ)bと(σ)cです。 例えば、A1=1cm、A2=2cm、・・・・A30=30cmの被検査対象があったとして 検査機BとCでそれぞれA1〜A30を1回ずつ計測します。 ある1個の対象物に対して横軸に検査機Bの結果、縦軸に検査機Cの結果をプロットしていった場合、 近似として線形関係が導けます。 そのときの相関係数を測定誤差(σ)b、(σ)cを用いて表わすことはできますか?
>>628 知りません
尤度比のp値が0.05以下で有意というのは間違いと言う意味でしょうか?
>>639 基本的な用語の意味が理解できていないように思われる。
分割表、独立性の(χ^2)検定で検索するとよい。
尤度比検定とごっちゃになってるような気がする。
二項分布を正規分布とポアソン分布のどちらで 近似するのがいいか判別するにはどうするのが いいでしょうか? おおよその判断基準はわかるけど、微妙な場合 どうすればいいかと。
642 :
630 :2009/04/16(木) 05:26:59
>>633 おー,「極値統計」,なんだかそれっぽいです.
>>637 なるほど.調べてみると,人間の反応時間の分布をワイブル分布
としている論文がいくつかひっかかったので,ビンゴかも.
初期故障型,つまり形状パラメータが 1 未満のときの分布に近そ
うです.
ありがとうございました.
>>641 二項分布B(n,p)として,
正規近似の目安はn≧25 かつ np≧5 かつ nq≧5
ポアソン近似の目安はn≧25 かつ np≧5 かつ nq≧5
しかしたとえばn=50でもp=0.1だとどっちの目安もギリギリ。
そこでエクセルで調べてみる。
np=5, npq=4.5だから, k=5を中心にk=0〜10くらいに実質的に分布するはず。
B1二項分布
C1 ポアソン近似
D1 正規近似
と記入し、A2〜A12に0〜10を入れる。
B2 =BINOMDIST(A2,50,0.1,FALSE)
C2 =POISSON(A2,5,FALSE)
D2=NORMDIST(A2+0.5,5,SQRT(4.5),TRUE)-NORMDIST(A2-0.5,5,SQRT(4.5),TRUE)
と記入し、オートフィル機能でB3〜B12,C3〜C12, D3〜D12を埋める。
数値のままでは見にくいので、表全体を選択してグラフウイザードで折れ線グラフにする。
k≦3 k≧7ではポアソン近似がすごくいい
k=5以外は微妙だがポアソンのがマシ
k=5だけ正規がすごくいい
pがやや小さいのでポアソンが勝ったが、平均のあたりは正規が強いとわかる。
他にもいろいろ数値変えて実験してみるといい
>>641 つか、いまどき、二項分布みたいな計算の簡単な式を、
何のためにわざわざ他の分布で近似する?
645 :
641 :2009/04/16(木) 14:16:58
>>643 すごくわかりやすかったです。あり〜
>>644 nとpをぐりぐり動かすからです…
めんどくさいから…
>>638 BとCに影響を与える他の要因がないと仮定すれば、その偏相関係数は測定誤差の相関係数になるのでは。
647 :
643 :2009/04/16(木) 20:46:42
>>645 つか、近似の目安片方書き間違ってた
両方同じになってる orz
× ポアソン近似の目安はn≧25 かつ np≧5 かつ nq≧5
○ ポアソン近似の目安はn≧100 かつ p≦0.05
648 :
645 :2009/04/18(土) 11:40:48
649 :
132人目の素数さん :2009/04/19(日) 16:46:01
質問です。以下問題 ある感染症の検診を受けたときに、陰性であることをY=0、陽性であることをy=1とします。 また実際に感染していることをx=1、していないことをX=0とします。 また、検査は @実際に感染しているときに陽性を示す、 A感染していないときに陰性を示す 確率を95%とする。 人口全体の0.1%が感染しているとき。次の問いに答えなさい。 同時密度関数を求めよ。 この場合の同時密度関数って数式で表せますか?教科書調べたら同時密度関数って全部数式になっているんですが・ どう頑張っても表しか作成することが出来ません。。 どなかたかお願いします。
>>649 離散的な値をとる確率変数については、確率分布は表で表すべきで、
無理に「密度」を考えようとするとδ関数が必要になってしまう。
同時分布についても同様。
651 :
132人目の素数さん :2009/04/19(日) 19:50:49
>>649 引用が正しければ、その講義または本が間違ってる。
×同時密度関数 ○同時確率関数
是非、お教えを乞いたく・・・。 長いようなので2つに分けます。 色々調べてみましたが、どういう風に解釈すべきなのか未だに迷っております。 以下、簡単な例を使ってご質問申し上げます。 今、板を5mm角に打ち抜く機械で5mm角の小片を打ち抜いているとして、小片@が3枚できたところで、 より正方形に近い5mm角を打ち抜くために機械を調節し、続いて小片Aを3枚打ち抜いたと致します。 小片の4辺の寸法データが下表のようだったとして、小片@とアクション後の小片Aの間に寸法の 差があるのか、あるいは分散に差があるのかといった検定を行いたいと考えました。 (尚、下表の例は便せん的に作成したものですのでご了承下さい。) A辺 B辺 C辺 D辺 | 平均 分散 標準偏差 R(最大-最小) @-1 5.0 5.1 5.4 5.2 | 5.18 0.03 0.17 0.4 @-2 5.1 5.1 5.3 5.1 | 5.15 0.01 0.10 0.2 @-3 5.3 5.2 5.1 5.2 | 5.20 0.01 0.08 0.2 ------------------------------------------------------------------------------------- @平均値 5.13 5.31 5.27 5.17 | 5.18 0.02 0.10 0.27 @分散 0.02 0.00 0.02 0.00 | 0.00 0.00 0.00 0.01 @標準偏差 0.15 0.06 0.15 0.06 | 0.02 0.01 0.05 0.12 A-1 5.1 5.1 5.2 5.3 | 5.18 0.01 0.10 0.2 A-2 5.1 5.3 5.2 5.1 | 5.18 0.01 0.10 0.2 A-3 5.2 5.2 5.1 5.3 | 5.20 0.01 0.08 0.2 ----------------------------------------------------------------------------- A平均 5.13 5.20 5.17 5.23 | 5.18 0.01 0.09 0.20 A分散 0.00 0.01 0.00 0.01 | 0.00 0.00 0.00 0.00 A標準偏差 0.06 0.10 0.06 0.12 | 0.01 0.00 0.01 0.00 一旦、切ります。
653 :
652 :2009/04/22(水) 00:44:38
大変申し訳ございません。
今、自分のレスを見ましたが、表がとても読みにくいですね。
もう一度書き直してまいります。
恐れ入りますが、
>>652 は無視くださいますようお願い致します。
すみませんでした。
二項分布が正規分布に近似できるのって中心極限定理ですか?
>>654 「近似」の意味による。
二項分布のある種の極限が正規分布になるという事実は
「ド・モアブル-ラプラスの定理」と呼ばれるが、
具体的内容にはいくつかのバージョンが可能で、特に
「局所極限定理」と「積分型極限定理」がある。
中心極限定理の主張は一般に“分布の弱収束”を主張するもので、
それを特に二項分布の場合にあてはめたのは、
ド・モアブル-ラプラスの定理でいうと、積分型極限定理
(のさらに一番簡潔な主張)になる。
「局所極限定理」などはスターリングの公式を用いた
精密な評価によって証明されるもので、
二項分布についてのみ成り立つ(「中心極限定理」からは導かれない)。
656 :
652 :2009/04/23(木) 01:28:30
改めまして是非、お教えを乞いたく・・・。 長いようなので2つに分けます。 まずは下表をご覧下さい。 下表は機械で板を正方形に打ち抜いて、その各寸法を測定した結果を記録したものです。 A辺 B辺 C辺 D辺 | 寸法平均 分散 標準偏差 R(最大-最小) 調整前―1 5.0 5.1 5.4 5.2 | 5.18 0.03 0.17 0.4 調整前―2 5.1 5.1 5.3 5.1 | 5.15 0.01 0.10 0.2 調整前―3 5.3 5.2 5.1 5.2 | 5.20 0.01 0.08 0.2 ――――――――――――――――――――――――――――――――――――――――― 調整前平均 5.13 5.31 5.27 5.17 | 5.18 0.02 0.10 0.27 調整前分散 0.02 0.00 0.02 0.00 | 0.00 0.00 0.00 0.01 調整前標準偏差0.15 0.06 0.15 0.06 | 0.02 0.01 0.05 0.12 調整後―1 5.1 5.1 5.2 5.3 | 5.18 0.01 0.10 0.2 調整後―2 5.1 5.3 5.2 5.1 | 5.18 0.01 0.10 0.2 調整後―3 5.2 5.2 5.1 5.3 | 5.20 0.01 0.08 0.2 ――――――――――――――――――――――――――――――――――――――――― 調整後平均 5.13 5.20 5.17 5.23 | 5.18 0.01 0.09 0.20 調整後分散 0.00 0.01 0.00 0.01 | 0.00 0.00 0.00 0.00 調整前標準偏差0.06 0.10 0.06 0.12 | 0.01 0.00 0.01 0.00 一旦、切ります。
657 :
652 :2009/04/23(木) 01:30:30
続きです。 今、機器調整前に小片が3枚できたところで、より正方形に近い5mm角を打ち 抜くために機械を調節し、続いて機器調整後に小片を3枚打ち抜いたと致します。 この小片の機器調整前と調整後とで小片の寸法に差があるのか、あるいは分散に差があるのかといった検定を 行いたいと考えました。(尚、上表の例は便せん的に作成したものですのでご了承下さい。) 検定対象として、機器調整前-1から調整前-3の寸法平均のそのまた平均値、同様に寸法分散の平均値及び寸法Rの平均値を 小片調整後のそれらとt検定もしくはF検定で比べようとしたのですが、そこでふと気になったのは、 1.上表では分散の算術平均(0.02または0.01)を求めていますが、分散の平均はそのように求めても良いものなのか? (分散の平均値の求め方1(標準偏差もそうですが)に不安があるということです) 2.同様に、寸法分散の分散値も機械的には出せますが(上表では調整前後とも0.00)、この値にはどんな意味があるのか、 それともないのか? 3.今回の検定の目的は、機械の調整前後で寸法に有意な差が生じたのか、そのばらつきに変動があったのかを検定しようとしているのですが、 最初、私は行方向にデータの平均や分散、標準偏差を考え、機器調整前後のそれら値を検定で比較しようと思いましたが、 表を列方向(例えばA辺にのみ注目)に考えることはどうなんだろうとも考えました。 列方向に考えた場合、調整の前後でのA辺寸法平均やA辺分散の動きを検定することは意味のあることでしょうか? (つまり、上表の列方向での比較/検定に意味があるのかどうかということです。) 大変長いレス行を消費しまして、申し訳ございません。質問の趣旨をうまくお伝えできたか不安ではございますが、 つまりはアクションに効果はあったのか、あったとは言えないのかを検定するのに、上表のような例ではどのように 考えればよいのか、あるいは陥りやすい誤解は何なのかをご教授願いたく思っています。 何卒、宜しくお願い申し上げます! (尚、上表の例があまり良い例ではないようでしたら、適宜改変下さっても結構です。)
質問は出来るだけ簡潔にまとめないとレス付きにくいよ。
>>655 質問者ではないが参考になった。
ド・モアブル-ラプラスの定理は中心極限定理とは異なると思っていたが、局所型と積分型というのがあるのか。
良ければ参考文献等を教えて欲しい。
>>659 日本語の本しか見ていないが、福島正俊「確率論」(裳華房) がいちばん記述が
明快で証明も厳密。局所極限定理(収束の一様性まで含む主張)と、それを用いた
積分型極限定理の証明が書かれている。
ただしあまりわかりやすくはなく、またうるさく言うと少し論理的に不完全な点がある。
次にいいのは池田・小倉・高橋・真鍋「確率論入門」(倍風館)で、福島とほぼ同様の
命題が書かれているが、(局所型から積分型を導くのに不可欠な)一様性については
主張のみで証明は略されている。また、やはりうるさくいうと論理的に不完全な点がある。
いずれも、積分型については一定区間での定積分の収束になっていて、
中心極限定理から導かれるのと同じ主張に退化しているが、実は局所極限定理からは
もう少し強い積分型極限定理が導ける。
(近似のときに使う「半整数補正」とかはそのバージョンでないと正当化できないと思うのだが、
その形の主張が載っているのはFellerだけで、Fellerではその証明はあいまいで不明瞭。)
コルモゴロフ・ジュベンコ・プロホロフ「コルモゴロフの確率論入門」(森北出版)や
鈴木武「確率入門」(倍風館)では、局所極限定理については最初の2冊とほぼ同じ
厳密な主張と証明がある(が、やや弱い主張になっている)。
ド・モアブル-ラプラスの定理の証明らしきものが書かれている他の大部分の本では、
局所極限定理(の弱い形、へたすると“一点極限定理”)を証明しただけで、積分型の
主張が証明できたふりをしている。(一点極限定理だけでも、二項分布の面積階段グラフ
の形が正規分布の密度関数のグラフに似てくるということの証明にはなっているが。)
悪い方の本の例をあげると、小針あき宏「確率・統計入門」(岩波書店)などはその
“一点極限定理”の主張すらいい加減。(たとえば「z=(k-np)/√(npq)を一定にして
n→∞とすると」などと書いてあるが、kやnが整数ということを考えればそんな操作は不可能!)
>>660 サンクス.自分が読んだ本は全て局所極限定理の証明のようだった.
その中でスターリングの公式を用いたりしている証明もあった.
初見の時、ε-N論法等を想起して違和感を覚えたが、そのまま流していた.
勉強になった.
テスト勉強で問題を解いてるんですが、 解答がないので正しく考えられているか見て欲しいです。 二つのグループの特徴と違いについて述べる問題で グループAの点数 75 65 44 22 100 グループBの点数 54 70 68 58 78 計算したらA平均が61.2 B平均が65.6 よってBの方が平均が高い。 ばらつき具合においてみると A分散=705.24 B分散=65.71 よって、Aの方がばらつきが大きいといえる。 標準偏差を求めるとA標準偏差26.55 B標準偏差8.1 これからわかるのは、例えばAで85点をとるのとBで85点を取るのだと Aの場合61.2±26.55の範囲内に入るから普通の成績であるといえる Bの場合65.6±2*8.1より外にあるので、良い成績である。 こんな感じでよろしいでしょうか!!! 如何せん独学なのでへんてこかもしれませんが、最低ライン突破出来る事を目指しております。 よろしくお願いします(^o^)♪
663 :
132人目の素数さん :2009/04/24(金) 16:05:56
>>662 たぶん4月から始まった授業の「統計的記述」の部分だと思って答えるけど、
考え方は良く分かってるし、それでOK。
ただ分散の値が微妙に違うので、もう一度式を見て計算した方が良いと思う。
_5で割るタイプ_ _4で割るタイプ_
平均 分散 標準偏差 分散 標準偏差
A 61.2 708.56 26.62 885.7 29.76
B 65.6 74.24 8.62 92.8 9.63
※標準偏差は小数部3桁目を四捨五入
※「5で割るタイプ」は、1グループの観測個数5で、各観測値の
平均からの偏差の自乗の合計値、を割った分散。
「4で割るタイプ」は、観測個数5から1引いた値を使って求めた
分散で、「不偏分散」と呼ばれることが多い。
気にせず、今習ってる方の式を使えば良い。
>>663 さん
丁寧なアドバイスありがとうです!!
すごく参考になります。
不偏分散は確か、標本数が少なくてかつ母集団の分散が未知の時に使う奴だったと思いますが・・
なんにせよ、今回不安だった部分は解決して嬉しいです。
本当にありがとう!!!
ノートきっちりまとめなおしておきました〜(^o^)♪
665 :
132人目の素数さん :2009/04/25(土) 20:15:07
質問です。大学の解析の課題で1問だけ分からなくて困っているのでお願いします。 問:次の表の国語、数学、英語の分散共分散行列を用いて、3科目の合計点の分散を計算しなさい。 国語 数学 英語 国語 90 30 40 数学 30 110 20 英語 40 20 80
定義に従って素直に計算するだけ
>>666 どうやって計算するのか教えて頂けますか?
(a+b+c)^2=a^2+b^2+c^2+2ab+2bc+2ac
>>668 あ、なるほど!分かりました。
ありがとうございました。
670 :
132人目の素数さん :2009/04/27(月) 23:06:24
671 :
132人目の素数さん :2009/05/02(土) 00:42:35
あ
672 :
132人目の素数さん :2009/05/02(土) 01:13:32
MCMCのギグスサンプラーとは、一言で言ってしまうと、 ■複数の確率変数のうち、ランダムに一つを除いて固定し、 その一つから乱数を取得⇒他の変数への影響を計算。 上記処理を繰り返すというものでしょうか?
673 :
132人目の素数さん :2009/05/04(月) 11:51:21
おい、比例ハザードモデルって、大サンプル確保できる時にやる分析じゃないよな?
674 :
132人目の素数さん :2009/05/04(月) 12:38:30
ランダム行列で出てくる 普遍極限を理解するには複素関数論が必要だと聞きましたが本当ですか
負の二項分布が 確率の性質P(Ω)=1を満たすこと示したいのですが、どうしたらよいのでしょうか
676 :
132人目の素数さん :2009/05/04(月) 22:09:19
定常なK変量時系列データ{x_t}(t=1...T)が平均0、分散行列Vを持つとします。 そして、V^{-1}=M'Mとして新たにz_t=M x_t (t=1...T)を定義します。 このとき、同時点でE(z_t z_t')=I_K になることは当然ですが、 異時点間でE(z_t z_s')(t≠s)も対角になる場合はあるでしょうか?
>>675 (p+q)^(x-1)=Σ(x-1)C(k-1)p^k*q^(x-k)
,p+q=1
678 :
132人目の素数さん :2009/05/05(火) 01:36:27
ロト6を計50回行った、 1〜43それぞれの数字の出る平均は 300÷43でいいんですかね? また、この場合の自由度は 42であってますか? 最後に自由度42、優位水準5%の カイ2乗値の下限と上限ってどうやって求めるんですか? 本当にすみません
679 :
132人目の素数さん :2009/05/05(火) 09:31:30
ロト6ってどんなクジ?
初心者です。ご教授お願い致します。 ある発展途上国に住んでいる中学生の平均身長と世帯収入の 関係を研究したいとします。 サンプルの偏りを小さくするために、二段階層別サンプリングをしました。 学年ごとに3つのグループにわけ、さらにそれを男女の 二つのグループに分けたため、計6つの層ができ、 そこからそれぞれ同じ数のサンプルを採取しました。 それをもとに相関分析をし、各世帯の収入と中学生の身長に 正の相関がでたら、そこから母集団もきっと収入と身長に 正の相関があるだろう、と結論付けていいのでしょうか。 それとも母集団の二つの 変数の相関関係を求めるために、そこから他にやらなくてはならない分析がありますか?
681 :
132人目の素数さん :2009/05/05(火) 13:09:09
682 :
132人目の素数さん :2009/05/05(火) 13:42:07
コーシー分布のパラメータってどうやって推定するんですか? 平均と分散?はたまた中央値と????
連休課題で質問ラッシュやなー。
>>680 分析方法によるが、有意であればそう結論付けていいと思うよ。
>>680 統計手法的には問題ないと思うが、実験計画として
その層別の仕方が妥当かどうかは若干疑問だ。
例えば層ごとに相関があったりなかったりした場合
どう説明するのかとか、収入で層別しない理由は
何故かとか考えておかないと後で困るよ。
母集団枠のリストに定義されてない属性では層別化できない と小一時間・・・
栄養と発育の相関か。 発展途上国だと、学校に通ってない子供も居るので、 それは統計にあがって来ない訳で。 正の相関がありそうなのは自明だし。 複数の国で、相関を比べて、 有意な差があったとき、その原因を追求すれば。 前述のように、サンプリングがそもそもうまくないとか、 最初の思惑と違ってそうで、悪いが。
688 :
680 :2009/05/06(水) 12:46:56
皆さんご回答頂きありがとうございます。 自分は今は深い理論的な理解は後回しにし、 統計ソフトの使い方の入門書を片手に見よう見まねで 出力結果の読み方を勉強している状況です。 実際に自分がこのデータを使って調べようとしていることは、「ある途上国の 子供の家庭環境が恵まれているかどうかと発育の関係」といったものです。 (修士論文の予行演習として練習用のデータを使用しています) したがって、年収以外にも家庭環境の良しあしを間接的に測る指標として、 ”二親がそろっているかどうか”、”補導歴があるかどうか”などのデータがあります。 また、ご指摘いただいたように、年収をもとに層別をし直すことにしました。 いくつかある属性のうち、家庭環境の良し悪しを示す指標としては年収が最も 重要だと考えたからです。一方でこのデータは1年生のデータが2,3年生に比べて 非常に多いという偏りがあるようなので、学年での層別も 二段階目として行いました。
689 :
680 :2009/05/06(水) 13:00:53
また、相関係数の出力結果の読み方も良く分かりました。ありがとうございます。 しかし、実は相関分析以上に混乱しているのが、複数の説明変数を別々に使って 家庭環境の良し悪しを多面的に測り、子供の発育との関係を調べるにはどうするのか、 ということなのです。 例えば上記のように年収をもとに層別し、その層ごとに母集団の平均身長を求め、 そこに有意な差があったら家庭環境の質と発育の間には関係がある、 と結論付けるのが良いのでしょうか。(方法@) しかしこの方法だと、補導歴や家族形態など他の情報も使って発育と 家庭環境の関係を調べることができません。 補導歴や家族形態を用いて初めから層別サンプリングを何度もやり直すのは 手間がかかりすぎるように思えるからです。 するとやはり、層ごとの分析は忘れ、 抽出したサンプル全体を属性のクラス分けごとに分散分析やχ二乗検定などにかけ、 その結果が有意であれば母集団にも当てはまる、と結論付けるやり方がよいのでしょうか。 例えば、平均身長×年収、平均身長×補導歴、平均身長×親の数 というように3つのクロステーブルを作って分析すれば、(方法A) 3つの属性から包括的に家庭環境と子供の発育の関係を研究できると思うのですが・・ 方法@よりもAで行う方が、良いのですよね? ご教授いただけたら幸いです。
>>689 重回帰分析という方法もあるよね。
変数選択はAICとかかな…。
>>689 どうも話を読んでいるとデータはすでに持っているようですが。
データがすでにあるのにそこから更にサンプリングして標本数を減らすのはどうかと。
一般線型モデルを使用すれば良いのでは無いですか?
平均身長 ~ 平均収入 + 学年 + 二親かどうか + 補導歴があるかどうか
とすればOKだと思います。
@はどうだろう。自分ならやらない。 Aもやらないな。(意味がよくわからない) 「身長」と「年収」、「二親」、「補導」とあったとすると、単純に考えれば共分散分析。 ただし、「二親」と「補導」とか、「年収」と「補導」、それに学年というか「年齢」と「補導」とが相関がありそうだから、気をつけねば、と思う。 あと、親の身長と年収とが相関があるような国なら、一筋縄じゃいかなさそうかな。 データの件数が大きそうだから、共分散構造分析も検討するな。 あと、相関係数の検定というのは、問題とする相関係数が0と言えるかどうかの検定だから、 データの数が増えると、0.1とか、そんな程度でも「有意」になる。 また、何度も検定をやると、一つや二つは「有意」のものが出てくる。 そういうものだけピックアップしても、レポートならとおるかもしれないけど、修論では叱られる。 ってなところにも注意。 ご自分で「初心者」と言っておられるんで、同じく初心者ながらあえて書いてみました。
>>689 元の問題は収入と身長の関係が知りたいだったはずだが
家庭環境を表す指標の定義に問題がすり替わってるぞ
それを言い出したら発育の指標だって怪しいもんだ
統計手法に溺れる前に自分の示したいことを今一度整理すべし
いたずらにパラメータを増やしても何も説明できなくなるだけ
>一方でこのデータは1年生のデータが2,3年生に比べて >非常に多いという偏りがあるようなので、 なぜそのようなことになったのか、吟味する必要があるのではないでしょうか? サンプリングがどのように行われたのか確認できないなら、 1年生のデータだけを解析した方がいいかもしれません。
689じゃないけど、
>>692 の例え確率としては有意でも
相関係数がゼロに近い場合にはサンプル数が多いことが原因で、
必ずしも相関があるとは限らないという
話は前に自分も聞いたんだが、それではそうした場合、相関関係を
立証するためには相関係数を求める以外に
何をすればいいんですか?
例えばT検定ではサンプル数が多い場合でも、有意確率と信頼係数の
両方がそれを支持してたら、その結果は有意であると結論付けていい
と聞いたんですが、
相関係数でも同じように相関係数の信頼区間を求めるべき?
>>695 後半部分はそれでいいと思うが、前半部分、
>>692 はサンプル数を多くすることで母相関係数が0に限りなく近いときでも、有意判定が生じうると言ってるわけで、何か変じゃないか?
検定の精度を上げたいなら、多重比較法という方法もある。
697 :
680 :2009/05/08(金) 04:18:02
皆さんご回答ありがとうございます。 ご指摘して頂いたことを勉強してみたいともいます。 また戻ってきてしまうかもしれませんが その際にはどうぞよろしくお願いいたします
今まさに俺が直面している疑問について議論されてるww
相関係数の信頼区間の推定って、俺が使ってるSPSSだと
やってくれないらしいんだよね・・
重要なことだと思うんだが何でなんだ??
>>696 がいう多重比較法というのについて調べてみるわ
話がずれているような…。
>>695 のt検定でというのは回帰の話じゃないかな。
多重比較は関係ないように思う。
検定からの脱却はいつになりますか?
信頼区間って検定と対応するものだから全然脱却してないよねw
>>699 >>695 が何をやりたいのか前半部分からは判別しがたかったんだよね。
だから
>>692 の「何度も検定を繰り返すと有意のものが1,2つ出てくる」って部分を受けて多重比較を提案してみた。
身長、年収、二親、補導歴、学年とかの相関関係を調べるんなら、分散分析なり共分散分析なりが妥当かなと思うけど、相関係数の差を多重比較してもいいかなあと思った次第で。 検討違いだったらすまん。
検定からの脱却って何の意味?
検定からの脱却とはどんな意味ですか?
検定からの脱却とはどんな意味ですか?
検定からの脱却とはどんな意味ですか?
うぜえ
検定至上主義から解脱するってことじゃね?
提供 株式会社 キチガイ 有限会社 情弱 (社)日本無職自宅保安協会 映画「検定からの脱却」製作委員会
Xが二項分布B(n,p)、YがB(m,p)に従い、両者が独立のとき X+Yの分布はB(n+m,p)である。 って、何でですか??泣
>>711 いいか。
今、赤いさいころが2個あってそれを振ったとき1の目の出る数をX、
別に青いさいころが3個あってそれを振ったとき1の目の出る数をYとするぞ。
赤と青の全部で5個のさいころを同時に振ったとき1の目の出る数はどうなる?
X+Yだろ。その分布は?
検定からの脱却とはどんな意味ですか?
>>713 荒らすなよ。質問者が回答しない以上仕方ないだろ
検定からの脱却とはどんな意味ですか?
検定からの脱却とはどんな意味ですか?
提供 株式会社 キチガイ 有限会社 情弱 (社)日本無職自宅保安協会 映画「検定からの脱却」製作委員会
718 :
132人目の素数さん :2009/05/14(木) 21:44:48
統計学はまったくの素人ですので、言葉の使い方に間違いがあるかもしれませんが以下をお願いします いわゆる正規分布には再生性がありますが、なぜ故に再生性というのでしょうか? 何を再生していると考えればいのでしょうか? また、この再生性の利用で何が便利になりますか? 以上の質問に、記号を使わず言葉でやさしく説明していただけるでしょうか?
再び同じ性質が生じるからかな 性質 勉強していけばそのうち分かるはず どうでしょう
この間先生から、君は統計的手法にばかり気が向きすぎてて、 それにおぼれていると言われました。 例えば、その先生自身が書いた論文を参考に、自分も良く似たタイトルの 研究をしているのですが その先生の論文ではある変数が母集団を構成するグループごとにどう異なっているのか を調べるために、それぞれ 累積度数分布図を示してその差を視覚的に明確にした後、 2-sample KS検定を行っているのです。 しかし私が同様に累積度数分布図を描いてそれを 先生に見せた後、「自分もKS検定を行う べきですよね?」と尋ねたらその必要はないと言われました。 何故?って感じです 統計的手法にばかり気をとられ、おぼれているとはどういう意味なのでしょう?? 何故自分はKS検定をする必要がないのか・・ テキストを読んでもさっぱりなんですが 何かお心当たりがある方ご教授ください
平均点72.8標準偏差15で 高い方から12までの成績を出したときの最低点の出し方教えて下さい
723 :
132人目の素数さん :2009/05/15(金) 15:58:56
以下の問題を大学で出題されてわからなかった。 誰か分かる人、お願いします。 バスは10分間隔でターミナルから発車しているが、 到着するときにはバスがそれぞれくっつきあい、数珠繋ぎになって 到着している状態になっている。 この理由を統計学的に答えよ。 なんの要素を使っていいかも全くわかんないーー
>>723 どういうモデルで考えるかだけど、
「バス」を題材にしたことを考えると、やはり途中のバス停で客を乗せることは
意識したモデルで考えた方がいいのでは。
各バス停での客の到着はポアソン到着を仮定すると
基本的には前のバスとの間隔が長い方が待っている客は多い可能性が高いわけで
例えば
・バス停での停車時間はバス停で待っている客の人数に比例する
・バスは前のバスを追い抜くことはない
という条件で考えると、
一度客の多い所に当たってしまうと、前車との間隔は拡がるので、以降さらに客が多くなり
逆に客が少ないと、前車との間隔が縮まるので、以降さらに客が少なくなる
というように、一度ついた格差は拡がる方向であって、
さらに,一度前車の直後にくっついてしまうと、以降は一切客を乗せることはないので
そこからは(前車が満車にならない限り)客を乗せることはなく、
先頭車と合体したようにみなせるので、
路線が長いと、それらの固まりがさらに合体していく。
ってなことを論じるのかな。
「統計学的に」のニュアンスがよくわからないけど。
725 :
725 :2009/05/15(金) 20:59:10
7-2=5
大学の宿題にせよ他のことにせよ、まず自分で調べたり、充分に考えたりしてから、それでもよく分からない場合に他人に聞いたがいいよ。 すぐ丸投げでは自分にとっても良くない。
>>726 十分に調べたり考えたりした上での質問だと受け取ろうよ。
728 :
132人目の素数さん :2009/05/16(土) 01:27:50
>>727 手の付け所も分からないという人もいるわけだから
そう言う考え必要だよね。
手がかりを与えて上げるとか、少なくとも何らかのとっかかりを
与えてやる方がいいと思う。
逆にある程度素地があれば、ここに質問しないだろうし。
統計人口を増やすことを考えましょう。
検定からの脱却とはどんな意味ですか?
検定からの脱却とはどんな意味ですか?
このきちがいはアク禁申請だな…
732 :
723 :2009/05/16(土) 17:38:46
>>724 さんありがとうございます!
考える道筋が立ちました!
感謝です。
まるでどこから手をつけていいかもわからなかったので、助かりました。
ありがとうございます。
733 :
132人目の素数さん :2009/05/16(土) 18:53:37
質問です 統計的推定における 「efficient estimator」 って何ですか? efficientな推定量っていったい・・・
>>733 有効推定量のことだろ。
それが何かは自分で調べなさい。
まずどんな教科書にも載ってる。
735 :
704 :2009/05/16(土) 21:34:35
すいません、 704や705,6あたりを書いたのは自分なんですが これは悪気があってやったことではありません。 パソコンの調子が悪く、704でこの質問を書き込んでも 掲示板上で反映されなかったので、 なんどか続けて同じことを書き込んでみたのですが、すべて 無反応で終わり、ネットの調子が悪いのかと思ってました。 しかし実際には私のこの複数の書き込みは正常に2ch上では 書き込まれていて、自分のネット環境に問題があったことが後で分かりました。 704からしばらくの間の検定の脱却に関する書き込みは、 私が荒らすことを目的に行ったものではないのでご了解ください。 ただ、729や730あたりは明らかに自分の書き込みではないので、 誰かが便乗してこの質問を繰り返しているみたいですね。
736 :
132人目の素数さん :2009/05/16(土) 22:28:29
サンプルが大量に集まれば検定にはなんの力もなくなるね。 サンプルが少ない場合はAICなんかをもとに考えれば検定からの脱却も可能。。。なわけはない。
737 :
132人目の素数さん :2009/05/16(土) 22:41:57
あとーんす
738 :
132人目の素数さん :2009/05/17(日) 02:15:36
統計ソフトRを用いて、CUTを使い例えば体重の最大値と最小値を求める場合、どうすれば…?
740 :
132人目の素数さん :2009/05/18(月) 13:14:41
質問です。 多くの研究で2群または3群間の有意差を検定するわけですが,群間に有意差がないことを証明したい場合のサンプル数の決定はどうするのでしょうか?
最近丸投げ的な質問が増えたな。 こうこうこういう風に考えたけど、間違ってはいないか、とかこのようには考えられないのか、とか状況が具体的に分かり、かつ試行錯誤の形跡が見えるような質問なら、一緒に考えようという気にもなるけど…。
>>740 検定が何か分かってるか?
有意差がないことなんて証明できるわけがないだろ。
(同等性検定というのがあるが、あれも棄却するように工夫するだけ。)
743 :
132人目の素数さん :2009/05/19(火) 11:12:13
質問です 受験者数320000人 平均点600点 標準偏差100点 成績は正規分布している 但しN(0.1)に従うZはP(Z>2)=0.0228であり(Z>Z*)=0.0228となるZ>=0.58である 上位9万人は何点取ればいいか答えよ 上位は0.28というのは分かったんですが0.58はどう使うんですか?
>>743 口調が同じことから最近の丸投げ質問は殆ど君だと思うけど、
>>1 にもあるように、宿題はまずは自分で考えましょう。
PLEASE HELP ME ! 講義でダイヤモンド図の手書きが至上命題にされているのですが、 授業を聞いても一向に分からない。 そればかりか、図書館、書店を回って統計関連の本をさらってみても ダイヤモンド図に関する記述が一個もない。30冊はさらいましたが引っかかりすらしません。 もちネットにもそれに関する記述はありませんでした。 担当の教授に聞いても 「なんかの本に必ず書いてある。探しなさい」の一点張りでもうお手上げです。 ダイヤ図の使い方が書かれている書籍やページがあればどうか教えてください。
突然説明も無しに「ダイヤモンド図」を書け、と言われたわけではなくて、周辺情報があるんだろう? こっちはその授業を受けていないんだから、説明してくれないと分からないよ。 ちなみに鉄道のダイヤグラムのことを「ダイヤ図」ということはあるが、それかどうかは分からん。
748 :
132人目の素数さん :2009/05/20(水) 02:13:12
漸近理論難しい・・・
いやあ、なんといっても質問自体が >PLEASE HELP ME ! から始まってますからねぇ。 これはもう英語上等ウエルカムかと。
>>749 この程度は読め。
頭使え。
で終わりだな
英語なんか時間の無駄だろ
753 :
132人目の素数さん :2009/05/21(木) 08:20:27
>>740 ん、これ意外と難しい?
>>多くの研究で2群または3群間の有意差を検定するわけですが,群間に有意差がないことを証明したい場合のサンプル数の決定はどうするのでしょうか?
>>746 ダイヤ図という表現は初耳だぜ。
鉄板でも坂板でもバカニュでも見たことがない。
755 :
132人目の素数さん :2009/05/21(木) 12:20:26
経済学者と天気予報は信用するなって言うのは、時代を超えた真理だな。 統計学なんてよくよく吟味して、何が仮定に使われているかを考えないと 一般的にはとんでもない話にしかならない。
そういえば、マスコミの統計のデータの伝え方ってすごく曖昧だな。 何が何だかさっぱり分からない。
統計データ、と言えばそっちに詳しくない人間にとっては信憑性が高く見えるからな 恣意的に自分に有利なデータ設定できるのに
758 :
132人目の素数さん :2009/05/21(木) 12:36:45
ここ数年のアメリカ主導の「世界基準」とか言う嘘っぱちで今ひいひいしてるのに、 まだ、疑いもせず「資本主義」をいじくりまわして世界が皆で幸福になれるとか 思ってる脳みそがどうかしてる。 資本主義はベルリンの壁が崩壊した時点(共産主義が死んだ時点)でもう終わっているんだよ。 いいかげん目をさませ。 アングロサクソンの言うことなんか、全部「自分達の都合」に過ぎないんだよ。 あいつらが非難するテロリストやアラブ近辺のやつらと実質は何も変わりゃしないんだよ。
微妙にスレ違いな話で無駄にあげるな。
ちょと言ってみたかっただけです。めんご。
こんにちは 統計学の初心者です 多重比較に関して教えていただけないでしょうか Kruskal-Wallisなどのノンパラメトリックでの多重比較をする際に、どの群とどの群が有意に差がある などをみることはできないのでしょうか?そもそも多重比較とはどこかの群とどこかの群で 有意な差があるがそれがどれかはわからないということになるのですか?
763 :
132人目の素数さん :2009/05/21(木) 22:50:18
既出とは思うが‥‥ 東大出版の「統計学入門」がイミフなおれになにかわかりやすい本をオヌヌメしてくらさい!
>>761 簡単に言えば、全体として群間に有意差がないか検定したいときに群間の組み合わせごとに個別に平均値の差の検定を繰り返す場合、何もしないと全体として見れば有意水準が大きくなってしまう。
例えば1回の検定で棄却する確率が5%だとすると10回検定繰り返せば、いずれかの試行回数のとき棄却されてしまう確率は50%になってしまう。
そうではなく全体としての有意水準を5%に抑えたいときは工夫が必要になる。
それが多重比較の考え方。
Tukeyとかボンフェローニとか方法はたくさんある。
>>763 つ 「マンガでわかる統計学」
というのは半分本気、半分冗談だが、
その「統計学入門」は教養学部統計学教室編の3巻本のやつだよね?
あれは統計学入門のテキストにしては難しい部類だから(あくまで東大生にとってのの「入門」)、
他の入門的なテキストであればあれよりは易しいと思うよ。
できれば自分の専門と近い先生が書いたテキストがいいと思う。
767 :
132人目の素数さん :2009/05/22(金) 15:49:06
>>765 サンクス
なんにでもすがりたい状況だから、それも見てみる、ありがとう!
761です 762さん764さんどうもありがとうございました 参考にさせていただきました 統計学って本当にむずいです
769 :
132人目の素数さん :2009/05/22(金) 22:13:23
今質問しようとしたけど、分かりました 自己解決しました。 ありがとうございます 親切で、すばらしいスレッドですね
経営学部で統計学があるんですが、さっぱりわかりません 分かりやすい参考書あれば教えてください
誰かいないっすかね? 統計学の基礎がわかんないんで質問したいんですが……
>>773 統計というより中学レベルの算数じゃね?
あんまり言いたくないのだが、ここは腐っても数学板なんで、文系ゆとり学生の質問板ではないよ…。 また数板にも算数スレがあるならそちらに行くとよかろう。
776 :
132人目の素数さん :2009/05/27(水) 07:47:29
NHK高校講座 確率・統計の時間です
期末試験40点満点が平均点25点標準偏差10点 (1)100点満点に直すため各人の得点を2倍して20をたしたら、得点換算後の標準偏差は14.14なんちゃらであってますか?
780 :
132人目の素数さん :2009/05/29(金) 11:59:58
統計学(笑) 机上の空論でしょ?www 詐欺師専用学問でしょ?www 勉強してる人って恥ずかしいwww(///)
>>780 統計学会、応用統計学会、数学会統計分科会等での研究成果の発表に
期待しております。
いや、空論を否定するために、統計学が使われてるんだが、、、 そういう実際の役に立ってる以上、統計学は空論ではないよ。
Shapiro-Wilk の W 検定のコーディングがようやく終わりました。 結局、Rのソースからの移植になりました。んなもんで、公開できません。 Webで情報を検索しているときに、 「Shapiro-Wilk の W 検定は、標本数が増加すると正規性が保たれにくい傾向にある」 なるものを発見。平たく言うと 「(母集団が何にせよ、)サンプルサイズがでかいと、正規性を棄却される率高いよ」 て、ことですね。悲しいな。 KSはサンプルから統計情報を推定するとうまくないらしいし、 χ自乗は階級の取りかたが... g統計量も運用の情報少ないし、 んじゃ、サンプルサイズを10,33,100,333,1000,3333として、 10,000回づつ、回してみよう。 5000もやって見たかったのですが、時間かかり過ぎです。 結果は、また来週。 てか、すでにやったことのある人が居れば、電気代がエコなんですが...
784 :
132人目の素数さん :2009/05/31(日) 13:40:48
>>784 ロトが真に公正なら、統計学は当たりくじについて何も言えない
>>784 もし予測できるなら誰が教えてやるもんかw
788 :
132人目の素数さん :2009/05/31(日) 22:01:00
各標本の不偏分散を出して、それを平均したのを母集団の分散と推定する、 ってことであってますか?
789 :
132人目の素数さん :2009/05/31(日) 22:32:30
>>788 あってない。
推定値として間違いではないけど、母分散の推定効率が悪い。
つまり、もっと良い推定の仕方があるということ。
何が良いかは、想定しているモデルによりけり。
790 :
788 :2009/06/01(月) 05:14:27
>>785 ロトは競馬と同じ人気投票だから、
当選番号はランダムでも、不人気な番号を買えば期待値が上がる。
つまり売り上げた番号の統計を使えば有利になる。
また、ロールオーバーの額と売り上げの多寡によって期待値は
変動する。
792 :
132人目の素数さん :2009/06/01(月) 09:36:57
単位もしくはスケールが違う2群の差(対応は有ったり無かったり)の場合も tとかマンホイットニーとウィルでいいんですか? 例えば、身長と座高の成長率の差とか、同一ビル内での電力使用量と在席者数とか
794 :
初心者です :2009/06/01(月) 14:59:07
自分は,統計的なことを学び始めた学生です。 でも今,どうしてもわからないことが出てきてしまって困っています。 2ちゃんねるには頭がいい人が多くいらっしゃると聞き, 質問させていただいた次第です。 答えでなくても構いません。ほんとにどう手をつけていいかわからず 困っています。どうか皆さんのお力を貸していただけないでしょうか? 問題は以下に載せます。 困っている問題 ・小標本から母集団の確率分布を作成する方法 具体的には,8月1日の平均気温の確率分布の推定を, 過去40年間の8月1日のデータを使って行いたいと考えています。 これは可能なのでしょうか?
>>793 一般にt検定は単位を揃えないといかん。順位和検定なら順位和を取るので、理論的には可能だ。
>>791 日本語が不自由な人なのかな?
>>784 は「ロト6の当選数字の予想は可能」かどうか尋ねてるんだよ。
>>794 いくら初心者でもマルチポストはいかんねえ。
798 :
初心者です :2009/06/01(月) 16:02:53
>>797 すみません。困っていたものでつい・・・
今後は気をつけます。
>>798 ていうかsageにしよう。
無駄にあげるなよ。
800 :
132人目の素数さん :2009/06/01(月) 17:14:13
日本統計学会に講演を申し込んで却下された人っていますか?
有限母集団からの非復元抽出(N個からn個を抽出) 有限修正を求めるところで Var(X|) ←Xバー 標本平均です =1/(n^2)・Var(ΣX_i) =1/(n^2)・{Σ[i=1,n]Var(X_i)+Σ[i≠j]Cov(X_i,X_j)} と書いてありましたが、最後の行の最後の項が Σ[i≠j]Cov(X_i,X_j)]=n(n-1)Cov(X_1,X_2) となっていますが、これはなぜでしょうか? お願いします
802 :
801 :2009/06/01(月) 21:48:23
自己解決しました
803 :
132人目の素数さん :2009/06/01(月) 23:17:03
>>740 >質問です。
>
>多くの研究で2群または3群間の有意差を検定するわけですが,
>群間に有意差がないことを証明したい場合のサンプル数の決定はどうするのでしょうか?
俺も答えが分からない。教えて下さい!
サンプルサイズの決め方と云う本に2群の場合が詳しく書いてあるよ
>>803 >>742 が回答しているが。
相関性の検定等を行うときなど、サンプル数が多いと、有意となるものが1,2つ含まれてくることがあるというのはある。
しかし証明という類のものではない。
質問者全般に言えるが、すぐ質問に飛びつかず、まず自分でじっくり考えろ。
分からないなら調べろ。
それでも分からないとき、書き込むのは構わないが、過去レスも一応チェックしろ。
806 :
132人目の素数さん :2009/06/02(火) 11:45:43
宜しくお願いします サイコロを最低何回位振れば1が出る確率(1/6)を証明出来るか教えてください
807 :
132人目の素数さん :2009/06/02(火) 11:49:48
すいません、連レスです ちなみに200枚のクジの内1枚だけ当たりがある抽選箱で1枚引いて当たる確率(1/200)で、 最低何回位クジ引きを試行すれば1/200の値に近づけるかも宜しくお願いします
>>806 大数の法則やモンテカルロ法を勉強しろ。
809 :
132人目の素数さん :2009/06/02(火) 14:54:56
>>805 調べて判らないから、書いてるんじゃね。
810 :
132人目の素数さん :2009/06/02(火) 16:20:03
>>808 疑問に思った事を質問するのに先にそれに関する勉強をしなければいけないとか、そんなに質問出来るまでに壁があるのか?
しかも「〜しろ」とか命令口調でさ。何様だ?
アンタこのスレ立てた本人か?
立てた本人ならスレのルールに
「統計学全く勉強した事がない人でも質問する前にはまず勉強を必ずする事。それでも分からけりゃ質問してもよい」
位、書いておいてくれ。
質問に対する回答が○○勉強しろ,なんでしょ. それを勉強すれば分かる,の婉曲表現.
812 :
132人目の素数さん :2009/06/02(火) 16:50:21
>>808 大体、質問するからにはある程度勉強位しているだろう。
多少は、勉強しているから、質問も出来るというもの。
もっと優しくしてやれ。人に優しくしたら、君に対し優しい人も増えるだろう。
813 :
132人目の素数さん :2009/06/02(火) 16:53:05
>>805 質問者全般に言えるが、すぐ質問に飛びつかず、まず自分でじっくり考えろ。
分からないなら調べろ。
それでも分からないとき、書き込むのは構わないが、過去レスも一応チェックしろ。
・・・と書いてあるが、じっくり考えていないとどうして判るの?霊能者?
過去スレもcheckしていないってどうして判るの?神様なの?
814 :
132人目の素数さん :2009/06/02(火) 16:55:00
815 :
132人目の素数さん :2009/06/02(火) 17:43:56
いや、だから質問する時は 勉強している事が前提となっている または 勉強して分からない事があった時に初めて質問出来る のはなぜだ?と聞いているんだが。 ふと思ったり、いろいろな事情で事をサクっと質問するのがそんなによくない事なのか?
816 :
132人目の素数さん :2009/06/02(火) 17:59:36
>>742 この人、初心者にも教えられない程度の知識しかないんじゃね。
初心者に教えるって大変だしな。
知識が本当にあるんなら、披露してみんさい。
817 :
132人目の素数さん :2009/06/02(火) 19:18:11
2週間前の発言にレスってw
↑チャットと勘違いしてるアホ(笑)
質問者がこんな横柄な態度では回答は期待できないよ。
回答が「○○を勉強しろ」という表現は以前からよく見られるが、〜しろは言い過ぎにしろ、
>>811 の通りだと認識してるけど。
回答者が一から十まで全部答えなきゃならない義理はないし、またそれだと勉強にならないでしょ。
自分は
>>1 じゃないけど、もうすぐ新スレだからスレタイに宿題丸投げ禁止に加えて相当程度勉強してから質問すること等の但書には賛成かな。
荒れるようなら別だけど。
初学者は全然いいと思うんだけど、中には数理統計とか以前に、高校以前の数学の基本が不充分な人もいて、そういう人は、専用スレが他にあるしね。
教えて君は但し書きなど読まない 真面目に勉強したら院卒程度じゃ質問できない 初学者か否かはいつ誰が判定するのか 数理統計以前の基本が不十分と言わざるを得ない
821 :
132人目の素数さん :2009/06/02(火) 22:09:04
>>819 ならば質問者に対して不平を言うのではなく、スレを立てた人に矛先を向けるんだな。
このスレタイは
統計学『なんでも』スレッド
と書いてある。おまけにルール等書かれていない。些細な質問であろうと、答えないのは貴様らの勝手だが
質問者を罵倒する権利
質問者にこうしろああしろと言う権利
は無い。
こっち側だって丁寧に聞いている奴がたくさんいる。スレマナーを違反していたり、荒らしたりしているわけではないのにそんな高飛車で偉そうな上から目線で言われる筋合いは無い。
822 :
132人目の素数さん :2009/06/02(火) 22:11:48
キミにはわからんよ。
825 :
132人目の素数さん :2009/06/02(火) 22:19:14
IDが出ないから、話が飛ぶような感じだなぁ。 とにかく、答えてあげるなら、親切に答えてあげなよ。 「小さな親切」って小学校の時習わなかった?
826 :
132人目の素数さん :2009/06/02(火) 22:20:45
何、この逆切れwwww
>>821 あんたが丁寧に回答してあげれば済む話じゃないの?
>>825 あんたが親切に回答してあげれば済む話じゃないの?
>>816 そう言われることを見越して同等性検定のことも書いておいたのだけど
同等性検定のことは大した知識のない人でも知っていることなんだね。
じゃあ自分で披露してね。
831 :
783 :2009/06/03(水) 02:33:28
レスないけど、約束なので、一応貼っておこう。 サンプルサイズを替えての結果。 他のもあるけど、Shapiro-Wilkの部分だけ 棄却できない 9530 9488 9505 9470 9472 9537 5% 374 404 398 417 443 375 1% 96 108 97 113 85 88 分割表で検定 カイ2乗 = 15.1126 P値 0.128009 chi(0.05,10) = 18.307 有意水準5%で帰無仮説を棄却できない と、なったので、サンプルサイズを変えても 「棄却する率は変わるとは言えない」 となりました。 統計のことなので、何回かやると、別のものが出るのは承知です。 では、さようなら。
832 :
132人目の素数さん :2009/06/03(水) 06:09:16
833 :
132人目の素数さん :2009/06/03(水) 11:24:50
C(X,Y)=E[(X-E(X))(Y-E(Y))] 上の式を使って C(X,Y)=E(X,Y)-E(X)E(Y) を、証明して下さい。 Σ抜きでお願いします。
>>833 みたいな質問が増えると回答者が「教科書読め」とか手荒くなるのが分かる気がするなあ…。
回答しないやつは「回答者」とは呼ばないよ。ただの雑音。
「教えて君」「教える君」というのは、 ネット上に存在する2種類の人種の人たちを示す揶揄された敬称のことであるが その影には「教えない君」という人種が多数いるの事にはあまり注目されていない。 しかし、実はその「教えない君」という人種が一番厄介かつ迷惑な存在だったりするのである。 そもそも荒れる原因というものは「教えない君」の、無秩序かつ、無神経なレスにある部分が 大多数なのだが、彼らの多くは、そういった感覚はどうやら持ち合わせていないようである。 第三者がそうした場面を見た場合に、誰に一番の非があるというのは 「教えない君」にあるというのが客観的事実であるのは明らかなのであるが、 彼らは認めようとしない。 表面上は、「教えない君」はネット上のルールや倫理や秩序などを叫ぶのであるが どうやら真相は、現実社会において蔑まれる存在である「教えない君」の 鬱憤晴らしのようである。 上記でそういった悲哀のレスを付けた人たちは、勇気を持って自らの弱さと過ちを認め 反省しなければならない。 それが、キミたちニートの人間的に成長できる数少ないチャンスなのである。
>>835 回答者が感じていることだよ。匿名だから分からないだろうが。
どんな教科書に載っているようなことは、実際に自分の目で見た方が理解が深まるし、勉強にもなる。だから「○○を勉強しろ」や「教科書読め」もヤジではなく回答の一なのだ。
もっと言えば、前の方で初学者か否かの判定云々の話があったが、質問の内容で大体のレベルは分かる。また意図が掴みにくい質問や写し間違い等もしばしば見受けられる。これは非常に判断に迷う。
もちろん回答するというより一緒に考えようと思わせるような質問もある。かなり前だがGIG分布に関する質問や釣り鐘型分布の一般的性質に関する質問は、ためになった。
「○○を勉強しろ」は無知を隠すための言いっぱなしに使われることのほうが多いからねえ
例えば
>>808 とか
もっとも質問者がそういう雑音を無視できればいいだけのことだが
質問に回答するから荒れる。 質問はスルーすればよい。
>>838 >>808 を書いたのは俺だ。
無知と言われればまだ勉強不足の面は多々あるが、煽りとかではないぞ。
大数の法則やモンテカルロ法を勉強しろと言うのが、そんなに的外れだったか?
近似精度の問題だから的外れではないだろうと思うが。
近似精度の問題ではないとしたら、サイコロの全ての面が出る確率が同様に確からしいとかサイコロは歪んでいないとか条件が必要になってくる。 大体回答して無知だの何だのと罵倒されたんじゃたまったもんじゃないな。 用語を挙げるだけでも検索のヒントになるというのに…。
素朴な質問 確率統計学に博識な皆さんは、ラスベガスや株やらで勝ちまくって、 今頃億万長者になって豪遊してるはずなのに、 何でこんなスレにいるんですか?
統計的に見てその仮説が支持されないことは明らか
>>840-841 ごめんよ。
大数の法則やMC法が
>>806 に役立つかは疑問で、煽りかと思ってしまった。
>>842 確率統計学を学ぶと、ラスベガスで豪遊すると破産することに気づくよ!
大数の法則によってねw
日本語を読めない人かな?
>>842 はラスベガスで豪遊なんて書いてないんだけど。
>>832 回答になっている部分もあるけどδとβを定めればOKという誤った部分もある。
(データが多い場合、棄却されなければ同等という方法はやはり使えない。
上の方のURLに同等性検定の話が少しだけあるけど本を見ろってなってるな。)
>>846 空気を読めない人かな?
質問自体がネタなのに何つまんねーこと言ってんだか
はいはい、逆切れ逆切れwww
>>842 釣りにアレだが、よく似たことは経済学板等で経済学・金融工学批判に絡めて主張されている。
理論上の確率値や期待値を算出することと意思決定は分けて考えた方がよい。
例えば株価が上がる確率が常に5%や95%なら誰も意思決定に迷いはしない。
だが30%やら60%やら微妙な場合、それが分かったからといって、投資するか否かは人間の気質によるしかない。
不確実性、運だけは人間が最後に越えられない壁なんだよ。
ある程度はコントロールできても完全にコントロールすることは不可能。
>>845 「大数の法則」から二項分布や標準誤差なんて基本的なものが自然に出てくる人なら
>>808 は煽りじゃないと判るもんなんだけどね
n,p,qか?
>>851 その話ならせめて中心極限定理だろう。
そもそも
>>806 は「二項分布の母比率の検定」の話をしたいんじゃないか?
だとすれば普通に、教科書の該当部分を読め、で良いと思うが。
大数の法則からなんて遠すぎる。
中心極限定理の方が遠くない?
エスパー対決にはついていけないな
何せよ質問者の意図、情報が不明瞭である以上、回答も限界がある。 まあ毎度のことだが。
858 :
132人目の素数さん :2009/06/04(木) 13:09:44
>>837 あのな、勘違いしている回答者側に一つ言いたい
それこそ
>教科書読め
だの
>勉強しろ
はっきり言って質問者らに対してそういった発言は
【余計なおせっかい】
質問している奴らの為を思ってだとか、そんな事をいちいち回答者が考える必要は全くない。質問者の親でもなけりゃ教育者でもないんだから。
答えたくなけりゃスルーすれば済む話。
純粋に解答しようと思った人だっているだろうのに、そんな事先に書かれてたらレスしにくいと感じる人もいるかもしれないとか思わないか?
別にさ、多数の質問レスで板が機能しなくなるとかないんだし、板内での質問数とかも決まってるわけじゃないんだから気楽にレスさせたらいいんじゃないのか?
逆に質問者側に言える事は、質問したレスに対して解答レスが無くても執拗にお願いしたり、逆ギレなどしてはいけない。解答があるまでじっと待つのが最低限質問した側のマナーだと思う。
質問側も回答側も上記をやればシンプルなスッキリしたスレになると思うけど。
俺は回答側。
>>858 中立装っていてもお前のレスはどう見ても質問君にして見えんのだが。
日本語読めてるか?
>>837 はただ勉強しろや教科書読めという煽りではなく、「どんな教科書にも載っているようなことだから教科書読め(読んだ方が理解が深まる)」、「○○(具体的な名称)を勉強しろ」という「回答」のことを言っている。
そもそも質問に答えるという行為自体が、質問者の「ための」行為であるということを忘れるな。
単なる煽りか回答かは見る人が見れば大体分かるもの。
いい加減しつこいぜ。
”ヒント君”は”悪”であり親切心や優しさはないというのかな? ”教えて様”の為にちゃんとした回答を書きなさい。 その気がなければスルーしなさいと要求するのはいい事? 回答者は質問者の親でもなけりゃ教育者でもなく 赤の他人なんだから、甘えるのは悪い事じゃないのかな?
ちゃんとした回答書きたくても、ちゃんとした質問じゃない場合も多いから、想像とかで補う場合もあるからね。
862 :
132人目の素数さん :2009/06/04(木) 15:04:04
>>860 なぜそういう偏って歪んだ風にしか読み取れないんだろうな
質問したければ気楽にする。回答者は解答したい人がレス。解答したくないならスルー。質問者は解答来なくてもせがまず待つ。
たったこれだけのシンプルな事を言っているだけなんだが。
質問はスルー 回答禁止 でお願いします。
866 :
132人目の素数さん :2009/06/04(木) 15:35:58
>>859 こそ俺の言っている事が分かっていない
>「どんな教科書にも載っているようなことだから教科書読め(読んだ方が理解が深まる)」「○○(具体的な名称)を勉強しろ」という「回答」
が回答者の怠慢だと言ってるんだよ。
俺がもし
>>837 なら
統計学勉強経験は?教科書とかあるの知ってる?
例えば「○○の本」てやつだけど。本屋に売ってるからその本なら質問の内容の答え載ってるからそれ見てみて分からなかったら教えるけど。
とレスするけど。質問者がどういう状況で聞いてるのか分からないんでな。
ま、俺ならそんな事いちいち質問者にさせようとかは思わないんで気が向いた時にさらっと解答するけどな。
解答を理解するかしないかは回答者次第。それを踏まえてココにわざわざ質問しに来てんだからな。
いまいち理解してくれなくてさらに質問が来たらさらにレスしたり、それならば「〜本があるけど見てみたら?」てレスするかな。
ま、回答しよかなと思った人に対してだから基本は静観だけど。
ま、静観より教科書読めの方がシカトよりも断然親切になるのかな、あんたらの意見だと。
867 :
132人目の素数さん :2009/06/04(木) 15:39:17
クソ粘着にウンザリだ。
次スレのテンプレには
>>865 を入れようぜ。
>>862 それは、
> 812 132人目の素数さん 2009/06/02(火) 16:50:21
>
>>808 > 大体、質問するからにはある程度勉強位しているだろう。
> 多少は、勉強しているから、質問も出来るというもの。
> もっと優しくしてやれ。人に優しくしたら、君に対し優しい人も増えるだろう。
> 825 132人目の素数さん 2009/06/02(火) 22:19:14
> IDが出ないから、話が飛ぶような感じだなぁ。
> とにかく、答えてあげるなら、親切に答えてあげなよ。
> 「小さな親切」って小学校の時習わなかった?
こんなレスもあったからだよ。
それよりも、どうして君は質問者に答えてあげないの?
余計な事に口を出すより質問者に答えてあげてよ。
>質問している奴らの為を思ってだとか、そんな事をいちいち回答者が考える必要は全くない。質問者の親でもなけりゃ教育者でもないんだから。
とか言ってるけど
>俺がもし
>>837 なら
>統計学勉強経験は?教科書とかあるの知ってる?
>例えば「○○の本」てやつだけど。本屋に売ってるからその本なら質問の内容の答え載ってるからそれ見てみて分からなかったら教えるけど。
それも親や教師的に質問してる奴らのためって態度じゃんw
結局やさしくしろって言いたいだけなんだな
>>870 まさにそうだよ。
>>866 みたいな逆ギレした粘着質問君にはうんざりだ…。
こいつ多分いつも教えて君で、たまたま何回か回答したことがあるくらいで回答側とか言ってるだけの教えて君だろうけど…。
せっかく良スレだったのに、質問者に勉強を促すレスや教科書読めとかのレスがあったくらいで(それ自体珍しくなく以前からあるし、数板の他の質問スレでもよく見られる光景)やれきちんと回答しろだの、ヒントは要らねーから完全解答以外はスルーしろだの、不親切だの、傲慢だのと。
スレ自体が質問者のためにあるようなもんだが、もう新スレ不要になるかもな。
しつこすぎて、いい加減イラつくから俺も言わせてもらうけど、数VCとかの高校数学の基礎的な素養もないような奴は質問すんじゃねーよ。
入門書に書いてあるレベルの厳密性なら大学教養レベル、最低限高校数学の基礎が出来ていれば、最低限の理解は可能だからな。統計手法のやり方だけ手っ取り早く誰かに聞こうなんて虫が良すぎる。
質問の前に高校数学からやり直せ。
これは煽りだけじゃないぞ。
ちょっと感情的になりすぎて
>>871 は荒らし同然の言い方になった。
しつこい質問者に対して言い返しただけだが、雑な言い方で気を悪くした人がいればすまない。
873 :
132人目の素数さん :2009/06/04(木) 17:49:11
理数系の人達って、自分で頭が良いと自信があるからなのかは分からないが、人を見下している傾向にあるよな。 たとえ、冷静な大人なレスの文章1つとってもよく分かる。 あぁ、このレスの人文系だな、この人は理系だなって。
874 :
132人目の素数さん :2009/06/04(木) 17:54:39
相手の態度次第だろ
という事は、理系は全部が傲慢なアホっちゅう事ですか
876 :
132人目の素数さん :2009/06/04(木) 18:46:02
こういうたちの悪いのが理系によくいる傾向。 1の文章を2にも3にもする傾向にあるよな ああ、ごめんごめん、何も君が理系だと断定しているわけじゃないんだ、あくまで傾向だからね、け・い・こ・う。 ひ・や・く・ぱ・あ・せ・ん・と と言ってるわけじゃないからね。
俺は正しい!俺に反論する奴は性質が悪い!
そしたら、どういう奴が性質がエエんですか?
理文は関係なく、教えて、クレクレが ググれと言われる→逆切れする→叩かれる、みたいなパターンだ。 DQNが集まるスレでもこうなるだろ。
>>876 統計関連のスレは他の数学の分野と違って
文系も只のギャンブルマニアも多いって覚えておくように
881 :
132人目の素数さん :2009/06/04(木) 20:59:56
>>880 そーじゃなくて、なんて言うのかな、
>>876 ←こいつが言いたいのは理系を専攻してた、文系を勉強してた、そういう外見的なもんじゃなく、理系的発想の奴みたいな考え方っつーかな、なんかそんな感じだ。
俺のイメージは文系的な奴は感情が直線的で爆発するタイプで理系的な奴は一線おいて、高めの位置から感情抑えて言う感じ。
偏見?w
ま、そんな俺は自称文系型w
882 :
132人目の素数さん :2009/06/04(木) 21:07:54
文系型=単純
>>873 ,
>>876 ,
>>881 なんだかんだで理系も文系も見下して馬鹿にしてるよなw
どっちも論理的に考える所は大差ないし
理詰めなのは理系だけじゃないからw
理系の人だけが「理詰め」で頭がエエという考え方は、明らかに傲慢ですな
変態猫バカのくせにまともな事言うじゃねえか!
>>842 >確率統計学に博識な皆さんは、
博打で勝つには、親をはるしかないことを知ってます。
887 :
132人目の素数さん :2009/06/04(木) 22:59:33
1/2の確率で2 1/4の確率で3 1/8の確率で4 ・・・・・ 1/n^2の確率でn+1の場合の期待値を教えてください。
間違えた 1/(2^n)です。
890 :
888 :2009/06/04(木) 23:20:49
過疎っているようなで取り消します。
1/8の確率で[4] ←この4って何?
数学板の書き込みで7分で過疎って言われたよ…
質問はスルーでお願いします。
.
895 :
132人目の素数さん :2009/06/05(金) 15:40:34
統計学する奴は 〇引きこもり 〇元イジめられっ子 〇社会不適合者 ばっかりだ。
そんなら純粋数学する奴は?
〇引きこもり 〇現役イジめられっ子 〇社会不適合者
>>896 この板では応用を見下してるやつが多い感じだな。
あと意外に言葉にこだわる奴も結構見る。言葉にこだわる輩は法学部にはやたらに多いんだけど。
言葉にこだわる輩は応用ではあんまり見ない。数式というか式変形にはこだわるけど。
なるほどねぇ。猫は統計学も含めて応用系は勉強した事がないんですが、お互いに 「相手を見下す」というのは非常にいけませんな。但しお互いに「何が、そして何処が 重要なのかが理解出来ない」というのは実情なんじゃないでしょうか。まあ純粋数学 は、その性格上とか記述上、「言葉に拘る」様に見えるのかも知れませんが、実はそ うでもなくて「感覚」が非常に大事だと思いますね。ただ、これを理解して貰うのは結構 難しいのですが。 もし統計学が「式変形に拘る」とすれば、猫が知る純粋数学は「構造に拘る」と考えて います。尤も「応用と純粋の区別」というのは全く意味が無く、研究者個人のレベルで は、各人がどの部分をカバーするかは「その人の自由」と認識しています。
>>ねこ そうだね。応用や純粋というのも便宜的なもんだからね。 明確に定義されてるわけじゃない。
>>899 構造にこだわる、か。なるほどね…。応用系だとそこはあまりこだわらないかな、いやあえてこだわらないようにしているのかもしれないが。
例えば線型空間の公理を突き詰めていくということよりも、いろいろな行列計算をすることの方に力点が置かれるのかもしれない。
応用系だと、まあ分野によるところがかなり大きいが、概して、数論、集合論、位相、多様体、微分幾何辺りは手薄になりやすい。
逆に言えば、学部教養でやるような微分積分、微分方程式、線形代数、確率統計のいろはが修得されていれば大概の応用分野には応用が利くという話。数理統計はその筆頭かな。
勿論深くやろうとすれば全然足りないけどね。
そんでも数理統計学から来た何とか幾何という名前でしたっけ、微分幾何の話 は聞いた事がありますよ。猫でも過去に「ちょっと勉強しようか」なんて気を起こ して解説記事だけ覗いた事がありますが、ちゃんと理解もせずに其処で終わっ てしまいましたな。 それに加えてニューラルネットに関係して数理統計学だという話も聞きかじりは したんですが、まあグレプナーって事(要は広中の標準基底)程度しか知りませ んよ。 まあ「いろいろとある」のかも知りませんが、お互いに「勉強不足」なんでしょうかねぇ
>>902 一般化逆行列に関連する議論は数理統計から線形代数学に波及した一例としてよく挙げられるね。
大部分は線形代数学の幾何的知識が数理統計に応用されているんだけど、逆に数理統計が元になることもあるというか、インタラクティブな関係もありうるんだろうね。
コンジョイント分析で、3水準×3+2水準×1の直交表を作りたく 調べたところL18の直交表を用いればよさそうなんですが その割り付けをどう割り付ければよいのかわからなく悩んでいます。 どなたか親切な方・・教えてくださいお願いしますorz
荒れるから質問はスルー
教えない君は黙ってろ
さっそく荒らしか…
>>904 L18は混合系直交表なので交互作用は明確に他の列に出ないため割付は自由。
しかし、3水準の部分は後ろの方の列から使った方が互いの影響が均等に近くよいと言われている。
>>908 ありがとうございます!
交互作用は出ないんですね。
では3水準は6,7,8列目を用いたいと思います。
繰り返しどうもありがとうございました!
入門書を読み終えた俺は、統計学が何たるかわかった 95%信頼区間 犯人は20〜30代または40〜50代、もしくは50歳以上
10代の見積もりが甘すぎないか?
>>909 交互作用が出ない訳じゃないよ。
交互作用が特定の列に出ないだけだよ。
どうせ特定の列に出ないなら均等だとよいんだけど
そうでもないようで後ろの列の方がまだ均等に近いらしい
ということだよ。
統計の問題でわからないのがあるので、教えてください。 サイコロをN回振り、偶数が出れば+、奇数ならば-の値として加算し、Mとする。 各目の出現確率が等しいとき、Mの分散 ______ (ΔM)^2 を求めよ。 答えには (139/12)N とあるのですが、計算方法がわかりません。 よろしくお願いします。
(139/12)N?
>>914 はい、答えにはそう書いてあります。
139N/12 の方がわかりやすかったでしょうか?
916 :
132人目の素数さん :2009/06/11(木) 20:55:58
閉区間[a,b]上で定義された二つの確率密度関数f(x),g(x)が与えられたとします。 (f(x),g(x)はともに[a,b]上で連続かつbbdでf(x) > 0) このとき、二つの密度関数の比 g(x)/f(x)を区間[a,b]で積分した値と、 値(b-a)の大小関係はどうなるでしょうか。等号成立条件はすべてのxで f(x)=g(x)だというのは解るのですが、常に大(小)なのか良くわかりません。
>>916 大小関係が一般化できるのかどうか計算が簡便な一様分布で実験してみたら?
>>913 M=(179/12)Nと思ったのですが…違うのかな?
成り立たないと×nが答えにならないんじゃ? それより139とか12って数字は何? 139÷12がn=1の分散って事?
>>918 N=1,2…と実験したら成り立ちそうなんだけど、具体的に実験して数学的帰納法で証明というやり方しかないのかなあ…?
>>920 139じゃなくて179ね。解答が間違ってる。
シミュレーションしてみたが結果は
>>918 に近似するな
ややこしいなw 正解は179/12でいいが質問者はその計算方法じゃなくどうやって証明すんのか教えろってことなのか?
>サイコロを最低何回位振れば1が出る確率(1/6)を証明出来るか教えてください >ちなみに200枚のクジの内1枚だけ当たりがある抽選箱で1枚引いて当たる確率(1/200)で、 >最低何回位クジ引きを試行すれば1/200の値に近づけるかも宜しくお願いします こんな質問は叩くが、他の単純な質問には回答する。この差は何?
>>928 それは質問自体が叩かれたというより回答者を罵倒したりした質問者が叩かれたんだろう。
>>913 のものです
巻き添え規制されたのでケータイで失礼します
やはりそうですよね!
計算したら、179N/12 になったので、何が足りないのかわからなかったんですが
解答が間違っているんですね
計算方法ですが、
_
平均:M =(2+4+6-1-3-5)N/6=N/2
____
分散:(ΔM)^2 =[{(1/2-2)^2+(1/2-4)^2+(1/2-6)^2}1/6+
{(1/2+1)^2+(1/2+3)^2+(1/2+5)^2}1/6]N=179N/12
で合ってるでしょうか?
>>930 N=1の時はそれでよいが、証明となると骨が折れそうだな…
問題文にNについて何も書かれてないのと、証明ではなくただ求めよというだけなので おそらく大丈夫だと思います! みなさん、ありがとうございました!
>>930 証明だけど、
確率変数X_1,X_2…,X_nがiidのとき
分散V(X_1+X_2+……+X_n)
=V(X_1)+V(X_2)+……+V(X_n)ということが使えないかな。
君はそう考えたんじゃないか?
こんにちは。 大学で教養科目として統計学をとったものなんですが、 以下の問題の答えが出なくて悩んでいます。 どなたか教えてください。 かなり初歩的な問題で申し訳ありません。 イ)P(A)=0.12 P(B)=0.02 P(A∩B)=0.38 ロ)P(A)=0.3 P(B)=0.2 P(A∩B)=0.2 ハ)P(A)=0.4 P(B)=0.3 P(A∩B)=0.1 の三つのうち、独立なものはどれか
935 :
132人目の素数さん :2009/06/12(金) 11:49:02
>>917 分母が一様分布の時はヘルダーの不等式にて大なりということが証明できます。
一般的には何とも言えませんね。。。。大なりの気がします。
証明方法を知りたいですね。
統計の専門家でも直感的に解る命題であるのかどうか
ということも聞きたいです。
936 :
935 :2009/06/12(金) 11:50:45
失礼しました。935=916です。
937 :
916 :2009/06/12(金) 12:11:41
再び失礼します。分母が一様分布の場合は等号が成り立ちますね。
>>916 >>935 最初勘違いしていたが、f(x),g(y)はともに[a,b]で積分して1になる確率密度ということね。
k最近傍法についてお聞きしたいです AグループとBグループでk最近傍法を行う場合、サンプル数がAとBで違いがある場合どうしてもサンプル数が多いほうに有利な結果がでてしまうと思います そこでサンプル数の違いに基づき重みをつけてk最近傍を行いたいのですが、一般的にこのような場合どのように重みをつけるのですか ちなみに自分の実験データのサンプル数は A:62 B:41 です。 長文すみません
>>934 悩んだり質問する前に、教科書を開いて独立性の定義見ろよ。
しかしイ)は無茶苦茶だな。そもそも確率の定義を満たしてない数値・・・
あと「独立なもの無し」も解答の選択肢にあるかもね
XXを勉強しろ、とか、XXの教科書読め、って 意味のない回答だな。 教科書一から勉強するの面倒だからこういうとこで質問するのにさ。 「俺だってここまで来るのに教科書読んで勉強したんだからお前もそうしろ」 って内容を言い換えただけじゃんね。 もったいぶらずにサクッと教える気がないなら、 黙ってろ。無駄なレスすんな。
またおまえか
質問・回答は禁止です。
また例の荒らしか…。 どうしようもないクズだなこいつは。
教科書読むのすら面倒くさがってるようなヤツは勉強なんかしたって無駄だから止めちまいな。 またそんなヤツには誰も教えないよ。 質問の内容やレベル以前の問題。
>>940 ぐらいまで限定されていれば「XX読め」もそれなりに有意義だろう。
XXの範囲が広ければ何の役にも立たない。
的外れな回答かもしれないから、真に受けて調べるのは時間の無駄だからな。
>>948 時間の無駄かもしれないことをさせるなら
回答者が要約して書いたほうがよっぽど有意義w
こんなんじゃもう誰も回答せんな…。 質問も回答も禁止でいいよ。 まあどうせ質問者は但書あっても読みはしないで質問するんだろうけど。
951 :
132人目の素数さん :2009/06/15(月) 13:17:43
>940 申し訳ないです。定義に基づいてやったつもりなんですが… あと教科書とかないのに先生の説明がひどいんで四苦八苦なんです。むしろ日本語がひどいんで四苦八苦なんです。 ありがとうございました。 がんばります。
何をやったの?
953 :
132人目の素数さん :2009/06/15(月) 13:30:48
951ですが952は私に対してですか? もしそうなら定義 P(A)=P(A|B) P(B)=P(B|A) P(A∩B)=P(A)P(B) にそれぞれ当てはめて計算したんですが、成り立たなかったんです。 定義の使い方が間違ってるんでしょうか?
何が成り立たなかったの?
956 :
132人目の素数さん :2009/06/15(月) 13:34:20
=が、ですかね? なんか私のせいで荒れてしまったようで本当に申し訳ありません。
君が何をいってるのか全然わからん もう来ないでね
958 :
132人目の素数さん :2009/06/15(月) 14:29:54
>>951 統計学の入門講義で教科書なしは惨いね。
選択肢に正解が無いのは、何かが原因で数値が間違ってるんでない?
960 :
132人目の素数さん :2009/06/15(月) 20:06:35
お聞きしたいのですが, 観測値を基に,分布を仮定せずに確率分布を推定する方法はありますか? 僕が知っている限りだと, カーネル密度推定 MCMC 何ですが他にありましたら是非教えてください!
961 :
132人目の素数さん :2009/06/15(月) 20:25:17
質問です 何人かの人間の口腔内pHの変化を経時的に追っていく 研究を模索しています。 口をうがいする液によってpHの変化に差はあるのかどうかを 見たいのです。 この場合、同一人物でのうがい液の変化によるpHの差は 簡単に比較出来ると思うのですが、人物もうがい液も違う場合、 比較出来るのでしょうか? 例えばAさんがお茶でうがいをした場合と、Bさんが水 でうがいをした場合など。 某大学教授に聞いたら「多変量解析かな?」と言われたのですが 具体的にはどのような分析手法を採るのでしょうか?
962 :
132人目の素数さん :2009/06/15(月) 20:43:16
963 :
132人目の素数さん :2009/06/15(月) 23:40:47
一般化線形モデルについて学習しています。 リンク関数の一覧が載っている書籍やWebサイトを知っている方がいましたら 教えていただけないでしょうか?
二百十日。
ほんと質問者って空気読まないな。 スレ埋めにはなるけど。
質問をする事自体は悪くないと思いますが
悪いって何?
ほんと教えない君>965>967って空気読まないな。
”逆ギレ”は悪い。
質問および回答は禁止です。
教えない君は教えなくてもいいから 黙 っ て ろ いちいちしゃしゃり出てくんな。姑ごっこ?w 誰もお前に期待していないから。とっとと消えろ。
質問および回答は禁止です。
二百十一日。
いい加減この荒らしはアク禁にならないかな…。 こういうのは大体低レベルのバカに決まってるんだが。 数理統計や応用数学どころか高校数学のいろはも分かってない輩なんだろうな…。そのくせ他人に聞くだけで何の努力もしない。
>>971 お前のせいで回答しない人が増えたことにすら気付かないとは…。
本当にリアルバカだな。
↑アホの脳内妄想はいりません。 統計学的に理論的なレスをお願いします。
> お前のせいで回答しない人が増えた ねえねえ、統計学スレで脳内妄想垂れ流して恥ずかしくないの?www データ示してよ(笑)
教えろ君への苦言や質問禁止などのレスを 自分以外の者も書いてると確認しての発言じゃないか?
>>930 期待値が「加算した値」なので、nによって分散が変わる方がおかしい。
データが与えられたら結論が一意に定まると思ってる人って、文系だと思う。
>>975 スレ内でのいざこざ程度ではアク禁にはならない
>>981 文系でも正しく理解してる人はいる。
理系でも統計学や確率論がいまいちって人もいる。
理文より、統計や統計の用語が安易に使われたり、
勉強してなくても理解した気になる人が多いのが問題。
統計学は数学の中でも簡単そうだし、ただの集計=統計と思われてるのが問題だよ。
>>981 > データが与えられたら結論が一意に定まると思ってる
自己紹介乙。そんな奴いないから。
いるだろ
二百十二日。
スレ内荒らしとはいえ
>>977-978 みたいなクズはアク禁の可能性もあるぜ。
明らかに粘着荒らしだと分かる書き込みだからな。
てめえの頭で考えられない教えて君にありがちなソース房みたいだし。
少なくとも俺はこれまで結構回答してきたけど(匿名だから分からんだろうが)、こいつの低レベルな荒らしのせいで、他の人に回答禁止と言われるまでもなく、その気がなくなってる。
まあ高校数学の基本もできない三流大のカスの荒らしに反応してはいけないんだろうけど、スレ埋めもあるしね。
はっきり言えば力関係において質問者より回答者のが立場が上なんだから、多少苦言呈されて逆切れするようなら最初から質問しなきゃいい。
悔しいんなら人に聞かなくていいくらい自分で勉強すればいいだけなのにな。
俺個人は質問自体は悪いこととは思わないが、明らかに横柄すぎる。
実力ないんだから謙虚にしてろ。
>>984 どんな応用数学の分野にもいえることだけど、浅くやれば簡単そうに思えるし、深く突き詰めて考えれば難解かつ広範囲に広がる。
統計に限らず応用系自体が簡単そうに見えるというのは、特に純粋数学の愛好家からすればあるかもしれない。
>>989 > アク禁の可能性もあるぜ。
ないない。アク禁の条件はかなり厳しい。
>>989 何コイツ(笑)
ファビョリ過ぎだろwww
>>989 は高校国語の基本もできてないようだがなw
これが発狂というものか
回答者の分が悪いな。 そろそろサイドチェンジしようぜ。 よくわかってる奴が質問して、全然わかってない奴が回答するようにしようぜ。 これまで回答者に対して文句をつけてた質問者は、これからは回答する側なんだから お手本になるような回答を頼むぜ。よろしくな!
ume
>>994 質問くんがな。
>>995 ここでチープな回答者煽りばかりやってる連中にできるわけないだろ。
wばかり使う低俗なきちがいだし。
質問内容もそうだがレスでも大体のレベルは分かるからな。
「全然わかってない奴」のふりをした「よくわかってる奴」のネタが始まる
うめぇ
1001 :
1001 :
Over 1000 Thread このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。