統計学なんでもスレッド　13

448 ：１３２人目の素数さん：2011/09/28(水) 15:34:34.01

「パラメータを推定する」とよくありますが、一体どういうことですか？
簡単言うと何をやってるんでしょうか？そして、なぜ推定できるんですか？
どれだけ説明を読んでも全く理解できません。どなたか教えてくださいませんか？

449 ：１３２人目の素数さん：2011/09/28(水) 15:39:26.18

まあLevenberg-Marquardtだな　よく使うのは

450 ：１３２人目の素数さん：2011/09/28(水) 16:02:37.27

>>448
>どれだけ説明を読んでも全く理解できません。どなたか教えてくださいませんか？
例えば、私がここで説明しても、>>448は「説明を読んでも全く理解できません。」と言うのだろうと推定される。

451 ：１３２人目の素数さん：2011/09/28(水) 17:53:08.09

分からん

452 ：【15.9m】：2011/09/28(水) 20:15:13.32

>>448
ちょっとだけ説明しよう。
以下のＸは標本平均、σは標本平均の標準偏差（ただし母分散はわかってる）
だとする。

μ-ｍσ＜Ｘ＜μ+ｍσ
から
Ｘ-ｍσ＜μ＜Ｘ+ｍσ
へ、発想を転換する。

後は考えろ。

453 ：１３２人目の素数さん：2011/09/28(水) 20:17:42.34

>>448
んと、例えばテレビの視聴率を知りたいとして、
関東圏 2011/09/28 午後8時の日テレ視聴率を p （0≦p≦1）とする。
この p が知りたい「パラメータ（母数）」。

視聴率調査では、関東の全世帯から６００世帯を無作為に抽出して、
調査機をテレビに設置する。
2011/09/28 午後7時に送られて来たデータの60件が日テレを視聴してれば、
60 / 600 = 10% が知りたいパラメータ p の「推定値」になる。

世帯を無作為に選んでいるので、確率法則によって、この推定値の
誤差を見積もることも可能。（一般に抽出世帯数が多いほど誤差は小さくなる）

454 ：453 訂正：2011/09/28(水) 20:20:41.89

×2011/09/28 午後7時　○2011/09/28 午後8時

455 ：１３２人目の素数さん：2011/09/28(水) 21:16:38.36

>>449-454
みなさん本当にありがとう
>>450に関しては「その通り」としか言えません

>>452
μとmは例えば何ですか？

>>453
標本抽出した後に、さらに標本を抽出しても解けますよ、ということですか？
確率って色んな事象でそれぞれ違うものだと思ってたんですが、
なぜ確率法則で推定できるんですか？
あらかじめ、これはこの分布（正規分布とか？）だ！と決めてしまうということですか？

ごめんなさい、質問ばっかりになってしまいました

456 ：【13.3m】：2011/09/28(水) 21:31:44.31

>455
その質問をするところを見ると、統計の本を読んでないのがわかる。

説明がわからなくても、μについてなんですかと質問することは、
統計の本を読んでいればあり得ない。

とりあえず、「どれだけ説明を読んでも全く理解できません」てのは
何に書いてある説明を読んだのか教えて。

457 ：１３２人目の素数さん：2011/09/28(水) 21:36:19.66

>>453
統計学のど素人なのですが、教えてください。

> 一般に抽出世帯数が多いほど誤差は小さくなる

あくまでも、①各世帯のデータが独立であること（ある世帯の視聴結果が他の世帯の視聴結果に一切影響しないこと）、
②無作為抽出であること、の２つ両方の条件が満たされることが大前提ですよね？

458 ：１３２人目の素数さん：2011/09/28(水) 21:50:58.65

>>456
今は家に帰って来てしまったので本の名前は分かりません
μは平均だと思ってたんですが、違うようです

信じられないんだと思いますが、本は何冊も読んでます
でもその本を理解できないんです
そのレベルの頭なんです
正直、>>452の文字の意味が分かったとしても、多分何を言いたいのかは分からないと思います

459 ：１３２人目の素数さん：2011/09/28(水) 23:50:10.38

>>457
＞②無作為抽出であること、

それは大前提。

＞①各世帯のデータが独立であること（ある世帯の視聴結果が他の世帯の視聴結果に一切影響しないこと）、

こちらは無関係。また母集団においては「独立」という概念もないです。
というか、社会的な特性なら、口コミや世代・職業・性別・地域文化など、
母集団のメンバー間に何らかの影響関係が存在するのが普通です。
また身長などの身体特性にも、年齢・性別・国・民族などの共通関係があります。
したがって平均特性の異なる母集団層を、標本抽出時に区別することが
できる場合には、同じ無作為抽出でも、より高度で精度の高い比例抽出法や
層別抽出法などが使われます。（詳細は「標本調査法」を参照）
実験計画法や臨床テストのコントロールグループ構成なども同様

460 ：１３２人目の素数さん：2011/09/29(木) 00:07:59.42

>>455
＞なぜ確率法則で推定できるんですか？

下手な鉄砲でも数撃てば当たるから。

461 ：１３２人目の素数さん：2011/09/29(木) 00:47:01.36

神がいるから。

462 ：１３２人目の素数さん：2011/09/29(木) 01:29:22.46

>>459
丁寧に説明いただき、ありがとうございます。標本調査法について詳しく調べてみます。

ただ、無作為抽出によるパラメータ推定は、母集団の分布が分かっている場合に限る、
ということになると思うのですが、その認識は違いますでしょうか？

また、往々にしてビジネスでは、母集団そのものの分布が分からない、推定したい
（パラメータの平均・標準偏差、そもそも正規分布していると仮定してよいかどうかさえ分からない）、
ということがよくある（というか、ほとんど）と思います。

その場合、限られた標本（例：キャンペーン時のアンケート調査結果や一部の消費者の購買履歴）から
母集団に関する意味合いを導き出そうとした場合、統計学的にはどのようなアプローチが考えられるのでしょうか？

たくさん質問してすいません。私なりに統計学の入門書等を読みはじめ、ビジネスでの使い方等を
検討しているのですが、理解がなかなか進まないこともあり、いまひとつ、道筋が見えてこないのです・・・。

463 ：１３２人目の素数さん：2011/09/29(木) 02:35:22.23

母集団の分布が分からなくても、何回も抽出した標本の平均の分布は正規分布なんだな。
言ってる意味が分からないと思うが。

464 ：１３２人目の素数さん：2011/09/29(木) 19:53:15.22

>>463
で、何回も抽出した標本の平均の分布が正規分布に従うから、何なの？

465 ：１３２人目の素数さん：2011/09/29(木) 21:24:50.25

>>462
＞無作為抽出によるパラメータ推定は、母集団の分布が分かっている場合に限る、
＞ということになると思うのですが、その認識は違いますでしょうか？

違います。

例えば視聴率調査の場合だと、母集団分布は「観た割合 p」「観なかった割合 1-p」。
それは「分かって」いますし、その知識を前提にすることは何ら制約にはなりません。
そして未知な部分である p の値を、「無作為抽出した標本中の観た割合＝標本割合」
によって推定するわけです。

しかし身長などの数値型特性の場合には、結果の種類が多すぎるので
上のように各値の母集団割合を正確に推定するには大標本が必要になります。
しかし普通はそこまで全てを知る必要もないわけです。
そこで母集団の平均値 μ だけを考えて、どんな分布形なのかは未知とします。
それでも標本平均値から μ は簡単に推定可能です。

（続く）

466 ：465続：2011/09/29(木) 21:27:14.00

>>462
＞また、往々にしてビジネスでは、母集団そのものの分布が分からない、推定したい
＞（パラメータの平均・標準偏差、そもそも正規分布していると仮定してよいかどうかさえ分からない）、
＞ということがよくある（というか、ほとんど）と思います。

ビジネスに限らず、先の二項母集団のように単純な場合を除けば、
母集団分布形は未知であることが普通ですよ。
しかし多くの場合、推定精度の評価や検定などの統計処理には、よく「正規分布」が
使われます。それが誤解の元かと。しかしこれは「母集団分布に関する仮定」
なのではなく、単なる「簡便計算法」にすぎません。

つまり、（上に話が出ているように）標本のサイズが少し大きくなると、代表的な
推定値の確率分布は極めて正規分布に近くなります。そこで、より扱いやすい
正規分布を使って「確率の値を近似」する、という実際的なアプローチです。
Excelなどで正確な分布から求めた確率値と、正規分布を使った結果とを
比較してみれば、差は無視できるぐらい小さいことが確認できます。

このあたりの内容は注意事項とか枝道も多いので、サクッとしたレベルでの話ですが、、、

467 ：１３２人目の素数さん：2011/09/29(木) 22:57:55.58

ベンフォード分析の適用についてご教授下さい

「自然界の数値群」という適用条件の定義が分かりません
例えばフィボナッチ数列
Ａ(n)＝Ａ(n-1)＋Ａ(n-2)
に適用できて、等比数列
Ａ(n)＝Ａ(n-1)×10~(n-1)
には適用できません。
適用条件の定義について教えてください

468 ：１３２人目の素数さん：2011/09/29(木) 23:20:13.66

>>464
母集団の分布が分からなくても、推定するときにとても役に立つわけです。

469 ：１３２人目の素数さん：2011/09/29(木) 23:43:28.92

通常の調査で実際に母集団の分布が未知であるとはいっても、普通は、標本をみるとこれは正規分布と考えられますね、という検定はできるよね？
それに、母集団がそもそも正規分布じゃない場合はどうするの？
>>466の説明だけ聞くと、何にも分からないし正規分布と程遠いかもしれないけどとりあえず正規分布になるってことにしちゃえよ、
それで分析しちゃえよ、だって分析が楽じゃん、で、なんとなく数字を出してみました、それが「推定」ですと言っているようにしか見えない

例えて言うなら、
コイツ何言ってるのか分かんねぇよ、多分文句言ってるんだよ、文句言ってるんだと思って対応しとけばいいよ、それが正義だから、
と言ってるのと同じことやってるように思える

470 ：１３２人目の素数さん：2011/09/30(金) 02:00:09.88

>>465,466
457,462です。ご説明ありがとうございます。
私の勉強不足のため、いただいた内容をきちんと理解できてはないと思いますが、
少し、頭が整理できてきたような気がします。

>しかし多くの場合、推定精度の評価や検定などの統計処理には、よく「正規分布」が
>使われます。それが誤解の元かと。しかしこれは「母集団分布に関する仮定」
>なのではなく、単なる「簡便計算法」にすぎません。

「簡便計算」により、実用的に十分な精度で推定値を求める、もしくは、値の範囲を絞ることができる、ということですね。
そして、その簡便計算のもとになる確率分布がいろいろ存在すると（正規分布、t分布・・・）。

ただ、統計学の素養がない人（私もですが）に対して、簡便計算を適用することそのもののの妥当性や
仮定する確率分布の妥当性を理解してもらうのは、現実的にはかなり厳しいですよね？

つまり、統計学の素養がない人に対して、「未知の母集団（例：ある商品の消費者の1ヶ月あたりの購入金額の
平均）に関して、こんなことが分かりましたよ（推定されましたよ）」と言ったときに、いかに推定値の信頼度が
（統計学的に）高いかを説明しても、納得感を十分にはもってもらえなさそうですね・・・。

いずれにしても、自分でサンプルデータを使って手を動かして実際に数値を出してみながら、
テキストの理解を進めていき、何がどう使えるのかを自分で探っていきます。

早く、このスレの皆さんの話についていけるようになろうと思います。

どうもありがとうございました。