1 :
132人目の素数さん :
2013/04/05(金) 23:35:41.08
おまんこ女学院
あぼーん
あぼーん
あぼーん
6 :
132人目の素数さん :2013/04/11(木) 14:10:30.81
誰か書き込んでー
7 :
132人目の素数さん :2013/04/11(木) 16:01:15.32
7匹でもハチ
実データ集計にヒストグラムなんぞ使うのは間違ってる 確率は累積分布関数が基本なんだから累積ヒストグラムを使うべきだ ビン幅に依存しない最大限に正確な分析が出来る
9 :
132人目の素数さん :2013/04/12(金) 14:46:43.79
こちらの方々って、『N=95を統計処理』って言われただけで意味分かりますか? ライザップってジムのバナー広告で、 めざせ-15kg! ※2 ※2 N=95を統計処理した結果(2013年2月LM研究財団調べ) ってのがあるのですが、何を言っているのかが分かりません。 その財団のサイトを探しても見つかりません。
効果があったと言ってる人が95人いるってことだろ
100%が痩せています※ ※N=95を統計処理した結果(2013年LM研究財団調べ) 統計的な確立の表現であり、特異な例外はありえます。 統計「的」、あくまでも確立であって確率ではないところがポイントw
12 :
132人目の素数さん :2013/04/12(金) 18:25:20.61
>>10 そうしますと、
・母体数:95人
・95人が落とした体重の平均値:15kg
ってことでしょうか?
そんな簡単な計算を財団に依頼したとか言ってるんですか?
13 :
132人目の素数さん :2013/04/12(金) 23:56:37.28
仕事でクラメールのVを使うことになったのですが、クラメールのVが0以上1以下という証明が掲載されている本はないでしょうか? 検索したり自分で考えたりしてみたのですがわかりませんでした。
あぼーん
16 :
132人目の素数さん :2013/04/18(木) 11:34:20.17
ガチでわからなくて困ってるんだけど教えてください 30分に平均1台の車が通る高速道路で、ある車が通過してから、(その車を含めて)5台目の車が通るまでの時間をXとする。 Xの平均と分散を求めよ。 まず何の分布(ポアソン分布だとか幾何分布だとか)なのかもよくわからなくて詰んでる。
車と車の時間間隔は指数分布でそれが4つの和の分布は4つ畳込みだ ポアソン分布は一定時間に通る車の数
18 :
132人目の素数さん :2013/04/19(金) 14:21:41.47
>>17 ってことは
平均で一時間に二台車が通るということだから
四台とおるのにx時間かかるとして、その確率は
f(x)=Γ(4,2)=(8/3)x^3*e^(-2x) (0<x<∞)
よって
E(x)=甜0:∞]x*f(x) dx
=(1/12)*Γ(5)=(1/12)*4!=2(時間)
また、
V(x)=E(x^2)-(E(x))^2
=甜0:∞]x^2*f(x) dx-2^2=(1/24)Γ(6)-4=(1/24)*5!-4=5-4=1
ということでよろしいですか?
確率難しすぎワロタ
なんで5台あたり通る分布が4つの畳み込み積分? 車が2台あたり1時間通る分布がλ=2で 2*exp(-2*t)なのは解るけど、そこからどう導くんでしょうか。
20 :
132人目の素数さん :2013/04/19(金) 21:56:57.16
TEST
>>1 スレ趣旨テンプレを省略するなよ。1000番間近で前スレは、何故にdat落ちしたのだろ?
以下のお約束を守った上で統計学について何でもどうぞ。
1)学校の宿題の丸投げはやめましょう。
2)質問者は質問の前に相当程度調べるなり、考えるなりしましょう。
3)荒らしは基本的にスルーでお願いします。
前スレ質問を、再録です。
二項分布を正規分布で近似してるから>>
>>933 は、P(1-P)/n式の答でしょうが、
これがなぜ誤差分になるのかが知りたいのです。
932 : 132人目の素数さん[sage] : 投稿日:2013/03/18 21:48:52
>>924 nを導く統計学公式の元式
μ<Xbar+1.96*SQRT(P(1-P)/n)
の右辺第2項即ち誤差項の成り立ちが、理解できません。
比率Pとその補数の積を標本数で割ったP(1-P)/nの平方根が、どうして誤差分に
なるのですか?
調べるのメンドイから調べないけどw チェビシェフの不等式に何か代入して、崩したら信頼区間の形になった気がする。 あと最初は標準正規分布の信頼区間から考えた方がいいと思われ。 それができたあとに、二項分布に中心極限定理使えばあなたが示す式になるかと。 何言ってるのかわけわかめなら数理統計学の入門書読んだ方が早い気がするお。 あと自分の持ってる数理統計の知識とかも書いてくれた方がレスつきやすいんじゃないかな。
勉強もせずに問題やってるんだろ
31 :
28 :2013/04/23(火) 23:21:39.86
32 :
28 :2013/04/23(火) 23:52:33.71
>>29 助言有難うございます。当方は、統計学未修工学部卒の統計学習7年生です。
標準正規分布-->二項分布の2段階に分けて考えるわけですね。
正規分布変数Xの標準化式 u=(X-μ)/σ ・・・・32-1)
は理解できます。
95%信頼区間上限値u=1.96を32-1)式に代入して、正規分布時の
>>28 式右辺が、
導出されるのも理解できます。
理解できていないのが、
>>28 式の以下の2点です。
Q1.平方根に変わるのは、何故?
Q2.P(1-P)/nに、何故置換できるの?
正規分布の標準かはX~ Norm(μ,sigma^2)のとき(X-μ)/σ ~ Norm(0,1)であってるけど 中心極限定理は X~何らかの分布(BinでもPoissonでもWeibullでも、、) のときlim n-> ∞で (X_bar - μ)/(sigma/sqrt(n)) ~ Z(0,1)がなりたつというもの。 試しにX_i ~ Bin(1,p)を公式に代入してみて。期待値はp、分散はp*(1-p)なので簡単。
Z(0,1)じゃなくてNorm(0,1)ね。 それとサンプルの平均と分散を求めてみてください。 X_i ~iid~ BIn(1,p)としたとき E[X] = p Var[X] = p(1-p)ですが E[X_bar]とVar[X_bar]はどうなるでしょうか。 ヒント:X_bar = (X_1 + X_2+ ,,,,+X_n)/n
36 :
132人目の素数さん :2013/05/02(木) 07:18:22.40
文系なんだが大学文理移転してで統計学極められるかな?
能力次第
>>36 ていうか、文系でも計量系はどっぷり統計学に漬かっているし、
その分野に固有の統計的問題に取り組んでいる。
文系理系は関係ないから、本人のやる気と能力次第。
ベイズ統計学のおすすめの洋書ありましたら教えてくださいm(__)m
あぼーん
42 :
132人目の素数さん :2013/05/08(水) 14:56:13.69
仮説検定には帰無仮説と対立仮説がありますが、一般的にどちらの仮説がより重要なのでしょうか?
あぼーん
それ尋ねてる時点で、定義が解ってない。 教科書はいつ読むの?今日でしょ。
>>42 10円玉には裏と表がありますが、どちらがより10円なのでしょう?
と尋ねられたときと同じくらいインパクトのある質問だなw
裏に決まってるだろ
47 :
132人目の素数さん :2013/05/09(木) 22:21:36.31
統計の分散分析ででてくる、 「対比」は、英語でなんと言いますか?
contarst
あぼーん
最近やっと簡単な統計学の教科書を一冊終えました。(有名な東京大学出版の赤と灰色が基調の本です) そしてもう一段上の教科書に手を出してみたのですが。。。 測度論?が難しくて理解できませんでした。そこで測度論のための教科書を当たってみたのですが これも数学記号が難しい。どなたか数学に詳しい人がいたらどの分野の順序で測度論を勉強すれば良いか教えてもらえると幸いです。 集合論→測度論 で良いんでしょうか。
微積分は知ってるのか?
微積分、線形代数、ベクトル解析、偏微分常微分はしってますが計算ができるくらいで。 εデルタ論法や写像などの数学科ぽい事は解りません。群環体とか現代数学ぽいのも 勉強した経験はないです。適当にググった所によると Real and Complex Analysis Rudin 『はじめての確率論 測度から確率へ』 佐藤 担 講座数学の考え方 (20) 確率論 船木直久 が良いみたいですね。
測度論はεδ論法を使いまくるぞ
マジですか。結局勉強す順番としては 集合論→解析学(?)→測度論 でいいのかな。
解析学を全部やると測度論を含んでしまうから わからん言葉が出てきたら辞書みたいに調べる程度で良いが εδ論法は良く理解する事
統計をまなび初めて日が浅いのです。よろしければ教えてください。 平均=70、標準偏差=10の正規分布に従った。このとき ・競争率が10倍だったときの、合格最低点 という問題で、回答には正規分布表よりα(z)=0.4より、z=1.29がわかるので〜→合格最低点83点と書いてあるのですが 0.4という数字や1.29という数字が出てきた理由がわからないです。教えてください。
上位1割を合格とするときの最低点を求めよ
標準偏差でよくでるσについて質問ですがσ=68%、2σ=95%、3σ=99%をどう扱えばいいか分かりません。 例えば棒の長さのばらつきを調べたい場合、標準偏差を計算したらσが2.2とかになったらどういうことなんでしょうか。
仮に棒の長さの平均が5だとすると 棒の長さが5-2.2~5+2.2 つまり棒の長さが2.8~7.2にあるような棒の割合はおおよそ68%であるということ また長さが5-2.2*2~5+2.2*2 つまり長さが0.6~9.4にあるのうな棒の割合はおおよそ95%であるということ
>>18 f(x)=Γ(4,2)なのは X~expo(1/2)のとき、X~Γ(1,2)で4X ~ Γ(4,2)だから
という理解であってる?
統計的な手段で得た推論を発表する前に、 「原因と結果が入れ替わっているのではないか??」 と考える事が重要だと思う。 「ローマ法王になると長生きできる」とかと同じ。
「分数のできない大学生」に対抗して、「統計のできない大学教授」のタイトルで誰か本を書いてくれ!!
65 :
132人目の素数さん :2013/05/22(水) 17:47:04.74
あぼーん
>>61 >同一大学内のデータ
これを示さないのがダメだな。
68 :
132人目の素数さん :2013/05/28(火) 21:47:25.45
すいません 野球で四球、単打、二塁打、HRとあります(三塁打は無視します) ここでそれぞれ単独での得点との相関係数を左から、0.3、0.3.0.55、0.63としたとき @正の相関性が強い指標になるほど、得点が増えやすい・・・という表現は正しいか? (規則正しく得点が増えやすい=増える確率が高いという解釈でも可) A仮に一番左の四球の相関係数がゼロだったとします この時、四球と得点との関連性が見られないので得点に貢献してるとは言い難い、で合ってますか?
ホームランと得点の相関が低いような指標でいいのか? 野球で得点に貢献するということの意味を考え直すべき
>>68 1は合ってると思う
2はサンプル数が十分あれば言えると思う
四球の多い投手に対して待球作戦をとって勝った場合、四球は勝利得点に貢献するが 打たないので大量点にはならず他の試合で打ちまくってると統計ではチーム得点と逆相関になる この場合、得点に貢献してないと言うか?
72 :
68 :2013/05/28(火) 22:39:08.44
うわぁ、返事が早くて感動w
>>69 全部合わせてOPS(長打率+出塁率)にすると、相関係数0.940くらいにはなります
(15年間くらいのNPBデータで)
>>70 ありがとうございます
>>71 勝敗は無視して、あくまで得点との相関だけです
膨大な試合数での話なんで、展開とかは無視してもいいような?
73 :
68 :2013/05/28(火) 22:45:54.99
もう一つ質問です 得点に関係した指標で、四死球、安打・長打・盗塁などさまざまなものがあります それぞれ単体での相関係数(影響度)が出ますよね? この場合、各指標の得点への貢献度を比較する時、まず相関係数の高いものと 指標ごとの個数の多少を尊重する・・・こういう考えで合ってますか? いやね、とある掲示板で 「指標ごとの相関係数と貢献度なんか全く関係ない! 仮に四球と得点の相関がゼロでも平均得点÷平均四死球が大きければ貢献度は高い」 とおっしゃる方がいまして・・・ 僕の考えは 「相関係数がゼロならそもそも影響力がないと見て、貢献度を判断する価値がない」 と思ってるんですが、どっちが合ってます?
得点との相関係数が高い指標から順番に見ることで 得点への貢献度が良く説明できるかと言う質問ならノー 得点との相関係数は低いが得点への影響力が 高い指標は作れるかと言う質問ならイエス あなたの議論している指標が上の例に当てはまるかと言う 質問ならどちらとも言えない
75 :
68 :2013/05/28(火) 23:29:54.52
>>74 ありがとうございます
@>得点との相関係数が高い指標から順番に見ることで
得点への貢献度が良く説明できるかと言う質問ならノー
A>得点との相関係数は低いが得点への影響力が
高い指標は作れるかと言う質問ならイエス
よろしければ、@とAについてそれぞれ理由を教えていただけたら嬉しいです
敢えて極端な例を挙げる 現実との折り合いは自分で考えて 打撃力に関係する指標と得点との相関が軒並み0.8くらいだったとする 一方、走力に関係する指標の相関は軒並み0.3くらいだったとする 打撃力に関係する指標をいくら組み合わせても相関は0.8から大して 伸びないだろうが、走力も考慮することで得点能力の説明可能性が 上がると期待できる 日時、試合場、打順等から一意な数字を作る この数字と得点との相関は限りなく0に近いだろうが、 この数字を指定されれば各打席における得点を誤差0で説明できる
勝率への貢献度を無駄な得点への貢献度に摺り替えてるみたいだな
あぼーん
統計始めたばかりのバカからの質問です 「あるデータが◯◯分布に従う」という根拠は何ですか?
とくにない
分布グラフを見て比べるくらいだな
プロ野球のボールの反発係数は、0.4134〜0.4374に収まるように 定められているが製造する際の目標値は下限の0.4134であった。 このときの不良率の推定値は?
標準偏差について質問です σとはばらつき具合を数字で現すと聞いたんですが 何を基準にばらつきが大きいとか小さいを決めてるんですか?
例えば条件を変更した結果の比較とかはF検定を使う
平均±σの範囲に入るデータが68%ってどういう意味ですか? 例えば100個のデータがあるとして平均±σの範囲にデータが50%しか入ってなかったらばらついてる、とかそういう意味ですか?
>>85 ばらつけばばらつくほどσは大きくなるんだが
つまりばらつきが小さかろうが大きかろうが平均±σの範囲には必ず68%のデータがあるということですか?
正規分布していればな
ありがとうございます。 だとすれば何を基準にばらつきがあるとかないとか言えばいいんですか? 計算してσを出して何をもって、何と比較してこのσは大きいからばらつきがある、とか言えるんでしょうか
100は大きいのか?小さいのか? 何を基準にそう判断するのか?
>>89 ばらつきなんて相対的なもので、
比較するものがなければ、そもそも大きいとも小さいとも言えない。
だから「何を基準に」と言われても、
逆に「貴方の基準は何ですか?」と逆質問するしかない。
>>82 1σ=0.4373-0.4134のとき約66%
2σ=0.4373-0.4134のとき約52%
3σ=0.4373-0.4134のとき約50%
93 :
132人目の素数さん :2013/06/20(木) 23:52:41.91
統計学は破綻している学問だと前に聞いたことがあるんだが 本当なの?
何をもって破綻しているのか分からないけど モデル選択をミスって理論と現実がかけ離れてしまうってのはよくあること
デタラメ言って気を引こうとする奴はどこにでもいるな 常識で判断できる事だ
ちょっと質問です。 2つの変数の値の分布がどんな感じになってるかを表す指標がほしいなと思って wikipediaで相関係数のページ見てみたんだけど、ページ右上の画像を見ると分布が全然違うのに 相関係数が同じだったりして、あんまり良くないなと思いました。 分布における形やばらつきのような、分布の特徴を表す指標ってどういうのがいいんでしょう? 1つポンと数値がでなくても複数組み合わせでもいいんですが、何かありますか?
2次元分布見れば
98 :
132人目の素数さん :2013/06/21(金) 02:28:26.82
>>96 1変数の関数がどんな感じになってるかを表す指標と同じでいいよ
>>89 >だとすれば何を基準にばらつきがあるとかないとか・・・・・・・・・・・・
工業製品の場合、ばらつきが大きい・小さいの基準は、その品質規格だ。
規格上下限範囲より大きければばらつき大・小さければばらつき小だよ。
すみません、初学者ですが、例えばt検定の解説でt分布の山形のグラフが描かれて、有意水準5%ならこっからここまでの面積を足すと5%だからここに入ったら棄却ですねと説明されますが、 5%の線を引いたとき、ちょうどその線上にt値がきたときは、どうするのでしょうか? 稀だし、そんなきわどい値になるなら実験とかやり直した方がいいとは思うのですが、棄却域を求める計算の際に、t>=●●としてもt>●●としても、 tの確率密度は連続関数だから意味は同じであるといった解説もあり、はて線上の扱いはどうなるんだろうと気になったものですm(_ _)m
有意水準5%はどう決めたのか?
104 :
132人目の素数さん :2013/07/03(水) NY:AN:NY.AN
スピアマンの順位相関を使って分析したのですが、事後分析として検定力を算出したいと思っています。 ピアソンrの場合と同様に計算してはいけない気がするのですが、どなたかご存知でしたら教えてください。
106 :
132人目の素数さん :2013/07/03(水) NY:AN:NY.AN
しっぽ確率ってそんなに便利かな しっぽ確率使わないでゴリ押し計算で十分な気がしてきた それともしっぽ確率使わないとヤバイような計算があるのかな
107 :
132人目の素数さん :2013/07/03(水) NY:AN:NY.AN
>>105 ありがとうございます。
ただ、これはSTATAというソフトを使った解答かと思うのですが・・・
いったん読んでみます。
きょうコレあやたんキタ━━━━(゚∀゚)━━━━!!
>>107 統計ソフトの種類とかが本質的な訳ではなく、
「事後に検出力の計算なんかしてんじゃねーよ、
だいたいSpearmanで分析する前にサンプルサイズはどうやって計算したんだ」
って質問者が怒られているのが問題の核心。
110 :
132人目の素数さん :2013/07/04(木) NY:AN:NY.AN
>>109 仰るとおりです。
ただ、もともとはピアソンrでやるつもりだったので。
パラメトリックの前提が確認できなかったためやむなくスピアマンにしたのです。
問題の核心よりも、できれば事後にスピアマンで検定力を出す方法を教えていただきたいです。
以下のようなことをしたいのですが、何か手法がないか分かる方はいないでしょうか。 いくつかの変数からなる100レコードや1000レコードのローデータを 複数のグループに可能な限り均等に分けたいです。 例えば男性70人、女性30人のデータがあったとして、これを5グループに分けたい場合、 各グループとも男性14人、女性6人の20人×5グループ。 さらにある変数の値がAの人が50、Bの人が50ならば男性女性の均等配分をなるべく維持したまま 各グループとも男性14人、女性6人、A10人、B10人の20人×5グループ。 ただし、当然ながらクロスを取れば男女とABの偏りがあるはずなので、 この例のようにぴったりな配分にはなりません。 均等配分したい変数は5つの時もあれば7つの時もあり、 分けたいグループ数も3の時もあれば6の時もあります。 全ての変数を完全に均等になるようにグループ分けすることは不可能でも、 各グループの総人数はきれいに分けて、その内訳の変数の値は 可能な限り均等に近い最適化された分類にしたいです。 色々調べたら層別ランダム化とか最小化法動的割付とか、そんな言葉が出てきて それが近い結果を出せるのかという気がしたんですが。 SPSSで可能でしょうか?
>>111 層別化無作為抽出で正解。
Rなら出来るけどSPSSはしらん
>>112 Rですか、使ったことがないです。
コマンドラインで動くからちょっとこれだけやりたい、というには難しそうですね。
とりあえずRスレに行ってみます。
114 :
132人目の素数さん :2013/07/12(金) NY:AN:NY.AN
線形変換って何の為にあるの?
115 :
132人目の素数さん :2013/07/13(土) NY:AN:NY.AN
例えば平均μ,分散σ^2の正規分布から平均0、分散1の標準正規分布に変換するのだって 線型変換だし他にもいろいろ使い道あるんじゃない?多変数になってくると特に 嘘だったらごめんね☆
味噌汁の味見のように一事をもって万事を量るのが統計学の任務ですが、 世論調査などではちゃんとかき混ぜているのでしょうか?
>>116 そんなものは調査デザインによる。
固有の調査名とその調査デザインが提示されない限り、
意味のない質問。
測度論を使ってないから分りやすい統計学の本っていうけど 測度論を使った統計学の本なんてみたことないんだけど 本当にあるの?
119 :
132人目の素数さん :2013/07/17(水) NY:AN:NY.AN
測度論そのものかは知らないけどLebesgue&#8211;Stieltjes integrationとかなら普通にあるんじゃね? ただ理論そのものは俺も見たことはないなあ(^q^)オワッ
コルモゴロフ本は確率を測度で定義してたと思うが不満か?
確率論と統計学は違うだろ。
>>119 マジかよ。その本教えろよ。
ルベーグステルチェス積分ってリーマンステルチェス積分とは違って
ルベーグ積分のステルチェス測度を使った積分だぞ?
7/4宵、NHK「クローズアップ現代」曰く、目下統計学ブームだとか。番組冒頭には、狩野裕
阪大教授の講義光景が出てきた。統計家に企業求人が引く手数多というのは本当なのか?
”統計学を使いこなす「データサイエンティスト」が、多くの企業から引く手あまたの状況・・・・・・・・・・”
クローズアップ現代 「数字のカラクリ・データの真実〜統計学ブームのヒミツ〜」
ゲスト:サイエンス作家…竹内薫,成蹊大学教授・統計学者…岩崎学 キャスタ:国谷裕子
http://www.nhk.or.jp/gendai/yotei/#3375
124 :
132人目の素数さん :2013/07/19(金) NY:AN:NY.AN
最近ビッグデータビッグデータって喧しいけど データ分析で使う統計学に何か本質的な違いあるんですか?
IT屋のビジネスだよ。 おまけでログのテキスト分析が付いていてそっちは原則統計だね。 ただ学術的に怪しい式が結構混じってる。
>>125 ビッグデータビッグデータと喧伝し始めたのは、IT企業でなく
マーケティング業界でなかったか?
SNS上やInternet上に溢れるカテゴリデータを、商売にどう使おうかと。
学術的に怪しい式というのは、何を求める式のことなの?
7/21NHK7時のニュースで臙脂色ワンピミニスカ江崎史恵アナが、国内宿泊旅行 統計棒グラフを指し示して、ここ10年で国民の国内宿泊旅行回数が年平均 1.5回から1.2回に漸減し続けており、その原因が斯く斯く然々と微笑みながら 説明していた。その棒グラフには、年代別折れ線グラフが重ね描きされた。 こういう統計って、誰がどのように採っておるのだろ? Web検索すると、観光庁の「宿泊旅行統計調査」がhitしたんだが、調査対象が 旅館・ホテル事業者とあってニュースのとは違っていた。
128 :
132人目の素数さん :2013/07/21(日) NY:AN:NY.AN
旅行・観光消費動向調査
129 :
132人目の素数さん :2013/07/23(火) NY:AN:NY.AN
朝倉書店の「ロジスティック回帰分析―SASを利用した統計解析の実際」を読むと、プロファイル(変数の組み合わせパターン別の発生件数とか)を作ってから係数を最尤推定するとあります。 一方Rのglm関数ではプロファイルは作らず観測値からIRLSで係数を推定するとありますが、この2つの方法での推定値って一致するんでしょうか?
自分でやればわかるやろ
131 :
132人目の素数さん :2013/07/23(火) NY:AN:NY.AN
2、 区間推定(分散):地域経済 我が国の都道府県別納税者1人当たりの課税対象所得額(万円/人)は正規母集団N(μ、σ2)を呈することが予想されている。いま任意の10都道府県についてこの値を調査したところ下記の数値を得た 199.4, 177.9, 190.8, 241.9, 246.8, 213.9, 224.4, 226.1, 184.0, 200.5 1)このとき、全国平均μが未知であるとして母分散σ2を信頼係数95%で推定せよ 2)また、全国平均μが207.2万円であるとして母分散σ2を信頼係数95%で推定せよ お前らの力を見せてみろ
ふと思ったんだけど、中央値の逐次更新(オンライン処理)ってどうやるんだろう? 平均値とか分散ならちょっと計算したら漸化式にできるけど
過去データ全部抱えていないと無理でね?
収束する前提なら適当に分散推定しながら 中央付近のビンだけ更新しとけばできそうだな
135 :
132人目の素数さん :2013/07/23(火) NY:AN:NY.AN
ある企業の発売以降の月次売上数(金額ではない)が、基本、対数近似を描くようだが、そんなこと、一般的に証明する方法はありますか?
あぼーん
137 :
132人目の素数さん :2013/07/24(水) NY:AN:NY.AN
138 :
132人目の素数さん :2013/07/24(水) NY:AN:NY.AN
対数近似を描くってなんぞ
139 :
132人目の素数さん :2013/07/24(水) NY:AN:NY.AN
1月から4月までの売上数があれば、一年先の売上数が、対数近似を使うことである程度予測で来る
140 :
132人目の素数さん :2013/07/24(水) NY:AN:NY.AN
141 :
132人目の素数さん :2013/07/24(水) NY:AN:NY.AN
過去データはエクセルで調べた だいたい(9割程度)が対数近似のグラプに準ずる(一部累乗近似、線形も) これって『統計学的に対数近似のグラフを描く』と言ってもいいのだろうか?
対数近似って対数とると線形になるってことかな
143 :
132人目の素数さん :2013/07/24(水) NY:AN:NY.AN
y = a × ln(x) + b かな
144 :
132人目の素数さん :2013/07/27(土) NY:AN:NY.AN
誰かいますか?
145 :
132人目の素数さん :2013/07/27(土) NY:AN:NY.AN
>>141 予測区間の決定係数がその位なら問題ないだろ
146 :
132人目の素数さん :2013/07/28(日) NY:AN:NY.AN
147 :
132人目の素数さん :2013/07/29(月) NY:AN:NY.AN
2つの母平均の差の検定で分散未知ですがn>30以上ならば、σの代わりに普遍分散で代用してZ検定するのと、等分散でなかった場合に用いるウェルチの検定の式は同じでしょうか? Z=XbarA-XbarB/√SA2/nA+SB2/nB →SA2はAの不偏分散です そうすると、大標本であった場合は、先に等分散の検定をしなくてもこの公式に当てはめて計算してもかまわないのでしょうか?
148 :
132人目の素数さん :2013/07/31(水) NY:AN:NY.AN
χ二乗検定の際に各セルの値が小さいとき連続修正を行う とありますが、セルの期待度数が小さいとモデルへの当てはまりが悪いためであり この修正によってモデルへの当てまりがよくなると言うことでした。 なぜ当てはまりがよくなるんですか? 統計素人なんでもしかすると超絶基本を聞いているかもと恐れながらも質問してしまいます。 どなたかよろしくお願いします
一般論としてサンプル数が小さいとばらつきが大きい つまり、たまたま外れる確率が高くなるということ さらにサンプル数が小さいと分解能が悪いから精度が下がり易い 期待度数が0.5回なら観測頻度が0回でも1回でも誤差50%
些細な名称とかに拘らず独自の統計学をとれば良いと思うんだよね 習った知識ばかりじゃカチンコチン過ぎて統計学止まりだね 統計で思考停止したいなら良いけど
>>149 >さらにサンプル数が小さいと分解能が悪いから精度が下がり易い・・・・・・・・・・・・
サンプル数ってサンプルサイズ?分解能が悪いって、使用計測器の
性能問題?何が言いたいの?いったい何番の質疑へのレスなの?
8/24NHK朝7時のニュースで鮭肉色膝上丈ワンピスカ江崎史恵アナが、国民の スポーツ習慣統計調査の年代別頻度結果を円グラフ・帯グラフを使って 紹介していた。国が、国民3000人に訊ねて1800余人から有効回答の結果とも。 この手のアンケート調査の抜取標本数は、どういう計算式で決めているのだろ?
ある無限集団のサンプルとしてなら3000で十分だと思うが、その調査で3000は意味が無いな。 おそらくは、老若男女、収入や労働環境、地域性や病気の有無、季節性その他で、 スポーツ習慣は違ったものになってしまうだろうからな。 そしたものを全部一緒にして年代だけ分けてドヤ顔するのは偏向報道のチョンNHKらしいな。
154 :
カナリア :2013/08/26(月) NY:AN:NY.AN
質問させてください! 正規分布していないデータ(単純反応時間など)と正規分布しているデータ(IQなど)の相関を出そうとした場合、ピアソン積率相関係数ではだめですよね??? でも結構それで論文でてたりするんですが、いかがなものですか? 厳密にいうとだめってレベルなのでしょうか? 教えてくださーい
>>153 無限集団というのは、幾つ以上をいうのですか?スポーツ習慣統計
調査
>>152 の場合、母集団は10代以上の日本国民ですから1億人以上
ですが、1億人では有限集団ということですね?
なお調査機関は、NHKでなく国と江崎史恵アナは云っておりました。
統計学って全てのサンプルを調べられて パソコンで計算可能なら確率論でしかないですよね?
平均値、標準偏差ね。 つまりヒストグラム=確率分布となるわけだよね。
SPSSによるロジスティック回帰の出力について質問失礼します(SPSS&元データ非所持) (例) 応答変数:発病するか否か、説明変数:体重(量的変数)、場所(質的変数) B 標準誤差 Wald 自由度 … 体重 .087 0.44 3.858 1 場所 14.294 2 場所(1) 1.435 .461 9.687 1 … 場所のWaldの欄にある統計量は一体何でどのように算出されたものなのか、教えていただけますと幸いです
>>159 「Wald検定量 ロジスティック回帰」で検索してはいかがでしょうか。
算出方法など詳しい解説がすぐに見つかると思います。
あんまり数学がわかっていない人間ですが、質問させてください。 ある、時系列データがあり、過去の変動が次の変動にどのような影響を与えるか推測する方法はどんなものが基本でしょうか? よろしくお願いいたします。
162 :
132人目の素数さん :2013/09/01(日) 23:40:01.31
ノバルティスの問題も、つまるところ当該の医学者に統計学の素養がないことが発端だろ? 迷惑だから、統計学勉強しないで税金使って論文書くの本当にやめて欲しい。 学問として論文を書くのであれば、測度論とまでは言わないが、統計学の前提となる確率論、確率論の前提となる積分ぐらい勉強すべき。これ、語学とおなじくらい重要と思うのだが。
自己回帰モデル
165 :
159 :2013/09/02(月) 11:41:26.81
>>160 返信遅れまして申し訳ございません、少し説明不足でした
体重や場所(1)のWaldに関しては、傾きや切片の推定値がゼロと
異なっているかを推定するためのWald統計量ということで理解できるのですが、
場所のWald欄にある統計量が一体何なのかが解らず困っております
私自身は解析にRを用いているのですが、その場合カテゴリカル変数一つに対して一つの
Wald統計量が算出されるため、上記のような統計量と遭遇したことがなく、どなたか教えていただけますと助かります
166 :
159 :2013/09/02(月) 15:10:19.98
>>159 下から2行目訂正失礼します
カテゴリカル変数一つに対して一つの > カテゴリカル変数の各水準に対して各一つずつの
>>165-166 自己解決しました
Wald統計量は自由度2以上でも普通に算出できるのですね、失礼しました
168 :
132人目の素数さん :2013/09/06(金) 18:54:39.01
ときお まどりっど イスタンプール
169 :
カナリア :2013/09/08(日) 17:23:02.99
グラフにエラーバー(SD)をつけました。 縦軸に正答率をとると、80~90程度の平均値ですので、エラーバーが100を超えます。 個人的には100でとめたいのですが、だめっていう意見もあります。 皆さんの意見をお聞かせください。
170 :
132人目の素数さん :2013/09/22(日) 16:02:21.69
DCC-GARCHについて勉強したいのですが、日本語で詳しく説明されている論文、テキストなど教えてください。
日本語あてにしてたらアカンやろ
すいません初学者なのですが、2つの水準の平均値差を検定する場合に、t検定を行った場合と、分散分析を行った場合では、意味合いは違うと理解してよろしいのでしょうか?(教科書では分散分析は3群以上比較する場合に使うと書いてありますがあえて2群でやった場合です) t検定のtと、分散分析のFは、計算式も違いますし分布の形状も違いますが、いくつかのサンプルデータで統計ソフトをつかって計算したところ、t検定でも分散分析でも有意確率が同じ値になりました。これはたまたまでしょうか?
現実的な最低点は、max(0,70-3.5*10)
おまえら シグマっていったら。 やっぱり σ の方か?
大文字小文字両方
統計学に必要な数学の知識ってなに? 微積分と線形代数学分かってればいいの?
大学1年レベルの微積と線形代数わかってるとかなり便利 もちろんもっと高度な知識も必要な場合もあるけど目的次第かな
179 :
132人目の素数さん :2013/09/28(土) 03:36:38.64
>>178 ありがとう
こちとら文系で数2Bしかやってないもんだから
今から小島寛之の微積分と線形代数やろうかなぁと思いまして
本当はチャートとか高校生が使うようなもので勉強した方がいいのかな?
>>179 高校数学はIIICまではある程度理解しておいたほうがいいのは確か
でもチャートとかは量が多すぎるからなぁ…
IIBやってたなら小島寛之の本にもついていけるかも
182 :
132人目の素数さん :2013/09/28(土) 17:39:01.41
統計学って数学じゃないだろコレ
183 :
132人目の素数さん :2013/09/28(土) 18:54:23.30
「プログラミングのための確率統計」(オーム社)これ、近年まれにみる良書。 タイトルからのイメージとは全く異なり、プログラム技法は何も記されていない。 しかし、初学者に確率統計のかんどころを理解させようとする著者の工夫と執念を感じる。
吉田朋広の数理統計学ぐらいだと普通に数学と思うけどなぁ
統計学は数学を使う
応用算数でしょ普通の統計学は
算数レベルで公式が出せるか
算数レベルの統計しか知らないってことか
標本数の少ない2項分布の母集団の差の検定ってどうやればいい? 標本数少ないから正規近似が出来ないのだけど。
192 :
132人目の素数さん :2013/10/02(水) 00:24:59.73
古典統計学⊂ベイズ統計学 だよね?
193 :
132人目の素数さん :2013/10/02(水) 13:16:11.78
東京大学教養学部統計学教室編『基礎統計学』(全3巻)はどうですか?
>>193 全部買って読んだけど、独学するには解説が足りない気がするが、ネットで調べながらならOKだと思う
個人的には第2巻いらんかった。
全三巻じゃないし・・・・ バラバラに買うやつだろ。
ポアソン分布とかガンマ分布とか出てくるけど、あれも算数?
197 :
132人目の素数さん :2013/10/11(金) 15:32:38.62
学校の課題で会計士への連絡内容書くやつあるんだけどどうな風に書けばいいの? ぐぐっても分からないので教えてください 例題 会計士にアイスの平均販売個数の値を連絡する
>>197 10月11日 今日は暑かったのでアイス100個売れました。
偏差値50=平均値ってこと?あってるよ
だよな? 偏差値50は平均だから、偏差値50レベルの大学には半分が受かるってことでいいんだよな?
分布に偏りがある場合は偏差値50でも半分受からないことはあるぞ
平均と中央値は違うからね
>>199 そのスレの581の方が正しいな
対称正規分布とかいう言い方は意味わからんけど
対称でさえあれば正規分布である必要はないけどな
偏差値は母集団が正規分布に近いときに有効だからかな 変な分布なら偏差値を使う意味が薄れる
最近の学力の分布は二極化が激しいからなあ 偏差値50で等分できるかは怪しいぞ
???
danke
211 :
132人目の素数さん :2013/10/16(水) 12:52:45.86
なにこれめっちゃいいじゃん
「古典統計学⊂ベイズ統計学」ということでいいの?
いいわけないだろ、あほか
それじゃイコールってこと?
ナイーブな質問なのか、はたまた・・・
統計学初心者です。両者の本質的な関係が知りたいです。
古典統計学、ベイズ統計学も勉強したことがない初心者が本質を知りたいとな
初心者でも本質は知りたいだろ
いや、多少はかじっていますよ 統計物理とかも
統計力学てなんですかてとうしろうに聞かれたら答えられる?
ソーバーの「科学と証拠」とか読めばいいんじゃね
いい本紹介してもらった ありがとう
227 :
132人目の素数さん :2013/10/22(火) 09:47:13.46
教えてください。 ある仮説H0を検定する統計量としてT1とT2があり、T1は通常のカイ2乗分布、 T2はカイ2乗変数の加重和で表される非標準的な分布に従っているとします。 このとき、T1とT2の検出力を理論的に比較することは可能でしょうか? シミュレーションだと簡単なのですが。。。
宅建試験の統計データなんだけど、 こういう過去のデータとの相関関係とか信頼性?推定?とかって統計学でちゃんと出るのかな? 数学にぜんぜん疎いんだけど、よかったら教えてください 平成19年:LECサンプル数1499名、平均34.4点。合格点35点。 平成20年:LECサンプル数2023名、平均33.2点。合格点33点。 平成21年:LECサンプル数1719名、平均33.8点。合格点33点。 平成22年:LECサンプル数2038名、平均36.3点。合格点36点。 平成23年:LECサンプル数2162名、平均35.7点。合格点36点。 平成24年:LECサンプル数2362名、平均33.2点。合格点33点。 平成20年:U-CAN平均29.8点 合格点33点 平成21年:U-CAN平均30.4点 合格点33点 平成22年:U-CAN平均32.1点 合格点36点 平成23年:U-CAN平均33.05点 合格点36点 平成24年:U-CAN平均29.77点 合格点33点
229 :
228 :2013/10/23(水) 19:10:23.31
えっと、つまり、こういう予備校のサンプル数から、 今年の合格点の推定をどの程度の信頼度で出せるのかってことですが
このデータ数だとサンプル数で重みつけて回帰するくらいかな 予備校の中の人なら分散も分かるだろうからもう少しましだろうけど
マンガでわかる統計学、結構面白かったでござる オオカミと羊の方じゃなくて、女子高生の奴ね。
新世社の「入門統計解析」って本があったからやってみるわ。
233 :
132人目の素数さん :2013/10/28(月) 07:47:46.58
結局「古典統計学⊂ベイズ統計学」ということでいいんだよね?
234 :
132人目の素数さん :2013/10/28(月) 10:39:17.11
excelで散布図に2本の回帰直線を描く方法教えてくれ
2本の回帰直線て何? 主軸の事か?
236 :
132人目の素数さん :2013/10/28(月) 19:46:13.53
統計学なのかも良く分からないのですが分かったら教えて下さい。 サッカーのパスが成功する確率の平均が3/4のチームと4/5のチームが 対戦したとするとボールのポゼッション割合は数学的にはどうなりますか? 料チームの他の体力とかの条件は同じで無視すると考えて下さい。
パスの平均連続成功回数は1/(1-p)になるので お互い10秒に一回パスするというような状況を考えれば 支配率は4:5に収束するような気がする
P[n+1]=0.75P[n]+0.2Q[n]、Q[n+1]=0.25P[n]+0.8Q[n] (P[n],Q[n])→(4/9,5/9) (n→∞)
239 :
132人目の素数さん :2013/10/29(火) 04:56:27.03
236です。 ありがとうございました。 意外に差が出ないんですね。自分としては差が拡がるものと推測してました。 これなら少し確率は落ちてもより効果的であろうパスを出す方が得点には 結び付き易いように思えますね。
統計学を独学でやろうと思ってるんですが文系でまったく数学が出来ません そこで中高の数学からやり直そうと思ってるんですがその場合どの単元をやり直す 必要がありますか?
数と式・場合の数・確率・微積分 このへんかな
詳しくありがとうございました。 また中学数学から再勉強します。
243 :
132人目の素数さん :2013/10/30(水) 23:32:04.36
12種類のビールについて、下表にある、
消費者の知覚による評価値を得た。
「高価格/低価格」は数値が正符号が大きいほど、
高価格であると知覚され、負で大きい値ほど、
低価格であると知覚された事を示している。
「のどごし/コク,キレ」では、正値がコクであることを意味し、
負値がキレを意味する。得点は-10点から10点の間で評価され、0点はどちらでもない事を意味する。
ここから、プロダクトマップを作成して、解釈せよ。
製品 高価格/低価格 のどごし(コク/キレ)
A -6.5 5
B 8 8.6
C 2.3 8.5
D 9 8
E -5.7 -6.1
F -3.1 -2.6
G -9 -9
H 8 -9
I -7.2 9
J 6.7 -9.1
K -8.2 1.2
L -8.6 0.5
何とかやっと表はできたんですが、誰かこれ、解釈してくれませんか??
高価格なビールにはコクがある。
だと短すぎますし。
http://imepic.jp/20131029/837490
せんせえおながいしまつ。 ワイブルプロットによる寿命予測で、実測データから不信頼度 F(t) を求める際メジアンランク法 F(t)=(i-0.3)/(N+0.4) を使いますが、式の根拠が良くわかりません。 総数N個のサンプルでi番目の不良の発生確率と不信頼度の関係がベータ分布に従う事から、発生確率50%(中央値)とした際の不信頼度(=不良率)を求める近似式、というところまでは分かった?のですが、、、 実測データとして得られる統計量は、例えば「たまたま最初の不良が起きた時刻」であるのに対して、モデルは「発生確率50%、つまり時刻はばらつきの中央値」という前提で計算するのは問題無いんでしょうか? 何か勘違いしている?
100本のクジがあり当りが1本あります。 1本引いては戻す形で100回引きます。 100回引いてるさいに当たりが出たら、再度100回引けます。 100回引いて当りが出なかったら終了 というときに、クジを引ける平均回数はどのように求めればよいのでしょうか。 板違いだったら、申し訳ないですが、どなたかご存知の方いましたらよろしくお願いします。
仮説検定ってあるじゃないですか。 あれって凄く仮説が違っているとき以外、 仮説が違ってても仮設が正しいになりますよね。 どういう風に役立つんですか?
247 :
132人目の素数さん :2013/10/31(木) 16:12:04.31
で、「古典統計学⊂ベイズ統計学」ということでいいんだよね?
248 :
132人目の素数さん :2013/10/31(木) 18:49:48.11
249 :
132人目の素数さん :2013/11/01(金) 20:55:26.43
>>147 大標本・小標本と書いて、続けてその境界数を付記した教科書を見たことが
ないんだが、30が境界数なのですか?
それとも場合場合で、具体数が変動するから付記しないのですか?
250 :
132人目の素数さん :2013/11/02(土) 05:16:05.67
>>248 どうせ学校の課題かなんかだろうけど、とりあえず、オーム社の漫画でも買って読んでみたら?
プロット見ても、相関係数が0.07589016を見ても、
「高価格なビールにはコクがある」なんて言えないことくらい分かるだろ。
あと、データは解析しやすいように書いてくれないと、Rを回すにも面倒だから。
251 :
132人目の素数さん :2013/11/02(土) 17:16:46.76
検定統計量って簡単に求められますか? 無相関検定とか等平均仮説の検定(母分散既知・未知とかで5種類くらいある?)の統計量とか覚えられそうにありません... ちなみに理系大学生で高校数学、大学教養レベルの数学は分かります
252 :
132人目の素数さん :2013/11/02(土) 17:21:47.37
種牡馬データはサンプルが少ない方が、傾向を掴む上では役に立つことが多い」と発言したことを 取り上げて叩いている人が少なからずいて、統計学を知らないのか、などという声もあるようだ。 そりゃ私は無知ですから統計学なんて知らないですよ。でも競馬予想に統計学まで持ちだす必要はない。 それこそ、サンプルが溜まれば同じような傾向に収束してしまって、面白いデータにはなりえないし、 そもそもみんなが気付いていることには金脈がない。 私があんなことを言ったのは、サンプルが少なくて、ハッキリした傾向が出ているということは、 極めて短いスパンで「乗れる」ケースが多いからだ。例えばスニッツェルのそれだったり、 ローエングリンのそれだったり、アドマイヤドンのそれだったりするわけで、 少ないサンプルから近未来に振れていく方向を想定する面白みがあるのだ。 統計がどうとかいうのとは、全く違う見地から言っているので、そこを理解する気がないなら無視していただきたい。
254 :
132人目の素数さん :2013/11/02(土) 18:28:30.02
どうでもいいけど、ベイズ統計の話題にみんなダンマリなのはどうして?
じゃあおまえが語れよ
256 :
132人目の素数さん :2013/11/03(日) 23:07:07.64
ベイズ統計への偏見持ってるヤシ多過ぎw
257 :
132人目の素数さん :2013/11/03(日) 23:33:40.25
258 :
132人目の素数さん :2013/11/10(日) 11:05:08.12
初歩的な質問ですが… 同じ被験者の中で色々条件を変えたときにはどういう検定をすればいいんでしょうか 例えば、立ってるとき、座っているとき、寝ているとき、うつ伏せているときの声の大きさや声を出していられる時間の長さなどを30人くらいで測定して検定したいときです
260 :
132人目の素数さん :2013/11/11(月) 01:13:25.09
>>259 ありがとう
むちゃくちゃ初歩的なとこでしたね…
261 :
132人目の素数さん :2013/11/11(月) 12:37:22.25
とても単純なことなのですが、 自分で考えてもどうしても分からないので 質問させていただきます。 質問票にいくつか質問があり、 答えが「はい」と「いいえ」の選択肢しかない場合、 質問の数から答えの組み合わせの数を導き出すには どのような方法がありますか。 よろしくお願いします。
2^質問数かな。
263 :
132人目の素数さん :2013/11/11(月) 13:12:02.31
>262さん 「^」の正体は分かりませんが、 Excelに計算式を入れたらそれっぽい答えが出ました。 それほどとてつもない答えの組み合わせ数にはならないようで ホッとしています。 これで仕事を軌道に乗せて進められそうです。 ありがとうございました。
264 :
132人目の素数さん :2013/11/11(月) 13:20:09.11
と思ったら、 質問数7までは「2^7=49」でまだ現実味のある数字でしたが、 質問が8つに増えると一気に「2^8=256」で 実務としては無茶な数字になるんですね。 質問数は何としても7までに抑えたいと思います。
^はべき乗です。2^3 = 2 x 2 x 2 = 8です。 質問数が1増えたら2倍ずつ増えていくということです。
266 :
132人目の素数さん :2013/11/11(月) 14:13:08.46
>>265 さん
ご親切な回答ありがとうございます。
それで気づいたのですが、
先ほどの「2^7=49」は間違いでしたね。
と言うのもExcelに入力するのに2と7が入れ替わっても
答えは変わらないだろうと思い、
「=7^2」と入力していたからです。
「=2^7」で入力し直したら答えは128になり、
これで進めると私は正気を失うところでした。
質問数は何とか6つに抑え、
2^6=64の回答数で企画を進めたいと思います。
危ないところでした。
何か根本的な思い違いをしている気がしてならない。 回答の組み合わせ総数を何に使うんだろう?
Yes・Noの質問を6つ作るのではなく、質問は一つで選択肢を64個設けるに決まってんだろ言わせんな え?
データベース上からある人と似たデータを持つ人を選び出す方法があって ・一人あたり10種類のデータ(長さや角度)がある ・データベースには、50人分のデータがある この時以下の式で求めた値がデータベース上で一番小さな人を選び出されます. 10 Σ{(Di-di)^2/σi^2} i=1 Di(i=1~10)はデータベースの人の値,di(i=1~10)が調べたい人の値です. この時分散で割っているのはどういう意味なんでしょうか? 10種類のデータそれぞれの重みを合わせているってことですか?
そうだと思いますよ。 偏差値求めるときって標準偏差で割るので 偏差値に統一してるんじゃないでしょうか。
269です
>>270 ありがとうございます
ちなみに、この方法なのですが、二乗平均平方根でやることもできますでしょうか?
こちらだと、重みが変わってきたりしますか?
273 :
269 :2013/11/12(火) 21:01:46.29
>>272 調べていてこちらでも良いのかなと思ったのですが、自信はありません。
上の条件を当てはめるとこんな感じでしょうか
______________
/ N
√ (1/N) Σ(Di-di)^2
i=1
N=10
これは一人辺りの10種類のデータということです。
データベースと調べたい人の差を相加平均して平方根をつけました。
>>273 それは Σ(Di-di)^2 と同じ、Σ{(Di-di)^2/σi^2} とは違う
275 :
269 :2013/11/13(水) 09:35:09.48
>>274 回答ありがとうございます
文献で見かけて気になっていたところですので、スッキリしました。
ありがとうございました。
確率分布から平均や標準偏差を求める場合に モーメントという用語を使う場合があります 確率分布関数がF(x)である場合 0次モーメントが m0 = ΣF(x) 1次モーメントが m1 = Σ(x*F(x))/ΣF(x) 2次モーメント以上のn次モーメントが mn = Σ((x-m1)^2*F(x))/ΣF(x) で、0次と1次と2次以上で定義が変わって気持ち悪いです 0次と1次を含めたn次モーメントは本来どうやって定義するのでしょうか?
確率分布関数を用いた定義は知らないけど、 n次モーメントはE[X^n]で定義されているのでは n次の中心化モーメントはE[(X-E[X})^n]で定義されている 平均値はE[X]で1次のモーメントに相当し、分散Var[X]は1次のモーメントと2次のモーメントを用いて Var[X]=E[X^2]-(E[X])^2で定義されています。 見当違いのこと言ってたらごめんなさい
その前に
>>276 のn次モーメントは
mn = Σ((x-m1)^n*F(x))/ΣF(x)
の打ち間違いでした。
>>277 分散が
>Var[X]=E[X^2]-(E[X])^2で定義されています。
という定義でもあるというは見たことはあります。
上の書き方だと
Var = Σ(x^2*F(x))/ΣF(x) - (Σ(x*F(x))/ΣF(x))^2
一方で、重心周りの2次モーメントは
m2 = Σ((x-m1)^2*F(x))/ΣF(x)
MatlabクローンのOctaveで正規分布のその分散とm2を計算してみると
mu=50;
> sg=10;
> xx=[0:0.1:100];
> yy=exp(-1.*(xx-mu).^2./(2*sg^2));
> m0=sum(yy);
> m1=sum(xx.*yy)/m0
m1 = 50.0000
> var=sum(xx.^2.*yy)/m0-(m1)^2
var = 99.9985
> m2=sum((xx-m1).^2.*yy)/m0
m2 = 99.9985
同じになります。でもたまたま合っただけのようにしか思えません。
重心周りの0次と1次モーメントの定義が知りたいのです。
>>278 そのF(x)は確率分布関数ではなく普通は確率関数と呼ぶ
原点回りのn次モーメントはE[X^n]
平均周りのn次モーメントはE[(X-E(X))^n]
分散の定義は平均周りの2次モーメントV(X)=E[(X-E(X))^2]
公式としてV(X)=E[X^2]-E[X]^2が成り立つ
0次モーメントは原点回りでも平均周りでも1になる
重回帰分析したいのですがcsvファイルが見当たりません 喫煙率と肺がん、年齢などのデータはどう入手すればよいでしょうか
先生が、全部、墓へ持って行ってしまいました。 そっち方面は、最初からやり直してください。
283 :
132人目の素数さん :2013/11/19(火) 09:13:37.79
こないだの日曜日、統計検定3級受けた人いる? 過去問より難しくなかった?
すみません。卒論で気温や降水量の分析をしているのですが、気温どうしの分散、なら比べられるのですが、気温と降水量の分散は比べるには大体どうすればいいのでしょうか
相関とか
統計学の授業で困っています 助けてください 学内で食生活のアンケートを取りました その結果と全国データを比べるのですが、解析の方法がわかりません アンケート項目は 1.食生活に関心があるか [関心がある][どちらかといえば関心がある][どちらかといえば関心がない][関心がない] 2.料理をするか [毎日する][週に2,3日する][週に1日する][全くしない] 全国データでは「食生活に関心があるほど料理をする」というものでした これと同じことが私の学校でも同じと言えるのか、言えないのか調べるためには、どうすればいいですか?
>>286 >全国データでは「食生活に関心があるほど料理をする」というもの
この結論を得た解析と同じことをやるしかないんでは。
関心度、料理頻度を適当に数値して相関係数を求めるとか
289 :
132人目の素数さん :2013/11/19(火) 23:55:17.27
杏「どうしてわかったんだ?」 ほむら「統計よ」
>>283 を受けたことは無いけど、試しに1級の過去問を見てみたけど、先日の1級の試験は照明問題が減ってる印象ね。
>>283 2級受けてきたけど、2級も過去問より難化してたと思う。
解答速報も出たから採点してみたけど、7割ぐらいだった。合格ラインは何割ぐらいなんだろうか。
Twitter見ると1級難化してるとか言ってたな
TV番組で、日本人の1日当たりの塩分摂取量全国平均が男性11.8g、
女性10.1g、全国1位を男女とも山梨県が獲得と紹介していた。
厚労省統計値らしいんだが、聴取されても答えられぬ塩分摂取量統計
なんて、どのように採取集計するの?
「なぜ多い? 山梨県の塩分摂取量」 2013.11.05
http://textview.jp/post/health/10526
>>295 記述式で1日3食×1週間の食事アンケート
外食の各メニューやスーパーで買った食材(魚の切身)とかの塩分量は厚労省もデータを取得済だから、概算値は十分に計算できるかと。
>>296 即答有難うございます。アンケート記述式として県民平均摂取量はどの
ように集計するの?ラーメンスープを飲まない・飲干すとか醤油ふり
かけ量等の個人差や老若世代差や温暖・寒冷県差をどう加減するの?
到底科学的統計値になりえないと想像されるのですが?
厚労省なら健康診断でも見てるんじゃないの
集計は国民栄養調査とかじゃないかね。 あれは全国を単位区として無作為抽出してるから、 その都道府県あたりの平均や個人属性とかは出せるかと。 塩分の計算自体がアンケートからの概算という限界は変わらないけど。
>>295 リンクを見ずに答えるが、
>>299 の言うように国民栄養調査のデータだろう。
厳密に計測するときは、24時間畜尿をやって尿中塩分濃度から摂取塩分を推定する。
でもそんなの何万人もの大規模調査で実施したら途方ない予算が必要。
国民栄養調査の調査方法については、厚労省のWebサイトで解説されているから、
参照して下さい。
>>300 まぁ、それが栄養学の限界。ずっと議論されてているらしい。
それから血圧だって、日中変動や再現性に大きな問題があって、
「本当の値」は何かという問題がある。
綺麗な看護師とおばちゃんでは値が変わってしまうからね。
精度が荒くてもないよりはいいじゃないか。
誤差は付き物
305 :
132人目の素数さん :2013/11/25(月) 17:00:54.36
エクセルでグレンジャーの因果テストってできるのかな・・・ 出来るのなら、やり方を教えてください!
統計学の勉強はじめたいんだけど、 Amazonのレビュー見たら「数式が少なくてわかりやすい!」とか甘ったれた理由で星つけてるのばっかで どれが良書なのかよくわからん おすすめの入門書教えてくれ
Amazonのレビューは嘘だらけだよ。 小島寛之の本には完全に騙された。詐欺レベル。
308 :
132人目の素数さん :2013/11/28(木) 01:12:42.91
統計検定3級 平成25年11月 問3 AチームとBチームのサッカーの試合において、じゃんけんで勝った方を先攻とし、あいこの場合はAチームを先攻と決めた。このとき、3回の試合の先攻を決める場合にあいこが1度も起きず、Bチームが少なくとも一度は先攻になる確率を、次の(1)〜(5)のうちから一つ選べ。 (1) 1-1/3 (2) 1-(1/3)~3 (3) 3*(1/3)~3 (4) 7*(1/3)~3 (5) 8*(1/3)~3 【解答】(4) 解説お願いします。
8-1=7
>>309 レスありがとうございます。
8はどういう意味合いで出てくるものでしょうか。
理解がとろくてすみません… m(__)m
3+3+1=7
>>308 Bが○ならAは×
Bが×ならAは○
Bが△ならAは△
1回目:3通り
2回目:3通り
3回目:3通り
全部で 3*3*3通り
-----------------------
Bが3回とも先攻 ○○○
Bが2回のみ先攻 ○○× ○×○ ×○○
Bが1回のみ先攻 ○×× ×○× ××○
条件を満たすのが 7通り
------------------------------------
あってる?
>>312 さん
おお!分かりやすく説明いただき、ありがとうございました!!
納得できました!! ^ ^
サッカーはコイントスなのに。
>>306 誰かこれを頼む…ペーパーバックとかでも頑張って読むから
>>315 数理統計学の入門書レベルでなく、『初等統計学』なんて銘打たれた教科書なら、
独学のための取っ掛かりとしてはよろしいんじゃないかな?
経験則では初等〜の類には、まず積率母関数は触れていないカンジ。
だから、定理や法則の解説や例示されている証明に微分や級数展開が使われずに展開されている印象。
初等レベルを勉強し終えてから、今度は数理統計を謳った教科書で、同じ単元でもより深く勉強するなんてのは?
>>316 ありがとう
amazonとか見ながら1冊買ったんだけど、式の解説が薄くて式の意味の理解が浅いままだった
だから統計学の概略は分かったんだけど、いろいろ腑に落ちないところが多かった
数理統計学っていうのが数学的にしっかりとしてるのなら、次はそっちのジャンルの本を買ってみる
318 :
132人目の素数さん :2013/11/29(金) 09:34:39.71
高校数学でわかる統計学」
ヤフー知恵袋でなく、2ちゃんのこんな板を見付けて書き込みに来るくらいの人間には満足できない超初心者向けの一冊なんじゃない? 本の題名的にも。
322 :
132人目の素数さん :2013/12/03(火) 02:46:12.21
ブルーバックスの高校数学でわかるシリーズは結構いいよ 名前で判断してはいかん Amazonのレビューみてみればわかるが
へえ、今読んでる本終わったら読んでみようかな 文庫本サイズは手出しやすいし
325 :
132人目の素数さん :2013/12/04(水) 12:37:55.44
「相関係数を求める」ことと「無相関検定」の役割的な違い ってどうなのでしょうか。 二つの変数の相関を調べるだけなら、相関係数だけでいいかと 思うのですが、、。
少し質問させてください 異なる計算方法の二種類の為替レートがあって、 その差が有意であるかを調べたい場合は どのようにすれば良いのでしょうか? たとえば計算方法1では、ユーロ=120 ドル=100 ポンド=150 と計算され、 計算方法2では、ユーロ=115 ドル=105 ポンド=152 などと計算される場合に、 両計算方法からでる結果に有意差があるかを知りたいです。 各通貨の平均をとってt検定しても意味がないように感じますが、 (各通貨ごとに平均値が大きく異なるので) どうにか計算方法の違いを有意検定できる方法はありませんでしょうか? よろしくお願いします。
>>326 計算式が異なれば有意な差がでて当たり前じゃないの?
ユーロ vs ドルをn=100で計算してみた。
> f1 <- function(x) x * 100/120
> f2 <- function(x) x * 105/115
> x <- sample(10:100000, 100)
> t.test(f1(x), f2(x), paired = TRUE)
Paired t-test
data: f1(x) and f2(x)
t = -17.1435, df = 99, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4471.794 -3544.030
sample estimates:
mean of the differences
-4007.912
ありがとうございました、t検定でいけるのでしょうか?
>>326 は数字は全くの適当ですが、
為替レートを計算するための複雑だけど正確な式と、
簡単だけど大雑把な式がありまして、
簡単なほうで計算をしても問題無いかどうかを知りたいと思っています。
言い換えれば、統計的に有意差が無い、ほうが好ましい結果となります。
本来の検定の考えかたとは異なると思いますが、
どのようにアプローチしていけばよいかわからず
困っております。
検定の問題集みたいなので勉強になる本無い?
>>330 ありがとうございました!まさにこれでした。
そして、帰無仮説が棄却されなかったからといって、
帰無仮説を採択できるわけではない、
という初歩的なところを誤ってました。
ありがとうございました
正規分布する確率変数の和の分布 とかでさ、 積分したら1のものと積分したら1の物を足したら、積分したら2になるじゃん。 そしたら積分したら1でなきゃいけない確率変数ではなくなるじゃん。 つまりどういうこと?
は??
もうちょっとわかりやすく疑問を投げかけてくれ 具体例出すとか
335 :
332 :2013/12/06(金) 18:31:43.95
よくわかってないので、変なこときいたのかもしれないのだが。
正規分布の再生性 あたりの疑問で、たとえば、
ttp://bio-info.biz/statistics/element_reproductive_property.html このページの一番下の図のようなことを考えていて、
赤と緑の面積は1だから、それの合わせた緑の面積は2になるじゃん。
だから、確率変数の和の分布はどうして2じゃ無いんだ?とか考えたわけだ。
まあ、正規分布の再生性 というのが、図にある’重ね合わせ’のようになんでならないかが
さっぱり根本的にわかっていないから、そう考えたんだろうけど。
結局のところ、確率変数を足すと、なんで重ね合わせのようにならんのだ?
337 :
132人目の素数さん :2013/12/07(土) 17:05:59.42
十年前に数学科を出たものですが、統計学勉強したくなりました。 何から勉強すればいいですか? 教えろください。
数学科出たのなら,「数式がない..」とかのうたい文句があるのはヤメた方がいい。 バッチリした教科書、確率まで踏み込んであるのが読めるならそれがいい。 あなたが数学科で代数とか幾何とか選考して、解析や確率を敬遠していたのなら、 昔の高校教科書「確率と統計」とか見てみると多分すんなり入れると思う。 たとえばちくま文庫から出てるような。それから、専門的な教科書に入るのはワリ と易しいと思うよ。 以上似たような経歴のモンから。 ゼミで確率論なんかやってたのなら全く無用の助言でした。
339 :
132人目の素数さん :2013/12/07(土) 17:48:53.29
>>338 ありがとうございます。
ゼミでは、グラフ理論やってましたw
高校からやるのいいかもしれませんね。
専門的な教科書のおすすめってありますか〜?
そもそも統計学なんて数学科以前に教養課程で習うだろ 統計専攻の人でも学部レベルくらいまでなら、あれに毛が生えたようなレベルしか 勉強しないぞ しいて言うなら、確率論に測度が入ってくるくらいか
343 :
132人目の素数さん :2013/12/08(日) 04:53:21.60
みなさま教えてちょんまげ。 統計検定1級対策は何を勉強すればいいですか? 公式テキストだけじゃ足りないよな??
345 :
132人目の素数さん :2013/12/11(水) 22:15:25.47
344が進行とめたねw
>>344 337は数学科卒にしては適応してる人だと思うよ
いまごろ統計やってみようとか感心感心
昔グラフやった人ならちょっとモチベがあれば
その辺の有象無象よりはあっというまにテイクオフだよ
がんばれ
本人登場
momentとmoment generating functionがあるのは分かったけど、 なんでこれを導入すると有用なのかがイマイチ分からない…
微分が簡単な指数関数で1回2回と微分すれば平均や分散が求まるってところから、 もっともっと深く意味を求めたいのなら、和訳の積率母関数でググればいっぱい説明してるサイトがみつかすよ。 勉強してる人が歪度や尖度をに対してどれくらい重要さをイメージしているか、次第かなと。
>>349 関数の一致や関数列の収束などを示すために
ラプラス変換したもので考えたほうが計算が楽になることがある
例としては、中心極限定理の証明、分布の再生性の証明などなど
352 :
132人目の素数さん :2013/12/17(火) 00:26:59.91
nでわるのか n-1でわるのか 分からなくなってきた。
解答がマークシートの類でなく、設問ごとにある程度の余白が用意されている答案用紙だったら、 その問の解答途中で、 偏差平方和をn-1で割った値を標本分散とするならば〜 みたいな一筆をあらかじめ入れておいて、計算を進めていけば、 仕上がった答案に対して採点者も原点ってカタチで文句を付けることは無いんじゃないかな?
そんなこと書いても違いが分からないのならバツです。
不偏分散という用語はあるが、 n で割ることを陽に示す言葉が無い のは、不便ちゃ不便だな。 統計よりな人は、「分散」とだけ聞いて 不偏分散のことだと思ったりするからな。
高校で習う標準偏差とか分散って、そりゃ、データがたまたま、 ああいう綺麗な真ん中で盛り上がってる綺麗な形なら使えるけどさ、 実際のデータは、もっとひん曲がった、右と左が非対称だったり、ぐにゃぐにゃな形だったりするんだから 実務的なリアルなシミュレーションするときは、あんまり使えなくないですか それなら、数式もクソもない、ただ確率に応じて代表的な数字を返すだけの、素朴なプログラムのほうがよほどリアルな出力になる。 ・・・と思うんですが、ぼくの認識はおかしいですかね。
高校生かな? もちろん全てのデータが正規分布に従うなんてことはなくて、 ひん曲がったぐにゃぐにゃな形があることなんて100年以上も昔から分かっているし、 もっと上級の統計学になるとそういう形に対応できる様々な分布を取り扱うようになる ただ正規分布が、様々な分布の中でも一番基礎的で重要な分布なのは間違いないから、 高校では正規分布に絞って統計学のさわりを教えているんだと思う 実務的なリアルなシミュレーションでは、データに沿った分布を選択することになる
>>357 そうですよねえ。正規分布は、そこそこ使える分布ながら、手計算しやすい=エデュケーション用途にもピッタリ
てなことだと思ってましたが、やはりそういうことでしたか。
ただ、私は、この手の分析の仕事は、コンピューター使ったほうが、複雑な関数を使わなくて済むぶん、
よほどシンプルになると思いました。 ご返答ありがとうございました。
全然違うと思いますがそういう理解でいいんじゃないでしょうか。
360 :
132人目の素数さん :2013/12/18(水) 19:39:32.30
w
>>358 >
>>357 大数の法則といって、
もとがどんな分布であろうとも、標本をたくさんとればとるほど、正規分布に近づく
っていう数学の法則があるのです。
教育的な分かりやすさからいうと、二項分布とか分かりやすいし、身近な例への応用もやりやすい。
そのコンピュータが結局ヒトにとって複雑な関数の計算を代行してくれているんじゃ荷ですかねえ
363 :
132人目の素数さん :2013/12/19(木) 01:14:21.85
>>361 標本平均の分布が正規分布に近づくのは中心極限定理では?
その中心極限定理を保証するのが、要するに大数の法則かと
大数の法則は、弱と強があって、確率収束と概収束に関連しています。 成立条件から言っても、中心極限定理とは別物です。
どんな分布の母集団だろうとサンプルとった平均は正規分布するんだから、 逆算すれば母集団の平均が推定できるってことだな。
>>366 > どんな分布の母集団だろうとサンプルとった平均は正規分布するんだから、
もっと統計用語は正確に書いた方がいい。正規分布するなんて、どの教科書にも
出てこないよ。
標本平均が正規分布に従うなんてことはない。
指数分布に従う母集団からの標本平均も正規分布に従うの?
わざと一般人の理解向けに不明瞭に書いたんだよ。
ここはひどいインターネッツですね。
質問者の程度に合わせた回答を施してあげるのも、知性ある人間としての能力の一つだ。 同好の士同士の問答でもあるまいし、何でもかんでも難しく答えりゃイイってモンじゃない。
正規分布は使えないという結論に至った初学者に 指数分布では〜とか言ったらやはりおれの結論は正しかったになるよ。
統計学って最初の壁が絶壁なんだよな。
『唯一、社会に出てからも役に立つ数学』をウリにしておいて、とっつきにくさという実質的な足切り関門が存在しているというのも、改善すべき要素だと思うなあ
この程度で「つきはなされた」と感じて混乱するような人は統計なんて使わない方がいいよ 他の人に任せなって
376 :
132人目の素数さん :2013/12/19(木) 13:22:43.16
>>366 正解
>>367 >指数分布に従う母集団からの標本平均も正規分布に従うの?
従う。
中心極限定理は母集団分布は何だっていいことを保証している。
サンプルサイズが十分大きい時、中心極限定理が成立する。 です。
信頼区間95%を素人に理解させるのは不可能。
2chではありがちなことだけど、 自分の中での結論ありきで議論を展開する奴に物事を理解させるのは不可能だから その辺に見極めが重要
何冊か読んだけどカイ二乗分布の説明がどれもこれも概念的すぎてよくわからん…
カイ二乗分布は確率変数の二乗和が従う分布。 ただし、母集団の分布が正規分布で確率変数は独立である必要がある。 カイ二乗分布の存在意義は検定に使えるから。
なんで正規分布じゃダメなの?って疑問。
平均の検定なら正規分布やt分布でいいが、 標本分散は正規分布には従わない。 分散の場合は、カイ二乗分布に従うから、これを使う。
本当に基本的なところで申し訳ないんだけど、分散を比較しなきゃいけないシチュエーションって どういうシチュエーション?
そういうことか。普通は平均だけで満足しちゃうから出番が少ないのか。 ありがとう。
例えば、税理士の平均年収が600万円で弁護士の平均年収が650万円だったとする。 普通の人なら、税理士も弁護士もほとんど年収変わらないなら、税理士の方が得じゃない?と考えるだろう。 しかし、もしかすると、弁護士は新卒が多くて、給料あまりもらってない人が多く、高所得者も多いのでは?とか、仮説を立てる。すると、年収の分散も比較したくなるわけ。 じゃあ、税理士の分散と弁護士の分散を検定してみると、この仮説が検証できる。 このとき、分散比の検定でF分布(カイ二乗分布の親戚)を使う。
なるほど。わかりやすい
392 :
132人目の素数さん :2013/12/20(金) 13:33:11.96
アスぺ乙
393 :
132人目の素数さん :2013/12/20(金) 15:20:21.80
検定統計量っていろいろあるけど、どうやって算出するんだ?
たいていはただの標準化だよ 教科書に導出とか載ってない?
>>392 アスペクト比が問題なわけだな、分散の偏りだな、勉強になります
396 :
132人目の素数さん :2013/12/20(金) 19:55:16.86
>>391 3変数以上の検定には多重比較などを利用出来る。
397 :
132人目の素数さん :2013/12/21(土) 11:14:19.36
ピペット操作を複数回行い、得られた数値の平均値、標準偏差から変動係数は3%以内になった 変動係数が3%以内であれば測定値は正確な値だと言われている なぜ3%以内なのか統計学の観点から考察せよ という課題が出されたんですが、全くわからず、結局レポートを提出できませんでした その後も答えをくれませんでしたし、参考書を見ても3%以内なら正確な値とは書かれてませんでした どのような回答が正しかったのでしょうか
>>397 「考察せよ」という課題に解答なんて存在するの?
>>393 パラメトリックなときは、Neyman-Pearson fundamental lenma
ノンパラのときは、対立仮説と帰無仮説の差を表現できるものから検定統計量
作ります。
「考察せよ」てのは問題自体も問題なんだよな
正解がないなんて良問だろう。暗記問題じゃないということ。
考察せよ 考察しました ご苦労さん
405 :
すみません数学得意な人この問題解いて下さいm(_ _)m :2013/12/22(日) 22:18:14.10
A.B.C.D.E.F.G.Hの8チームがトーナメント形式で戦う 一回戦の対戦相手はくじ引きで決めPからWまでのどこかに振り分けられる Aが2回戦でBを倒し、3回戦でCを倒す確率は? 答えは336分の1なのですが納得出来ません 優勝 | | ー ー | | | | ー ー ー ー | | | | | | | | P Q R S T U V W
Aが2回戦でB、3回戦でCと当たるような配置になる確率:2/7*4/6 AとBが共に2回戦に進む確率:1/2*1/2 AがBに勝つ確率:1/2 Cが3回戦に進む確率:1/2*1/2 AがCに勝つ確率:1/2 これを全部掛け合わせる
407 :
132人目の素数さん :2013/12/23(月) 09:06:16.84
>>406 解決しましたありがとうございますm(_ _)m
408 :
132人目の素数さん :2013/12/24(火) 17:24:15.09
質問です 時系列データの標準偏差というのは定性的にいうとどういう意味があるのですか? 動きが激しいほど大きいとかですかね???
逆だ。 「動きが激しい」という詩的表現が、 定性的には、時系列の分散が大きい という意味を持つのだ。
もちろん動きが激しいほどボラティリティは大きくなる。 例えば、株だとリスクの大きさを表す。
最近勉強し始めて統計の入門の本いくつか読んでみたけど、 実践を説明しつつもその理論的背景に触れてる本ってほとんど無いんだね。 例えば、t分布の話では、t分布は母分散が未知で小さな標本に対して使うもので、 どうやって信頼区間を計算していくのかが説明されていくけど、 なぜそれがt分布に従うのかの説明が薄いことが多い気がする。 多分それは、実際的な仕事として統計学を必要としている人が数学に対するリテラシーを あまり持ちあわせていないことが多いからなんだろうけど、 やっぱりちょっと理論の支柱を端折られるとなんとなく気持ち悪い。 こういうところを端折らないでしっかり説明してくれてる良い参考書ってある?
おれもそう思う。 数学出身の人だと、確率論やったもんでなくとも、 大数の法則、中心極限定理など通過しているうちは納得出来るが、 いざ応用の段になって、これこれの標本には、ほにゃらら分布がよく合います、 というところでは、「ふ〜ん」というしかない。 実際の現場では、そうなってんだからつべこべ言わずにやれ! ということなんだろうか? 統計学は最強の武器である、というならわかるが 最強の「学問」だそうだから。
数式を使用しないことを売りにしてる統計学入門書を手に取って 数式がない、証明がないというのは筋違いではなかろうか。 数理統計学ときちんと題名がついてるなら証明まで書いてる可能性が高いんじゃないかな。
>>412 統計学は数学と違って解釈が含まれるからな。
例えば、有意水準5%にする理由にしても経験的なものだし。
やっぱその辺が数学者からしたら、しっくりこないんだと思う。
自閉症の人でしょ、それ 数学者一般に話を拡げないでよ
問題から入る統計学があってもいいかもね ありそうだけど
417 :
132人目の素数さん :2013/12/26(木) 17:41:06.94
>>413 いや、数式満載、すべての定理に証明付き、という数理統計学の
で入門して1冊目はスムーズだったんですよ。
だから甲斐事情分布辺りまではスイスイだったんだが、
次の統計本になって、以上のような始末。
特に、馬に蹴られて死んだ兵士の数とかワラってしまう。
いや死者を侮辱してるのではないよ、ナポレオン時代の話しでしょ。
数学はなれるとこういう話は好きなんだが
>>413 俺はあえて数式が少ない入門書を選ぶつもりはなかったんだ。
「統計学」自体が数学の一種に分類される学問を表す言葉だと思うし、
「統計学」が文系でも踏み込めるライトなジャンルで、
「数理統計学」がしっかりと数学しているヘビーなジャンルだなんていう住み分けは
初学者にはわからんよ。おかげでいきなり躓いてしまった。
それはともかく、数理統計学の本を探せばいいんだな。
教えてくれてありがとう。
>>414 普通、統計学使った論文だと有意水準は複数出してる
5%、1%、0.1%など
あんまり入門書だけで語るな
>>411 使い方よりも分布の構成の仕方とかを数学的に説明するというタイプの
本ならそこそこある。有名どころなら
Hogg, McKean and Craigの本とか。
統計の入門書しか読んでない研究者が有意水準を複数論文に入れるんだろ? 普通なら検出力を書いとけば良いと思うが。
検出力でなく、p値でしょ。
>>411 > なぜそれがt分布に従うのか
t分布が編み出された『実験的背景』としては、
少数の標本抽出×気が遠くなるような試行回数の結果、構築することのできた分布なんでしょ?
今日までBSで神の数式完全版が放送されてたけど、出演者たち理論物理学者は
キチンと数式的に証明してくれなくっちゃ、こんな説明では全く納得できないんだろうけど。
>>411 ガンマ関数やゼータ関数を用いて説明しなくちゃならないってことになったら、
大半の読み手のことを考えたら、理論的背景を敬遠するんじゃないかな。
>>422 いや、p値じゃなく検出力
確かに、有意水準を複数記載されるより、p値を書いてもらったほうがありがたい。
けど、検定で最も大事なのは第一種の過誤と第二種の過誤がどのくらいの確率で起こるかを知ることだから、検出力の記載は必要かと。
>>424 さま
411ではありませんが,ガンマやゼータ使って議論出来るんですね
それは面白い,いずれ暇ができたら勉強します.
やっぱり本だけではなく,論文読んだり,その筋の人達と
しゃべらないと分かんないですよね.
>>423 t分布が完全に経験則ってこと?そんなわけないだろ
そう勘違いする人が居るってこと自体、巷に出回ってる統計の参考書は不十分ってことだよ
428 :
132人目の素数さん :2013/12/28(土) 15:04:30.55
統計数理研究所の広大出身の河村敏彦助教ってのは、 書いている本が全く意味不明だし、 馬鹿のくせに自分の業績自慢ばかりしてる。 気に入らないとずっと怒鳴ってるし、 まったくキチガイとしかいいようがない。 なぜ河村敏彦のようなキチガイが 助教になれたんだ? コネしか考えられないんだが、将来的には 河村敏彦のキチガイ野郎がコネで大学教授とかに なるのか? 信じられん!
なんとかして誰かを傷つけてやりたい、ってアンチの書き込みは、それが強すぎて 逆効果になってることってあるよね。
430 :
132人目の素数さん :2013/12/28(土) 15:35:29.34
なんとかって助教が馬鹿かはわからんが、
>>428 は間違いなく馬鹿
人を攻撃するくせに自分は『スレ上では』完全匿名というのも卑怯だよね
あまり強い言葉を遣うなよ 弱く見えるぞ
433 :
132人目の素数さん :2013/12/29(日) 04:33:00.12
>>428 河村君の能力では助教以上のアカポスに就くのは不可能だろう
だから放っとけばいい
ID非表示の板なら、日付変わらなくても工作活動が自由自在ね
436 :
132人目の素数さん :2013/12/29(日) 13:34:54.83
河村君が2chばかりやっているといううわさが 本当だということは確かめられた そんなヒマがあったらほんの少しでも勉強したほうがいい それでなくても駅弁で頭も悪く、性格はすごく悪いと評判なのだから
437 :
132人目の素数さん :2013/12/29(日) 14:06:24.15
キチガイにストーキングされると大変だね
438 :
132人目の素数さん :2013/12/29(日) 15:31:27.03
河村敏彦助教がストーキングしてるのかね? あいつならやりそうだ(笑
439 :
132人目の素数さん :2013/12/30(月) 11:35:01.74
あ、本当に河村が書かれてる
440 :
132人目の素数さん :2014/01/02(木) 05:54:57.73
441 :
132人目の素数さん :2014/01/02(木) 06:04:34.68
質問させてもらいます。 試行回数をn、的中率をp、回収率をk%とすると、 真の回収率=k × (p ± 2×平方根((1−p)×p/n) )/p ※1と2の真の回収率はいくつになるのでしょうか?お願いいたします。 ※1 試行回数485 的中率5.8% 回収率181.3% ※2 485 11.5% 123.9%
起こりにくい事象を毎日計測して曜日毎に平均回数を出してλ_sun, λ_mon, ・・・, λ_sat を作り、全て足し合わせたものをパラメータにポアソン分布を作ります これは曜日なんて考えないで単純に毎日計測して平均回数を7倍したパラメータで作ったポアソン分布に一致しますか?
質問があります。私は経済学部1年です。 1. 普通、回帰曲線は残差平方和を最小にする曲線だと思いますが、経済かその他の現象で、残差平方の加重平均か指数移動平均を最小にする曲線に意味があることはありますか? 2. よく個人投資家の株やfxで、現在価格とは違う、真の価値として単純移動平均や指数移動平均が出てきますが、これは有効ですか? 真の価値より低いときに買い、高いときに売るそうです。二項格子モデルでは無意味で、ブラック=ショールズモデルでは逆効果だと思うのですが。 時系列分析とか勉強してません。これからするつもりです。
1.最小二乗法のことだと思うけど、その曲線に意味はない。 2.有効ではない。 とだけ、言っておこう。 証券の真の価値とかそんなもんデタラメだから、信じない方が良いと思います。
fxのブログ見たら頭悪そうなのばっかり
「改訂増補版紅魔館の統計学なティータイム」買った。 まあいい本だと思うが、もうこうなると別に東方のキャラ使う意味なくね?
有名キャラを使えば、話のタネにしたい人やコレクターが買うんだろう
興味ない人間からすると、逆にそういうの絡ませちゃうといい本でも手を出しづらくなるけどな
450 :
132人目の素数さん :2014/01/05(日) 17:54:45.18
クズがクソ本の宣伝
451 :
132人目の素数さん :2014/01/05(日) 21:40:00.32
クズ代表の俺から言わせてもらうと、他人をあからさまに クズ形容する人に本物はいない。ソツのない秀才タイプが多い。 ソツがないということは、自分の手を汚そうとしない。けれど 真実を掴み取ろうと思ったら、自分で泥をかぶりその中にしか ダイヤの原石のような本物は無い事に気付くことだ。クズの俺は そんなことすらまだ出来ないw
n数が1では正しさを評価しようがないな
453 :
132人目の素数さん :2014/01/05(日) 23:06:42.01
クズを無作為抽出→あなたは本物ですか?と質問→母比率の検定
母集団は2ch
455 :
132人目の素数さん :2014/01/06(月) 01:26:03.23
キチガイがクズ本の宣伝しても 2chらしくていいんじゃないか?
母集団の母数は何ですか(初心者) 集団のサイズwwwwwww
無作為抽出とは程遠いから意味無いね
ただ解ってるならアンケートやる前に言えよって話
小学校3年生から英語を習わせるように、統計ってヤツも算数の段階からリテラシーを育成する意味でも教育に重きを置くべきなんじゃねーの?
小学校で「割合」の概念を扱うのが、確か5年か6年の頃ですわ
世論を推定するには価値のないアンケートだが、 朝生見てる奴はこういう奴らという統計量としては意味がある。
むしろこの偏ったデータを修正するためにどの程度の規模でどのような調査を実施すべきなのか
普通の新聞の世論調査で十分だよ。
>>464 無作為で発生させた数字列を電話番号に見立てて、それで電話をかけて実際に出た人に対して、世論調査に協力。
いきなりの電話でイタズラ電話だと思う人も多いから、回答率は60%程度ではあるけれど、そんな無作為標本から得られた調査結果ならば、世論調査として安心できるわな。
政治問題に無関心な層に関しても、1-0.6≒0.4という数字デからも判断できるから、回答率100%のいびつな電話FAXアンケートよりも信頼に値する調査結果だし。
466 :
132人目の素数さん :2014/01/08(水) 14:21:36.72
「イタズラ電話にわざわざ回答する」というフィルターが恣意的ではないとは思えない
468 :
132人目の素数さん :2014/01/08(水) 23:42:50.70
>>466 実際こういう世論調査における回答拒否ってどう扱えばいいんだろう?
テレビなんかだと回答内容の内訳のグラフとか出したりするけど、あれに回答拒否を加えたら意味あるのかね
そもそも日中に家の電話に出られるヒマ人って段階で到底無作為とはいえないんじゃないか?
まともな世論調査では有効回答とか回答率とか数値も出してる。 マスゴミの信用度と取るか世論の民度と取るか調査した会社の態度の悪さと取るかは また別のアンケートが必要だな。
例挙げて質問します 車のアクセルペダルの踏み込み量によって車の走り方がどう変わるかという実験をしたとします 踏み込み量を因子として、20%40%60%80%100%の5条件とします 測定データを加速度、最高速度、燃費、回転数とします 踏み込み量と車の走り方の関係性を検討するにはどういった検定を行えばよいでしょうか?
仮説検定の対立仮説(H_1)と帰無仮説(H_0)について質問です H_1:μ>m と H_0:μ=mについての検定ってよく書かれているんですが、 帰無仮説って必ずしもμ=mでなければならないんでしょうか? μ<mとかでもよいのでしょうか
>>472 帰無仮説は否定されてこそナンボ
イコールであるコトを否定する方が検定作業は簡単。
キム仮説ってなんか韓国人の仮説みたいだ
ある事象が韓国発祥であるという仮説 確かに否定されてナンボだ
もともと金さんが発見したから金仮説だろ 統計学の発祥は韓国
大学で統計学やってるんだが質問いい? 問、(有意水準5%として)「有意水準」とは確率である。確率であるということはある試行を無限回繰り返した時に何が起こる確率が5%なのか? また上でなされた判断(ある試験の母平均が50点であるかどうかの仮説検定)は、現実に観測された結果をどのように考えた結果なされたものかについて述べよ 説明が上手くできないから教えてくだされ m(_ _)m
>>477 有意水準=危険率って教えてる先生も多い。
やさしい解説書にもそういう記述が多いんじゃないかな?
否定されてナンボのキム仮説が「実はまさかの真実であった!という確率→"有意水準0.05"
ato,
天気予報の降水確率と関連付けると、何となくわかり易いって教わった。
ももクロっぽさ
独立でない正規分布の和、例えばX+Yみたいなのって正規分布に従う? 各平均、分散に加えて共分散さえわかれば、平均も分散は出せるけど分布も正規分布なのか? 適当に調べたんだが独立な場合に畳み込みやら再生性って話はあるけど、従属な時がわかりゃせん
従属の仕方による
>>482 なんかヒントください
共分散0.5みたいな感じだと正規分布になります?
484 :
132人目の素数さん :2014/01/23(木) 08:03:12.82
日本の学歴の相対評価 5(07%) 院卒・一流大卒 4(24%) 四大卒 3(38%) 短大卒・専門卒 2(24%) 高卒 1(07%) 中卒 これって大体あってますか?
それで大体合うように大学を格付けすればいいんじゃないですかね
大学院こそ学歴と実力との相関が大きい気がする
487 :
132人目の素数さん :2014/01/23(木) 10:43:20.60
>>481 従属なときは正規分布しないでしょ。
多次元正規分布は変数同士は独立が仮定にある。
独立じゃないと確率密度関数はめちゃ複雑な形になり、正規分布ではなくなる。
X が正規分布するとき、 X と X は?
ネトウヨがよく言う「韓国語は英語より平均点がめちゃくちゃ高いので 在日特権!(キリリッ」を検証するためには 1.大学入試センターが得点分布を公表し 2.その得点分布が正規分布に従うと言えるか検定 3.韓国語と英語の得点差に有意性があるかさらに検定 する必要があるんdが あ の 隠 蔽 体 質 を 考 え る と ム リ ポ
あえて英語じゃなくて第二外国語を選ぶっていうことは、 その言語に対してリテラシーがあるってことだから、平均点が高くなるのは当たり前 だから難易度に格差があるかどうかは第二外国語間の比較で論ずるのが妥当だと思う
491 :
132人目の素数さん :2014/01/23(木) 13:15:15.24
>>491 Xを確率変数としたとき
X+Xと2Xは違うんだぜ
マジで!?
新聞購読を止めて、月3000〜4000円、年間36000〜48000円の節約 特に日本と日本人を貶める売国新聞を購読することは売国行為に加担するに等しい 新聞を購読することは止めて自分の頭で考えるようになろう
あ、iidじゃないのか。なら2X。
分散=E(x^2)-E(x)^2 になるのどうしてですか? 分散は期待値u周りの二次元のモーメントなので、 分散=∫(x-u)^2・f(x)dx =∫x^2・f(x)dx-2u∫x・f(x)dx+u^2∫f(x)dx =∫x^2・f(x)dx-2u・u+u^2 =∫x^2・f(x)dx-u^2 ここで∫x^2・f(x)dxをどうすればE(x^2)に変形できるのですか?
Eという記号の定義より
E(x^2)って∫x^2・f(x^2)dx じゃないの?
f(x)はf(x) 例えばサイコロの出る目の二乗の期待値E(x^2)は 肺^2・p(x^2)じゃなくて肺^2・p(x)だろ?
あm分かりました。ありがとうございます
xの期待値は連続分布のとき∫x・f(x)dxで与えられるが、 このときxについての任意の関数g(x)の期待値は∫g(x)・f(x)dxになる
503 :
132人目の素数さん :2014/01/24(金) 17:02:58.68
綺麗な正規分布を描く試験はダメな試験 良い試験は出来る層と出来ない層で山が2つ出来る。 今年のセンター国語はアホが作ったんだな。
2つ山ができたら良いテストなの?何故?
出来る層(十分な国語の学力を持つ層)と出来ない層(十分な国語の学力を持たない層)の基準が大学によって異なる ということに考えが至らないようでは…
センターの場合、受験者が多いのと、学力にバラツキがあるから、 良いセンター試験は台形型の分布になるだろうな。
>>504 テストの目的って、賢いやつと賢くないやつを分類することだろ?
今年のセンター国語は賢いやつと賢くないやつを分けれてないな。
こんな正規分布だと国語出来ない奴も出来る奴も中央値に向かいやすくなる。
つまり、国語出来ない奴にはお得な試験で、出来る奴には辛い試験だったという
ことが分布から分かるんだな〜
「十分に賢い」の基準が大学によって異なる
教育界は横並び志向だから、 そっちのほうが「よい試験」。 偏差値を偏重するのも、 正規分布が念頭にあるから。
>テストの目的って、賢いやつと賢くないやつを分類することだろ? この時点で疑問符がつく 上のような意図の試験も一つの形ではあるだろうが、細かくランク分けすることが好ましい場合もある ましてやそれが、レベルが様々な全国の大学の共通試験ともなれば、一層疑問の色が濃くなる
>>510 その場合、分散がでかくなるから、裾の広い分布になるだろ。
尖度の大きい分布にはならないはず。
正規分布になるのが良い試験だとは言ってないよ 山が2つ出来るのが良い試験なのか?と疑義を投げかけている
ちなみに、センターは基礎学力を見る試験だから、細かい能力の差を見る試験ではない。 より精密な順位をつけるために2次試験があるんだろ。
合格、不合格の2値で判定される試験では、山2つが良い試験。
516 :
515 :2014/01/24(金) 20:47:04.47
その上で能力を推定することを考えると 問題単位で考えると能力に対して正答率が50%くらいの問題を与えるのが情報量が多くて一番良いと聞いたことはあるんだけど、その問題の集合をテストとしたときに得点分布はどんなふうになるんだろう
517 :
515 :2014/01/24(金) 21:56:24.41
>>516 これ得点分布考えても意味なさそうですね
考えるなら能力の分布ですかね
え、二つ山より、正規分布になる方がいい試験だと思ってたけど違うの?
>>516 テスト理論は統計学を使った方法がある。TOEICやTOEFLみたいな試験で採用されている。
この方法では、まず正答率が高い人を抽出する。
正答率が高い人だけが正解する問題は、出来る人を検出する問題ということで良い問題。
こいういう問題は配点が高くなる設定になる。
逆に正答率が高い人でも解けない問題というのは、誰も解けないじゃん。ということで悪問扱いで配点は低い。
あと、みんなが解ける問題というのも能力を測れていないので、配点は低い。
>>515 能力を測る場合でも、分散がでかくなるような分布が理想。
>>518 TOEICやセンターなど点数に意味のある試験では分散のでかい分布が良い試験。
間違っても、今年のセンター国語のような正規分布良い試験ではない。
2択まで絞って、そこからは運って試験が平均100点の正規分布となるが、センター国語はまさにそんな試験。
2次試験では合格、不合格に分類したいわけだから、山2つを目指して、試験を作る。
それ合格者と不合格者が明確に異なる平均・分散からなる母集団に区分けされるってこと? あり得ないだろそんなのw ましてやセンター試験みたいな母集団が大きくて受ける大学もバラバラな試験じゃあね
合否の分かれ目の点数に大量の受験者がいたら 運が合否の分かれ目の試験になってしまうな。よくない試験と言える。
まず 良い試験 悪い試験 の定義から始めなよ
>>522 統計学が分かってるやつらが作った試験(数学、物理)とそうでない奴らが作った試験(国語、歴史など)の分布を
見比べてみなよ。
国語や歴史は正規分布型に近いはず。
これは、科目の性質を表しているんじゃなくて、出題者の意図の違いだよ。
数学や物理は難しい問題を出そうと思ったらいくらでも出せるけど、
それでは出来る奴を判別する試験にはならないから、あえてそうしないだけ。
526 :
132人目の素数さん :2014/01/25(土) 12:24:45.43
適当に画像検索してみたが2つ山になんてなってねーじゃねーかw デタラメばっか言うなよ
物理や数学のセンター試験は山が2つあるとでも思ったのか? だから、山2つ出来るのは2次試験だって何度も言ってるだろ。
センター試験に端を発してるのにその論理はもうグチャグチャだろ だったら初めから口はさむなと言いたい
統計の話じゃねーだろ
>>529 センター試験の話がしたいなら受験サロンでもお逝きなさい
得点が正規分布しない方が受験用としては良い試験というのは勉強になった。
統計リテラシーが身につくといろんな知識が蓄えられるな
数学がちょっと好きな文系1年です。(統計2級うかったけど1級落ちました(T_T)) 質問があります。 標本比率から母比率を検定する方法についてです。 n: 標本サイズ p: 母比率 r: 標本比率 大標本のとき、比率の分布がN(np, np(1-p))に近似できると本や学校で習いました。 そこまではいいんですが、検定するときにpをrで代用してp〜N(nr, nr(1-r))に近似するという方法をやりました。 p≒rの話だと思うのですが、母比率の分布は厳密には少し0.5の方に歪んでますよね?(最尤値はrかな?)なんていう分布か教えてください。 それとレヴィ分布についても教えて下さい。 立ち読みした本に、正規分布を酔っ払いがホテルで自分の部屋から行き着く部屋とすると、 レヴィ分布は酔っぱらいが横に長い壁に向かって銃を撃ったときに銃弾があたる場所の分布だと書いてありました。 これってθ〜Nのときの1/tanθの分布って意味ですか?
536 :
132人目の素数さん :2014/01/26(日) 05:52:34.57
勉強した人は高い平均の分布、してない人は低い平均の分布で、結果は2つ山。 これを2人でなく1000人で考えると、多峰性の分布や一様分布になるが、さすがに0点や 100点は少ないので両端とれて台形の分布になるのでは。上のレスであるように。
537 :
535 :2014/01/26(日) 06:01:44.34
N(np, np(1-p))は数の分布だった N(p, p(1-p)/n)です
538 :
132人目の素数さん :2014/01/26(日) 06:13:18.36
なんかわかりにくいので式にすると単に X|μ ~ normal(mean =μ,sd =5)ぐらいで μ~uniform(10,80) の分布を考えると台形になるんじゃ。μ〜normal(mean=50,sd=10)はどうなんかな。 Xがセンター試験の得点分布で、μが受験者の実力分布としたばあいね
>>535 歪んでんの?へぇー
なぜ1/tanθだと思うの?
r=0のとき明らかにpの平均値・中央値は0より大。r=1のときも1より小。
ただしpの最頻値がrであると思ったから。
それ以外は想像。
まずレヴィ分布について知らないから、よっぱらいの銃が壁にあたったところってあるから
http://i.imgur.com/WPXzcFS.jpg だとおもった。
θがランダムで、y=tanθとy=1の交点の分布を考えた。
F分布のことかな? それ、正規分布になると思うよ? レヴィ分布は右に裾を引く分布だね。金融工学とかで使ってるよ。
542 :
535 :2014/01/27(月) 21:21:13.51
F分布ですか。母比率についてF分布にしたがう統計量あってびっくりです。 正規分布の比の分布はコーシー分布、正規分布の二乗和の分布はカイ二乗分布みたいな、狭義レヴィ分布の説明ってありますか?
パラメタ不明のn個の正規分布{N(μ_i, σ_i^2) | i ∈ [1,n]}から それぞれm個ずつ独立に値をサンプリングして、 そのmn個の値をもとに平均の和(Σμ_i)の信頼区間を作りたいのですが、良い方法はありますか? n個の分布に従う変数の和の分布を考えれば、標本数=mのt検定ができることは分かるのですが、 そこまで情報を捨てないで済むものを探しています n=2の場合は片方を符号反転してWelchのt検定でよさそうなんですが、 一般の場合にも似たような手法が使えるのでしょうか また、分散が一部共通の2n個の正規分布{N(μ_i_j, σ_i^2) | i ∈ [1,n], j ∈ [1,2]}の標本から (Σ(μ_i_1 - μ_i_2))の信頼区間を作りたい場合に良い方法はありますか
標本数?
すいませんsample sizeのつもりでした
sample size mのt検定はないでしょ。
547 :
132人目の素数さん :2014/01/28(火) 11:13:27.30
>>543 正規分布の再生性 じゃダメ?
それに平均の和(Σμ_i)の表記はΣX_iとかにすべきじゃ。もし
パラメータの信頼区間を求めたいなら別だけど。
>>542 レヴィ分布は確率過程や確率解析の本を見たら乗ってると思う。
統計より確率論の話。
こんなとこで聞かないで図書館行って調べろよ 何でもかんでも人に聞く癖を直せ 大学生なら最終的には教授に聞け
>>547 再生性を使うより良い方法があるかと思って質問したのですが、無理そうでしたか
ありがとうございます
>それに平均の和(Σμ_i)の表記はΣX_iとかにすべきじゃ。もし
>パラメータの信頼区間を求めたいなら別だけど。
パラメータの推定が目的なので、パラメータの信頼区間を求めたいです
551 :
535 :2014/01/28(火) 23:20:40.64
>>548 PRMLとかですか?
どうりで入門書でも数理統計の本で見なかったと思いました。
prmlは確率過程じゃなかった
553 :
132人目の素数さん :2014/01/29(水) 04:16:50.94
統計学をやろうとおもうのですが、高校数学の平面図形の知識は必要ですか。 重点的にやっおいたほうがいいという分野がアレばお願いします
統計学をやればいいと思います
必要になる度に復習せえ とんでもない量になって結局、高校数学全て見直す娘とになるがな
確率は見直しとくとスムーズ
557 :
132人目の素数さん :2014/01/29(水) 09:57:22.23
機械学習と統計学の違いは何? どっちが難しい? どっちが実用的? 統計学が最強の〜では機械学習はあまり触れられていませんでしたが。
558 :
132人目の素数さん :2014/01/29(水) 10:04:44.07
>553 一変数の微積と高校程度の確率の話が分かってれば大体なんとかなる
>>557 かぶる部分も多いけど、統計の方が難しい。
統計家は機械学習できるけど、情報屋は数理統計学で詰む。
実用的なのは機械学習。
ビッグデータでも使えるし。
従来の頻度論統計学はデータ量が多いと使えない。
560 :
132人目の素数さん :2014/01/29(水) 11:43:49.36
>>559 どうもです。機械学習のほうが難しいのだと思っていました。
統計学よりも数学的知識を前提にしているようですし。
データ量が多いと統計学が使えないのは初めて知りました。
統計学はデータ量が多いほど分析が簡単になるのでは?
統計学の本来の目的って、標本から母集団を推定したり・検定することにある。 標本が1000とか1万とかのデータ数だと、それはもう母集団といえる規模。 推定は一致し、検定は有意な差しか出なくなる。 ビッグデータに古典的な推定や検定を使ってたら、分析者を殴っていい。
562 :
132人目の素数さん :2014/01/29(水) 17:51:50.00
>>561 どこまでを統計学というの?
また、ビッグ・データとは何?
>>543 解決しました
検定統計量を
√(Σ(s_i^2/m))
(ただしs_iは標本標準偏差)とし、実効自由度を
(Σ(s_i^2/m))^2/(Σ((s_i^2/m)^2/(m-1)))
としたt検定でいけるようです
565 :
132人目の素数さん :2014/01/30(木) 14:57:27.25
>>561 有意な差がでるのは良くないことなんですね。つまり
有意な差がでやすい大きな標本を統計学では使うべきではない、
ということですね。わかりました。
釣られてあげようか?
>>565 そうだよ。
推測統計ではデータが少なすぎるのも問題だけど、多すぎるものに使うのも問題。
多すぎると何が問題なんですか?
569 :
132人目の素数さん :2014/01/30(木) 22:17:32.41
ベイズ統計スレを新たに建てたら?
571 :
132人目の素数さん :2014/01/31(金) 03:31:41.68
そのpdf,「きわめて小さな差でも“(統計的には)有意である”という結果になる可能性が 高まります。」と書いてるけど、それで何が問題なのかわからないです。。 むしろ極めて小さな差でもデータ数が多ければ、その差が偶然出ないことがハッキリして よかったね、というふう好意的に解釈してしまいました。
572 :
132人目の素数さん :2014/01/31(金) 06:47:42.46
適切な標本数って母集団の大きさと目標とする誤差で変わってくるんでは 政府統計だと標本数10万人規模だったりするし
標本数
574 :
132人目の素数さん :2014/01/31(金) 08:45:25.91
標本の大きさというべきでありました・・・
575 :
132人目の素数さん :2014/01/31(金) 12:11:15.00
で 結局データ数が多い場合には極めて小さな差でも有意にできるのは問題なん? 問題ないん?どっち?
問題無い
>>575 問題ありだろ。
例えば、イケメン度合い(y)を2chに書き込んだ回数(x)で回帰分析する場合を考える。
普通この2変数に相関はないだろう。
しかし、「2chに書き込めばイケメンになれるんだということを世間に知らしめたいとする」
その場合、標本数を1000以上とってくる。
そして、回帰モデルの検定を行う。
すると、p値に有意差が生まれて、このモデルは統計的に意味のあるモデルと言うことが出来る。
ただ、正の相関か負の相関かは標本次第w
基本的に思考停止な検定を始める奴は統計学に向いていない
質問です。 ここにいる皆さんは仕事をするときに統計学をがっつり使っていますか? 現在就活中で大学で統計学を専攻しているのでそれを活かせる職業を探しています。 因みに私立文系でプログラミングは出来ません。 よろしくお願いします。
581 :
132人目の素数さん :2014/01/31(金) 20:43:07.34
基本的にプログラミングの知識を使わないで統計の知識だけ使うってことはほとんど無いよ 新卒なら入社してから覚えさせられることになるし、 現時点でバリバリプログラミングが出来る必要はないけど、 そういう仕事やりたいんならちょっとかじるくらいではプログラミングに触れておいたほうがいいかも
↑自己アピールができる、という意味でね ただ入社以降もプログラミングには触れたくない!って言うのならおすすめはしない
585 :
132人目の素数さん :2014/01/31(金) 21:25:45.95
>>582 早稲田は文系でも統計の研究室いくつかあるけど、そこ出身かな?!
マーケティングの統計職ならあまりプログラミングはないと思うけど。
なんで学生課に行かずにここで聞くのかな
Rぐらいでも十分じゃないかなあ。 自分でコーティングは、しないでしょ。
手段として統計を使う仕事はいくらでもあるが 目的として統計を使う仕事はほとんどない 手段に秀でているだけの人材は下請けで間に合う
大学の教授に聞けよ なんでもかんでも他人に丸投げしないで自分から動け
私大の文系だと数Vもできないだろうし理屈から始めるにはもう遅いかもな
統計学専攻なら文系でも線型代数とか簡単な解析学ぐらいはやるだろう
592 :
132人目の素数さん :2014/01/31(金) 23:43:19.97
統計専攻って言うくらいだから、数理統計学はやってるだろう
文系なら技術屋になるより、そいつらを使う側に回った方が良い気がするけどな。
594 :
535 :2014/02/01(土) 00:29:28.40
私大文系だけど、今日の統計のテスト、カイ二乗検定とt検定しかなかったわ
名前まちがえた
皆さんありがとうございます。
>>580 です。
ここにいる人達が普段のお仕事の中で統計学をいかに使っているのかを知りたかったので、質問しました。
とりあえず、明日就職課に聞いてみます。
>>596 統計を人を騙す道具として使ってる企業多いから気をつけてね。
例えば、製薬とか被験者の取り方でいくらでも効く薬や副作用の少ない薬作ることが可能だから。
まともな人は病むかも。
マーケティングや調査会社も如何わしい。お客さんが喜べば何しても良いと思ってる。
そういう意味では、事業会社の統計職が良いかもね。いろんな部署と協力して出来るし。
本当に統計が好きなら、統計の大学教授になることだよ。一番まともに統計使って、さらに作ってる人たち。
伸びてるから面白い話題かと思ったのに
599 :
132人目の素数さん :2014/02/01(土) 06:30:20.07
やっぱり有意という言葉が良くないと思う。代わりに標準偏差と推定量だけ、 t統計量もp値も各自で計算して、有意という言葉は廃止にした方がいい気がス。つかってていいこと一つもないし。
質問させてください。完備統計量はどういう意味があるんでしょうか? E[h(T)]=0ならばh(t)=0が定義なのですが、なぜこんな量を求めるのかが よくわかりません。 それに妙に線形代数の線形結合の定義と似ている気もするのですが関連があるのでしょうか。
良く使った最小自乗法は、統計的推定と称するけど統計を使ってる意識はないなー
>>600 その成分だけで全部決まるという意味だからベクトル空間の基底と同じ性質だわな
>>597 日本の企業で統計使うって品質管理分野ばかりなんだけどね。
>>603 そんなことはありえない。
だって、統計関連学会で知り合う人はメーカーから製薬、金融まで幅広いぞ。
>>602 どうもです。ということはコレは線形結合の場合に係数c1,c2,,,cnが一意的に決まる
のと同じと考えていいんですね。
例えばE[h(T)]=12のような値になる場合必ずh(T)=1/4Tに一意的にきまる、というふうに。
ちょっと統計学から離れちゃうかもしれないけど、 積率って元々どんな学問分野で、どんな目的で産まれた概念なの?
梃子じゃない?
疑問に思っちゃんだ、どうしてかな?
数理統計学の本読んでいたら 「離散確率変数Xの分布の積率は次のように用意に定義できる」 っていう記述が出てきたんだけど、なんか突飛に感じたから。 結果的には積率っていう道具を導入することで、 分布の記述に利があるということはわかるんだけど、 そもそも積率そのものの意味がよくわからないから、なんとなくもやもやした。 それで、積率というものが元々どんな分野のどんな要件を満たすために産まれた概念なのかがわかれば、 なんでここで積率を導入するのか、しようと思ったのかが理解しやすいかな、って思ったから聞いてみた。 スレ違いだったらごめん。
「利」があることが分かってんなら十分だろ
お前は学問向いてないな
統計学の課題を出されたのですが、まったく解らず困っています。 誰か考え方だけでも教えてもらえないでしょうか。 よろしくお願いいたします。
確か積率母関数の積率がモーメントのことで実際テイラー展開すると モーメントの線形結合がわんさか出てくるから母関数だとマセマに 書いてあったよ。
キュムラント展開か、統計で役にたつのかな、物理なら分かるが
誤差付きのデータの扱いに関して質問があります。 誤差付きのデータの平均をとるときにエラーの大きさに応じて重みを付けるのはわかるのですが、 データの標本分散を求めるときには重みってつけなくていいのでしょうか?? Xってパラメータの標本があったとして(それぞれ誤差σがついてる)、X_iのデータの重みをw_i = 1/σ_i^2とすると分散は V=sum(w_i*(<X>-X_i)^2)/sum(w_i) にした方がいいのかなと考えたのですが見当違いですか?sum()が()内の総和で、<X>はXの加重平均です。 調べても加重平均の標準偏差しか出てこなくて誤差のついた標本の分布全体の標準偏差ってのが出てこなくて困った挙句物理板で聞いたらここを紹介されました。 どなたか教えていただけないでしょうか
標準偏差を求めるために標準偏差で規格化したら意味が無かろう
>>617 ごめんなさい、なんか自分がわけのわからないことをしようとしていたことに気付いたかもです。
なんか異なるいくつかの母集団それぞれの平均と標準偏差からそれら全体を母集団とする集団の平均と標準偏差を求めようとしてたんですけど、もともとそれぞれ違うものなんだから重み付けるのがそもそも間違ってるような気がしてきました。
例えると、蟻、犬、芋虫、猫、人、象って種の体長とその標準偏差をそれぞれ求めて、じゃあそれらの動物全体の平均体長とそのばらつきをそこからそれぞれの標準偏差で重み付けて求めようとしてました。
この場合、重みをつけるべきではないですよね?
正規化すればいいんじゃない?
620 :
132人目の素数さん :2014/02/10(月) 11:29:37.40
1分に1回事件が起こるってポワソン分布に従って、乱数で件数を返す関数Aがあったとして それを60回足し合わせたら 60分に60回ってポワソン分布に従って件数を返す関数Bと同じようなものになるの? 初学者なのでヘンテコな質問になってるかもしれないが
せめて確率変数と言ってはどうか 1分に平均で1回の〜確率変数を60個足し合わせると60分に平均で60回の〜になる
すまんなトンクス うまいことできてんなぁ
623 :
132人目の素数さん :2014/02/12(水) 03:12:16.12
1個のサイコロを600回投げたら1の目が118回出た。 このサイコロは正常ではないか、有意水準5%で推定せよ ↑この問題から、z=1.84<1.96 よって、正常でないとは言えない この答の出し方がわからないんだが、どういう考え方でやってるんだ?
624 :
132人目の素数さん :2014/02/12(水) 03:18:55.59
2行目、推定じゃなくて検定か 平均E=100,偏差σ=9.13を出して、 E-1.96*9.13 , E+1.96*9.13で有効な範囲出すだけじゃダメなんかな
標準化するんでしょ? しかし問題合ってるか?これ
やっぱり問題(答え?)が間違ってるのかな? (118-100)/9.13 >1.96 よって、正常ではない やりかたはこれであってるのかな?
627 :
132人目の素数さん :2014/02/12(水) 23:13:56.67
>>597 > 統計を人を騙す道具として使ってる企業多いから気をつけてね。
お前が人を騙しているんだろうがクズが。
詐欺師のくせに数学板にくるんじゃない馬鹿が!
execel2007の分散検定で「繰り返しのある分散検定」というのがありますが、 「対応のある分散検定」と同意でしょうか?
洋書の教科書を買いたいのですがオススメはなんでしょう? unbiased, efficient, precise estimatorについて述べてあるもので
私立文系のアホですが統計やる事になり困ってます 中高の数学だと何の単元が統計学には必要でしょうか?
記述統計なら、数学よりむしろエクセル勉強。 推測統計なら、場合の数(数学A)、確率(数学A)、数列(数学B)、積分(数学U)かな。 あと多分ならってないだろうけど、統計とコンピュータ(数学B)、確率分布(数学C)、統計処理(数学C) は、目を通しとけば。
四則演算を覚えたら後は大学の統計を勉強すればよい
大学で習う統計学を、高校数学の教養無しで学ぶのは無理じゃね。
自分の場合中学数学からやる必要があるorz
文型の統計学なら、理論より実践的なものを学ぶんじゃね。 経済統計とか社会統計とかさ。 調査票のとり方とか、そういうのかもよ。 確率分布とか、そういったものじゃない気がする。 経験者俺。
中学数学だとどこら辺の単元をやる必要がありますか?
638 :
132人目の素数さん :2014/02/25(火) 19:41:34.40
ちょいと教えていただきたい 選挙みたいなやつの出口調査と実際の結果がどの程度一致するものなのか調べてみたいんだが そういう場合は全候補者にそれぞれの得票数でχ二乗検定をすればいいのか それとも単に順位相関を求めればいいのか どうも何をどう適用すればいいか十分には理解してなくて
639 :
132人目の素数さん :2014/02/25(火) 22:58:28.19
明日の16時39分頃に気をつけて下さい。 日本にも世界にも巨大地震が起きませんように。 皆さんも一緒に祈って下さい。 太陽フレアのXが発生しました。 太陽黒点数の100越えが24日間継続しているようです。
中学レベルの数学からやり直すのは、良いことかも知れんが。 正直その勉強が直接統計学に役立つようには思えないんだが。 とりあえず、「エクセルで学ぶ統計学」みたいな本でパソコンに打ち込んでいけば?
>>640 偏微分が理解できる様にしておけと言われていますが
正直偏微分が何が何だか状態です
あきらめろ。 中学の3年間で数学の初歩を学び、高校で2年目でやっと基本の微積を学ぶ。 5年もの時間をかけて身につけるものを、数日で理解できるわけがない。
確率変数をlogXと変換するのと、Xの確率密度関数にlog xを代入するのって何が違うの?前者は確率密度関数に1/xがつくのは知ってはいるけど
偏微分は最小二乗法で使うからかな? あれぐらいならすぐにわかる
647 :
132人目の素数さん :2014/03/01(土) 04:30:58.21
来年から統計学を学ぶんだけど、標準偏差って二乗するよね? たとえば、 1、2、3、4、5は平均3で、標準偏差は√10になると思うんだけど、 0、3、3、3、6は平均3で、標準偏差は√18になるよね? 平均とのズレの合計は同じ6なのに下の例の方が標準偏差が大きいけど、つまり同じ平均とのズレでも、差が大きいものを抱えている方が標準偏差が大きくなるってこと? だから二乗するの?
分散「」
649 :
132人目の素数さん :2014/03/01(土) 19:44:10.76
>>647 >差が大きいものを抱えている方が標準偏差が大きくなるってこと?
そだよ〜
>だから二乗するの?
そりゃ関係ないよ〜
数学では、絶対値を付けた差をとって計算するより
二乗して計算すれば計算が楽だから。楽というのは、そういう計算の
やり方が昔からしっかりと証明され、そろっているという意味。
ということで、二乗する事情はそういう事情。
二つの隔たりとかそういうのを数学的に計算しやすい。
平均だって、ふつうの平均(算術平均)もあれば、幾何平均なんてのも
あるでしょ。距離を計算するときにだって単なる差だけじゃ〜ないのよ。
なにしろ、犬がお父さんやる時代だからね。
650 :
132人目の素数さん :2014/03/01(土) 23:05:09.21
でも二乗しないと大きい差を持つほど大きくならないよね? 絶対値だけでやったら、差が大きいものがあるほど大きくならないと思うんだけど!
絶対値より二乗の方がいいのは、計算が簡単だからというのと、 二乗にルートをとった標準偏差σの1σがちょうど標準正規分布の転換点にあたるから、 って訊いたことがある。
652 :
132人目の素数さん :2014/03/02(日) 03:46:30.05
二乗するのは、平均より離れた数値を持っているとより標準偏差が大きくなるからですよ 絶対値だと、平均との差の和が同じなら、例を挙げれば 2、2、3、4、4(平均3、平均との差の和は4) 1、3、3、3、5(平均3、平均との差の和は4)も同じになってしまいますが、 二乗したものを足せば、上が4、下が8になります。 つまり下の方が、ばらつきが大きいということなのです。
653 :
132人目の素数さん :2014/03/02(日) 06:03:58.55
>>651 標準正規分布は、その前にすでに偏差平方和の考えがあるから
出てきてるんじゃないのかな?
だから、転換点に当たるからというのは、後からの話という
ことになる気がするぞ。ちがうかな?
計算が簡単とよく言われるけど、その簡単というのは何を言っているんだろう
といつも思う。単純に考えると絶対値をとってしまえばあとはなにも難しくないと思う。
したがって、簡単という意味は、もっと別な意味を持っていると思うんだけど
それってなんだろう?
大昔の数学者たちがいろいろやって、その中で
>>642 の形が最もうまく
差を表せるということになって、偏差平方和ととる方向になっていった
という形なのかな?
654 :
132人目の素数さん :2014/03/02(日) 06:06:52.65
656 :
132人目の素数さん :2014/03/02(日) 10:01:35.48
絶対値にしてしまったら、 そのあとの難しさってなに?
計算済みの絶対値にしてしまえないからみんな面倒、難しいっていってんだよ。 どこでもドアがあったら簡単にハワイに行けますねと言ってるようなもの。
MAEが既知の分布の和のMAEとか計算したら発狂する
659 :
132人目の素数さん :2014/03/02(日) 10:35:02.82
>>657 >計算済みの絶対値にしてしまえないからみんな
絶対値をとること自体、難しい部分ってある?
なんども質問で申し訳ない。いやみで聞いてないから、お願い。
660 :
132人目の素数さん :2014/03/02(日) 10:45:45.49
なぜ聞いているかというと、知っている人間に聞いても 「絶対値の計算は大変だから」 という言葉で終わって、そのあとどうして大変なのか ということを聞いても、答えが出てこないもので。 私も、聞かれたときにどうこたえていいかがわからない。 という経緯があります。
661 :
132人目の素数さん :2014/03/02(日) 10:53:29.91
私なりには、単に差分をとったり分散や標準偏差にかかわらず、
その後の処理で、最小二乗など数学的枠組みが現在の
統計解析以前に確立していたので、その枠組みをつかう
ことが可能なため、というのが背景にあったためなのかな。
と思うんですが。間違いでしょうかね?
そもそも、
>>652 のように、単なる差分だとうまく表せない
という問題がありますけど。
統計勉強すれば分かるよ その程度の知識では無理
663 :
132人目の素数さん :2014/03/02(日) 11:09:24.42
そうかなー そもそも差分の枠組みでやることなく 既存の枠組みで覚えてゆくので、じゃあどこか問題かという こと自体を考えることもないと思うんだけど。
問題を感じてないなら無理に知る必要もないだろう
微積を知らなくたってたいていの人は生きていける
>>658 みたいな例も出てるけど意味が分からんのだろ?
>>660 自分で計算しても楽だったのなら
キミは数学の天才だからそれていいんじゃないだろうか。
666 :
132人目の素数さん :2014/03/02(日) 11:24:01.05
>>664 >>658 の例は、それで大変に良いと思う。
要は説明時に、どこでも「絶対値の扱いは面倒なので」という言葉
だけで飛ばしてしまっている。
分かっている人には良いが、入り口の人たちからすると、
コンピューターの発達した今では、絶対値をとって計算なんか
簡単じゃないか。どうしてなんだ。という考えが出てくる。
そこで、絶対値をとった場合、次に出てくる問題は何か、だから
二乗して使っている。
というような流で説明ができないものかと。
>>647 のような質問は、そういうことが前段階にあるために
出てくる問題じゃないかと思っている。
絶対値のついた関数の微分とか微分不可能な点ばかりでコンピューターどうのこうのという問題ではないんじゃ よく知らんけど
668 :
132人目の素数さん :2014/03/02(日) 11:56:49.57
前人が分布関数という考えに至った時 その段階で数学の枠組みを利用するためには 絶対値ではできないから というのが背景にありそうですね。 統計解析の発展の歴史のような書物をみても どういう経緯でそこに至ったかがうまく書かれた ものが見つからなかったので。
y=|x|のグラフを書いて、 この関数が式のあっちこっちに埋め込まれて簡単だと言えるのならやはり天才だ。
コンピュータ時の昨今ではモンテカルロ法がもてはやされたりもするしな やりたいことをやれるようにやった結果が現状だと言ってしまえばそれまでだ
671 :
132人目の素数さん :2014/03/02(日) 12:34:00.71
>>669 X自体を正として扱えば
そういうグラフにすること自体ないだろ
その論法では足し算は簡単ですと言っているだけなのだが
絶対値を理解していないっぽいな 絶対値の否定か?
674 :
132人目の素数さん :2014/03/02(日) 12:47:53.40
だって二乗しているのも正にするためが 理由の一つでしょう。 だからそれが本質じゃないだろう
>X自体を正として扱えば これどういう意味なんだろうか
サンプルと母集団の違いとか統計量に対する演算とか そういったことを気にしない世界ならいいんじゃないの 値を計算するだけならマンハッタン距離でもレーベンシュタイン距離でも 小学生レベルの簡単な計算だからね
共分散とかどうすんのかね 分散共分散行列とかもあるし
678 :
132人目の素数さん :2014/03/02(日) 18:10:20.83
>>676 ありがとうございます。
分布を考える世界への導入を想定したときに
出てくるということですね。
なんかすっきりです。
>>677 それは既存の数学的枠具があることが前提なので
単純な差分からの場合は、そもそもそういうものに
発展し得るのか(別な考え方がでてくるかもしれないけど)
どうかさえ分からないですから、まあ心配無用でね。
あくまで、統計始めた人から、そういう質問が出てきたとき
どう答えたらスッキリしてもらえるか?という悩みでしたので。
分散や標準偏差の概念が見つかるずっと前に解析学や線型代数は発達してたから その利用をしようと思うのは当然だと思うがなんか変なこと言ってるかな?
680 :
132人目の素数さん :2014/03/02(日) 18:46:01.77
うん
681 :
132人目の素数さん :2014/03/02(日) 19:02:23.29
>>679 それはその通りでおかしくない。
それを前提に考えたからこそ二乗するという手段を使用した。
そういう風にはっきりと説明することで理解してもらえる
ことにつながります。
683 :
681 :2014/03/02(日) 20:08:12.09
>>682 最初の質問者のことなら
>>652 じゃなく
>>647 でしょ
>>647 は出てないと思うけど。
おれは、
>>647 をみて、そういえば初めに統計を学ぶ人に似た
ようなことを聞かれる場面有るな〜とおもって、
さあ、どう答えたらいいのかと思い、いろいろみんなに聞いた。
答えは簡単
偏差E(|x-m|^α)のメリット、デメリットを議論すればいいだけ
>>647 にそれをいっても無駄、わからんだろう
685 :
132人目の素数さん :2014/03/02(日) 20:41:02.08
二乗するのは差が大きいほど大きくするためだって先生に聞いたけど まさにその通りでしょ 絶対値だと1、2、3、4、5も0、3、3、3、6も同じになるという前に言ってる人がいるのと同じ
1.馬鹿は引っ込んでろ 2.半年ロムれ 3.過去ログ読めよ 好きなの選べ
687 :
132人目の素数さん :2014/03/02(日) 20:45:17.11
>>684 私は理解させられませんという告白になっちゃうよ
689 :
132人目の素数さん :2014/03/02(日) 20:51:08.74
とりあえずのりで突っ込みました、たいがいこれでだいじょうななはず、てかー
691 :
681 :2014/03/02(日) 21:03:18.90
お、その後も変な風に続いてるな。
>>685 それで、そっかーと思ってくれる相手であれば、なんも問題ない。
ともかくどうしようもなく素人が統計入門の際にわかりやすく。
そーだよねーと、思って通り過ぎてもらえばいい部分なんで
その説明方法であればよかったので、とりあえず俺は終了。
意味負は去った
そして忘れ去られる質問たち
[訂正] 意味負は逃走
695 :
132人目の素数さん :2014/03/02(日) 22:11:20.47
>>685 こいつの言うとおりじゃね
大体あってると思う
>>685 こいつの言うとおりじゃね
大体あってると思う
大きくしたいならガンマ関数がお勧め
統計の最初は、分散や標準偏差を習うもんな。 そのとき、絶対値じゃだめなの?って当然思うわな。
699 :
132人目の素数さん :2014/03/03(月) 00:13:05.67
うん
>分かっている人には良いが、入り口の人たちからすると、 >コンピューターの発達した今では、絶対値をとって計算なんか >簡単じゃないか。どうしてなんだ。という考えが出てくる。 こんな考えなかなか出てこないと思うわw 高校1年以上なら絶対値=面倒くさいというのが普通だろう >X自体を正として扱えば >そういうグラフにすること自体ないだろ ここはもうめちゃくちゃ
701 :
132人目の素数さん :2014/03/03(月) 05:32:22.09
自分も似たような感想を持った そもそも二乗したら2→9、3→9と実際の差よりも大きくなってしまって何も論理的に語れなくなるんじゃないかと思ったんだけど どうなの?
最近話題の緑本だけど何故対数変換がダメなのか、それと なぜ割り算値を説明変数にするのがダメなのかがよくわからなかった。 詳しい人解説おねがいします。
703 :
132人目の素数さん :2014/03/03(月) 07:58:56.37
>高校1年以上なら絶対値=面倒くさいというのが普通だろう そういうやつは、2乗も面倒じゃないか?
少なくとも面倒かどうか知らないということは 中高のときに数学をほとんど勉強していないのではないか。 計算経験がほとんどない。
705 :
132人目の素数さん :2014/03/03(月) 08:53:32.01
この場合、単に距離としての扱いだから 別に面倒でもない気がするな
706 :
132人目の素数さん :2014/03/03(月) 09:13:21.27
やはり統計学をきちんと理解するには数学を勉強してないと難しいよ。 距離とか次元とかノルムとか空間とか概念を理解していないと、意味不明な議論になる。 距離といっても、ピタゴラスの定理しか思い浮かばないようだとやはり厳しい。 「微分可能性」だけ考えても、絶対値は不利だということはすぐわかる。 もっとも、記述統計学内の議論ならば、絶対値もありかなとは思う。 推測統計学まがいの議論をするくらいだったらね。
707 :
132人目の素数さん :2014/03/03(月) 09:23:02.40
あ〜 前の議論の延長としての話なんで すれ違ってたね
住人のレベルが分かる議論
おまえもなー
おれのレベルがわかる発言はしていない、ふふふ
L^1空間よりもL^2空間の方が何かと都合がいい
713 :
132人目の素数さん :2014/03/03(月) 15:04:15.21
そういえば俺も二乗する理由を教わってなかったな。 つまるところどういうことなの?
流石にその答えじゃ納得せんやろうなあ
その答えしかないってことね なら仕方ないか
あなたに出来ないのなら誰にもできないよ 仕方ないことだ
支那竹みたいだな
721 :
132人目の素数さん :2014/03/04(火) 03:26:27.60
統計学二乗は確かに難しいな。 誰かここには分かってるやつはいないのか?
L1って理論値求めるとき大変そう
じゃ、「計算しやすいから」がここの総意ってことでFA?
いつまで粘着してんだよ
計算しやすいだけじゃ何の意味もないのは自明だろ ユークリッド距離と同型なら同様に自然で蓄積された知識が流用できて都合が良いだけさ
違うよ。
簡単に言うなら
>>685 手法にはフォーカスしてない。
絶対値>ニ乗>四乗>六乗>八乗てか
逆だな 絶対値<ニ乗<四乗<六乗<八乗てか
>>647 , 685
>絶対値だと1、2、3、4、5も0、3、3、3、6も同じになる
??
分子のみだけど、
> sum(abs((1:5)-mean(1:5)))
[1] 6
> sum(abs(c(0,3,3,3,6)-mean(0,3,3,3,6)))
[1] 15
そもそも全然違うのだけど。
おいw
731 :
132人目の素数さん :2014/03/04(火) 20:40:12.36
732 :
729 :2014/03/04(火) 20:55:18.23
ごめん、やっぱり合ってたわ。タイポした。 > sum(abs(c(0,3,3,3,6)-mean(c(0,3,3,3,6)))) [1] 6
733 :
132人目の素数さん :2014/03/04(火) 21:14:50.53
数学会の世界を揺るがす小保方さん出現か!とおもった。
このスレのレベルをよく表しているじゃないか
緑本は知らんが特異点を持つ変換は嫌われる
いろんな問題集があるんだね
記述統計の側から眺めていても、 なぜ絶対偏差でなく2乗なのか なぜ3乗や4乗でないのかの スッキリした説明は出てこない。 標準偏差の生まれは正規分布のパラメータであって、 標本標準偏差はデータを正規分布からの標本と 見た場合の正規分布の推定量と考えれば、 2乗でなければいけない理由づけができる。 正規分布が登場する理由は、中心極限定理。
739 :
132人目の素数さん :2014/03/05(水) 17:31:04.61
だとすると、 大学で統計入門時によく使われる説明、 「絶対値は扱いづらから」という旧来の説明は 必ずしも正しくないということになるのかな?
えっ、何がどうして「だとすると」になるの
741 :
132人目の素数さん :2014/03/05(水) 17:54:16.48
上の方で、「絶対値は扱いづらい」からと言っている 流れから。おかしいかな?
742 :
132人目の素数さん :2014/03/05(水) 17:58:31.69
すごくおかしい
不偏標準偏差でなく標本標準偏差を使う理由とか 計算が楽だからとしか言いようがない部分もあるが、 なぜ2乗か?に必然性を持たせようとするならば、 正規分布を経由したほうが物語性があるだろう。 「歴史的経緯で」じゃ、あまりにもツマラナイし。
744 :
132人目の素数さん :2014/03/05(水) 18:07:35.69
なんで、言葉に、引っかかってるのがわからない。 あなたの言っている通りでしょ。 だから、絶対値は扱いづらい。という言葉で済ますのは良くないし 歴史的経緯で済ますのは良くないでしょ。 どこに引っかかったの?
745 :
132人目の素数さん :2014/03/05(水) 18:13:11.35
>>743 言っていることは正しいと思うんだけど
困ったことに、正規分布は歴史的に後から出てきてるよね。
正規分布にこだわらずなんじゃないだろうか。
標準偏差だの正規分布だのが アリガタがられる理由は、 中心極限定理以外に 思いつかないんだがなあ。
もう諦めて答えを見てはどうか。
歴史的には標準偏差の方が、正規分布や中心極限定理より後に出てきたらしいが。 正規分布や中心極限定理は、ド・モアブル、ラプラス、ガウスあたり。 標準偏差はピアソン。
749 :
132人目の素数さん :2014/03/05(水) 21:43:27.00
二乗にも、いろいろ事情があるもんだ
ざぶとん
いくつぐらいになったらオヤジギャグに笑えるようになるかという統計データがほしいです。
ここは この板のレベルが分かる書き込みだな だろう
753 :
132人目の素数さん :2014/03/06(木) 00:12:31.79
>>749 数学において難解な二乗は
「愛の事情」
弱ったことにマイナスしか出てこない
754 :
132人目の素数さん :2014/03/06(木) 23:29:11.45
平均値と、中央値、(もしくは最大値、最小値も加えて)から 最頻値mode を推定することができますか?
無理
756 :
132人目の素数さん :2014/03/07(金) 01:00:44.42
>>754 分布がわかってれば
できることもあるけど
正規分布でも仮定するんだろ 母集団平均の推定と同じだが
758 :
132人目の素数さん :2014/03/07(金) 01:55:46.82
まさか平均0で標準偏差1の場合だったりして
760 :
754 :2014/03/07(金) 13:02:30.53
ありがとうございます。やはり無理そうですかねえ。 分布は正規分布ではないですが、偏りのある一峰の山のある分布を前提としています。 何故、このようの事を考えているのかといいますと。 Rで計算をしていますが、modeが標準の関数にないということ。(パッケージがあるのは承知しています) 正しくmodeを計算するには、ヒストグラム(度数分布)を求めないといけなくて、サンプルセット数(サンプル数でなく) が多くて計算量が多くなりすぎること。ビン幅も個別に設定しなければならないこと。 以上のことから、もっと簡易にmodeが求められたらいいのにと思った次第です。 すくなくとも、(最大値-中央値)=Aか、(中央値-最小値)=Bとすると、AかBかの 小さい方の範囲にmodeがあるはずです。 また、平均値と中央値の差が大きければ、modeも中央値より離れていると想定できます。 そのあたり何かアイデアがないでしょうか。
ヒストグラムなんぞ使うな、累積分布にしとけ 累積分布ならビン幅などいらんぞ ヒストグラムより本質的な累積分布を軽視するのは教育の欠陥だ
すきにすればいいだろ
当然だ、自業自得にすぎん
>>761 質問の意味解っているなら、答えてやれよ。
これ結構難しいんじゃないの
766 :
132人目の素数さん :2014/03/07(金) 23:01:01.56
様々な一峰の分布を調べて、 (最頻値-中央値) と (中央値 - 平均値) の相関を求めて、相関があるといえるなら、 (最頻値-平均値) ÷ (中央値 - 平均値) を計算しそれをAとする。 求める 最頻値 は、A × (中央値 - 平均値) でどう?
>>760 平均値と中央値と最頻値は独立に指定できる
モードのオンライン更新ってできまいのかな
例えば1,2,2,1,1,2,2,...みたいにモードが収束しないサンプル列に対して 何らかの意味で効率的なオンライン更新則が作れるか考えてみたらいい
770 :
132人目の素数さん :2014/03/15(土) 07:25:39.51
大学の数学の教科書、あまりの誤植の多さはポアソン分布に従っているとはとてもじゃないけど思えない。 刊行後も出版社のサイトで気軽に正誤表をアップできちゃえるからって、著者も出版社側も書籍作りに対して甘え過ぎだ。
身内の個人出版感覚なのかもシレン 教授が執筆した小部数書籍に校閲のプロを雇うのは予算的に無理だろうし
大学数学レベルだと正誤を判断できる人が少ないしなぁ 出版前にミス減らすのは難しいだろう
>>770 tex使って書いて、校正も自分でやってるんじゃないの?
大学の数学関係なく、日本の出版は誤植だらけ。 大半がマカーだから仕方がない。
つめが甘いのは、糖尿病だからだ。 研究職の人は、運動しないから。
アル中かニコチン中だから集中力が続かないんだよ。
アルコール中毒と アルコール依存症は 別のもの。
比較的易しめな教科書を使って統計学を自習してるんだが、天下り的に書いてあることが、「定理」なのか「法則」なのか「経験的にうまくいく手法」なのか書いて無くてもやもやする。 例えば、「母分散が未知な商標本の推定/検定にはt分布を用いる」と書いてあって、それはt分布はそのような推定を正しく行えるという定理なのか?それともt分布を使うとうまくいくと経験的に知られているということなのか? 数学的に厳密な本を読めばちゃんと書いてあるのかな?
あ、改行してなかったごめん
書いてあるわけねー 定理は書いてるだろうが、定理と法則の違いは何だ?
定理じゃないか
ちゃんと書いてあるよ ○○が正規分布に従うとき××はt分布に従う 自由度nのt分布はn→∞で正規分布に弱収束する とかね 予備知識として測度論を仮定するけど
すっきりしたいならルベーグ積分まで勉強してから吉田朋広の数理統計学を読むといいぞ
784 :
132人目の素数さん :2014/03/19(水) 14:56:35.88
例えば、0〜100の範囲の実数を考えます。 Aは、1,5,10,12,40,42,43,70,75,76 (10個) Bは、2,4,6,10,12,41,43,74(8個) Cは、5,6,22,23,50,51,52,55,62,63,70(11個) 以上のようなデータがあります。 これらABCのデータの相関関係を調べたいのですが それぞれのデータ総数はことなっています。 ですのでエクセルでいうところのcorrel関数は 使えません。 だからといって、それぞれ相関がないとも言えません。 AとBの方が、AとCの相関より高い気がします。 こういったデータの数の異なる場合の相関の求め方を教えてください。 または、Rでの関数がありましたらお教えください。
個数が違うのに相関がある…? 別の分析方法を模索すべきでは
なるほど、相関とは言えないのですね。 各ABCがそれぞれ似ている度合を調べたいのです。 どういう方法がありますでしょうか?
似ているとは何か
>>787 質問に質問返しとな?あほですか。
>>784 とりあえず、ABCの集合について、0から100を10で区切り、
ヒストグラムを求める。
10で区切った分布の数を、ABCで相関係数で求める。
以上。
789 :
132人目の素数さん :2014/03/23(日) 13:07:48.14
>>784 A,B,Cのそれぞれの近さを見るとしたら
分布の類似度を見るということにして
カルバックライブラーあるいはエントロピーあたりの
情報量を利用したほうがいいんじゃないだろうか。
790 :
132人目の素数さん :2014/03/24(月) 15:46:49.50
質問です。 ロジスティック回帰と二項ロジットモデルの違いについて教えてください。 同じ、としているものや微妙に違う、としているものがあって困ってます。
同じでいいと思う派 あえて言うならロジスティクス回帰の一つに二項ロジットがあるって感じかな
質問です。 AグループとBグループの2つのグループがあるとします。 それぞれのグループの2種類の要素を抜き出し、 その要素間を比較した際に、ABグループに 有意差があるかどうかを見たいのですが、 正規分布するかどうかは予想できない物として、 どのような検定が見合っているのでしょうか? 設問が抽象的なのでもうちょっと具体的な例示をすると、 和食(Aグループ)と洋食(Bグループ)で、 それぞれ「食事量」「怪我の治る日数」という要素を抜き出し、 「食事量が多いほど、怪我の治りが早い。 特に洋食グループほうが、やや治りが早い」 というように、ABグループのもつ要因(食事量)が、 最終的に「怪我の治り」に影響するかどうか、 みたいなことを調べたいのです。
学部1年からやり直しなさい
>>792 >具体的な例示をすると、
めちゃくちゃ
めちゃくちゃ、とか書かれても何のヒントにもならないんだけど、 例が悪いってことかな? じゃあ、別の例を設定すると、 ある遺伝病を持つグループ(Aグループ)と持たないグループ(Bグループ)があり、 ある程度相関認められている第一要因と第二要因について、 特定の治療後に第一要因と第二要因を測定した場合、 Aグループの第二要因の平均改善率のみ高いとする。 この場合に、その上昇を誤差であるのか、有意差であるのかを検定する場合に どんな検定法が考えられるのか、が知りたいのです。 遺伝病の有無をダミー変数化して、3要因に対してフリードマン検定をかけ、有意差が拾えた場合に多重比較する、という手順であってますか? 上司の論文用のデータを揃えるために統計学を今年から独習し始めたのですが、 完全独習なので周りに先生といえる人が存在せず(上司自体も統計が得意ではない)、 自分のロジックがあっているのかどうかが判断できなくて困ってるんです。
めちゃくちゃなのは君の上司w
exactly
798 :
132人目の素数さん :2014/03/29(土) 10:38:04.02
>>792 件数がどれくらいかわからないけど、
クロスとってカイ二乗の値みて、違いの有無を
判断したらどう?
データ件数が、すご〜く多いと、なんでも有意になっちゃうけど。
上司に相談してセミナーに参加するなり、大学の先生を紹介してもらえ そうしないと今流行の捏造になります、といえば
>>798 結局、第一要因と第二要因の比率をとり、
A群、B群間の比率を比較することにしました。
ありがとうございました。
801 :
132人目の素数さん :2014/03/29(土) 21:49:47.78
overall standard deviationとwithin standard deviationとの違いを教えてください
e+πが無理数であることを証明できた!!!苦節5年ううう
805 :
132人目の素数さん :2014/04/01(火) 07:28:53.06
>>802 まさに言葉のとおり
まとめて見るか
グループごとに見るか
806 :
132人目の素数さん :2014/04/01(火) 08:53:52.96
>>804 ええ?e+πが無理数であることを証明?eが有理数であろうが無理数であろうが、πが無理数なら足せば無理数なのは自明ではないか?
無理数+無理数は有理数にもなる
>>807 e+π:無理数は未だに証明されてないんだ.
たしか証明されているのは,e+π,eπの少なくとも一つは超越数であるということだけ.
今日はエイプリル・フールということもあり、真に受けない方がいいぞ。 統計のスレで数論の話がいきなり出ることは何か不自然だろ。
群論から統計に来た先生知ってる
エイプリル・フールって本当はエイプリルフールという表記でいいのか。 「・」が必要なのかと思ってた。
>>811 多分、グラフ理論とか組合せ論の間違いだろ。
組合せ論関係なら、有限群関係で大多数の人が組合せ論に移ったという事実がある。
>>813 中学生の時に通ってた有名高校受験塾でやらされた青チャート数学T(現在の赤チャート)で順列組み合わせをやって、面白いパズルみたいだと思ったことがある。
有名高校受験塾に通ってたんですか それはようございましたね
>>814 本格的な組合せ論になると、有限群の表現論とか解析とか用いるようになる。
受験数学とは感覚が全く異なる。
色々なモノを用いる数学というか何というか。
医学科にいたら統計なんて下々の学問に手を染めたりしないだろうから 経歴としてはむしろ妥当なんじゃないかと思うが、読むに値するかは知らん。 ビジネス啓蒙書なら整理術とか記憶術とかと同じ枠で考えて判断すれば?
821 :
132人目の素数さん :2014/04/02(水) 23:28:29.86
>>819 医学部だった?学部の時は計数工学あたりかと思ってた。
822 :
132人目の素数さん :2014/04/03(木) 09:35:01.29
衛看か、俺の頃は唯一女子学生しか居ないところだったが
八田ちゃんか
>>823 東大看護学科卒ということは、八田亜矢子、小正裕佳子同様に理U
入学組ということか?
>>824 は多分大昔の話、理?、文?とか別枠で衛生看護学科(4年生)
入学資格女子のみ、ただし最初の2年は駒場で一般教養をやってたから
女性の少ないあの頃の東大生は初恋の相手が彼女達というのが多かった。
詳しくはwikiへ
そう、大きく変わってるからね。 統計に関しても、国内の一つの柱になってる。
>>821 あづまぶる東大じゃ応用統計学を、計数工学と称するのか?関西じゃ
耳にせぬ名称だな。すると計量工学もあるのか?京大じゃ数理工学科、
阪大じゃ基礎工応用数学科だったか。
830 :
132人目の素数さん :2014/04/05(土) 09:46:22.65
>>829 「計測+数理」からの造語なんで「計量」の対義語じゃないみたいね。
関西に限らず、たしかに計数工学という科は東大以外あまり聞かないね。
まあ、実務の世界で活躍している人を多数輩出してるので
看板の一つだろうな。
そういえば工学部自体が世界最古だった
昔は(50年くらい前、今も?)数学が好きで理学部数学科に行きたいが 数学者になれるかどうか不安、とか親が工学部に行けと言うから、 という安全志向に押されてここに行った学生がかなり居た 実際理数卒より生涯収入は平均多いだろう それぞれの教授になった連中は収入は同じようなもんだが、居心地はどっちがよかったか まあ、性格は大分違ったね(後天的かもしれんが)
832 :
132人目の素数さん :2014/04/05(土) 20:39:10.45
工学系は、他人がやっていない新しいことを探し出しやすいので そういうのが好きな人は楽しいんじゃないかな。 院の生物統計も(医薬・看護系)で西欧は盛んでも日本には専門が 無いということで、計数工学出身の教授が新たに作りたいという 事から始まったから、新しいもの好きに向きなのかも。、
834 :
132人目の素数さん :2014/04/09(水) 12:12:37.52
すみません、誰か教えてください。 適合度の検定で有意差が出て、どこに差があったのか多重比較を行う場合、 ライアン法を使っても構わないですか? 某オンライン統計サイトでは、自動的にライアン法で多重比較までやってくれますが、 ライアン法は「k×2分割表の比率」のみに使用できる、と書かれている場合もあります。
独学で統計を学びたいのですが、一冊目におすすめの本を教えて下さい。 スレチだったらすみません。
完全独習統計学
統計学入門 (東大出版会)
838 :
132人目の素数さん :2014/04/15(火) 08:49:25.19
日本の大学で教えている確率・統計学じゃ使いものにならない気がするわ 物理の統計力学とかランダム行列とかまでやらないと 計数工学科は数理科学の工学版みたいなもんだろ 工学向けの数学に関する専門学科って感じだな
なぜ統計力学が出てくるのか
言葉が似てるからだろ
842 :
132人目の素数さん :2014/04/16(水) 00:06:46.19
>>835 入門は放送大学つかえば?
ちょうど新学期の放送始まったばかりだから
>>842 放送大学良さそうですね。
此方まだ高校生なので理解に足りるかわかりませんが、一度みてみます。
確率・統計 (理工系の数学入門コース 7) 薩摩順吉 これを超える統計学入門書は存在しない。
放送大学の統計はプロ野球の公式戦でのダルビッシュや松坂の投球内容がやたらとデータ化されて教材として使用されてる
846 :
132人目の素数さん :2014/04/16(水) 23:39:30.73
それは基礎科目の「身近な統計」の方か 専門科目の統計学はラジオなんだな。知らなかった
区間推定に関して質問です。 正規分布する観測量の平均値を推定するとき、標準化して標準正規分布の数値表から信頼区間を求めますよね。 この時、元になる分布とそれを標準化した標準正規分布の信頼区間が対応するとする根拠はなんでしょうか?
元側の確率変数に対し、同一の母平均の値を引いて、さらに同一の標準偏差で割ったのが、新しく生成された標準化された確率変数なのだから、 信頼区間内に含まれている標本群の特性は何ら変わらずに、標準化前→標準化後にそのまんま引き継がれていて当然なのでは?
849 :
132人目の素数さん :2014/04/17(木) 18:39:03.63
平均値が最大値と最小値の間にあること。 中央値が平均値の2倍以下であること。(ただしデータは非負とする) という2題を証明せよ、という問題なのですが、どういう方針で証明すればいいんでしょうか?
確率変数Xが平均μ分散σ2の正規分布に従うとき、 aX+bは平均μ+b分散a2σ2の正規分布に従う。 これの証明は、簡単で、多くの教科書に載っている。 思弁的な説明は、数学の範囲外にある。哲認定。
>>849 一行目:最大値と最小値を別々に証明すれば良い
二行目:データの半分は中央値より大きい
852 :
847 :2014/04/17(木) 19:07:33.94
>>848 感覚的にはわかるのですが、数学的に厳密な証明を知りたいです。自分で定積分計算しようともしましたができませんでした。
>>850 aX+bは平均μ+b分散a2σ2の正規分布に従うということと、対応する区間内での積分値が一致することが繋がりません
少しは自分で式を書いてみろ
854 :
132人目の素数さん :2014/04/17(木) 19:23:40.64
>>849 なるほど、わけて考えるんですね。
ありがとうございました。頑張って解いてみます。
文系の大学生で基礎統計をやるんですけど 文系数学の知識ではできないところってありますか?
856 :
132人目の素数さん :2014/04/17(木) 22:28:23.31
何やるのか知らんが、まともな内容なら、exp(x)ってなあに?だと正規分布すら分からないから無理 たのしいえくせる♪みたいな内容だったら文系だろうが問題ないでしょ
理系も混じってるからがちだと思う 新世社の入門統計解析ってのが教科書 微分積分の勉強すればいい?
858 :
847 :2014/04/17(木) 23:32:36.87
>>853 ん〜自分でも式書いて証明こころみてるんですが、単純に積分してイコールになるっていう方法以外思いつかないんですよね。
で、積分するにしても∫[0,a]e^(x^2)dxは手計算では不可能らしいということが分かりましたし。。どうにも厳密な証明にたどりつかないんです
859 :
132人目の素数さん :2014/04/18(金) 00:06:36.61
本当に書いただけだな
というか母平均を推定するときって標準化するっけ
>>860 そら正規分布表を読んで得られた数値って、標準正規分布という前提で色々計算された結果なんだし
意味も考えず計算するという奴か
うちの教授は統計は理論を理解するより 何度も計算して手続きを覚えろと教えてたな。
それで済む人はここに来る必要はない
そんな高度な議論をしていたとは今まで全く気づかなかった。それは失礼した。
高度だなんて誰が言った?
いやみ、皮肉でしょ
いや、おそらく864が863の意味を反対に捉えてしまったんだろう
どっちの意味でも同じじゃない?
870 :
132人目の素数さん :2014/04/19(土) 13:20:42.61
正規分布って誰が発見したんですか?
ガウス
872 :
132人目の素数さん :2014/04/19(土) 13:40:05.59
>>871 先生がガウスじゃないって言ってました。
名前は忘れたんですが思い出せなくて。
何人かの数学者が同じ頃に発見していたというように
いってたと思います。
あっ、そう
正規分布の意義を研究したからガウス分布と言うのさ
数学や物理はいつも同時発見が多いのは、発見されることが必然だからさ。
876 :
132人目の素数さん :2014/04/22(火) 11:48:02.43
問題ではないのですが表を作る上でわからないことがあるため質問させて下さい。 点数と順位の表を作り、その内容から何点取れば何位程度になれるかという表を作りたいです。 サンプル数は非常に少ないのですが、例えば 40点 120位 65点 50位 というサンプルがある場合、80点取れば何位程度が想定できるかという表を作りたいです。 これはどのように表にすることが出来るでしょうか。
877 :
132人目の素数さん :2014/04/22(火) 11:49:37.18
引っ越すならここじゃなくてポエムスレだろ
表とグラフは一応別物だと思っているんだが・・・回帰直線のグラフじゃだめなのかい?
880 :
847 :2014/04/24(木) 05:59:52.08
>>847 には答えてもらえなそうですかね〜証明が載ってる本を紹介してもらうだけでもいいんですが
単なる変数変換だから 微積分の教科書読むといいよ
「読者を馬鹿にしてる」と言われそうな本があるんかな ここで書いても馬鹿にされそうだが
>>880 まさかaを引いてbで割ったものを、bを掛けてaを足したら同じになる根拠はという質問?
標準化した信頼区間を元になる分布に対して見る場合は当然、bを掛けてaを足して元に戻すんだぞ。
884 :
847 :2014/04/24(木) 23:03:33.44
>>883 いえ、aを引いてbで割ったものが違う値になることはわかっています。
ただ、対応する値の間の区間の積分値は一致していなければこの推定は成り立ちませんよね?
たとえば、
f(x)を正規分布する確率変数として、それを標準化したものをg(z)として、
変数xの区間[a, b]に対応する標準化変数zの区間が[z1, z2]だとすると、
∫[a, b]f(x)dx=∫[z1, z2]g(z)dz
が成り立っていなければいけないと思うんです。でもコレの証明を見たことがないということです。
自分で計算しようとしても、どうしても定積分の計算でつまずいてイコールにできません。
確率変数と確率密度関数の定義もわからないでそんなこと考えてるのか
積分のとこ変数変換したら成り立たなくないか
ただ、対応する値の間の区間の積分値は一致していなければこの推定は成り立ちませんよね? ここなぜそう考えたのかわからないので教えてください
>>887 標準化する前も後も結局は同じ式、正規分布関数なのだから、
きっと、∫[(z1-μ)/σ, (z2-μ)/σ] 、∫[z1, z2]を正規分布関数で解けばいいんだよ。同じになるはず。
これが分からん奴に何を説明しても無駄じゃない?
数学の基本なしで統計やるとこうなる見本だな
最低でも数IIICはしないとダメだなという典型例か 今はCないらしいが
>>889 前半は元に戻すんだから∫[(z1σ+μ, z2σ+μ] だな。
正規累積分布関数なら代入するだけ。(x-μ)/√(2σ^2)の部分に代入するだけで、
簡単に同じ式になることが分る。
条件付き確率分布でf(x|y;θ)とf(x|y,θ)という書き方を両方見る気がする 違いはあるのだろうか
a, b, c という具合に変数やパラメータを並べる際、cだけがaやbとは別種のもののとき、その違いを強調するために a, b; c と書くことがある 云わば「強い区切り」としてセミコロンを使う
数式にそんな曖昧なルールが本当にあるのか? 単純に処理系の違いじゃないのか。
コンピュータに入力するわけじゃないんだから、数式の書き方なんて慣習頼みである程度の表記揺れはあるよ 見ればすぐに分かる程度の揺れだが 曖昧というのとは少し違う
定義は厳密だが表記は人次第
ニュートンの時代の話?
>強調するために a, b; c ねーよ。
いや、あるよ 別に数学だけの慣習ではなく、英語一般に通じる話なんだけど>強い区切り
高校の英語でも習う話だな
904 :
132人目の素数さん :2014/04/30(水) 22:33:27.57
音楽の記号使うか
>>894 そのケースでは、意味に差の無い
単なる「強い区切り」でしょ、たぶん。
楕円関数なんかだと、区切りの書き方によって
パラメータの表示方法が違ったりするから、
一応、文脈に沿った確認は必要だが、
おそらく
>>895 の言うとおり。
曖昧に強調するためとかいうから勘違いする奴が出てくる。 ならボールド体や斜体表記でもいいだろということになる。 論理的に明確にコンマと区別したいから使うものだろう。 複数の数列とか行列とかコンマだけなら意味が不明確になる場合に。
アホ現る
908 :
132人目の素数さん :2014/05/09(金) 23:26:45.58
統計についてほとんどわからないのですが、 あるゲームの中のイベントが発生する確率を調べたいと思っています。 例えば1000回試して10回起きたとしたら普通に計算すると発生確率1%になりますが この結果が偏りではなく、実際の発生確率とほぼ同じかどうかを検証する方法ってありますか?
無限回試してみればいい
直感的に無理だと思うが
じゃあ直感で判断すればいい
ランダムは偏る場合もあるし、偏らない場合もある。 それは諦めて普通に推定すればいい。ほぼ同じかどうか知りたいんだから、 信頼度99%とかで発生確率を推定すればいいだろう。
>>912 >信頼度99%とかで・・・・・・・・・・・・・・・・
モンテカルロ法で発生確率
>>908 をシミュレーションするとして、推定に
適用する信頼水準は、常用する99%でも95%でもなく、常用しない80%とか
60%にすると推定理論上何か問題があるのでしたっけ?
何の問題もないよ。信頼度を落とせば、信頼区間は狭くなるだけ。 試行回数1000回を1万回にすれば精度もあがる。お好みでどうぞ。
>>914 お好みでと言われるが、信頼区間幅を狭くして推定精度を上げても
その信頼度が60%なり50%なりだと、2回に1回はその推定値範囲内に
入らないわけで、算出はできるが実用にならないのではないか?
それこそお好み
このようなものは、χ^2検定が一般的 発生確率をp、試行回数をNとすると、 期待される成功回数はNpで、これをAと表すことにします。 失敗回数はN(1-p)で、これをBと表すことにします。 そして、実際試してみての成功回数がaで、失敗回数がb(=N-a)の時、χ^2と呼ばれる次の量 χ^2=(A-a)^2/A + (B-b)^2/B を計算します。期待される量と、実際の回数が等しい場合は0になり、それからずれるほど 大きな値になるものです。これが、ある一定量を超えると、pがおかしいんじゃ無いかといえ、 今回の場合は自由度が1なので、3.84より大きいと危険度5%でおかしいといえるし、 6.63より大きくなると、危険度1%でおかしいといえる。 実際の計測が、1000回中10回ということなので、 発生確率を1%とすると、当然、χ^2=0で、おかしくない。 発生確率を1.5%とすると、χ^2=1.69で、おかしくない。 発生確率を2%とすると、χ^2=5.1で、危険度5%ならおかしいといえるが、危険度を1%にするとあり得る範囲となる。 発生確率を0.5%とすると、χ^2=5.025で、危険度5%ならおかしいといえるが、危険度を1%にするとあり得る範囲となる。 ... と、こんな感じで、危険度をある一定の値で決めれば、それに対応する発生確率の範囲を狭めることができる。
これはカイ自乗分布に従わないですね。
>>915 信頼度には、常用される99%か95%を採用すべきだろ。類似ケース例と
比較し易いから。
しかし99%か95%が常用値にされたのは、どういう根拠からなんだろ?
根拠を書いた統計本を、未だ見たことがない。
キリがいいし、人間の心的傾向による区分だよ。 1%で起こる確率は人はめったにない、めずらしいこととか感じる。 5%ぐらいになると、たまにある、時々あると感じる。 σ=1の中ならだいたいそんな感じ、ふつうにあるみたいな。
根拠はないだろう 1・5・10はちょうどいいってだけで気にしなくてもいい 目的に応じて調節すれば問題ない
根拠は明白。きりがいいから。 94.133%とか99.273%とか使う馬鹿はいない。誰が見てもきりが悪い。
>>921 1・5・10はちょうどいいと、最初に用いたのはピアソンだったっけ?
その年一番よかった曲を投票で決める際、一人が好きな曲を1位〜5位として投票することができる 投票した5曲は1位として選ばれたら10pt、5位なら6pt。と重み付けされて集計されて、 投票が終わったときに全員分のポイントが合計され、合計ポイントが高い順にランキングになる こういう投票システムで、自分の選んだ曲を上位にするために多重投稿している奴がいてランキングが狂ってしまう場合 これを統計的に見破るにはどうしたらいいだろうか 1.多重投票者は特定の同一曲に複数回投票し、残りの曲をどうでもいい曲で埋める 2.多重投票者は同じ日、あるいはかなり近接した日に連続して投票する 3.多重投票する必要のない曲(多くの人が投票する曲)は多重投票する意味がないので投票されない 等、経験的な分析は考えられるもののいい処理の方法がわからん 何かうまい方法はないだろうか
系列毎に決めればいいじゃないか。もちろん貢献度を考慮して。
確率とか統計とか知りたいんですけどwikipediaの正規分布の項を見ても理解できないので
初歩の初歩だけでも教えてほしいのですが
エクセルで(1/6)^x*(5/6)^(1000-x)*COMBIN(1000,x)の式を
x=110〜220で計算してこのグラフを作りました
http://i.imgur.com/2N8bCXo.jpg 意味としてはサイコロを1000回振った時の1の出る回数の確率分布って感じなんですが
きれいな正規分布のように見えるのですがμとσがここからどう求まるのかが分かりません
このグラフ又は式からμ及びσの求め方を教えてください
muは1000*1/6 sigmaはsqrt(1000*1/6*5/6)で近似できるだろうね 最尤推定で正規分布なら推定量は muは標本平均 sigmaは標本標準偏差になるかな
即レスありがとうございます 計算するとμ=166.7 σ=11.785くらいですね なんとなくそれくらいなのはわかります 二項分布の公式のようなものが有るみたいですね 少し調べてます
二項分布の検定で標本数が少なくnp> 5 nq> 5 を満たさない場合の 検定方法を教えてください。
>>928 >二項分布の公式・・・・・・・・・・・・・・・・・
どういう公式のこと?そもそも正規分布
>>926 質疑に、何故
二項分布式なのか?
>>930 すいません、よく理解してないんで変なこと書いちゃいましたかね?
Wikipediaで二項分布の項目に
期待値・分散[編集]
B(n, p)にしたがう確率変数X に対し、X の期待値E[X]は
E[X]=np
であり、分散Var[X]は
Var[X]=np(1-p)
となる。
とあるのが公式なのかなと思いました
nが十分に大きい二項分布は正規分布で近似できるともあるし
(1/6)^x*(5/6)^(1000-x)*COMBIN(1000,x)
はそもそも二項分布式です
>>927 でグラフを云々でなく提示式の数字だけ出して答えてくださっていたので
二項分布の公式なんだろうなと
>>928 に書いたのでした
932 :
132人目の素数さん :2014/05/25(日) 12:11:10.78
平均と分散だけでいいだろ 何が公式なんだよww 頭おかしいんじゃないの?
頭おかしい扱いされたのですが 公式という語句を使ったのがまずかったのですか?
どうでもいいよ
>>934 =
>>932 =
>>930 ?
なんかカチンと来る人ですね
そもそも最初の文章が読めてなかっただけなんじゃないですか?
数学できても日本語できない感じですか?
すみません、熱くなって見苦しい言葉を書いてしまいました こちらとしては中途半端な知識で来ているので 間違っている点があればきちんと正していただきたかったのですが残念です これ以上ここにいるのは誰にとっても不利益だと思うので去ります スレ汚し失礼いたしました
937 :
132人目の素数さん :2014/05/25(日) 14:57:32.79
漸近分布使うかどうかだろ? そんなに熱くなることかよ 二度と来ないみたいだからいいけどw
>>926 > このグラフ又は式からμ及びσの求め方を教えてください
定義にあてはめて計算するだけです。
計算そのものは高校の数学Iとか数学IIのレベルです。
以上。
0点。
つまりあんたは数学Iすら分かってないわけだ。 あんまり背伸びせずに着実に足場を固める方がいいと思うぞ。
平常点 -100点。
二項分布の検定で標本数が少なく、np> 5 nq> 5 を満たさない場合の 検定方法を教えてください。
947 :
132人目の素数さん :2014/06/02(月) 21:50:14.20
そもそも何の検定なのかね
実用数学検定じゃねえの?
>>919 >しかし99%か95%が常用値にされたのは、どういう根拠からなんだろ?
フィッシャーさんが仕事をしていた所が農業試験場だったから。
漁師だと思ってたよ。確率的に。
「フィッシャーの統計理論」に書いてある。 フィッシャーは肥料や田んぼの作り方の効果を研究するだけでなく、 良い方法が見つかったら近所の百姓を説得してそれを実際に使って もらうことも仕事だった。フィッシャーの得意な説得方法は次の二つ。 方法1:「今までお前らが経験したことのないほど麦がとれるぞ」 麦は1年に1回、百姓は20歳から40歳までの20年間働く。 だから20分の1以下(5%以下)。 方法2:「百年に1回あるかないかの豊作を経験させてやるぞ」 百年に1回あるかないかとは100分の1以下(1%以下)。
田んぼで麦を作ってたのか?
フィッシャーは人を釣ってたのか
フィッシャー、確かに釣り師っぽい名前だな
956 :
132人目の素数さん :2014/06/26(木) 21:35:08.87
だから何?
逆というか・・わからんよな
958 :
132人目の素数さん :2014/06/26(木) 22:52:04.61
1-4群のカテゴリーに分けた説明変数が二値アウトカムに与える影響を知りたいので、 SPSSを用いてロジスティック回帰分析を行いました。 1群を対照にして2群から4群に数字が大きくなるにつれてオッズ比が大きくなるという結果なのですが、 これを傾向があると言うにはどうすればいいか悩んでいます カテゴリーから多項式対比を利用してみましたがこれでいいのか、そしてよいならば結果の解釈はどうすればいいのか さっぱりわかりません。統計素人なので罵倒されてもいいですから、私の悩みを解決してください 教えてくれたら脱ぎます。いや、嘘ですけど。
虎ハンター・小林邦昭スレ
960 :
132人目の素数さん :2014/07/07(月) 22:38:31.18
統計学ってつまらなくね?行列計算をひたすらやるだけじゃん
つまる/つまらないで学ぶ類のものではない そうでしょう?
そう。 学ぶ必要は大きいが、 全くつまらない。
つまらないかそうでないか統計をとってみないとわかりません
つまらん統計をやってるんだな