セイバーメトリックス 4

このエントリーをはてなブックマークに追加
9名無しさん@実況は実況板で
1955〜2008年のチーム成績で得点とXRに使われている項目の重回帰分析と相関を計算してみました。
1955年以降のデータなのは、1954年以前は故意四球、1953年以前は犠飛のデータがないので、
XRの計算に必要なデータが揃うのが1955年以降だったからです。

重相関 R   0.973545315
重決定 R2  0.94779048
補正 R2   0.945249051
標準誤差  20.20097611
観測数   653

             得点との重回帰 得点との相関(CORREL)
単打______   0.446027204   0.547372245
二塁打_____   0.744169558   0.667472851
三塁打_____   1.372381253  -0.063858201
本塁打_____   1.313249014   0.748944422
四死球−故意四球   0.312638627   0.682677409
故意四球____   0.122434389   0.19001869
盗塁______   0.200799589   0.114162725
盗塁死_____  -0.113996564  -0.251457888
打数−安打−三振  -0.068935137  -0.201346883
三振______  -0.092163650   0.226776912
併殺打_____  -0.414905597   0.186151827
犠飛______   0.375405501   0.51316304
犠打______  -0.204254449   0.18173892
109:2008/11/13(木) 00:33:09 ID:AeVlWmEE
eXtrapolated Runs (XR)
XR=単打×0.5+二塁打×0.72+三塁打×1.04+本塁打×1.44
 +(四死球−故意四球)×0.34+故意四球×0.25+盗塁×0.18−盗塁死×0.32
 −(打数−安打−三振)×0.09−三振×0.098−併殺打×0.37+犠飛×0.37+犠打×0.04

本塁打より三塁打の方が高い評価になっていたり、MLBのXRの係数とはかなり差があったりするのは、
NPBとMLBの野球の質の違いというよりはデータの少なさの影響でしょうか。
たしかXRも50年分ぐらいのデータから算出されたものだと思いましたが、
チーム数はNPBの倍以上あるので、データのサンプル数にもかなりの差があるのでしょう。

重回帰分析では四死球より単打の方が価値が高くなるのは、
他の走者を進める可能性が違うので当然ですが、
単純な得点との相関では単打より四死球の方が相関が高いのは不思議です。
私はあまり統計学に詳しくないので、理由が分かる人がいましたら教えて下さい。