セイバーメトリックス 4

このエントリーをはてなブックマークに追加
262名無しさん@実況は実況板で
http://en.wikipedia.org/wiki/Runs_created
ここの2002 version of runs createdの係数に疑問を感じたので、
>>80と同じ方法で得点および得点率との相関係数(CORREL)を計算しました。

期間           1955〜2008             1999〜2008
データ数     54年分のべ653チーム       10年分のべ120チーム
得点        349967    (CORREL)      72932    (CORREL)
RC(1998)     356879    0.963854444     76092    0.962364868
RC(2002)     359135    0.962719865     76350    0.961211389
XR         362032    0.965778364     76358    0.963894297

得点率     4.029898697  (CORREL)    4.378225866   (CORREL)
RC27(1998)  4.109486712  0.967818961   4.567954890   0.966416374
RC27(2002)  4.135463423  0.966243500   4.583438484   0.965743732
XR27      4.168828714  0.969128253   4.583894064   0.968110202

RC(1998)={(A+2.4×C)×(B+3×C)}÷(9×C)−0.9×C
 A=安打+四球+死球−盗塁死−併殺打
 B=塁打+{0.24×(四球−故意四球+死球)}+0.62×盗塁+{0.5×(犠打+犠飛)}−0.03×三振
 C=打数+四球+死球+犠打+犠飛
※『野球の見方が180度変わるセイバーメトリクス』という本では2002Verと紹介されていますが、
 >>116で1998年版との指摘があったので、区別しやすいようにRC(1998)としておきます。

RC(2002)
 B=(1.125×単打)+(1.69×二塁打)+(3.02×三塁打)+(3.73×本塁打)
  +0.29×(四球−故意四球+死球)+0.492×(犠打+犠飛+盗塁)−(0.04×三振)
※B以外の計算式はRC(1998)と同じ。

XR=0.5×単打+0.72×二塁打+1.04×三塁打+1.44×本塁打+0.34×(四球+死球−故意四球)
  +0.25×故意四球+0.18×盗塁−0.32×盗塁死−0.09×(打数−安打−三振)−0.098×三振
  −0.37×併殺打+0.37×犠飛+0.04×犠打
263名無しさん@実況は実況板で:2008/12/01(月) 23:43:02 ID:njp0AmlK
XRは各項目の価値が分かりやすいですが、RCは分かりにくいので各項目の価値を計算しました。
RCの「出塁能力×進塁能力」という概念から作られた指標の性質上、
選手のタイプによって各項目の価値が変わるし、1打席だけの成績を評価するのは問題があるので、
平均的な選手の成績で計算するために2008年全選手の合計成績(65531打席)から
各項目が1増えた場合の変化量を計算しました。

              RC(1998)  RC(2002)  XR
単打______  0.563290  0.600844  0.5
二塁打_____  0.862552  0.769927  0.72
三塁打_____  1.161813  1.167944  1.04
本塁打_____  1.461074  1.380420  1.44
四死球−故意四球  0.335852  0.350961  0.34
故意四球____  0.264029  0.264175  0.25
盗塁______  0.185541  0.147236  0.18
盗塁死_____  -0.37677  -0.37698  -0.32
打数−安打−三振  -0.11274  -0.11280  -0.09
三振______  -0.12172  -0.12477  -0.098
併殺打_____  -0.48951  -0.48978  -0.46
犠飛______  -0.07585  -0.07837  0.37
犠打______  -0.07585  -0.07837  0.04
264名無しさん@実況は実況板で:2008/12/01(月) 23:43:34 ID:njp0AmlK
上記の数値を単打を1として換算
              RC(1998)  RC(2002)  XR
単打______  1.000000  1.000000  1.0
二塁打_____  1.531273  1.281408  1.44
三塁打_____  2.062547  1.943839  2.08
本塁打_____  2.593821  2.297467  2.88
四死球−故意四球  0.596231  0.584113  0.68
故意四球____  0.468726  0.439673  0.5
盗塁______  0.329388  0.245048  0.36
盗塁死_____  -0.66887  -0.62741  -0.64
打数−安打−三振  -0.20014  -0.18774  -0.18
三振______  -0.21608  -0.20766  -0.196
併殺打_____  -0.86902  -0.81515  -0.92
犠飛______  -0.13466  -0.13043  0.74
犠打______  -0.13466  -0.13043  0.08
265名無しさん@実況は実況板で:2008/12/01(月) 23:44:05 ID:njp0AmlK
得点とRCの相関、得点率とRC27の相関ともにRC(2002)よりRC(1998)の方が高いです。
評価の精度を高めるためには塁打数を利用するよりは単打・二塁打・三塁打・本塁打に分けて
評価した方がいいと思いますが、RC(2002)は各安打のバランスがおかしいような気がします。
特に二塁打と本塁打の価値が低いのが気になります。

NPBのデータで検証している影響も多少はあるとは思いますが、
MLBのデータで検証したとしてもRC(2002)の方が相関が高くなるかは疑問です。
ただし、単純に相関を高めるためだけに設定したとしたら、XRの係数は>>9のような
おかしな数値になることも考えられるので、MLBのXRの係数は補正されたもので、
RCの係数は補正されていないものという可能性もあるかもしれません。

私のパソコン&インターネット環境の問題で、海外の重いサイトを開くと凄い時間がかかったり
フリーズすることがあるので、MLBのデータでは検証できません。
MLBのデータを持っている人がいましたら相関だけでも検証していただければありがたいです。
それと、XRの係数は表計算ソフトの回帰分析ツールを使って重回帰分析すれば簡単に計算できますが、
RCの係数はどのように計算されて設定されたものなのか分からないので、
知っている人がいましたら教えて下さい。