タイム差を出せたことでその馬の走破タイムが基準より速いのか遅いのか分かるようになりました。これは大きな武器になります。しかし、この状態では過去に同距離、同競馬場で走った馬しか比較できません。競馬新聞の戦績欄には様々な距離を走っている馬、他の競馬場から遠征してくる馬もいたりします。このような馬達も比較できるようにしなければ、レースは予想できません。異なる距離、競馬場を走った馬も比較できるようにしたいものです。
地方競馬は850mから2600mまで様々な距離でレースが行われています。距離が異なるとタイムの質が違ってきます。短距離のレースはスタートダッシュを決めていかに先手をとってゴールするか!になります。そのためレースラップは緩まず全馬全力で走り切り、1着からシンガリの馬までタイム差はそれほどありません。このような傾向だと基準タイム付近にタイムが集中したバラつきの範囲が狭いタイムが蓄積されます。他方、2000mを超える長距離だとスタミナを温存して4コーナー付近からスパートして最後の直線勝負になります。このような傾向だとレースラップに緩みが発生して1着からシンガリの馬までのタイム差は大きくなります。そもそもスタミナ切れを起こした馬は大きく離されてしまいますし、瞬発力が足りず遅れをとる馬など距離が長くなるほどタイム差がつきやすくなるのです。このような傾向だと基準タイム付近にタイムが存在せず、バラつきの範囲が大きいタイムが蓄積されます。
基準タイムからのタイムのバラつきを見てみることにします。バラつきの指標は標準偏差を使います。標準偏差とは、データのバラつきの度合いを示す値です。エクセルではSTDEV関数、SQLではSTD関数で簡単に求めることができます。
上の図は川崎競馬場(競馬場コード21番)の基準タイムとその標準偏差です。赤枠で囲った箇所が基準タイムの標準偏差ですが、900mが一番小さく9.7(0.97秒)、2100mが一番大きく16.9(1.69秒)となっています(ただし2100mは集計タイム数が95しかなく信頼性は乏しい・・)。傾向としても距離が長くなるほど標準偏差も大きくなる傾向があります(1400mは例外のようですが)。900mの標準偏差は小さく、基準タイム付近にタイムが密集しており、標準準偏差が大きい2100mよりはタイムの価値は高そうです。
しかし、先ほど説明したように距離が延びればラップの緩みが発生しますし、そもそも標準偏差は平均値の大きさ(スケール)に影響を受ける指標です。距離が長いほど基準タイムも大きくなり、標準偏差も同様に大きくなるので、違う距離間のバラつきをそのまま比較するには少し都合が悪そうです。そこで標準偏差を平均値(基準タイム)で割ってみることにします。こうすることで平均値(基準タイム)のスケールが違う、異なる距離間のタイムのバラつきの比率を比較できるようになります。この値のことを変動係数と言います。
上の図の赤枠で囲った箇所が各距離の変動係数です。距離が長いほどバラつきの比率が小さい傾向があるのが分かります。変動係数を使って異なる距離間でタイムのバラつきを比較すると、標準偏差ほど異なる距離間でタイムのバラつきは無く、短い距離のタイムの価値が高いとは一概には言い切れません。吉馬スピード指数ではこれらの指標を利用して補正値を算出しており、「タイムバリュー値」としてそれぞれの距離でのタイム差を補正しています。
タイム差 = (補正基準タイム - 補正タイム) × (タイムバリュー値)
これで異なる距離間のタイム差を比較できるようになりました。