―過学習病・再現性・試行回数をちゃんと考える―
競馬のデータ分析をしていると、
ついこんな比較をしたくなるときがあると思います。
- Aパターン:対象レース 1,000件で回収率 200%
- Bパターン:対象レース 10,000件で回収率 104%
数字だけ見ると、
「いやいや、どう考えても200%のほうがすごいでしょ?」
と感じるのが人間の感覚です。
ですが、長期的に“勝ち続ける”という観点で見ると、
私は B(10,000件104%)のほうが“圧勝”だと思っています。
この記事では、その理由を
- 過学習病
- 再現性
- 試行回数(母数)
といったキーワードを軸に、多角的に整理してみます。
1. 「過学習病」:1000件200%は“出来すぎ”を疑うべき
まず最初のポイントは、**過学習(オーバーフィット)**です。
過学習病とは?
ざっくり言えば、
過去データに合わせ込みすぎて、
たまたまの「ノイズ」まで理論に組み込んでしまった状態
です。
- 条件を細かく刻みすぎる
- 不都合なレースだけ「例外」として外す
- たまたま当たっている期間だけ切り出して検証する
こういうことを繰り返すと、
「過去には恐ろしく強く見えるロジック」
=「未来にはほとんど通用しないロジック」
が簡単に出来上がります。
1000件200%は「過学習の香り」が濃い
1,000件という件数は、
一見するとそれなりに多く見えますが、
- 条件を細かく切りすぎれば、簡単に偏りが出る
- その期間にたまたま大穴を連発で拾っている可能性もある
- 期間や条件を少しズラすと一気に数字が崩れるかもしれない
といった「過学習の可能性」を強く疑うべきゾーンです。
“出来すぎの数字”ほど、
「これは本当に再現できるのか?」と疑ったほうが健全です。
2. 再現性:理論として信じられるのはどっちか?
競馬で「本当に価値がある理論」は、
一度きりの神通力ではなく、
“同じルールを続けたときに、同じように機能しやすいもの”
です。
つまり 再現性 が重要です。
1000件200%:もう一度やったらどうなる?
例えば、Aパターン(1000件・回収率200%)のロジックを、
- 別の期間(例えば別の3年間)
- 別の競馬場構成(開催替わり後など)
に適用したとき、
- また200%近く出るのか?
- それとも一気に100%割れするのか?
ここが分からない限り、
「たまたま勝てていただけ」 の可能性は消えません。
10000件104%:平凡な数字に見えて“再現性モンスター”の可能性
一方で、Bパターン(10000件・回収率104%)は、
- 一見「しょぼい」数字ですが
- 母数が多い中での+4% は、かなりの信頼度があります
10,000件というのは、
- 条件や期間を多少ズラしても
- 大崩れしにくい
レベルの母数です。
「派手さはないけど、
何度やっても104%前後に収束しそうだ」
と感じられるロジックは、
派手な200%ロジックより “圧倒的に再現性が高い武器” です。
3. 試行回数:ブレをならしてくれるのは“量”だけ
勝負事の基本として、
試行回数が増えれば増えるほど、
真の実力(本当の期待値)に近づいていく
という現象があります(大数の法則)。
1,000件は「まだブレる」世界
1,000件というのは、
- 一見多そうでも
- ギリギリ「運の波」で上下に振れるゾーン
です。
たとえば、真の期待値が105%のロジックだったとしても、
- たまたま運が良くて 120% に見えることもある
- 逆にツキが悪くて 90% に落ち込むこともある
くらいのブレは普通に起こります。
「200%」という数字は、
このブレの範囲を明らかに超えているので、
- もし本当なら、異常なレベルの神ロジック
- そうでなければ、どこかに過学習やバイアスが混入している
と見るべきです。
10,000件は「ブレがかなり小さくなる」世界
一方で10,000件は、
- 多少ツキが偏ったとしても
- 回収率は真の期待値付近に収束しやすい
世界です。
この規模で「104%」という数字が出ているなら、
「このロジックの真の期待値は100%を超えていそうだ」
と判断する根拠としてかなり強いです。
小さい試行で出た派手な数字より、
大きい試行で出た地味な数字のほうが、
“信頼に足る”というのがポイントです。
4. 資金曲線とリスク:勝てるけど“破滅しやすい”ロジックはいらない
もうひとつ重要なのが、
資金曲線(資金の増減のなだらかさ) と リスク の視点です。
1000件200%ロジックの罠
仮に、
- 1,000件で回収率200%
- ただし、そのうちのプラスの大部分が「数回の超高配当」に依存している
ようなロジックだとどうなるか。
- 高配当が取れない期間が続くと、平気で大きくマイナスに沈む
- メンタルが持たず、途中でロジックを捨ててしまう
- 「破滅ライン」に近づいた状態で、やっと大きな当たりが来る…かもしれないし、来ないかもしれない
つまり、
期待値はプラスでも、
現実的な運用リスクが高すぎるパターン
になりやすいです。
10000件104%ロジックの強み
一方で、
- 試行回数が多く
- 1件ごとの“期待値差”は小さいが
- 安定してじわじわ増えていくタイプのロジック
は、
- ドカンと減る局面が少ない
- 長く続けやすい
- 日々のブレに対して精神的に耐えやすい
という 実務面での圧倒的な利点 があります。
資金管理(たとえばケリー基準)を意識すると、
「期待値の大きさ」よりも、
「期待値の推定精度」と「ブレの小ささ」
のほうが重要になってきます。
5. 「期待値の推定精度」という視点
ここまでを一言でまとめると、
真の期待値がどれくらいか、どれだけ正確に分かっているか?
という「期待値の推定精度」がポイントになります。
1000件200%:推定精度が怪しすぎる
1000件で200%という数字が出ているロジックは、
- 真の期待値が本当に150〜200%近くある“化け物ロジック”か
- あるいはオーバーフィット+偶然の産物
のどちらかです。
後者の可能性が高い以上、
「期待値の推定精度はかなり怪しい」
と見るべきです。
それなのに「プロセスは正しいはず」と信じてしまうと、
過学習病のど真ん中にハマります。
10000件104%:推定精度が高い
一方で、10,000件で104%のロジックは、
- 少なくとも 100%前後であることはほぼ間違いない
- 「ちょっとした調整」で110%に伸びる可能性もある
- 逆に多少悪化しても、大崩れしにくい
という意味で、
「期待値がプラスであることの証拠がかなり固い」
状態です。
この “推定の信頼度の高さ” こそが、
「1000件200%より10000件104%のほうが勝る」
という一番の理由だと考えています。
6. メンタルと運用の現実論
最後に、もう少し人間らしい話をします。
- 1000件で200%を出すタイプのロジック
- 10000件で104%を出すタイプのロジック
どちらが 「現実的に続けられるか」 という話です。
派手なロジックほど「人間」が耐えられない
高回収率ロジックは、
- 当たるときの快感はすごい
- その代わり、当たらない期間のストレスもすごい
です。
- 「ほんとにこのロジック大丈夫か?」
- 「過去データはたまたまだったんじゃないか?」
- 「資金が減った今、本当に続けられるのか?」
こういう不安と戦い続ける必要があります。
ロジックが“正しいかどうか”以前に、
“自分が耐えられるかどうか”の問題が出てきます。
地味なロジックのほうが、最終的に資金もメンタルも守る
一方で、10,000件で104%タイプのロジックは、
- 1回1回の勝ち負けに一喜一憂せずに済む
- 「このペースで打ち続ければ、長期的にはプラス」と信じやすい
- 結果、ブレにビビってルールをコロコロ変える悪癖が減る
という意味で、
**「人間のメンタルと相性がいいスタイル」**です。
最終的に、
- ロジックの期待値
- 期待値の推定精度
- ブレの大きさ
- それに耐えられる自分のメンタル
これらの総合点で考えると、
1000件200%の“夢物語”より、
10000件104%の“現実的なエッジ”のほうが、
競馬で勝ち続ける武器としては圧倒的に優れている
と私は思っています。
まとめ:「派手な数字」より「太く長く続く数字」を選ぶ
改めて、この記事の結論です。
- 1000件で回収率200%は、
- 過学習病の可能性が高い
- 再現性が見えにくい
- 試行回数的にもまだブレが大きい
- 資金曲線とメンタルの面で運用リスクが高い
- 10000件で回収率104%は、
- 母数が大きく再現性が高い
- 真の期待値がプラスであることの証拠が厚い
- ブレが小さく、資金とメンタルを守りながら続けやすい
だからこそ、
「1000件200%より、10000件104%を目指す」 という発想は、
地味に見えて、競馬で勝つうえでは超本質的だと思います。
次に自分のデータを見ていて、
- 「うわ、この条件だけ回収率めっちゃ高い!」
という箇所を見つけたら、
一度こう問いかけてみてください。
「これは本当に再現性のある104%タイプなのか?
それとも、1000件200%タイプの“過学習ロジック”なのか?」
その視点を持てるかどうかが、
**「一時的に勝つ人」と「長く勝ち続ける人」**を分ける分岐点になるはずです。

コメント