一文要約: 推論モデルは「もっと長く考える」が第二のスケーリング軸であることを発見しました — 「もっと大きく学習する」と直交し、計算コストあたりの効率が時に勝ることもあります。
31.1 ブレークスルー: すべてを変えた数字
31.1.1 ギャップを露わにしたベンチマーク
2024年初め、研究者たちは当時最強のモデルだったGPT-4oをAIME 2024(American Invitational Mathematics Examination、全米数学招待試験)でテストしました。AIMEは全米高校数学オリンピックの第2ラウンドです。参加者は全米の数学トップ5%の生徒たちです。15問あります。電卓なし。
GPT-4oのスコアは 12〜13% でした。15問中2問以下です。
2024年9月、OpenAIはo1-previewをリリースしました。同じAIME 2024の問題で。
o1-previewのスコアは 74〜83% でした。
AIME 2024の正答率:
GPT-4o ████ 12〜13%
o1-preview █████████████████████████████ 74〜83%
o1(最終版) ██████████████████████████████ 83〜93%
o3(2024年12月) ████████████████████████████████ 96.7%
12%から83%へ: モデルサイズの比較可能な増加なしに6〜7倍のジャンプ。これは既存のスケーリング曲線上の緩やかな改善ではありませんでした。別の現象でした。
31.1.2 なぜこれが質的に異なるのか
以前の能力向上はパターンに従っていました:
- GPT-3 → GPT-3.5: 学習改善、より多くのデータ、相対的に約50%向上
- GPT-3.5 → GPT-4: より大きなモデル、長いコンテキスト、難しいタスクで相対的に約100%向上
- GPT-4 → GPT-4o: 効率改善、マルチモーダル、相対的に約10〜20%向上
各ステップは同じレバーからきていました: より多くのパラメータ、より多くのデータ、より良い学習。
o1はGPT-4oよりも劇的に大きくなったわけではありませんでした。ジャンプはまったく異なるレバーからきました。
核心的な洞察: モデルの能力はモデルのウェイトと推論時に使う計算の両方の関数です。o1以前は、ほぼすべての努力が学習に向けられていました。o1はテスト時計算に多く投資しました。
31.1.3 コンテキストの中のAIME
AIMEは推論能力を測定するための特に良いベンチマークです:
- 問題は毎年新たに作成されるため、学習データの汚染を排除する
- 各問題は近道のない多段階推論を必要とする
- 明確な人間の参照ポイントがある: 全米トップの高校数学生は通常8〜12/15のスコアを出す
o3の96.7%は平均的に試験あたり1問以下しか間違えないことを意味します。トップクラスのIMO出場者以外はすべて超えました。
31.2 テスト時計算のスケーリング
31.2.1 従来のスケーリング則
推論モデル以前、性能向上の支配的な戦略は「学習時計算のスケーリング」でした:
これが軍拡競争を促しました:
- GPT-3: 1,750億パラメータ
- PaLM: 5,400億パラメータ
- GPT-4: 約1.8兆パラメータ(推測されるMoE)
- Llama 3.1: 4,050億パラメータ(密)
しかし収穫は逓減していました。パラメータを1,000億から2,000億に倍増させると性能は10〜20%向上し、100%ではありませんでした。各増分はより高コストになりました。
31.2.2 新しい軸: テスト時計算
2024年8月、DeepMindとUC Berkeleyが発表しました: 「LLMのテスト時計算を最適にスケールすることはモデルパラメータのスケーリングよりも効果的である可能性がある」。
中心的な実験: 小さなモデルと大きなモデル(14倍のサイズ差)をとります。小さなモデルに多くの推論計算を与えます。小さなモデル+より多くの思考時間が大きなモデルの直接回答を上回ります。
実験セットアップ:
大きなモデル = PaLM 2-L(約14倍大きい)
小さなモデル = PaLM 2-S + 追加テスト時計算
結果:
大きなモデル、直接回答: スコアX
小さなモデル、追加計算: スコア > X(多くのタスクで)
これは小さなモデルが常に大きなモデルに勝つということではありません。テスト時計算が本物のスケーリング軸であり、おもちゃではないということです。
31.2.3 なぜ長く考えることが助けになるのか
標準的な次トークン生成は1回のパスで答えを生成します。難しい問題では、1回のパスはしばしば失敗します:
- 最初のアプローチが間違っている可能性がある — しかしモデルはそれに固執する
- 最終回答の前に中間ステップが検証されない
- アプローチが行き詰まったときにバックトラックがない
拡張思考が可能にすること:
- 複数の候補アプローチを生成する
- 中間ステップを確認する
- バックトラックして別のパスを試す
- 出力する前に答えを検証する
計算コストは「思考」フェーズでモデルが生成するトークン数に比例します。
31.2.4 2つのスケーリング曲線
性能
▲
│ ╭── テスト時スケーリング
│ ╭───╯ (より多くの思考トークン)
│ ╭────╯
│ ╭────╯
│ ╭────╯
│ ╭────╯ ← 学習時スケーリング
│ ╭───╯ (より多くのパラメータ + データ)
│─╯
└──────────────────────────────────▶ 計算量
両方の曲線は本物です。最適な戦略は両方を組み合わせます: 能力の高いベースモデルを学習させ、難しい問題に対して推論計算を賢く使う。
31.3 OpenAI o1とo3
31.3.1 o1が実際に何をするか
OpenAIの公式なフレーミング: o1は「推論するように学習された」。技術的な実装は完全には公開されていませんが、観察可能な挙動は明確です:
o1に難しい質問をすると、見える答えを生成する前に内部の「推論トレース」を生成するのに時間を費やします。要約が見えますが、フルのChain-of-Thoughtは隠されています。
従来のモデルの応答:
ユーザーの質問 → 即座の答え
o1の応答:
ユーザーの質問 → [内部推論トレース、約3,000〜10,000トークン]
→ 最終回答(見える)
推論トレースには含まれる可能性があります:
- 複数の角度から問題を設定する
- 仮説をテストして矛盾を見つける
- バックトラックして別のアプローチを試す
- 元の問題と照らし合わせて最終回答を検証する
31.3.2 学習アプローチ(推測)
OpenAIはo1の学習の詳細を公開していません。公開情報と研究コミュニティの分析に基づくと、アプローチはおそらく以下を含みます:
- プロセス報酬を使った大規模RL: 報酬モデルが最終回答だけでなく推論Chain-of-Thoughtの中間ステップを評価する
- プロセス報酬モデル(PRM): 推論Chain-of-Thoughtの各ステップが正しいかどうかを判断するよう学習された別のモデル
- 推論パスの探索: 複数の候補Chain-of-Thoughtを生成してベストを選択する
o1の推測される学習ループ:
問題
↓
ベースモデルがN個の推論Chain-of-Thoughtを生成
↓
プロセス報酬モデルが各Chain-of-Thoughtの各ステップをスコアリング
↓
ベストChain-of-Thoughtを特定
↓
RL更新: 成功したChain-of-Thoughtパターンの確率を増加させる
PRMにおける重要な洞察: 「この中間ステップは正しかったか?」を評価することは、「最終回答は正しかったか?」だけを評価するよりも情報量が多いです。8つの正しいステップを踏んで最後に1つ間違えたモデルは、たまたま正解を当てたモデルとは異なるシグナルを受け取るべきです。
31.3.3 o3: もう一つのステップチェンジ
2024年12月、o3が登場しました。o1からo3へのジャンプはGPT-4oからo1ほど劇的ではありませんでしたが、それでも相当なものでした:
| ベンチマーク | GPT-4o | o1 | o3 |
|---|---|---|---|
| AIME 2024 | 12〜13% | 83.3% | 96.7% |
| MATH-500 | 76.6% | 94.8% | 97.9% |
| Codeforcesレーティング | 約1200 | 約1800 | 2727 |
| ARC-AGI | 約5% | 32% | 87.5% |
ARC-AGI は注目に値します。François Cholletはこのベンチマークを記憶化に抵抗するよう特に設計しました — 新規のパターン認識をテストします。人間の平均は約85%です。o3の87.5%はこのテストで人間の平均を超えた最初のAIです。
31.3.4 コスト構造
推論トークンは考えることに料金がかかるため高価です:
難しい数学問題に対する1つのo1リクエスト:
ユーザー入力: 200トークン
内部思考: 3,000〜10,000トークン ← これに料金がかかる
最終出力: 500トークン
請求合計: 3,700〜10,700トークン
API料金(執筆時点での近似値):
- GPT-4o: 100万入力トークンあたり2.50ドル、100万出力トークンあたり10ドル
- o1-pro: 100万入力トークンあたり150ドル、100万出力トークンあたり600ドル
60倍のコストプレミアムは恣意的ではありません。モデルは難しい質問に答えるのに実際に10〜50倍の計算を使います。競技プログラミング、数学的証明、複雑なデバッグなど、答えが重要な問題では、この料金は往々にして価値があります。
31.3.5 o1/o3の制限
速度: GPT-4oは1〜3秒で答えます。o1は難しい問題に10〜60秒かかります。会話型の使用やリアルタイムアプリケーションでは、しばしば受け入れられません。
簡単な質問への過剰思考: 単純な問題に無関係な情報を加えると、o1の精度が大幅に低下します。Appleの研究者は、シンプルな算数の文章問題に「彼のリュックは青い」を加えると意味のある精度低下を引き起こすことを示しました。モデルはノイズを潜在的なシグナルとして処理するようです。
不透明性: OpenAIは推論トレースを意図的に隠しています。ユーザーはモデルがどのように答えに到達したかを検査できません。これはプロダクト上の選択(推論トレースは冗長で混乱を招く)であり、安全上の決定(OpenAIはo1モデルがCBRN関連の知識について中レベルのリスクを示したと報告している)でもあります。
31.4 DeepSeek-R1: オープンソースの推論
31.4.1 なぜR1が重要なのか
2025年1月。DeepSeekがDeepSeek-R1をリリースし、OpenAI o1に匹敵する性能を達成しました。1つの重要な違いがあります: 完全なオープンウェイトと公開された学習手法。
| 性質 | OpenAI o1 | DeepSeek-R1 |
|---|---|---|
| モデルウェイト | クローズド | オープン |
| 学習手法 | 非公開 | 論文で公開 |
| APIコスト | 高い | 低い |
| ローカルデプロイ | 不可 | 可能 |
| AIME 2024 | 83.3% | 79.8% |
| MATH-500 | 94.8% | 97.3% |
R1は推論モデルを専有の魔法として扱うことを不可能にしました。アプローチは再現可能でした。
31.4.2 R1-Zero: 純粋なRLからの推論
最も驚くべき結果: DeepSeekは教師あり推論デモンストレーションなしに推論モデルを学習させました。これをR1-Zeroと呼びました。
従来の学習パイプライン:
- 事前学習(言語モデリング)
- 厳選された推論例でのSFT
- RLHF
DeepSeek-R1-Zeroパイプライン:
- 事前学習(言語モデリング)
- 直接RLを適用 — SFTなし、人間が書いた推論トレースなし
DeepSeek-V3-Base(事前学習済みモデル)から始め、シンプルな報酬でRLを適用しました: 正しい最終回答には+1、不正解には0。プロセス報酬なし、人間のデモンストレーションなし。
学習から出現したもの:
RL学習中のR1-ZeroのAIME正答率:
ステップ0: 15.6%
ステップ2000: 約30%
ステップ6000: 約55%
ステップ10000: 71.0%(pass@1)
ステップ10000での64サンプルの多数決: 86.7%
31.4.3 創発的な推論行動
R1-Zeroは推論の方法を教えられていませんでした。これらの行動はRLの学習信号だけから出現しました:
自己検証:
...ということで答えは42です。
待って、3ステップ目をもう一度確認させてください。
3 × 14 = 42 ✓
はい、答えは42です。
バックトラッキング:
このアプローチは複雑になってきているようです。
別の方法を試してみましょう...
戦略選択:
ここでの直接計算は複雑すぎます。
まずn=1を特殊ケースとして考え、
パターンを見つけ、それから一般化しましょう。
これらはプログラムされた行動ではありません。モデルはこれらの戦略が高い報酬につながることを発見しました。これは注目すべき結果です: 推論能力が結果報酬のRLから創発的に生まれる特性として現れる。
31.4.4 GRPO: クリティックなしの学習
標準的なPPOは各状態の価値を推定するためにクリティックモデルを必要とします。6,710億パラメータのポリシーには、クリティックも約6,710億パラメータです。2つの巨大なモデルを同時に実行することになります。
DeepSeekの解決策: GRPO(Group Relative Policy Optimization)。
PPO:
アドバンテージ = 報酬 - critic_model(状態) ← クリティックが必要
GRPO:
各プロンプトに対してG個の応答を生成:
rewards = [r_1, r_2, ..., r_G]
baseline = mean(rewards)
advantage_i = r_i - baseline ← クリティック不要
学習された価値関数と比較するのではなく、グループ平均と比較します。直感: このプロンプトに対してこの応答が平均より高いスコアを得たなら、それは良い応答だった。別のモデルは不要です。
GRPOの例:
プロンプト: 「1 + 2 + ... + n = n(n+1)/2を証明してください」
8つの応答を生成:
応答1: スコア0.8
応答2: スコア0.3
応答3: スコア0.9
応答4: スコア0.5
応答5: スコア1.0
応答6: スコア0.2
応答7: スコア0.8
応答8: スコア0.5
グループ平均: 0.625
アドバンテージ:
+0.175, -0.325, +0.275, -0.125, +0.375, -0.425, +0.175, -0.125
正のアドバンテージ → その応答パターンの確率を増加
負のアドバンテージ → 確率を減少
クリティックモデルを削除することで学習メモリを約50%削減し、計算も相応に削減します。DeepSeek-V3が550万ドルで学習できた理由の一つです。計算を節約するアーキテクチャ上の選択が複合的に積み重なります。
31.4.5 コールドスタートデータと最終的なR1
R1-Zeroはコンセプトを証明しましたが、使いやすさの問題がありました:
- 推論Chain-of-Thoughtが冗長で整理されていなかった
- モデルが応答の途中で言語を混在させた(中国語と英語)
- フォーマットが一貫していなかった
プロダクションのR1は少量の コールドスタートデータ を追加しました: クリーンなフォーマットと言語の一貫性を示す数千件の高品質な推論例。RLの学習はその上で動きます。
結果: 同じ強い推論能力、読みやすい出力フォーマット。
これは重要なパターンです。RLが能力を発見します。小さな厳選されたセットでのSFTがその能力をどう表現するかを形作ります。
31.4.6 オープンソース推論が変えること
R1のオープンソースリリースには即座の実際的な影響がありました:
研究: 学習手法が再現可能なので、他のグループがそれを検証し、拡張し、その上に構築できます。
デプロイコスト: R1をローカルで実行することが可能です。大規模では、o1-pro APIと比べた節約は膨大です。
ドメイン特化: R1の推論を医療診断、法律分析、競技プログラミング向けに微調整できます — クローズドAPIではできないことです。
エコシステム: 蒸留されたR1モデル(後述)が優れた小型推論モデルの波を生み出しました。
31.5 Kimi K1.5: 推論のための長コンテキストスケーリング
31.5.1 Moonshot AIの独自アプローチ
2025年1月。DeepSeek-R1と同じ月に、Moonshot AI(中国)が Kimi K1.5 をリリースしました。推論能力への技術的ルートが異なっていました。DeepSeekがグループ相対アドバンテージ推定を使った純粋なRLに注力したのに対し、Kimi K1.5の中心的な革新はRL学習を128Kトークンのフルコンテキストウィンドウに拡張することでした。
3つのアプローチを並べると:
OpenAI o1: 隠れたChain-of-Thought + 大規模RL + プロセス報酬モデル
DeepSeek R1: 純粋なRL(R1-Zero) + GRPO + コールドスタートデータ整形
Kimi K1.5: 128K長コンテキストRL + Long-CoTフレームワーク + マルチモーダル
31.5.2 長コンテキストスケーリング: コアイノベーション
推論のための標準的なRLは短いトラジェクトリで動作します — 数百〜数千トークン。Kimi K1.5は最大128Kトークン長のトラジェクトリで学習します。これが重要な理由は、難しい推論問題が長いChain-of-Thoughtから恩恵を受けるためです: モデルは前のステップを再訪し、部分的な結果を蓄積し、答えを決める前に複数のサブ問題を探索できます。
課題は効率性です: 各勾配ステップにフルの128Kトラジェクトリを生成することは禁止的に高コストです。Kimi K1.5は 部分ロールアウト でこれを解決します: 各更新のためにフルトラジェクトリをスクラッチから再生成するのではなく、前のトラジェクトリの大部分を再利用して新しい部分のみを再生成します。これにより長コンテキスト探索の恩恵を保ちながら、学習計算を大幅に削減します。
フルのLong-CoT RL学習スタック:
学習の革新:
部分ロールアウト: 前のトラジェクトリプレフィックスを再利用し、末尾のみ再生成
Online Mirror Descent: 長いシーケンスに対する理論的に根拠のあるポリシー更新
効果的サンプリング: モデルが不確かなプロンプトを優先する
長さペナルティ: 長い推論Chain-of-Thoughtでのパディングと繰り返しを抑制
長さペナルティは特に重要です。それなしでは、モデルはブルートフォースで正解に到達するために冗長な推論ステップでコンテキストを埋めることを学習します。ペナルティは少ないトークンで正解に到達することに報酬を与え、真の推論効率を促進します。
31.5.3 性能
| ベンチマーク | Kimi K1.5 | o1-preview | 比較 |
|---|---|---|---|
| AIME 2024 | 77.5% | 74.3% | K1.5がわずかに優位 |
| MATH-500 | 96.2% | 94.8% | K1.5がわずかに優位 |
| Codeforces | 94パーセンタイル | 約90パーセンタイル | 同等 |
K1.5はまた マルチモーダル推論 もサポートしています: 同じ推論Chain-of-Thoughtの中で画像とテキストを共同処理できます。これはo1-previewのローンチ時には利用できず、K1.5をマルチモーダル推論空間への早期参入者にしました。
31.5.4 Long-CoT RLフレームワーク
Kimi K1.5は長コンテキスト推論の学習を3つのコンポーネントを持つ最適化問題として形式化します:
- ポリシー: 推論Chain-of-Thoughtを生成する言語モデル
- 報酬信号: 正しい最終回答には+1、不正解には0、フルの長いトラジェクトリの末尾に適用
- KL制約: 拡張コンテキストを通じてポリシーがリファレンスモデルから遠ざかりすぎないようにする
重要な実証的知見: 推論性能はコンテキスト長が増加するにつれて改善し続け、テストされた長さで飽和しませんでした。これは推論Chain-of-Thought自体が — 最終回答トークンだけでなく — 長さと共にスケールする実際の計算を担うという証拠です。
31.5.5 実際の部分ロールアウト
128Kトラジェクトリの問題に対する標準的なPPOスタイルの学習:
ステップごとのナイーブなアプローチ:
トークン1からフルの128Kトラジェクトリを生成 ← 高コスト
トークン128Kで報酬を計算
ポリシーを更新
繰り返す
Kimi K1.5の部分ロールアウトアプローチ:
ステップごとの部分ロールアウト:
前のトラジェクトリからトークン1...(t-1)を再利用
トークンt...128Kのみを再生成
報酬を計算
再生成されたサフィックスのみのポリシーを更新
再生成されるサフィックス長は学習中に徐々に増加します。学習の初期は短く、ポリシーが安定するにつれてより長いサフィックスが再生成されます。このカリキュラムにより、基本的な推論を学ぶ前に長いトラジェクトリでポリシーが振動するのを防ぎます。
31.5.6 Online Mirror Descent
PPOはクリッピングされた確率比を使ってポリシー更新を制約します。長いトラジェクトリではクリッピングが保守的すぎることがあります: トークン100,000で勾配を計算している頃には、確率比が100,000ステップにわたって複合されてクリップが頻繁に発火し、学習シグナルを殺してしまいます。
Kimi K1.5は代わりに Online Mirror Descent(OMD) を使います。OMDはKLダイバージェンス信頼領域を直接使って更新を制約します:
OMD更新:
最小化: -期待報酬 + beta * KL(新ポリシー || 旧ポリシー)
条件: KL <= delta
これは理論的には自然方策勾配と等価ですが、非常に長いシーケンス長でより安定しています。なぜならKL制約がトークンごとの確率比ではなく、フルのトラジェクトリ分布に対して作用するからです。
31.6 蒸留: 推論をアクセスしやすくする
31.6.1 大型推論モデルの問題
DeepSeek-R1は6,710億のMoEモデルをベースにしています。デプロイには:
- 約200 GBのVRAM(複数のハイエンドGPU)
- H100価格で80,000ドル以上のハードウェア
- 相当なエンジニアリングオーバーヘッド
ほとんどのアプリケーションでは、これはアクセス不可能です。
31.6.2 推論のための知識蒸留
核心的なアイデア: 大型推論モデルが多くの問題で高品質な推論トレースを生成します。その後、小型モデルをそのトレースで微調整します — 類似した推論パターンを生成することを学びます。
教師(DeepSeek-R1、671B):
問題 → [拡張推論トレース] → 解答
生徒(Qwen-2.5-7B):
(問題、推論トレース)ペアで学習
100倍少ないパラメータにもかかわらず類似したトレースを生成することを学ぶ
これは教師の推論トレースに対する単純なSFTです。生徒側にRLは不要です。
31.6.3 DeepSeek蒸留モデルの性能
| モデル | ベース | AIME 2024 | MATH-500 | 備考 |
|---|---|---|---|---|
| R1-Distill-Qwen-1.5B | Qwen-2.5-1.5B | 28.9% | 83.9% | ラップトップでデプロイ可能 |
| R1-Distill-Qwen-7B | Qwen-2.5-7B | 55.5% | 92.8% | RTX 4090に収まる |
| R1-Distill-Llama-8B | Llama-3.1-8B | 50.4% | 89.1% | |
| R1-Distill-Qwen-14B | Qwen-2.5-14B | 69.7% | 93.9% | |
| R1-Distill-Qwen-32B | Qwen-2.5-32B | 72.6% | 94.3% | o1-miniより優れる |
| R1-Distill-Llama-70B | Llama-3.3-70B | 70.0% | 94.5% |
AIME 55.5%の7B蒸留モデルは、専用の32B推論モデルであるQwQ-32B-Previewを上回ります。32B蒸留モデルはいくつかの指標でOpenAI o1-miniを上回ります。
生徒への直接RLとの蒸留の比較:
| 手法 | 32Bモデル、AIME 2024 | コスト |
|---|---|---|
| 32BへのDirectRL | 67.2% | 高い(フルRL学習) |
| R1から蒸留 | 72.6% | 低い(トレースへのSFTのみ) |
蒸留は安くて性能も良い。教師はすでに良い推論戦略を発見しています; 生徒はそれを実行することを学ぶだけです。
31.6.4 デプロイの現実
ハードウェア要件:
DeepSeek-R1(フル): 約200 GB VRAM → 8× A100 80GB
R1-Distill-Qwen-32B: 約70 GB VRAM → 2× A100 80GB
R1-Distill-Qwen-7B: 約14 GB VRAM → 1× RTX 4090(コンシューマー向け)
R1-Distill-Qwen-1.5B: 約4 GB VRAM → CPUインファレンス可能
AIMEで28.9%のスコアを出すラップトップで動く1.5Bモデル — GPT-4oを上回る — は、この分野がどれだけ変わったかを示す印象的なデモンストレーションです。
31.7 2025年のエコシステム
31.7.1 フィールドの現状
この章の中国語原文はo1とR1が主な例だったときに書かれました。2026年4月現在、エコシステムは大幅に拡大しています。コアとなる技術的なアイデアは同じです; デプロイされたシステムのランドスケープが成長しました。
OpenAI o3とo4-mini: o3はo1から大きなステップを表します。o4-miniはo-seriesファミリーの小型で高速な推論モデルで、Chain-of-Thoughtの品質を保ちながら低コストを目指しています。両モデルは難しい問題にいつより多くの思考時間を使うかについて、より良いキャリブレーションを示します。
Claude Opus 4.7(拡張思考付き): AnthropicがClaudeの製品ラインに推論を統合しました。拡張思考はユーザーに見えて開発者が制御できます。o1の隠れたトレースとは異なり、Claudeは推論の要約を表示します。これは異なるプロダクト哲学を反映しています: 洗練さよりも透明性。
Gemini 2.5 Pro(Thinking付き): 推論モデルへのGoogleの対応です。特徴的な機能は 思考バジェット — 思考トークンの最大数を設定する開発者が制御可能なパラメータです:
response = gemini.generate(
prompt="...",
thinking_budget=0, # 無効: 速い、安い
# thinking_budget=8192, # 中程度: バランス
# thinking_budget=24576 # 最大: 難しい問題で最良
)
これはコスト-性能のノブを作り出します: 速い答えに0.01ドル、またはクエリに応じて深い推論に0.06ドル。Gemini 2.5 ProはAIME 2024で92.0%に到達し、83.3%のo1を上回ります。
Gemini 2.5 Deep Think は2025年の国際数学オリンピックで銅メダルレベルを達成しました。文脈として: IMO問題は数時間にわたる創造的な数学的洞察を必要とします。これはもはやベンチマークの産物ではありません。
GPT-5.5(2026年4月): OpenAIは2026年4月23日にGPT-5.5を発表し、翌日にAPIが利用可能になりました。これはこの章が最後に改訂された時点でのo-seriesと後継の推論ファミリーにおける現在のリリースされたフロンティアです。具体的なベンチマーク数値はローンチ後数週間以内にサードパーティの再現結果が出てくるでしょう — 新鮮な数値はOpenAIの発表とAIME / ARC-AGI / MATH-500リーダーボードを直接確認してください。すべてのシステムに共通するパターンは同じです: 拡張推論、制御可能な思考バジェット、要約としてのみ表示される隠れたトレース。
これらすべてのシステムに共通するパターン: 拡張推論はスペシャリティ製品ではなく標準的な能力になっています。各新しいリリースはトークンあたりの正解コスト曲線を締め付けます; 根本的なメカニズム — 難しいクエリに対してより多くの推論計算を使う — はo1以来変わっていません。
31.7.2 性能比較
| モデル | AIME 2024 | MATH-500 | Codeforces | オープン? | コスト層 |
|---|---|---|---|---|---|
| GPT-4o | 12〜13% | 76.6% | 約1200 | いいえ | 低 |
| o1 | 83.3% | 94.8% | 約1800 | いいえ | 高 |
| o3 | 96.7% | 97.9% | 2727 | いいえ | 非常に高い |
| DeepSeek-R1 | 79.8% | 97.3% | 2029 | はい | 低 |
| Gemini 2.5 Pro | 92.0% | 約95% | — | いいえ | 中 |
| R1-Distill-32B | 72.6% | 94.3% | 1691 | はい | 最低 |
| GPT-5.5(2026年4月) | 数値収集中 | 数値収集中 | — | いいえ | 最高 |
31.8 推論モデルをいつ使うか
31.8.1 コストと便益の計算
難しい数学問題1件(AIMEレベル):
GPT-4o: 約0.01ドル 応答時間 約2秒
o1: 約0.50ドル 応答時間 約30秒
コスト比: 50倍
o1の価値があるかどうかは、「正解」があなたにとってどれだけの価値があるかによります。一回限りの計算なら、信頼性のために0.50ドルは安いかもしれません。そのような呼び出しを何百万もするシステムでは、蒸留モデルが必要です。
31.8.2 推論の良いユースケース
- 競技プログラミング: アルゴリズム設計、エッジケース処理、正しさの証明
- 数学的証明: 多段階の形式的推論、反例生成
- 複雑なデバッグ: 変更前にプログラムが何をするかについての推論
- 科学的推論: 仮説生成、実験設計、データ解釈
- 法律/医療分析: 明示的な不確実性を持つ慎重な多因子推論
31.8.3 推論の悪いユースケース
- リアルタイム会話: 30秒の応答時間はプロダクトを破壊する
- 単純な検索: 「フランスの首都はどこですか」に推論のオーバーヘッドは無駄
- クリエイティブライティング: 体系的な思考スタイルが文章を機械的にする可能性がある
- 大量のAPI: コストはトラフィックではなく難易度と共にスケールする
31.8.4 実際の選択ガイド
| タスク | 推奨モデル | 理由 |
|---|---|---|
| リアルタイムチャット | GPT-4o / Claude | 速度が重要 |
| 単純なQ&A | GPT-4o-mini / Haiku | コストが重要 |
| 複雑な数学 | o1 / R1 | 精度が重要 |
| コード生成 | Claude / R1 | バランス |
| 研究分析 | o3 / Gemini 2.5 | 長いChain-of-Thoughtが必要 |
| エッジデプロイ | R1-Distill-7B | リソース制約 |
31.9 章のまとめ
31.9.1 コアコンセプト
テスト時計算スケーリング: 性能はモデルウェイトと推論計算の両方の関数です。内部推論により多くのトークンを使うことで、難しいタスクの精度が向上します。
o1/o3: このパターンを商業的に見えるようにしたOpenAIのシステム。AIME: 12% → 83% → 96.7%。推論トレースは内部に隠されています。
DeepSeek-R1: o1品質に匹敵するオープンソース推論モデル。主な知見: 純粋なRLが推論能力を誘発できる(R1-Zero)、GRPOがクリティックモデルを排除し、コールドスタートデータがフォーマットを能力を損なわずに整形します。
GRPO: グループ相対アドバンテージ推定によりクリティックモデルを排除します。RLベースの推論学習の学習コストを約50%削減します。
蒸留: 大型モデルの推論トレースで小型モデルを微調整します。R1-Distill-7Bは多くのタスクでo1-miniを上回ります。蒸留は小型モデルへの直接RLよりも良い性能を発揮します。
2025〜2026年のランドスケープ: o3、o4-mini、Claude Opus 4.7拡張思考、Kimi K1.5、Gemini 2.5思考モード、GPT-5.5(2026年4月リリース)。拡張推論は標準的な能力の階層になりました。
31.9.2 主要ベンチマーク
AIME 2024がo3時代のストーリーを語る:
GPT-4o: 12% ← 私たちが始まったところ
o1: 83% ← テスト時計算、隠れたトレース
DeepSeek-R1: 80% ← オープンソース、再現可能
Gemini 2.5: 92% ← 競争的ランドスケープ、2025年4月
o3: 97% ← o3時代の推論ジャンプ(2024年12月)
GPT-5.5は2026年4月23日にローンチされました; 新しいフロンティアの
ベンチマークは執筆時点でまだ再現中です。
31.9.3 私の見解
R1-Zeroの結果がこの章の最も重要な洞察です。誰も自己検証やバックトラッキングをモデルにプログラムしませんでした。これらの行動は、RLの学習信号が正しい最終回答に報酬を与えたため、モデルが自分の仕事を確認することが正しい答えを得るための良い戦略であることを発見したことで現れました。これはある意味のある意味で、モデルが考えることを学んだということです。
蒸留のストーリーは実践者にとって同様に重要です。推論が必要なアプリケーションがあり、現在のトップ層のクローズドモデル(o3やその後継)を賄えない場合、信頼できる道があります: R1-Distill-7Bをローカルで実行し、2年前だったらフロンティアレベルだった性能を得て、シングルのコンシューマーGPUでデプロイする。推論能力の民主化は多くの人が予想したよりも速く起こりました。
章のチェックリスト
この章を終えたら、次のことができるようになっているはずです:
- GPT-4oがAIME 2024で12%を、o1が83%をスコアした理由を説明できる。
- テスト時計算スケーリングと学習時スケーリングとの違いを説明できる。
- プロセス報酬モデルとは何か、なぜ推論学習に役立つかを説明できる。
- R1-Zeroが何を証明したか、GRPOがなぜ計算効率的かを説明できる。
- なぜR1からの蒸留が生徒モデルへの直接RLを上回るかを説明できる。
- 2025〜2026年の推論モデルエコシステムを挙げられる(o3、o4-mini、Claude Opus 4.7拡張思考、Kimi K1.5、Gemini 2.5、GPT-5.5)。
- レイテンシ、コスト、タスクの難易度に基づいて推論モデルを選択できる。
次の章へ
推論モデルはより多くの推論計算を使います。しかしそれでもTransformerの基盤を使っています。次の問いは、非常に長いシーケンスに対してTransformerが本当に正しい基盤なのかどうかです。
第32章では、O(N²)のAttentionコストが制約の要因になったとき何が起こるか、そしてState Space Models、Mamba、ハイブリッドアーキテクチャがより良い答えを提供しようとしている方法を見ていきましょう。