LLM ベンチマーク比較 2026
主要 LLM を MMLU / HumanEval / GPQA / SWE-bench / JGLUE (日本語) の 5 ベンチで横並び比較。2026 年 6 月版 / 編集部が公式論文・発表で月次更新
📊 ベンチマーク早見表 (高いほど良い)
- MMLU: 大学教養レベルの一般知識テスト (57 科目)
- HumanEval: Python コード生成 (164 問の関数完成)
- GPQA: PhD レベル科学質問 (Diamond サブセット)
- SWE-bench Verified: GitHub Issue を実コードで修正
- JGLUE: 日本語理解 (要約・含意・QA)
📊 主要モデル ベンチマーク比較
| モデル | MMLU | HumanEval | GPQA | SWE-bench | JGLUE | 総合 |
|---|---|---|---|---|---|---|
| Claude Opus 4.8 | 92.5 | 96.2 | 78.4 | 72.5 | 88.3 | 🏆 SOTA |
| Claude Sonnet 4.6 | 89.7 | 93.5 | 71.2 | 65.8 | 87.1 | コスパ◎ |
| Claude Haiku 4.5 | 82.4 | 85.6 | 56.3 | 40.2 | 82.5 | 低コスト |
| GPT-4.1 | 90.8 | 92.1 | 74.5 | 62.3 | 86.4 | 長文◎ |
| GPT-4o | 88.7 | 90.2 | 59.4 | 33.2 | 83.8 | マルチモーダル |
| GPT-4o-mini | 82.0 | 87.2 | 40.2 | 22.5 | 79.2 | 低コスト |
| Gemini 2.5 Pro | 89.4 | 89.7 | 64.7 | 54.6 | 85.3 | 動画◎ |
| Gemini 2.5 Flash | 83.1 | 83.4 | 52.0 | 38.5 | 81.4 | バランス |
| Gemini 2.5 Flash-Lite | 77.5 | 78.6 | 38.5 | 15.0 | 76.8 | 最安 |
| Llama 3.3 70B | 84.5 | 87.3 | 52.8 | 35.7 | 78.5 | OSS◎ |
| Qwen 3 32B | 82.3 | 85.8 | 50.1 | 31.4 | 80.5 | OSS / 日本語 |
※ 数値は各社公式発表 + Hugging Face Open LLM Leaderboard + 編集部独自検証 (2026年6月時点)。再現性は条件により変動。
🎯 用途別チャンピオン
- コード生成・修正: Claude Opus 4.8 (SWE-bench 72.5%、HumanEval 96.2%)
- 学術・科学質問: Claude Opus 4.8 / GPT-4.1 (GPQA 78.4 / 74.5)
- 日本語タスク: Claude Opus 4.8 / Sonnet 4.6 (JGLUE 88.3 / 87.1)
- 長文 / 動画: Gemini 2.5 Pro (2M context、動画ネイティブ)
- 低コスト・大量バッチ: Gemini 2.5 Flash-Lite / Claude Haiku 4.5 (約 1/60 価格)
- オンプレ / セキュア: Llama 3.3 70B / Qwen 3 32B (自社 GPU)
⚠️ ベンチマークは万能ではない
- ベンチ高得点 ≠ 業務での実用性。自社データでの A/B 検証を必須に
- ベンダーが「自社モデル得意なベンチ」を選んで発表する傾向 (cherry-picking)
- SWE-bench は実コード修正能力に直結。コード用途では最重要指標
- JGLUE は日本語理解だが、ビジネス文書・業界専門用語は別途検証必要
📬 新モデル登場時の最速比較を受信
新 LLM 発表 → 24-72 時間以内に編集部がベンチ比較を更新。重要な改定は週次ジャーナルで配信します。