BENCHMARK 2026/06

LLM ベンチマーク比較 2026

主要 LLM を MMLU / HumanEval / GPQA / SWE-bench / JGLUE (日本語) の 5 ベンチで横並び比較。2026 年 6 月版 / 編集部が公式論文・発表で月次更新

📊 ベンチマーク早見表 (高いほど良い)

  • MMLU: 大学教養レベルの一般知識テスト (57 科目)
  • HumanEval: Python コード生成 (164 問の関数完成)
  • GPQA: PhD レベル科学質問 (Diamond サブセット)
  • SWE-bench Verified: GitHub Issue を実コードで修正
  • JGLUE: 日本語理解 (要約・含意・QA)

📊 主要モデル ベンチマーク比較

モデル MMLUHumanEval GPQASWE-bench JGLUE総合
Claude Opus 4.8 92.596.278.472.588.3 🏆 SOTA
Claude Sonnet 4.6 89.793.571.265.887.1 コスパ◎
Claude Haiku 4.5 82.485.656.340.282.5 低コスト
GPT-4.1 90.892.174.562.386.4 長文◎
GPT-4o 88.790.259.433.283.8 マルチモーダル
GPT-4o-mini 82.087.240.222.579.2 低コスト
Gemini 2.5 Pro 89.489.764.754.685.3 動画◎
Gemini 2.5 Flash 83.183.452.038.581.4 バランス
Gemini 2.5 Flash-Lite 77.578.638.515.076.8 最安
Llama 3.3 70B 84.587.352.835.778.5 OSS◎
Qwen 3 32B 82.385.850.131.480.5 OSS / 日本語

※ 数値は各社公式発表 + Hugging Face Open LLM Leaderboard + 編集部独自検証 (2026年6月時点)。再現性は条件により変動。

🎯 用途別チャンピオン

  • コード生成・修正: Claude Opus 4.8 (SWE-bench 72.5%、HumanEval 96.2%)
  • 学術・科学質問: Claude Opus 4.8 / GPT-4.1 (GPQA 78.4 / 74.5)
  • 日本語タスク: Claude Opus 4.8 / Sonnet 4.6 (JGLUE 88.3 / 87.1)
  • 長文 / 動画: Gemini 2.5 Pro (2M context、動画ネイティブ)
  • 低コスト・大量バッチ: Gemini 2.5 Flash-Lite / Claude Haiku 4.5 (約 1/60 価格)
  • オンプレ / セキュア: Llama 3.3 70B / Qwen 3 32B (自社 GPU)

⚠️ ベンチマークは万能ではない

  • ベンチ高得点 ≠ 業務での実用性。自社データでの A/B 検証を必須に
  • ベンダーが「自社モデル得意なベンチ」を選んで発表する傾向 (cherry-picking)
  • SWE-bench は実コード修正能力に直結。コード用途では最重要指標
  • JGLUE は日本語理解だが、ビジネス文書・業界専門用語は別途検証必要

📬 新モデル登場時の最速比較を受信

新 LLM 発表 → 24-72 時間以内に編集部がベンチ比較を更新。重要な改定は週次ジャーナルで配信します。