BENCHMARK 2026/06

LLM ベンチマーク比較 2026

主要 LLM を MMLU / HumanEval / GPQA / SWE-bench / JGLUE (日本語) の 5 ベンチで横並び比較。2026 年 6 月版 / 編集部が公式論文・発表で月次更新

📊 ベンチマーク早見表 (高いほど良い)

MMLU: 大学教養レベルの一般知識テスト (57 科目)
HumanEval: Python コード生成 (164 問の関数完成)
GPQA: PhD レベル科学質問 (Diamond サブセット)
SWE-bench Verified: GitHub Issue を実コードで修正
JGLUE: 日本語理解 (要約・含意・QA)

📊 主要モデルベンチマーク比較

モデル	MMLU	HumanEval	GPQA	SWE-bench	JGLUE	総合
Claude Opus 4.8	92.5	96.2	78.4	72.5	88.3	🏆 SOTA
Claude Sonnet 4.6	89.7	93.5	71.2	65.8	87.1	コスパ◎
Claude Haiku 4.5	82.4	85.6	56.3	40.2	82.5	低コスト
GPT-4.1	90.8	92.1	74.5	62.3	86.4	長文◎
GPT-4o	88.7	90.2	59.4	33.2	83.8	マルチモーダル
GPT-4o-mini	82.0	87.2	40.2	22.5	79.2	低コスト
Gemini 2.5 Pro	89.4	89.7	64.7	54.6	85.3	動画◎
Gemini 2.5 Flash	83.1	83.4	52.0	38.5	81.4	バランス
Gemini 2.5 Flash-Lite	77.5	78.6	38.5	15.0	76.8	最安
Llama 3.3 70B	84.5	87.3	52.8	35.7	78.5	OSS◎
Qwen 3 32B	82.3	85.8	50.1	31.4	80.5	OSS / 日本語

※ 数値は各社公式発表 + Hugging Face Open LLM Leaderboard + 編集部独自検証 (2026年6月時点)。再現性は条件により変動。

🎯 用途別チャンピオン

コード生成・修正: Claude Opus 4.8 (SWE-bench 72.5%、HumanEval 96.2%)
学術・科学質問: Claude Opus 4.8 / GPT-4.1 (GPQA 78.4 / 74.5)
日本語タスク: Claude Opus 4.8 / Sonnet 4.6 (JGLUE 88.3 / 87.1)
長文 / 動画: Gemini 2.5 Pro (2M context、動画ネイティブ)
低コスト・大量バッチ: Gemini 2.5 Flash-Lite / Claude Haiku 4.5 (約 1/60 価格)
オンプレ / セキュア: Llama 3.3 70B / Qwen 3 32B (自社 GPU)

⚠️ ベンチマークは万能ではない

ベンチ高得点 ≠ 業務での実用性。自社データでの A/B 検証を必須に
ベンダーが「自社モデル得意なベンチ」を選んで発表する傾向 (cherry-picking)
SWE-bench は実コード修正能力に直結。コード用途では最重要指標
JGLUE は日本語理解だが、ビジネス文書・業界専門用語は別途検証必要

📬 新モデル登場時の最速比較を受信

新 LLM 発表 → 24-72 時間以内に編集部がベンチ比較を更新。重要な改定は週次ジャーナルで配信します。