LLM API 料金比較表 2026

PRICING COMPARISON 2026

Claude / GPT / Gemini / Mistral / Llama の API 料金を 1M トークン単価・月額シミュレーション・性能ベンチマーク・用途別おすすめの 4 軸で比較。
2026年6月版 / 編集部が公式ドキュメントで毎月更新

📊 主要 LLM API 料金一覧 (1M トークン単価, USD)

モデル	入力 ($/1M)	出力 ($/1M)	Context	推奨用途
Claude Opus 4.8	$15.00	$75.00	200K	最高難度推論・長文コード
Claude Sonnet 4.6	$3.00	$15.00	200K	本番運用の主力
Claude Haiku 4.5	$0.25	$1.25	200K	大量バッチ・分類
GPT-4.1	$2.50	$10.00	1M	超長文・エージェント
GPT-4o	$2.50	$10.00	128K	汎用・マルチモーダル
GPT-4o-mini	$0.15	$0.60	128K	低コスト・サマリ
Gemini 2.5 Pro	$1.25	$10.00	2M	超長文・動画解析
Gemini 2.5 Flash	$0.30	$2.50	1M	バランス型主力
Gemini 2.5 Flash-Lite	$0.10	$0.40	1M	最安・大量処理
Mistral Large 2	$2.00	$6.00	128K	欧州拠点・GDPR
Llama 3.3 70B (Together AI)	$0.88	$0.88	128K	OSS・オンプレ可
Qwen3 32B AWQ (自社)	$0.00*	$0.00*	32K	機密処理・低レイテンシ

* Qwen3 等 OSS モデルは API 料金 $0 だが、GPU インフラ (RTX 4090 ×1 で月 $300〜) が別途必要。
※ 料金は 2026年6月11日時点で各社公式 Pricing ページから採取。 Anthropic / OpenAI / Google / Mistral

利用量を入力すると、各モデルの月額目安を試算します。1 USD = 156 JPY で換算。

月間入力トークン (M)

月間出力トークン (M)

💡 目安: チャットボット 1 セッションで入力 3K + 出力 1K トークン。月 1,000 セッション = 入力 3M, 出力 1M。

推奨: Gemini 2.5 Flash-Lite または Claude Haiku 4.5
理由: 1 回答 1K トークン × 月 5,000 件で 月 $2-3 程度。日本語の自然さなら Haiku、長文 RAG なら Flash-Lite。

推奨: Claude Sonnet 4.6 / Opus 4.8 (Claude Code 経由)
理由: SWE-bench 60%+ の実績、長文 (200K) でリポジトリ全体を読み込める。GitHub Copilot より対話深度が高い。

推奨: Gemini 2.5 Pro (動画ネイティブ対応)
理由: 2 時間動画を直接処理可能。OCR + 表抽出は Pro 優位。GPT-4o は画像のみ。

推奨: Claude Sonnet 4.6 または GPT-4.1
理由: Tool Use の精度が高く、複数ターン推論で破綻しにくい。Claude は computer-use、GPT は Responses API が強い。

推奨: Llama 3.3 70B + vLLM、または Qwen3 32B AWQ
理由: 自社 GPU で API ゼロ円。月 10M トークン超で外部 API より経済合理性が出る。

クラウド出力料金: AWS Bedrock / Azure OpenAI 経由は公式定価の +20-30% になることがある
Context Caching: 大規模 RAG では Anthropic / Google の Prompt Cache 利用で 50-90% 削減可能だが、未対応の場合フル料金
レート制限 (Tier 制): 個人/小規模 Tier では 1 分あたり数千トークンに制限。本番運用は上位 Tier 申請必須
監視・ログ転送費: トークンログの S3 / CloudWatch 転送で月 $100 単位の追加コストが発生する場合あり
本番化前の試算: 必ず失敗リスク診断で「契約・ベンダー」軸を確認してください

AI 導入失敗回避ジャーナル (週 1、無料) で、料金改定・性能差分・実コスト試算の更新を配信。
毎月この比較表を更新するので、登録しておくと「気づいたら値上げされていた」を避けられます。