LLM API 料金比較表 2026
Claude / GPT / Gemini / Mistral / Llama の API 料金を 1M トークン単価・月額シミュレーション・性能ベンチマーク・用途別おすすめの 4 軸で比較。
2026年6月版 / 編集部が公式ドキュメントで毎月更新
⚡ 編集部の総合所見 (2026/06)
- コスト最優先なら
Gemini 2.5 Flash-LiteまたはClaude Haiku 4.5($0.25/1M 前後)。 - 長文理解 / コード生成 は
Claude Sonnet 4.6 / Opus 4.8が依然強い。 - マルチモーダル (画像 + テキスト) は
Gemini 2.5 Proがコスパで優位。 - オンプレ / データ機密 は
Llama 3.3 70B+ 自社 vLLM が経済的になる損益分岐は 月 10M トークン超 から。 - 料金は予告なく改定されます。必ず公式ドキュメントで再確認してください。
📊 主要 LLM API 料金一覧 (1M トークン単価, USD)
| モデル | 入力 ($/1M) | 出力 ($/1M) | Context | 推奨用途 |
|---|---|---|---|---|
| Claude Opus 4.8 | $15.00 | $75.00 | 200K | 最高難度推論・長文コード |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | 本番運用の主力 |
| Claude Haiku 4.5 | $0.25 | $1.25 | 200K | 大量バッチ・分類 |
| GPT-4.1 | $2.50 | $10.00 | 1M | 超長文・エージェント |
| GPT-4o | $2.50 | $10.00 | 128K | 汎用・マルチモーダル |
| GPT-4o-mini | $0.15 | $0.60 | 128K | 低コスト・サマリ |
| Gemini 2.5 Pro | $1.25 | $10.00 | 2M | 超長文・動画解析 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 1M | バランス型主力 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 1M | 最安・大量処理 |
| Mistral Large 2 | $2.00 | $6.00 | 128K | 欧州拠点・GDPR |
| Llama 3.3 70B (Together AI) | $0.88 | $0.88 | 128K | OSS・オンプレ可 |
| Qwen3 32B AWQ (自社) | $0.00* | $0.00* | 32K | 機密処理・低レイテンシ |
* Qwen3 等 OSS モデルは API 料金 $0 だが、GPU インフラ (RTX 4090 ×1 で月 $300〜) が別途必要。
※ 料金は 2026年6月11日 時点で各社公式 Pricing ページから採取。
Anthropic /
OpenAI /
Google /
Mistral
💰 月額コスト試算ツール
利用量を入力すると、各モデルの月額目安を試算します。1 USD = 156 JPY で換算。
💡 目安: チャットボット 1 セッションで 入力 3K + 出力 1K トークン。月 1,000 セッション = 入力 3M, 出力 1M。
🎯 用途別おすすめモデル
① 社内チャットボット (FAQ、Slack 連携)
推奨: Gemini 2.5 Flash-Lite または Claude Haiku 4.5
理由: 1 回答 1K トークン × 月 5,000 件で 月 $2-3 程度。日本語の自然さなら Haiku、長文 RAG なら Flash-Lite。
② コード生成・レビュー (開発支援)
推奨: Claude Sonnet 4.6 / Opus 4.8 (Claude Code 経由)
理由: SWE-bench 60%+ の実績、長文 (200K) でリポジトリ全体を読み込める。GitHub Copilot より対話深度が高い。
③ 動画 / 画像解析 (マルチモーダル)
推奨: Gemini 2.5 Pro (動画ネイティブ対応)
理由: 2 時間動画を直接処理可能。OCR + 表抽出は Pro 優位。GPT-4o は画像のみ。
④ エージェント (自律 Web 操作 / API 連携)
推奨: Claude Sonnet 4.6 または GPT-4.1
理由: Tool Use の精度が高く、複数ターン推論で破綻しにくい。Claude は computer-use、GPT は Responses API が強い。
⑤ 機密データ処理 (オンプレ / プライベートクラウド)
推奨: Llama 3.3 70B + vLLM、または Qwen3 32B AWQ
理由: 自社 GPU で API ゼロ円。月 10M トークン超で外部 API より経済合理性が出る。
⚠️ 隠れコストに注意
- クラウド出力料金: AWS Bedrock / Azure OpenAI 経由は公式定価の +20-30% になることがある
- Context Caching: 大規模 RAG では Anthropic / Google の Prompt Cache 利用で 50-90% 削減可能だが、未対応の場合フル料金
- レート制限 (Tier 制): 個人/小規模 Tier では 1 分あたり数千トークンに制限。本番運用は上位 Tier 申請必須
- 監視・ログ転送費: トークンログの S3 / CloudWatch 転送で月 $100 単位の追加コストが発生する場合あり
- 本番化前の試算: 必ず失敗リスク診断で「契約・ベンダー」軸を確認してください
📬 料金改定や新モデル登場を即時にキャッチ
AI 導入失敗回避ジャーナル (週 1、無料) で、料金改定・性能差分・実コスト試算の更新を配信。
毎月この比較表を更新するので、登録しておくと「気づいたら値上げされていた」を避けられます。