Anthropic Claude と OpenAI GPT の API の料金まとめ

AnthropicOpenAI生成 AI

2024/07/19: GPT-4o mini がリリースされたので GPT-4o mini の情報を追記しました。

2024 年 7 月時点で生成 AI のマルチモーダルモデルで最も性能の高い 2 社、 Anthropic と OpenAI のモデルの API 料金をまとめました。

会社 モデル 入力 出力 コンテキスト 出力最大トークン
Anthropic Claude 3 Opus $15 $75 200,000 4,096
Anthropic Claude 3.5 Sonnet $3 $15 200,000 4,096
Anthropic Claude 3 Haiku $0.25 $1.25 200,000 4,096
OpenAI GPT-4o $5 $15 128,000 4,096
OpenAI GPT-3.5 Turbo $0.5 $1.5 16,000 4,096
OpenAI GPT-4o mini $0.15 $0.60 128,000 16,384

補足:

  • 入力・出力の価格はいずれも 100 万トークンあたり
  • GPT モデルには Batch API もありそれらは各料金の 50% OFF
  • 各社高額なモデルから順に並べています
    • Anthropic は 3.5 Sonnet 、 OpenAI は GPT-4o mini が後発のモデルで、安価ながらも 1 つ上位のモデルよりも高い性能を持っています

Anthropic のモデルの比較

Anthropic のモデルについては、 Claude 3.5 Sonnet がリリースされる前は Claude 3 Opus が最上位モデルでした( Opus > Sonnet > Haiku という並びでした)が、先月リリースされた 3.5 Sonnet が 3 Opus よりも単価が安くて高性能になっています。 コンテキストウィンドウと出力最大トークンはどちらも共通なので、 3.5 Sonnet が 3 Opus に劣る点がなく、現時点で 3 Opus を使う理由がありません。 結果、 3.5 Sonnet がリリースされるまで、 Anthropic のモデルは 3.5 Sonnet か 3 Haiku の二択になります。

Anthropic Claude 3.5 Sonnet と OpenAI GPT-4o の比較

Anthropic のリリースによると、 Claude 3.5 Sonnet の性能は GPT-4o と同等かそれ以上とのことです。

エージェンティックコーディング評価:

Anthropic Claude 3.5 agentic coding evaluation

マルチモーダルタスク評価:

Anthropic Claude 3.5 multimodal tasks evaluation

GPT-4o と比べると有意差はほとんど無いようにも見えますが、 Google の Gemini 1.5 Pro に比べると明らかに Claude 3.5 Sonnet の方が性能が高い感じです。

リリースの抜粋の抄訳:

Claude 3.5 Sonnet は、大学院レベルの推論(GPQA)、学部レベルの知識(MMLU)、およびコーディング能力(HumanEval)において、業界の新しい基準を確立しています。ニュアンス、ユーモア、複雑な指示を理解する能力が著しく向上しており、自然で親しみやすいトーンで高品質のコンテンツを作成することに優れています。

社内でのエージェンティックコーディング評価において、 Claude 3.5 Sonnet は問題の 64% を解決し、 38% を解決した Claude 3 Opus を上回りました。私たちの評価では、期待する改善について自然言語で説明を与えられた場合、オープンソースコードベースのバグ修正や機能追加ができるかをテストします。 Claude 3.5 Sonnet は、指示と適切なツールが提供されれば、洗練された推論とトラブルシューティング能力を発揮して自律的にコードの作成・編集・実行ができます。レガシーアプリケーションの更新やコードベースのマイグレーションに特に有効な、コードの翻訳をかんたんにやってのけます。

Claude 3.5 Sonnet は私たちのモデルの中でこれまでで最も強力なビジョンモデルであり、標準的なビジョンベンチマークで Claude 3 Opus を超えています。これらの画期的な改善は、図表の解釈など視覚的な推論を必要とするタスクで最も顕著です。 Claude 3.5 Sonnet は不完全な画像からテキストを正確に書き起こすこともできます。 AI がテキスト単体よりも画像・グラフィック・イラストからより多くの洞察を得られるため、この機能は小売・物流・金融サービスでのコア機能となります。

体感では Claude 3.5 Sonnet は GPT-4o を上回っているかまではわからないですが遜色の無いレスポンスを返してくれます。 それでいて価格は、入力は $3 で GPT-4o の $5 よりも安く、出力は $15 で GPT-4o と同じです。 結果、それぞれの安価なモデル( Claude 3 Haiku と GPT 3.5 Turbo )を除くと、現状 Claude 3.5 Sonnet が安くて強い 状況となっています。

ただし現状 OpenAI 側には強力な Assistants API がありますが Anthropic 側には同様の API がありません。 GUI の Claude には先日 Artifacts や Projects などの強力な機能が追加されたので、 API 側にも同じような強力な機能が欲しいところです。

Anthropic Claude 3 Haiku と OpenAI GPT-4o mini の比較

OpenAI のリリースによると、 GPT-4o mini の性能は Claude 3 Haiku や Google の Gemini 1.5 FLash を全面的に上回るとのことです。 MGSM (Multilingual Grade School Math) ・ Math ・ HumanEval など一部の評価では、どちらかというと他の軽量モデル群より高性能モデル GPT-4o の方に近い高いスコアを出しています。

それでいて GPT-4o mini の単価は Claude 3 Haiku のほぼ半分となっています。

軽量モデルの評価:

GPT-4o mini モデル評価比較

リリースの抜粋の抄訳:

本日、私たちは最もコスト効率の高い小型モデル、 GPT-4o mini を発表します。 GPT-4o mini により、AIを使用したアプリケーションの範囲が大幅に拡大し、知能がより手頃な価格で利用できるようになると期待しています。 GPT-4o mini は MMLU で 82% のスコアを獲得し、現在 LMSYS リーダーボードのチャット preferences で GPT-4 を上回っています。 価格は入力 100 万トークンあたり 15 セント、出力 100 万トークンあたり 60 セントです。 これは以前の最先端モデルと比べて一桁低コストであり、 GPT-3.5 Turbo よりも 60% 以上安価です。

GPT-4o mini は、テキスト理解とマルチモーダル推論の両方において、学術的ベンチマークで GPT-3.5 Turbo やその他の小規模モデルを上回る性能を示し、 GPT-4o と同じ範囲の言語をサポートしています。 また、ファンクションコーリング(外部システムとの間でのデータ取得やアクション実行を行うアプリケーションを構築可能にするもの)においても高い性能を発揮し、 GPT-3.5 Turbo と比較して長いコンテキストでの性能が向上しています。

参考


アバター
後藤隼人 ( ごとうはやと )

Python や PHP を使ってソフトウェア開発やウェブ制作をしています。詳しくはこちら