【Qwen3】各モデルの料金体系とコスト試算のポイント

Chronist Team Chronist Team

Qwen3シリーズは、テキスト処理、画像理解、音声認識、音声合成、リアルタイム対話、コード生成、商用最上位モデルなど、多層構造のラインアップを提供しています。

一方で料金体系は、課金単位の違い(トークン・秒・文字)、入力長による階段制、地域別の価格差など、モデルごとに大きく異なります。

本記事では、Qwen3各モデルの料金体系を整理し、コスト試算の考え方をまとめます。

目次

Qwen3の料金体系で共通するルール

最初に、どのモデルにも共通する基本的なルールを整理します。

  • Model Studioの有効化そのものは無料で、請求はAPI利用時のみ発生する

  • モデルごとに無料枠が設定される場合があり、対象量と期間は地域や時期によって異なる

  • 料金は必ず利用リージョンの表を確認する必要があり、International Singaporeなど実際の利用リージョンを基準とする

Qwen3 Maxの料金水準

Qwen3 Maxは商用最上位のテキストモデルで、高難度タスクやエージェント用途に利用されるAPIモデルです。

課金方式

  • トークン従量課金で、入力と出力で単価が異なる

  • 入力トークン数に応じた階段制が適用される

国際リージョンの料金イメージ

以下はInternational Singaporeの代表的な価格帯です(単位は一百万トークンあたり)。

  • 0〜32Kトークン

入力 1.20ドル、出力 6.00ドル

  • 32K〜128Kトークン

入力 2.40ドル、出力 12.00ドル

  • 128K〜252Kトークン

入力 3.00ドル、出力 15.00ドル

コンテキストキャッシュに対応しており、長文RAGや長時間の対話で同じコンテキストを再利用する場合、実質的な入力コストを下げやすい設計になっています。

音声認識モデル Qwen3 ASRの料金

Qwen3 ASRは音声をテキストへ変換する自動音声認識モデルで、録音ファイルの一括処理とリアルタイム処理の両方に対応します。

課金方式

  • 録音ファイル・リアルタイムともに秒単位で課金

国際リージョンの料金例

  • 録音ファイル認識 qwen3 asr

約 0.000035ドル/秒

無料枠として約3万6000秒(10時間)が付与され、有効化日から一定期間利用可能

  • リアルタイム認識 qwen3 asr flash realtime

約 0.000090ドル/秒(地域により異なる)

音声認識では文脈バイアス機能を利用でき、社名や製品名など固有名詞の認識精度を高めることが可能です。

音声合成モデル Qwen3 TTSの料金

Qwen3 TTSはテキストを音声に変換する音声合成モデルで、通常版とリアルタイム版があります。

課金方式

  • 文字数に応じて課金

例として、英字・記号・空白は一文字、漢字は二文字としてカウント

国際リージョンの料金例

  • qwen3 tts flash(通常版)

約 0.10〜0.114682ドル/一万文字

無料枠として二千文字前後が付与される

  • qwen3 tts flash realtime(リアルタイム版)

約 0.13ドル/一万文字が目安

声の種類は17種程度が用意されており、多言語や方言にも対応しています。

視覚モデル Qwen3 VLの料金

Qwen3 VLは画像やPDF、動画の内容をテキストで返す視覚モデルです。帳票やレポートの構造化、スクリーンショットの理解、動画の要約などに利用できます。

課金方式

  • トークン従量課金で、入力と出力で単価が異なる

  • 多くのプランで長文入力に対する階段制が適用される

Model Studioの料金表では、入力トークン数の帯に応じて単価が変わる段階別の料金が設定されており、併せて無料枠の有無も確認できます。

なお、OpenRouterなど第三者経由で利用する場合は独自の料金体系となるため、実際に利用するプロバイダの料金を優先して確認する必要があります。

オープン重みモデル Qwen3 LLM・Qwen3 Omni・Qwen3 Coderの料金

Qwen3のテキストLLM、Omni、Coderにはオープン重みとして提供されるモデルがあり、利用方法によって費用の性格が変わります。

  • 自社ホスティングで利用する場合

モデル自体の利用料は発生せず、GPUなどインフラコストのみが発生する

  • Model StudioからマネージドAPIとして利用する場合

モデルごとにトークン従量課金が適用される

以下では、代表的なモデルを例に料金イメージを整理します。

Qwen3 Omniの料金例

リアルタイム音声入出力などに対応するOmniは、テキスト・音声・画像入力ごとに単価が分かれます。以下はqwen3-omni-flashを例とした国際リージョンの料金です。

入力料金

入力形式単価(USD/一百万トークン)
テキスト入力0.52
音声入力4.57
画像入力0.94

出力料金

入力の種類出力形式単価(USD/一百万トークン)
テキストのみ入力テキスト出力1.99
画像または音声を含む入力テキスト出力3.67
画像または音声を含む入力音声出力18.13(テキスト出力は無料)

このように、どの形式で入力し、どの形式で出力するかによって単価が変わるため、要件に応じた設計が重要になります。

Qwen3 Coderの料金例

Qwen3 CoderのAPI提供版では、リージョンごとにトークン課金テーブルが用意されています。以下は国際リージョンのqwen3-omni-coderを例とした料金です。

入力料金

入力トークン数(リクエストごと)入力単価(USD/一百万トークン)
0 < Tokens ≤ 32K1.0
32K < Tokens ≤ 128K1.8
128K < Tokens ≤ 256K3.0
256K < Tokens ≤ 1M6.0

出力料金

入力トークン数(リクエストごと)出力単価(USD/一百万トークン)
0 < Tokens ≤ 32K5.0
32K < Tokens ≤ 128K9.0
128K < Tokens ≤ 256K15.0
256K < Tokens ≤ 1M60.0

長いコンテキストを利用するほど高い料金帯が適用されるため、プロンプト設計やコンテキスト再利用の工夫がコストに直結します。

Qwen3 LLMの料金例

DenseモデルやMoEモデルも、Model StudioのAPIを利用する場合はトークン従量課金となります。ここではqwen3-next-80b-a3b-thinkingを代表例として整理します。実際には重みのサイズやThinking/Non Thinkingモードの違いによって料金が変動します。

項目内容
入力コスト0.15ドル/一百万トークン
出力コスト1.20ドル/一百万トークン
無料枠入出力合計で一百万トークン
無料枠の有効期限Model Studio有効化から一定期間

より大きなモデルやThinkingモード向けモデルほど単価が高く、小型モデルやNon Thinkingモードでは単価が低く設定される傾向があります。

コスト試算を行う際の考え方

AIモデルの利用料金を正確に見積もるには、課金の仕組みを踏まえたうえで、実際の利用パターンを数値に落とし込むことが重要です。ここではテキスト・画像系モデルと音声系モデルに分けて考え方を整理します。

テキスト・画像系モデル

テキストLLMやQwen3 VL、Omniのテキスト部分などはトークン課金が基本となります。主な考え方は次の通りです。

  • 入力トークン数に単価を掛ける

  • 出力トークン数に単価を掛ける

  • 入力トークン数による階段制を踏まえ、どの帯に入るかを確認する

  • コンテキストキャッシュ対応モデルは、同じコンテキストを再利用するほど有利になる

企画段階では、代表的なリクエスト一件分の入力長と出力長を想定し、そのコストを基準に月間想定件数を掛け合わせると見積もりやすくなります。

音声関連モデル

音声認識と音声合成では、課金単位が秒または文字数となり、トークン課金とは計算方法が異なります。

  • Qwen3 ASRは録音秒数を基準に課金される

  • Qwen3 TTSはテキストの文字数を基準に課金され、漢字は二文字換算になる

特に日本語のように漢字を多用する場合、同じ文章でも文字種の構成によって実際の課金対象文字数が変わる点に注意が必要です。

料金確認時に押さえておきたい注意点

最後に、見積もりや導入検討の際に必ず確認しておきたいポイントを整理します。

  • 料金は地域ごとに異なるため、利用予定リージョンの料金表を必ず参照する

  • 無料枠の量や有効期限はキャンペーンやリリースに伴い更新されることがある

  • オープン重みのモデルは自社ホスティング時にはAPI課金の対象外だが、Model Studio版を利用するとトークン課金へ切り替わる

まとめ

Qwen3の料金体系は、モデルによってトークン単位、秒単位、文字単位と課金の考え方が異なり、さらに入力長の階段制や無料枠、地域別の単価差なども加わります。

まずは、自社で扱うデータ形式がテキストなのか、画像・動画なのか、音声なのかを整理し、該当モデルの課金方式を確認することが出発点になります。そのうえで、一件あたりの入力量と出力量を仮定し、モデルごとの単価を掛け合わせることで、おおよそのコストを把握できます。

PoCの段階では、実際のユースケースに近い少量のサンプルデータを使い、実コストを測定しながら上限予算を設定すると安心です。その結果を踏まえ、必要に応じてモデルの選択やプロンプト設計、呼び出し回数の制御などを調整していくことで、Qwen3シリーズを費用対効果の高い形で活用しやすくなります。