Qwen3 各モデルの役割と選定のポイントをわかりやすく整理

Chronist Team Chronist Team

2025年に入り、AlibabaのQwenは「Qwen3」世代へと刷新され、テキストLLMから視覚・音声・コード・オムニモーダル、さらにクラウドAPI最上位まで用途別の正式ラインを公表しました。各モデルは入出力様式、提供形態(オープン重み/API)、文脈長、多言語対応、推論モード(Thinking/Non‑Thinking)など仕様が明確に分かれており、要件に応じた選定が不可欠です。

本記事では、Qwen公式ブログ/GitHub/Alibaba Cloud Model Studioといった一次情報を基に、Qwen3モデル群の一覧と特長、導入時の着眼点を簡潔に整理します。

目次

Qwen3モデルの全体構成

まずは用途・公開形態・文脈長・言語対応という主要軸で、代表モデルを整理します。

モデル入力の出力の様式(入力→出力)公開形態文脈長の目安言語(要点)
Qwen3(LLM)テキスト→テキスト重み公開(Dense 0.6B/1.7B/4B/8B/14B/32B、MoE 30B‑A3B/235B‑A22B)標準で長文脈、最大100万トークン拡張に対応(2507)119言語・方言対応(日本語含む)
Qwen3‑VL画像/PDF/動画+テキスト→テキスト重み公開長文ドキュメント・動画の解析向け(長文脈拡張)33言語の視覚理解・OCR
Qwen3‑ASR音声⇢テキストAPI提供―(単発転写)11言語の自動認識、文脈バイアス、雑音耐性
Qwen3‑TTSテキスト⇢音声API提供―(ストリーミング合成)17種類の声、多言語・方言に対応
Qwen3‑Omniテキスト/画像/音声/動画→テキスト・音声重み公開リアルタイムのストリーミング入出力テキスト119言語、音声入力19/音声出力10言語
Qwen3‑Coderコード/テキスト→コード/テキスト重み公開(例:480B‑A35B)ネイティブ256K/最大100万トークン拡張多言語コード・エージェント適性
Qwen3‑Maxテキスト→テキストAPI提供(最上位262Kトークン(コンテキストキャッシュあり)多言語(大規模事前学習)

上表の仕様は、Qwen公式ドキュメント・リポジトリ・モデルカードの明記に基づいています。

各モデルの特徴と強み

ここでは各モデルの基本仕様と公開形態を、一次情報の根拠とともに要点整理します。

Qwen3(テキストLLM)

AlibabaのLLM。DenseとMoEの両構成を持ち、最大100万トークンまでの長文脈処理に対応。

  • Dense(0.6B〜32B)+MoE(30B-A3B/235B-A22B)をApache-2.0で公開。

  • 119言語対応、日本語も高精度。Thinking/Non-Thinking切替で推論深度を調整可能。

  • 2507版で文脈長が256K→最大100万に拡張。

Qwen3-VL(画像・動画×言語)

画像やPDF、動画を理解する視覚言語モデル。OCRと空間理解性能が大幅に強化。

  • 2B〜235BまでのDense/MoEをInstruct/Thinking両系で提供。

  • 33言語OCRと高解像度入力(最大16Mピクセル相当)に対応。

  • 文書解析、UI理解、動画要約などのマルチモーダル処理に最適。

あわせてご覧ください

Qwen3-VLガイド:画像・動画・GUI操作まで解説

Qwen3-ASR(音声認識)

音声をテキスト化する高精度APIモデル。雑音や歌声にも強い。

  • 11言語(日本語含む)に対応し、自動言語識別が可能。

  • 文脈バイアス機能で固有名詞や専門用語の精度を補強。

  • API形式で提供、リアルタイム文字起こしや字幕生成に最適。

あわせてご覧ください

Alibabaの「Qwen3-ASR」解説:多言語音声認識の機能と活用

Qwen3-TTS(音声合成)

テキストから自然音声を生成するAPI。ストリーミング合成対応。

  • 17種類の声・多言語/方言に対応(旧版より拡張)。

  • 課金単位は「文字数」、リアルタイム応答も可能。

  • 読み上げ、ナレーション、対話エージェントの音声出力に適用。

Qwen3‑Omni

テキスト・画像・音声・動画をリアルタイムに処理する統合モデル。

  • Thinker–Talker構造により、音声理解と音声出力を単一モデルで実現。

  • テキスト119言語、音声入力19/出力10言語に対応。

  • ストリーミング処理で自然なターンテイキングを実現。

Qwen3‑Coder(コード特化LLM)

コード生成と自動修正、エージェント的開発支援を担う大規模MoEモデル。

  • 代表モデルはQwen3-Coder-480B-A35B(256K文脈、最大100万拡張)。

  • 7.5兆トークン学習のうち約70%がコードデータ。

  • CLI「Qwen Code」で実行可能、開発自動化に強み。

Qwen3‑Max(最上位API)

Qwen3シリーズのクラウド版最上位モデル。高精度かつ大規模処理を担う。

  • 262Kトークンの長文脈とSearch Agent対応。

  • Non-Thinking専用、安定応答とエージェント連携に特化。

  • API提供のみ(重み非公開)、商用利用を想定。

あわせてご覧ください

Qwen3-Maxとは?導入手順と運用チェックリストを一挙整理

モデル選定の指針

選定時には”やりたいこと”から逆引きすると、候補が自然に絞り込めます。

  • 汎用対話・RAG・要約・翻訳:Qwen3(LLM)

オープン重みで運用形態を選べ、 Thinking/Non‑Thinking の切替でコスト調整が可能です。

  • 文書OCR/レイアウト保持抽出/動画要約Qwen3‑VL

視覚理解と 33言語のOCR が一次情報で確認できます。

  • 録音起こし・字幕制作・議事録Qwen3‑ASR11言語、ノイズ耐性、 文脈バイアス のAPI機能が公式に明記。

  • テキスト→自然音声の配信Qwen3‑TTS

17声・多言語/方言、ストリーミング合成のAPIが推奨ルートです。

  • 映像+音声を含むリアルタイム対話Qwen3‑Omni

テキスト119/音声入出力19/10言語でストリーミング対話を構築可能。

  • コード自動化(改修・テスト・ブラウザ操作)Qwen3‑Coder

480B‑A35B256K〜100万トークン 対応をモデルカードで確認。

  • 高難度タスクのAPI運用Qwen3‑Max

262K の大容量、エージェント適性、 非思考モード 仕様を前提に設計します。

最終的には、 データの所在地・セキュリティポリシー・運用SLA を踏まえ、重み公開型かAPI型かを選択すると設計が明確になります。

公開形態とライセンス

導入の前段で「重み公開か、APIのみか」を一次情報で確認しておくと、アーキテクチャ選定がスムーズです。

  • 重み公開(Apache‑2.0)Qwen3(LLM)/Qwen3‑VL/Qwen3‑Omni/Qwen3‑Coder。GitHubやHugging Faceのライセンス表記を確認できます。

  • API提供(重み非公開)Qwen3‑ASR/Qwen3‑TTS/Qwen3‑Max。Model Studioのカタログ/仕様に掲載されています。

この切り分けは、コスト(推論単価/GPU保有)、運用(アップデート頻度)、統制(データ取り扱い)に直結します。

まとめ

Qwen3は、オープン重みの基盤LLM(Qwen3)を中心に、視覚と言語(Qwen3‑VL)、音声認識(Qwen3‑ASR)、音声合成(Qwen3‑TTS)、オムニモーダル(Qwen3‑Omni)、コード特化(Qwen3‑Coder)、そしてAPI最上位(Qwen3‑Max)まで、要件に応じて選びやすい体系で公開されています。

要件定義では、入出力モダリティ(テキスト/画像/音声/動画)、公開形態(重み公開かAPIか)、必要な文脈長(〜100万トークンまでの拡張可否)、必要言語(テキスト119言語、OCR33言語、ASR11言語、音声出力10言語など)を一次情報で照合すると、候補が1〜2点に収束します。

次のアクションとしては、対象タスクに最も近い1モデルを選んで小規模PoC(品質・レイテンシ・コスト)を行い、合格ラインが見え次第、RAGやツール連携、監視運用まで含む本番設計へ進めると、移行が効率的です。