2025年に入り、AlibabaのQwenは「Qwen3」世代へと刷新され、テキストLLMから視覚・音声・コード・オムニモーダル、さらにクラウドAPI最上位まで用途別の正式ラインを公表しました。各モデルは入出力様式、提供形態(オープン重み/API)、文脈長、多言語対応、推論モード(Thinking/Non‑Thinking)など仕様が明確に分かれており、要件に応じた選定が不可欠です。
本記事では、Qwen公式ブログ/GitHub/Alibaba Cloud Model Studioといった一次情報を基に、Qwen3モデル群の一覧と特長、導入時の着眼点を簡潔に整理します。
目次
- Qwen3モデルの全体構成
- 各モデルの特徴と強み
- Qwen3(テキストLLM)
- Qwen3-VL(画像・動画×言語)
- Qwen3-ASR(音声認識)
- Qwen3-TTS(音声合成)
- Qwen3‑Omni
- Qwen3‑Coder(コード特化LLM)
- Qwen3‑Max(最上位API)
- モデル選定の指針
- 公開形態とライセンス
- まとめ
Qwen3モデルの全体構成
まずは用途・公開形態・文脈長・言語対応という主要軸で、代表モデルを整理します。
| モデル | 入力の出力の様式(入力→出力) | 公開形態 | 文脈長の目安 | 言語(要点) |
|---|---|---|---|---|
| Qwen3(LLM) | テキスト→テキスト | 重み公開(Dense 0.6B/1.7B/4B/8B/14B/32B、MoE 30B‑A3B/235B‑A22B) | 標準で長文脈、最大100万トークン拡張に対応(2507) | 119言語・方言対応(日本語含む) |
| Qwen3‑VL | 画像/PDF/動画+テキスト→テキスト | 重み公開 | 長文ドキュメント・動画の解析向け(長文脈拡張) | 33言語の視覚理解・OCR |
| Qwen3‑ASR | 音声⇢テキスト | API提供 | ―(単発転写) | 11言語の自動認識、文脈バイアス、雑音耐性 |
| Qwen3‑TTS | テキスト⇢音声 | API提供 | ―(ストリーミング合成) | 17種類の声、多言語・方言に対応 |
| Qwen3‑Omni | テキスト/画像/音声/動画→テキスト・音声 | 重み公開 | リアルタイムのストリーミング入出力 | テキスト119言語、音声入力19/音声出力10言語 |
| Qwen3‑Coder | コード/テキスト→コード/テキスト | 重み公開(例:480B‑A35B) | ネイティブ256K/最大100万トークン拡張 | 多言語コード・エージェント適性 |
| Qwen3‑Max | テキスト→テキスト | API提供(最上位 | 262Kトークン(コンテキストキャッシュあり) | 多言語(大規模事前学習) |
上表の仕様は、Qwen公式ドキュメント・リポジトリ・モデルカードの明記に基づいています。
各モデルの特徴と強み
ここでは各モデルの基本仕様と公開形態を、一次情報の根拠とともに要点整理します。
Qwen3(テキストLLM)
AlibabaのLLM。DenseとMoEの両構成を持ち、最大100万トークンまでの長文脈処理に対応。
-
Dense(0.6B〜32B)+MoE(30B-A3B/235B-A22B)をApache-2.0で公開。
-
119言語対応、日本語も高精度。Thinking/Non-Thinking切替で推論深度を調整可能。
-
2507版で文脈長が256K→最大100万に拡張。
Qwen3-VL(画像・動画×言語)
画像やPDF、動画を理解する視覚言語モデル。OCRと空間理解性能が大幅に強化。
-
2B〜235BまでのDense/MoEをInstruct/Thinking両系で提供。
-
33言語OCRと高解像度入力(最大16Mピクセル相当)に対応。
-
文書解析、UI理解、動画要約などのマルチモーダル処理に最適。
あわせてご覧ください
Qwen3-ASR(音声認識)
音声をテキスト化する高精度APIモデル。雑音や歌声にも強い。
-
11言語(日本語含む)に対応し、自動言語識別が可能。
-
文脈バイアス機能で固有名詞や専門用語の精度を補強。
-
API形式で提供、リアルタイム文字起こしや字幕生成に最適。
あわせてご覧ください
Alibabaの「Qwen3-ASR」解説:多言語音声認識の機能と活用
Qwen3-TTS(音声合成)
テキストから自然音声を生成するAPI。ストリーミング合成対応。
-
17種類の声・多言語/方言に対応(旧版より拡張)。
-
課金単位は「文字数」、リアルタイム応答も可能。
-
読み上げ、ナレーション、対話エージェントの音声出力に適用。
Qwen3‑Omni
テキスト・画像・音声・動画をリアルタイムに処理する統合モデル。
-
Thinker–Talker構造により、音声理解と音声出力を単一モデルで実現。
-
テキスト119言語、音声入力19/出力10言語に対応。
-
ストリーミング処理で自然なターンテイキングを実現。
Qwen3‑Coder(コード特化LLM)
コード生成と自動修正、エージェント的開発支援を担う大規模MoEモデル。
-
代表モデルはQwen3-Coder-480B-A35B(256K文脈、最大100万拡張)。
-
7.5兆トークン学習のうち約70%がコードデータ。
-
CLI「Qwen Code」で実行可能、開発自動化に強み。
Qwen3‑Max(最上位API)
Qwen3シリーズのクラウド版最上位モデル。高精度かつ大規模処理を担う。
-
262Kトークンの長文脈とSearch Agent対応。
-
Non-Thinking専用、安定応答とエージェント連携に特化。
-
API提供のみ(重み非公開)、商用利用を想定。
あわせてご覧ください
Qwen3-Maxとは?導入手順と運用チェックリストを一挙整理
モデル選定の指針
選定時には”やりたいこと”から逆引きすると、候補が自然に絞り込めます。
- 汎用対話・RAG・要約・翻訳:Qwen3(LLM)
オープン重みで運用形態を選べ、 Thinking/Non‑Thinking の切替でコスト調整が可能です。
- 文書OCR/レイアウト保持抽出/動画要約: Qwen3‑VL
視覚理解と 33言語のOCR が一次情報で確認できます。
-
録音起こし・字幕制作・議事録: Qwen3‑ASR。 11言語、ノイズ耐性、 文脈バイアス のAPI機能が公式に明記。
-
テキスト→自然音声の配信: Qwen3‑TTS
17声・多言語/方言、ストリーミング合成のAPIが推奨ルートです。
- 映像+音声を含むリアルタイム対話: Qwen3‑Omni
テキスト119/音声入出力19/10言語でストリーミング対話を構築可能。
- コード自動化(改修・テスト・ブラウザ操作): Qwen3‑Coder
480B‑A35B や 256K〜100万トークン 対応をモデルカードで確認。
- 高難度タスクのAPI運用: Qwen3‑Max
262K の大容量、エージェント適性、 非思考モード 仕様を前提に設計します。
最終的には、 データの所在地・セキュリティポリシー・運用SLA を踏まえ、重み公開型かAPI型かを選択すると設計が明確になります。
公開形態とライセンス
導入の前段で「重み公開か、APIのみか」を一次情報で確認しておくと、アーキテクチャ選定がスムーズです。
-
重み公開(Apache‑2.0): Qwen3(LLM)/Qwen3‑VL/Qwen3‑Omni/Qwen3‑Coder。GitHubやHugging Faceのライセンス表記を確認できます。
-
API提供(重み非公開): Qwen3‑ASR/Qwen3‑TTS/Qwen3‑Max。Model Studioのカタログ/仕様に掲載されています。
この切り分けは、コスト(推論単価/GPU保有)、運用(アップデート頻度)、統制(データ取り扱い)に直結します。
まとめ
Qwen3は、オープン重みの基盤LLM(Qwen3)を中心に、視覚と言語(Qwen3‑VL)、音声認識(Qwen3‑ASR)、音声合成(Qwen3‑TTS)、オムニモーダル(Qwen3‑Omni)、コード特化(Qwen3‑Coder)、そしてAPI最上位(Qwen3‑Max)まで、要件に応じて選びやすい体系で公開されています。
要件定義では、入出力モダリティ(テキスト/画像/音声/動画)、公開形態(重み公開かAPIか)、必要な文脈長(〜100万トークンまでの拡張可否)、必要言語(テキスト119言語、OCR33言語、ASR11言語、音声出力10言語など)を一次情報で照合すると、候補が1〜2点に収束します。
次のアクションとしては、対象タスクに最も近い1モデルを選んで小規模PoC(品質・レイテンシ・コスト)を行い、合格ラインが見え次第、RAGやツール連携、監視運用まで含む本番設計へ進めると、移行が効率的です。