Alibabaの「Qwen3-ASR」を解説！多言語音声認識サービスの特徴と活用法

音声の文字起こしや字幕生成のニーズが拡大するなか、Alibaba CloudのQwenチームは多言語・高精度・雑音下の強さを兼ね備えたASR（自動音声認識）サービス「Qwen3‑ASR」を提供しています。APIとして提供され、歌唱（歌詞）や方言にも対応し、ストリーミング出力や文脈注入（コンテキスト）など実務で有効な機能を備えます。料金は秒課金で、アカウント有効化後90日間に合計36,000秒（10時間）の無料枠が設定されています。

本記事では、Qwen3‑ASRの概要、主な機能、料金、使い方、適用領域、導入時の留意点を整理します。

Qwen3‑ASRの概要

qwen3asr-speech-recognition image

引用： https://qwen.ai/blog?id=824c40353ea019861a636650c948eb8438ea5cf2&from=home.latest-research-list

Qwen3‑ASRは、Qwenのマルチモーダルプラットフォームモデル上に構築された音声→テキスト変換サービス です。単一モデルで複数言語・方言・アクセント、さらには歌唱の書き起こしまでカバーすることを目的に設計されています。

提供形態はクラウドAPI（HTTP/SDK）で、ストリーミング出力や句読点付与、ITN（数値や日付の正規化）などをサポートします。言語は中国語（普通話・四川話・閩南語・呉語・広東語）に加え、英語・日本語・ドイツ語・韓国語・ロシア語・フランス語・ポルトガル語・アラビア語・イタリア語・スペイン語をサポートします。自動言語識別も可能です。

この「一つで幅広く使える」設計は、運用のシンプルさと導入スピードの向上につながります。

音声認識を支える主な機能と特長

現場で求められる “多言語・歌唱・雑音耐性・リアルタイム性・用語適合” を、単一APIでまとめて扱える のがQwen3‑ASRの核となる価値です。

機能サマリー（実装パラメータ早見表）

機能	主な設定／返却	代表ユースケース
多言語・方言対応（11言語＋中国語方言）	`language` 明示指定／`enable_lid: true`（言語自動識別・返却に言語注釈）	国際会議や多言語コンテンツの字幕化
歌唱（歌詞）対応	「Singing recognition」標準対応	楽曲やBGM入り動画の書き起こし
雑音・非人声耐性	Noise rejection／非人声フィルタ	通話ログ、屋外収録、遠距離マイク
文脈注入（Contextual enhancement）	Systemメッセージ `text` に最大10,000トークンの参照テキスト	固有名詞・業界用語の適合
ストリーミング出力	部分結果の逐次返却	ライブ字幕、インタラクティブUI
ITN・句読点	`enable_itn: true`（ITNは中・英対応）、句読点推定	可読性の高い原稿出力
入出力仕様	16kHz・モノラル、3分／10MB／回、主要拡張子に対応	設計時の前提条件と分割戦略

上記を踏まえ、各特長のポイントと導入時の勘所を順に確認します。

多言語・歌唱対応

単一モデルで中国語（普通話・四川・閩南・呉・広東）に加え、 英・日・独・韓・露・仏・葡・阿・伊・西 をカバー。既知言語なら language を指定し、混在が想定される場合は enable_lid: true で自動識別を有効化。「想定言語の明示指定→不明時は自動識別」が安定設計。

さらに Singing recognition を標準提供し、 ボーカル入り音源やラップ・BGM下音声も同一ワークフローで処理可能。動画編集や配信字幕に直結。

文脈注入と単一ターン設計

Systemメッセージの text に 最大10,000トークンを投入可能。人名・商品名・業界用語のリストや段落テキストを柔軟に扱え、ホットワード辞書以上に自由度が高い。モデルは単一ターン型で会話履歴を保持しないため、必要な用語や背景は毎リクエストで text に注入する方針が確実。

ストリーミング出力と実装容易性

APIおよびPython・Java SDKで逐次出力（ストリーミング）に対応。最終確定を待たずに字幕やUIへ反映でき、会議配信やライブ用途に適合。公式ドキュメントに呼び出し例・レスポンス構造が用意されており導入は容易。

雑音・非人声への耐性とテキスト整形

Noise rejectionや非人声フィルタで 雑音・低品質マイク・遠距離収録でも品質低下を抑制。通話ログや屋外収録で有効。

さらにITN（逆正規化：中・英対応）で数値・日付を自然表記へ変換し、 句読点推定で可読性の高い原稿を自動生成。他言語で厳密な整形が必要な場合は後処理ルールを併用すると安定。

入出力仕様と運用設計

入力は16kHz・モノラル、1リクエストあたり3分／10MB上限。主要な音声・動画拡張子に対応するが、長尺や大容量は分割前提で設計。動画は事前に音声抽出して扱うのが実用的。

オンライン試用UIは未提供で、API利用が基本。併用できる公式CLIでは、分割・並列処理・自動リサンプリングまで一括で扱える。

この点については、公式アカウントの告知からも確認できます。

このように、言語混在・BGM・雑音といった 難条件下の実務要件を、単一APIと少数パラメータで網羅 できるのが強みです。併用できる公式CLIも公開され、長時間メディアの分割・並列処理・自動リサンプリングまで一気通貫で扱えます。

提供ツールと料金体系

QwenはAPIとあわせて公式のCLIツールやデモも公開しています。料金は秒課金でリージョンにより単価が異なります。

料金（公式ドキュメントの公表値）

リージョン	モデル	単価（秒）	無料枠
シンガポール	qwen3‑asr‑flash（2025‑09‑08時点）	$0.000035	36,000秒（10時間）※有効化から90日間
北京	qwen3‑asr‑flash（2025‑09‑08時点）	$0.000032	記載なし

具体的な適用はアカウント設定や為替・税等により変動し得るため、利用前に管理画面とドキュメントの最新値をご確認ください。

提供ツール（公式）

Qwen3‑ASR‑Toolkit（公式CLI, MIT）

長時間ファイルを自動分割（VAD）し並列でAPI呼び出し。pip install qwen3-asr-toolkit で導入可能。3分制限の回避、スレッド数指定、ログ出力などに対応します。

Hugging Face Spaces デモ

ブラウザに音声をアップロードして試用できる公式スペース。

APIとSDKの利用方法

実装はシンプルです。Model StudioでAPIキーを取得し、SDKまたはHTTPで音声ファイルを指定して呼び出します。以下はPython SDKによる最小例のイメージです（リージョンによりエンドポイントが異なります）。

import os, dashscope
dashscope.base_http_api_url = '<https://dashscope-intl.aliyuncs.com/api/v1>'  # 北京は <https://dashscope.aliyuncs.com/api/v1>

messages = [\
  {"role": "system", "content": [{"text": "固有名詞などの文脈テキスト（任意）"}]},  # 文脈注入\
  {"role": "user", "content": [{"audio": "<https://example.com/audio.mp3>"}]}\
]

resp = dashscope.MultiModalConversation.call(
  api_key=os.getenv("DASHSCOPE_API_KEY"),
  model="qwen3-asr-flash",
  messages=messages,
  result_format="message",
  asr_options={"enable_lid": True, "enable_itn": True}
)
print(resp)

上記の通り、「オーディオURL」「（任意の）コンテキスト」「出力設定（ITN・言語検出など）」を指定して呼び出すだけです。ローカルファイルは一度公開URLに置くか、公式CLIで処理できます。

業務における主な活用領域

機能特性（多言語・歌唱・雑音耐性・ストリーミング・文脈注入）に基づき、次のような場面に適しています。

会議・ウェビナーのリアルタイム字幕表示や議事録化（ストリーミング＋言語自動判別）。
動画・音楽コンテンツの文字起こし・字幕生成（歌詞の転写やBGM下での認識）。
音声サポート窓口の通話ログ転写と検索・分析（雑音環境での頑健性）。
e‑Learningや研修の教材化（多言語対応＋専門用語を文脈注入で補強）。

用途設計の段階で、言語指定やコンテキストの活用を組み合わせると精度を引き上げやすくなります。

導入前に確認すべき要件

利用前に、API仕様と制限を確認しておくと運用トラブルを避けられます。

ファイル制限

1リクエストあたり音声は3分・10MBまで、16kHz・モノラルが前提。長尺はCLIの自動分割（VAD）で対応可能です。

モデル特性

Qwen3‑ASRは 単一ターン モデル。会話履歴や複数ターンのプロンプトは保持しません。

文脈注入

最大10,000トークン。ホットワードリストから段落テキストまで柔軟に投入可能です。

ITNの適用範囲

ITNは現状、中国語と英語に適用可能。必要に応じて後処理の設計を検討します。

エンドポイント

海外向け（シンガポール）と中国本土（北京）でURLとAPIキーが異なります。環境変数と課金設定の管理に注意してください。

利用に伴う注意点とリスク

仕様に起因する注意点を把握し、品質とコンプライアンスを担保しましょう。

オンライン試用用のUIは提供されていないため、原則としてAPI経由の呼び出しが前提となります（デモはHF Spacesにあり、検証はスクリプトやCLIで実施します）。APIに渡す音声は公開URLでの提供が推奨されており、 取り扱うデータの権利や機密保持、同意取得には十分な配慮が必要 です。また、句読点や数字の正規化（ITN）、固有名詞の処理は設定次第で出力が変わるため、レビューや後編集のフローを設けておくことで安定した利用が可能になります。

まとめ

Qwen3‑ASRは、単一モデルで多言語・方言・歌唱までをカバーし、ストリーミングや文脈注入など現場実装に必要な機能を備えたASRサービスです。料金は秒課金で、アカウント有効化後90日間・合計36,000秒の無料枠が提供されます。導入時は、3分/10MBのリクエスト上限、単一ターンモデルという特性、ITNの対応範囲、リージョン別エンドポイントと課金の違いを確認してください。まずは無料枠と公式CLI/デモで運用感と精度を確認し、本番要件（言語指定・コンテキスト設計・後編集フロー）に合わせて設定を詰めるとスムーズです。

目次