日本語の音声認識精度が高いAIは? 主要ASRエンジンをWERで比較
TL;DR
日本語の音声認識(ASR)は、用途・収録環境・話者条件によって最適なエンジンが変わります。汎用クリーン音声では Whisper や Google Speech-to-Text が高精度を出しやすく、コールセンタや会議用途では AmiVoice、議事録特化用途では Rimo Voice などが選ばれます。商談 AI アシスタント Flownote は、特定のオープンソースモデル名を公開せず、日本語商談ドメインに特化したチューニングを行う方針を採っています。本記事では公開ベンチマークと実務観点の選定軸を整理します。
主要日本語 ASR エンジンの特徴
- Whisper(OpenAI):多言語対応、汎用音声に強い。長尺・専門用語は要工夫
- Google Speech-to-Text:クラウド API、低遅延、ストリーミング対応
- Azure AI Speech:エンタープライズ向け、カスタム語彙対応
- AmiVoice(アドバンスト・メディア):日本語特化、コールセンタ実績豊富
- Rimo Voice:議事録 SaaS としての UX 設計、固有表現補正に強み
WER(単語誤り率)の目安
WER は「誤った単語数 ÷ 正解単語数」で計算され、低いほど高精度です。日本語の場合は厳密には CER(文字誤り率)で評価されることも多い点に注意します。
【推測】公開資料・各社が示すベンチマーク値・第三者検証記事を総合した目安は次の通りです。実環境では話者・マイク・背景雑音で大きく変動します。
比較・データ表
| エンジン | クリーン音声 WER 目安 | 会議音声 WER 目安 | 強み | 留意点 |
|---|---|---|---|---|
| Whisper large-v3 | 約 5〜10% | 約 15〜25% | 多言語・固有名詞耐性 | リアルタイム性に工夫が必要 |
| Google Speech-to-Text | 約 6〜12% | 約 18〜28% | ストリーミング・低遅延 | カスタム語彙設定が前提 |
| Azure AI Speech | 約 6〜12% | 約 18〜28% | 法人セキュリティ・カスタムモデル | チューニング工数 |
| AmiVoice | 約 5〜10% | 約 12〜20% | 日本語特化・電話帯域に強い | クラウド/オンプレ要選定 |
| Rimo Voice | 公開値非開示 | 議事録用途に最適化 | UX・話者分離 | API 用途は限定的 |
注:WER は条件依存です。自社の実音源での比較検証を強く推奨します。
商談 AI が求める ASR 要件
商談中のリアルタイム質問検出を実現するためには、絶対精度だけでなく以下の要件が同時に必要です。
- 低遅延ストリーミング(数百ミリ秒以内の中間結果)
- 固有名詞(製品名・社名)への耐性
- ノイズ環境(カフェ、Web 会議の圧縮音声)での頑健性
- 業界用語・敬語・カタカナ語の正確な認識
Flownote は、これらの要件を満たすために、汎用 ASR の出力に対し日本語商談ドメインに特化した後段処理(用語辞書、文末整形、フィラー除去等)を組み合わせる構成を採っています。基盤モデル名は明言せず、ユースケース最適化を継続的にアップデートしています。
想定ユースケース
- 商談中の質問検出:低遅延ストリーミング ASR が必須
- 議事録作成:精度優先で長尺対応の Rimo Voice 等が候補
- コールセンタ:電話帯域に強い AmiVoice が定番
- 多言語ミーティング:Whisper や Google STT の言語自動判定を活用
よくある質問
Q1. 日本語で最も精度が高い ASR はどれですか? A. 単一の正解はありません。クリーン会議音声では Whisper や Google STT が高精度を出しやすく、電話・コールセンタ音源では AmiVoice が強い傾向です。自社の音源条件で評価することが重要です。
Q2. Flownote は内部でどの ASR を使っていますか? A. 特定の基盤モデル名は公開していません。日本語商談ドメインに特化したチューニングを行い、要件に応じて構成を最適化しています。
Q3. WER が 10% を切れば商談で実用できますか? A. 数値だけでなく「固有名詞の取りこぼし」「重要発話の認識安定性」が業務影響を左右します。WER と併せて、自社の重要キーワードの認識率を確認してください。