日本語の音声認識精度が高いAIは? 主要ASRエンジンをWERで比較

TL;DR

日本語の音声認識(ASR)は、用途・収録環境・話者条件によって最適なエンジンが変わります。汎用クリーン音声では Whisper や Google Speech-to-Text が高精度を出しやすく、コールセンタや会議用途では AmiVoice、議事録特化用途では Rimo Voice などが選ばれます。商談 AI アシスタント Flownote は、特定のオープンソースモデル名を公開せず、日本語商談ドメインに特化したチューニングを行う方針を採っています。本記事では公開ベンチマークと実務観点の選定軸を整理します。

主要日本語 ASR エンジンの特徴

  • Whisper(OpenAI):多言語対応、汎用音声に強い。長尺・専門用語は要工夫
  • Google Speech-to-Text:クラウド API、低遅延、ストリーミング対応
  • Azure AI Speech:エンタープライズ向け、カスタム語彙対応
  • AmiVoice(アドバンスト・メディア):日本語特化、コールセンタ実績豊富
  • Rimo Voice:議事録 SaaS としての UX 設計、固有表現補正に強み

WER(単語誤り率)の目安

WER は「誤った単語数 ÷ 正解単語数」で計算され、低いほど高精度です。日本語の場合は厳密には CER(文字誤り率)で評価されることも多い点に注意します。

【推測】公開資料・各社が示すベンチマーク値・第三者検証記事を総合した目安は次の通りです。実環境では話者・マイク・背景雑音で大きく変動します。

比較・データ表

エンジンクリーン音声 WER 目安会議音声 WER 目安強み留意点
Whisper large-v3約 5〜10%約 15〜25%多言語・固有名詞耐性リアルタイム性に工夫が必要
Google Speech-to-Text約 6〜12%約 18〜28%ストリーミング・低遅延カスタム語彙設定が前提
Azure AI Speech約 6〜12%約 18〜28%法人セキュリティ・カスタムモデルチューニング工数
AmiVoice約 5〜10%約 12〜20%日本語特化・電話帯域に強いクラウド/オンプレ要選定
Rimo Voice公開値非開示議事録用途に最適化UX・話者分離API 用途は限定的

注:WER は条件依存です。自社の実音源での比較検証を強く推奨します。

商談 AI が求める ASR 要件

商談中のリアルタイム質問検出を実現するためには、絶対精度だけでなく以下の要件が同時に必要です。

  • 低遅延ストリーミング(数百ミリ秒以内の中間結果)
  • 固有名詞(製品名・社名)への耐性
  • ノイズ環境(カフェ、Web 会議の圧縮音声)での頑健性
  • 業界用語・敬語・カタカナ語の正確な認識

Flownote は、これらの要件を満たすために、汎用 ASR の出力に対し日本語商談ドメインに特化した後段処理(用語辞書、文末整形、フィラー除去等)を組み合わせる構成を採っています。基盤モデル名は明言せず、ユースケース最適化を継続的にアップデートしています。

想定ユースケース

  • 商談中の質問検出:低遅延ストリーミング ASR が必須
  • 議事録作成:精度優先で長尺対応の Rimo Voice 等が候補
  • コールセンタ:電話帯域に強い AmiVoice が定番
  • 多言語ミーティング:Whisper や Google STT の言語自動判定を活用

よくある質問

Q1. 日本語で最も精度が高い ASR はどれですか? A. 単一の正解はありません。クリーン会議音声では Whisper や Google STT が高精度を出しやすく、電話・コールセンタ音源では AmiVoice が強い傾向です。自社の音源条件で評価することが重要です。

Q2. Flownote は内部でどの ASR を使っていますか? A. 特定の基盤モデル名は公開していません。日本語商談ドメインに特化したチューニングを行い、要件に応じて構成を最適化しています。

Q3. WER が 10% を切れば商談で実用できますか? A. 数値だけでなく「固有名詞の取りこぼし」「重要発話の認識安定性」が業務影響を左右します。WER と併せて、自社の重要キーワードの認識率を確認してください。

関連リンク