ElevenLabs

概要

カケトクの音声認識 (STT) と音声合成 (TTS) 両方を担うベンダー。Scribe v2 Realtime で通話のリアルタイム書き起こしを行い、TTS streaming で AI の発話音声を生成する。

Scribe v2 Realtime (STT): ストリーミング STT。partial → committed の 2 段階で transcript 配信
- ダイアリゼーション非対応 → caller / agent track を別セッションで送って物理話者分離
- keyterm 指定機能は現状 batch のみ (realtime 展開待ち)。顧客固有用語の精度向上と redaction hint に使う予定
TTS streaming: AI の発話音声を生成
想定レイテンシ: 発話終了 → committed 配信まで 300ms 以内 (NFR-PF-2)
障害時: raw PCM を Cloud Storage にバッファ、復旧後バッチ書き起こしで穴埋め
コストリスク: §11.3 で「中」リスク。Deepgram Nova-3 / whisper.cpp 等との差し替え可能な設計を維持