Entities
ElevenLabs
ElevenLabs
概要
カケトクの音声認識 (STT) と音声合成 (TTS) 両方を担うベンダー。Scribe v2 Realtime で通話のリアルタイム書き起こしを行い、TTS streaming で AI の発話音声を生成する。
重要な事実
- Scribe v2 Realtime (STT): ストリーミング STT。partial → committed の 2 段階で transcript 配信
- ダイアリゼーション非対応 → caller / agent track を別セッションで送って物理話者分離
- keyterm 指定機能は現状 batch のみ (realtime 展開待ち)。顧客固有用語の精度向上と redaction hint に使う予定
- TTS streaming: AI の発話音声を生成
- 想定レイテンシ: 発話終了 → committed 配信まで 300ms 以内 (NFR-PF-2)
- 障害時: raw PCM を Cloud Storage にバッファ、復旧後バッチ書き起こしで穴埋め
- コストリスク: §11.3 で「中」リスク。Deepgram Nova-3 / whisper.cpp 等との差し替え可能な設計を維持
時系列
- 2026-04-19: カケトク v3.0 の要件定義で STT/TTS とも ElevenLabs 採用を明記
関係する概念
- ai-dialogue-pipeline
- usage-cost-tracking (Scribe 使用時間・TTS 生成文字数を計測)
- pii-masking-roadmap (keyterm prompting を将来の PII 対応で活用)
関係する資料
- カケトク 要件定義書 v3.0
- ElevenLabs Scribe Realtime: https://elevenlabs.io/docs/api-reference/speech-to-text/v-1-speech-to-text-realtime
- ElevenLabs TTS Streaming: https://elevenlabs.io/docs/api-reference/text-to-speech
追跡ポイント
- Scribe realtime での keyterm prompting 対応時期
- 差し替え候補 (Deepgram Nova-3 / whisper.cpp) との精度・コスト比較
- 16kHz リサンプル後の認識精度
- TTS ストリーミングレイテンシの実測値