カケトク wiki
Entities

ElevenLabs

ElevenLabs

概要

カケトクの音声認識 (STT) と音声合成 (TTS) 両方を担うベンダー。Scribe v2 Realtime で通話のリアルタイム書き起こしを行い、TTS streaming で AI の発話音声を生成する。

重要な事実

  • Scribe v2 Realtime (STT): ストリーミング STT。partial → committed の 2 段階で transcript 配信
    • ダイアリゼーション非対応 → caller / agent track を別セッションで送って物理話者分離
    • keyterm 指定機能は現状 batch のみ (realtime 展開待ち)。顧客固有用語の精度向上と redaction hint に使う予定
  • TTS streaming: AI の発話音声を生成
  • 想定レイテンシ: 発話終了 → committed 配信まで 300ms 以内 (NFR-PF-2)
  • 障害時: raw PCM を Cloud Storage にバッファ、復旧後バッチ書き起こしで穴埋め
  • コストリスク: §11.3 で「中」リスク。Deepgram Nova-3 / whisper.cpp 等との差し替え可能な設計を維持

時系列

  • 2026-04-19: カケトク v3.0 の要件定義で STT/TTS とも ElevenLabs 採用を明記

関係する概念

関係する資料

追跡ポイント

  • Scribe realtime での keyterm prompting 対応時期
  • 差し替え候補 (Deepgram Nova-3 / whisper.cpp) との精度・コスト比較
  • 16kHz リサンプル後の認識精度
  • TTS ストリーミングレイテンシの実測値

On this page