Concepts
AI 対話パイプライン
AI 対話パイプライン
定義
Twilio Media Streams で流れてくる発信者音声を STT → LLM → TTS で処理し、AI の応答を再び Twilio 経由で発信者に返す処理パイプライン。カケトク MVP では実装方式を 2 候補で PoC し、優位な方を採用する。
現在の理解
2 つの実装候補 (§5.3.2)
| 候補 | 特徴 | トレードオフ |
|---|---|---|
| A: Twilio ConversationRelay | Twilio が Claude と直接やりとりするマネージド方式 | レイテンシ最適化済み、実装最短。柔軟性は低い |
| B: 自前パイプライン | Backend が Media Streams → Scribe → Claude → ElevenLabs TTS → Media Streams を組み立て | 柔軟性最大。割り込み制御や中断検知を自前実装 |
傾向: Dispatcher 機能 (細粒度制御) が重要視される場合、B に倒れる可能性が高い。
書き起こし (§3.6, §5.3.3)
- 全通話音声は Twilio Media Streams (WSS) で Backend に取り込む
- caller track と agent/AI track を別々の Scribe v2 Realtime セッションで物理話者分離 (Scribe Realtime はダイアリゼーション非対応)
- partial → committed の 2 段階で transcript を受信
- Web Frontend に WebSocket で中継
- 非機能: 発話終了 → committed 配信まで平均 300ms 以内 (NFR-PF-2)
- Scribe 障害時は raw PCM を Cloud Storage にバッファ、復旧後バッチ書き起こしで穴埋め
Media Streams の扱い (§5.3.1)
- Twilio Media Streams は μ-law 8kHz を 20ms フレームで送信
track="both_tracks"で inbound/outbound 両方を 1 WS で受信- Backend は PCM 16kHz にリサンプルして Scribe / Claude へ転送
非機能要件
- NFR-PF-1: AI 応答レイテンシ — ユーザー発話終了から AI 発話開始まで 平均 1.5 秒以内
- NFR-PF-2: Scribe transcript 配信 — 300ms 以内
- NFR-PF-3: Web UI 反映 — Backend 受信からブラウザ表示まで 500ms 以内
構造化 (§3.8)
- 通話終了で transcript を時系列マージ
- Claude Sonnet 4.6 に JSON Schema 指定で構造化抽出
- 最小スキーマ:
{案件種別, 顧客要望, ヒアリング結果, 合意事項[], 次アクション[], 担当引継メモ, 重要度, 架電の場合の有効度} - 構造化失敗時はリトライ → 最終失敗で管理者通知
論点
- ConversationRelay vs 自前の選択: Dispatcher の承認ワークフローや割り込み制御の実装可能性に依存。PoC (Phase A) で実機検証後に判断
- Scribe 依存コスト: §11.3 で「中」リスクとされ、Deepgram Nova-3 / whisper.cpp 等との差し替え可能な設計が明記
- Scribe Realtime のダイアリゼーション非対応: track 分離で対応しているが、Twilio 側の track 分離精度次第では話者混入の可能性
- Claude Sonnet 4.6 の構造化精度不足リスク: プロンプト整備で対応、失敗時は Opus にフォールバック (§11.3)
- Media Streams の 8kHz 固定: Scribe の最適 sample rate ではない可能性。16kHz リサンプルで対応 (§11.1)
根拠となる資料
関連する entity
未解決の問い
- PoC での A/B 比較指標 (レイテンシ・中断検知精度・Dispatcher 連携容易性)
- Scribe 差し替え時の精度・コスト比較データ
- 構造化 JSON Schema の全量定義 (MVP では最小スキーマのみ規定)
- 長時間通話時の Claude context 管理戦略
関連 synthesis
- 2026-04-19_ai-dialogue-pipeline-comparison: 候補 A/B の比較表・Phase A での測定指標・暫定意思決定ルール
更新メモ
- 2026-04-19: v3.0 要件定義書から初版作成。実装方式は PoC 結果待ちで未確定
- 2026-04-19: synthesis (比較ページ) を作成し相互リンク追加