概要
現在は単一の参照音声からx-vectorを抽出して音声クローンを行っているが、複数の参照音声を結合して使用することで再現度の向上が期待できる。
背景
- Qwen3-TTSはゼロショット設計で5〜10秒程度の音声で話者特徴を捉える
- 複数の音声サンプルを使うことで、話者特徴をより安定して捉えられる可能性がある
- 異なる感情・ピッチ・速度のサンプルを含めると合成時の自由度が上がる可能性がある
実装案
-
generate コマンドに複数の参照音声を指定できるオプションを追加
voice-clone generate \
-r samples/voice1.wav \
-r samples/voice2.wav \
-r samples/voice3.wav \
-t "テキスト" \
-o output.wav
-
複数の参照音声を無音区間を挟んで結合し、1つの参照音声として扱う
-
結合時の注意点:
- サンプルレートの統一
- 適切な無音区間の挿入
- 総時間が長すぎると逆効果の可能性(要検証)
検証項目
概要
現在は単一の参照音声からx-vectorを抽出して音声クローンを行っているが、複数の参照音声を結合して使用することで再現度の向上が期待できる。
背景
実装案
generateコマンドに複数の参照音声を指定できるオプションを追加voice-clone generate \ -r samples/voice1.wav \ -r samples/voice2.wav \ -r samples/voice3.wav \ -t "テキスト" \ -o output.wav複数の参照音声を無音区間を挟んで結合し、1つの参照音声として扱う
結合時の注意点:
検証項目