feat: 複数の参照音声を結合して音声クローンの再現度を向上

## 概要

現在は単一の参照音声からx-vectorを抽出して音声クローンを行っているが、複数の参照音声を結合して使用することで再現度の向上が期待できる。

## 背景

- Qwen3-TTSはゼロショット設計で5〜10秒程度の音声で話者特徴を捉える
- 複数の音声サンプルを使うことで、話者特徴をより安定して捉えられる可能性がある
- 異なる感情・ピッチ・速度のサンプルを含めると合成時の自由度が上がる可能性がある

## 実装案

1. `generate` コマンドに複数の参照音声を指定できるオプションを追加
   ```bash
   voice-clone generate \
     -r samples/voice1.wav \
     -r samples/voice2.wav \
     -r samples/voice3.wav \
     -t "テキスト" \
     -o output.wav
   ```

2. 複数の参照音声を無音区間を挟んで結合し、1つの参照音声として扱う

3. 結合時の注意点：
   - サンプルレートの統一
   - 適切な無音区間の挿入
   - 総時間が長すぎると逆効果の可能性（要検証）

## 検証項目

- [ ] 単一参照 vs 複数結合の品質比較
- [ ] 最適な参照音声の総時間
- [ ] 無音区間の長さの影響

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: 複数の参照音声を結合して音声クローンの再現度を向上 #2

概要

背景

実装案

検証項目

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

feat: 複数の参照音声を結合して音声クローンの再現度を向上 #2

Description

概要

背景

実装案

検証項目

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions