🐟 話者管理、自動文字起こし、感情制御機能を備えた高度な多言語テキスト読み上げシステム
- 🎤 話者管理 - 音声プロファイルの登録と再利用
- 🔄 自動文字起こし - Whisper Turboによる参照テキストの自動生成
- 🌍 多言語対応 - 8言語以上をサポート(日、英、中、韓、仏、独、アラビア、スペイン)
- 😊 感情制御 - 40種類以上の感情とトーンマーカー
- ⚡ GPU高速化 - CUDAによる高速推論
- 🐳 Docker対応 - ワンコマンドでデプロイ
- 📡 REST API - FastAPI + Swagger完全ドキュメント
- 🎨 Web UI - ユーザーフレンドリーなGradioインターフェース
docker run -d \
--name fish-speech \
--gpus all \
-p 7864:7864 \
-v $(pwd)/checkpoints:/app/checkpoints \
-v $(pwd)/speakers:/app/speakers \
neosun/fish-speech:all-in-one-v1.2.0アクセス:
- Web UI:http://localhost:7864
- APIドキュメント:http://localhost:7864/docs
# リポジトリをクローン
git clone https://github.com/neosun100/fish-speech.git
cd fish-speech
# 依存関係をインストール
pip install -r requirements.txt
# モデルをダウンロード
# checkpoints/openaudio-s1-mini/ にモデルを配置
# サーバーを起動
python unified_server.py --port 7864 --device cuda- Python 3.10+
- CUDA 11.8+(GPU高速化用)
- Docker 20.10+(Dockerデプロイ用)
- 8GB以上のGPUメモリ推奨
docker pull neosun/fish-speech:all-in-one-v1.2.0
docker run -d \
--name fish-speech-v1.2.0 \
--gpus '"device=0"' \
-p 7864:7864 \
-e PORT=7864 \
-v $(pwd)/checkpoints:/app/checkpoints \
-v $(pwd)/speakers:/app/speakers \
neosun/fish-speech:all-in-one-v1.2.0curl -X POST "http://localhost:7864/api/speakers" \
-F "name=Alice" \
-F "description=プロフェッショナルな女性の声" \
-F "audio=@reference.wav"curl -X POST "http://localhost:7864/api/tts/speaker/{speaker_id}" \
-F "text=こんにちは、これはテストです。" \
-o output.wavcurl -X POST "http://localhost:7864/api/tts" \
-F "text=(excited) すごい!(laughing) はははは!" \
-F "reference_audio=@voice.wav" \
-o emotional_speech.wav完全なAPIドキュメント:http://localhost:7864/docs
貢献を歓迎します!以下の手順に従ってください:
- リポジトリをフォーク
- 機能ブランチを作成(
git checkout -b feature/AmazingFeature) - 変更をコミット(
git commit -m 'Add AmazingFeature') - ブランチにプッシュ(
git push origin feature/AmazingFeature) - プルリクエストを開く
- ✨ 完全な話者管理システムを追加
- ✨ 自動文字起こし機能付き話者登録
- ✨ 永続的な話者ストレージ
- 📚 完全なAPIドキュメント
このプロジェクトはApache License 2.0の下でライセンスされています。
Fish Speechコミュニティによって❤️で作られました
