Spaces:
No application file
No application file
A newer version of the Gradio SDK is available:
5.42.0
イントロダクション
!!! warning
私たちは、コードベースの違法な使用について一切の責任を負いません。お住まいの地域の DMCA(デジタルミレニアム著作権法)およびその他の関連法については、現地の法律を参照してください。
このコードベースは BSD-3-Clause
ライセンスの下でリリースされており、すべてのモデルは CC-BY-NC-SA-4.0 ライセンスの下でリリースされています。
要件
- GPU メモリ: 4GB(推論用)、8GB(微調整用)
- システム: Linux、Windows
Windows セットアップ
Windows のプロユーザーは、コードベースを実行するために WSL2 または Docker を検討することができます。
非プロの Windows ユーザーは、Linux 環境なしでコードベースを実行するために以下の方法を検討することができます(モデルコンパイル機能付き、つまり torch.compile
):
- プロジェクトパッケージを解凍します。
install_env.bat
をクリックして環境をインストールします。install_env.bat
のUSE_MIRROR
項目を編集して、ミラーサイトを使用するかどうかを決定できます。USE_MIRROR=false
は、最新の安定版torch
をオリジナルサイトからダウンロードします。USE_MIRROR=true
は、最新のtorch
をミラーサイトからダウンロードします。デフォルトはtrue
です。install_env.bat
のINSTALL_TYPE
項目を編集して、コンパイル環境のダウンロードを有効にするかどうかを決定できます。INSTALL_TYPE=preview
は、コンパイル環境付きのプレビュー版をダウンロードします。INSTALL_TYPE=stable
は、コンパイル環境なしの安定版をダウンロードします。
- ステップ2で
USE_MIRROR=preview
の場合、このステップを実行します(オプション、コンパイルモデル環境を有効にするため):- 以下のリンクを使用してLLVMコンパイラをダウンロードします:
- LLVM-17.0.6(オリジナルサイトダウンロード)
- LLVM-17.0.6(ミラーサイトダウンロード)
LLVM-17.0.6-win64.exe
をダウンロードした後、ダブルクリックしてインストールし、適切なインストール場所を選択し、最も重要なのはAdd Path to Current User
をチェックして環境変数に追加することです。- インストールが完了したことを確認します。
- Microsoft Visual C++ 再頒布可能パッケージをダウンロードしてインストールし、潜在的な.dllの欠落問題を解決します。
- Visual Studio Community Editionをダウンロードしてインストールし、MSVC++ビルドツールを取得し、LLVMのヘッダーファイル依存関係を解決します。
- Visual Studio ダウンロード
- Visual Studio Installerをインストールした後、Visual Studio Community 2022をダウンロードします。
- 以下の図のように
Modify
ボタンをクリックし、Desktop development with C++
オプションを見つけてチェックしてダウンロードします。
- インストール CUDA Toolkit 12
- 以下のリンクを使用してLLVMコンパイラをダウンロードします:
start.bat
をダブルクリックして、Fish-Speechトレーニング推論設定WebUIページに入ります。- (オプション)直接推論ページに行きたい場合は、プロジェクトルートディレクトリの
API_FLAGS.txt
を編集し、最初の3行を次のように変更します:--infer # --api # --listen ... ...
- (オプション)APIサーバーを起動したい場合は、プロジェクトルートディレクトリの
API_FLAGS.txt
を編集し、最初の3行を次のように変更します:# --infer --api --listen ... ...
- (オプション)直接推論ページに行きたい場合は、プロジェクトルートディレクトリの
- (オプション)
run_cmd.bat
をダブルクリックして、このプロジェクトのconda/pythonコマンドライン環境に入ります。
Linux セットアップ
# python 3.10仮想環境を作成します。virtualenvも使用できます。
conda create -n fish-speech python=3.10
conda activate fish-speech
# pytorchをインストールします。
pip3 install torch torchvision torchaudio
# fish-speechをインストールします。
pip3 install -e .
# (Ubuntu / Debianユーザー) soxをインストールします。
apt install libsox-dev
変更履歴
- 2024/07/02: Fish-Speech を 1.2 バージョンに更新し、VITS デコーダーを削除し、ゼロショット能力を大幅に強化しました。
- 2024/05/10: Fish-Speech を 1.1 バージョンに更新し、VITS デコーダーを実装して WER を減少させ、音色の類似性を向上させました。
- 2024/04/22: Fish-Speech 1.0 バージョンを完成させ、VQGAN および LLAMA モデルを大幅に修正しました。
- 2023/12/28:
lora
微調整サポートを追加しました。 - 2023/12/27:
gradient checkpointing
、causual sampling
、およびflash-attn
サポートを追加しました。 - 2023/12/19: webui および HTTP API を更新しました。
- 2023/12/18: 微調整ドキュメントおよび関連例を更新しました。
- 2023/12/17:
text2semantic
モデルを更新し、音素フリーモードをサポートしました。 - 2023/12/13: ベータ版をリリースし、VQGAN モデルおよび LLAMA に基づく言語モデル(音素のみサポート)を含みます。