--- license: mit title: RVC-GUI sdk: gradio emoji: 🌍 colorFrom: blue colorTo: blue pinned: true sdk_version: 5.35.0 short_description: RVC app_file: main/app/app.py startup_duration_timeout: 1h ---
Vietnamese-RVC-main ├── assets │ ├── binary │ │ ├── decrypt.bin │ │ └── world.bin │ ├── f0 │ ├── languages │ │ ├── en-US.json │ │ └── vi-VN.json │ ├── logs │ │ └── mute │ │ ├── energy │ │ │ └── mute.wav.npy │ │ ├── f0 │ │ │ └── mute.wav.npy │ │ ├── f0_voiced │ │ │ └── mute.wav.npy │ │ ├── sliced_audios │ │ │ ├── mute32000.wav │ │ │ ├── mute40000.wav │ │ │ └── mute48000.wav │ │ ├── sliced_audios_16k │ │ │ └── mute.wav │ │ ├── v1_extracted │ │ │ ├── mute.npy │ │ │ ├── mute_chinese.npy │ │ │ ├── mute_japanese.npy │ │ │ ├── mute_korean.npy │ │ │ ├── mute_portuguese.npy │ │ │ ├── mute_vietnamese.npy │ │ │ └── mute_spin.npy │ │ └── v2_extracted │ │ ├── mute.npy │ │ ├── mute_chinese.npy │ │ ├── mute_japanese.npy │ │ ├── mute_korean.npy │ │ ├── mute_portuguese.npy │ │ ├── mute_vietnamese.npy │ │ └── mute_spin.npy │ ├── models │ │ ├── embedders │ │ ├── predictors │ │ ├── pretrained_custom │ │ ├── pretrained_v1 │ │ ├── pretrained_v2 │ │ ├── speaker_diarization │ │ │ ├── assets │ │ │ │ ├── gpt2.tiktoken │ │ │ │ ├── mel_filters.npz │ │ │ │ └── multilingual.tiktoken │ │ │ └── models │ │ └── uvr5 │ ├── presets │ ├── weights │ └── ico.png ├── audios ├── dataset ├── main │ ├── app │ │ ├── core │ │ │ ├── downloads.py │ │ │ ├── editing.py │ │ │ ├── f0_extract.py │ │ │ ├── inference.py │ │ │ ├── model_utils.py │ │ │ ├── presets.py │ │ │ ├── process.py │ │ │ ├── restart.py │ │ │ ├── separate.py │ │ │ ├── training.py │ │ │ ├── tts.py │ │ │ ├── ui.py │ │ │ └── utils.py │ │ ├── tabs │ │ │ ├── downloads │ │ │ │ └── downloads.py │ │ │ ├── editing │ │ │ │ ├── editing.py │ │ │ │ └── child │ │ │ │ ├── audio_effects.py │ │ │ │ └── quirk.py │ │ │ ├── extra │ │ │ │ ├── extra.py │ │ │ │ └── child │ │ │ │ ├── convert_model.py │ │ │ │ ├── f0_extract.py │ │ │ │ ├── fushion.py │ │ │ │ ├── read_model.py │ │ │ │ ├── report_bugs.py │ │ │ │ └── settings.py │ │ │ ├── inference │ │ │ │ ├── inference.py │ │ │ │ └── child │ │ │ │ ├── convert.py │ │ │ │ ├── convert_tts.py │ │ │ │ ├── convert_with_whisper.py │ │ │ │ └── separate.py │ │ │ └── training │ │ │ ├── training.py │ │ │ └── child │ │ │ ├── create_dataset.py │ │ │ └── training.py │ │ ├── app.py │ │ ├── parser.py │ │ ├── run_tensorboard.py │ │ └── variables.py │ ├── configs │ │ ├── config.json │ │ ├── config.py │ │ ├── v1 │ │ │ ├── 32000.json │ │ │ ├── 40000.json │ │ │ └── 48000.json │ │ └── v2 │ │ ├── 32000.json │ │ ├── 40000.json │ │ └── 48000.json │ ├── inference │ │ ├── audio_effects.py │ │ ├── create_dataset.py │ │ ├── create_index.py │ │ ├── separator_music.py │ │ ├── extracting │ │ │ ├── embedding.py │ │ │ ├── extract.py │ │ │ ├── feature.py │ │ │ ├── preparing_files.py │ │ │ ├── rms.py │ │ │ └── setup_path.py │ │ ├── training │ │ │ ├── train.py │ │ │ ├── data_utils.py │ │ │ ├── losses.py │ │ │ ├── mel_processing.py │ │ │ └── utils.py │ │ ├── conversion │ │ │ ├── convert.py │ │ │ ├── pipeline.py │ │ │ └── utils.py │ │ └── preprocess │ │ ├── preprocess.py │ │ └── slicer2.py │ ├── library │ │ ├── utils.py │ │ ├── opencl.py │ │ ├── algorithm │ │ │ ├── attentions.py │ │ │ ├── commons.py │ │ │ ├── discriminators.py │ │ │ ├── encoders.py │ │ │ ├── modules.py │ │ │ ├── normalization.py │ │ │ ├── onnx_export.py │ │ │ ├── residuals.py │ │ │ ├── stftpitchshift.py │ │ │ └── synthesizers.py │ │ ├── architectures │ │ │ ├── demucs_separator.py │ │ │ ├── fairseq.py │ │ │ └── mdx_separator.py │ │ ├── generators │ │ │ ├── hifigan.py │ │ │ ├── mrf_hifigan.py │ │ │ ├── nsf_hifigan.py │ │ │ └── refinegan.py │ │ ├── predictors │ │ │ ├── CREPE │ │ │ │ ├── CREPE.py │ │ │ │ ├── filter.py │ │ │ │ └── model.py │ │ │ ├── FCN │ │ │ │ ├── FCN.py │ │ │ │ ├── convert.py │ │ │ │ └── model.py │ │ │ ├── FCPE │ │ │ │ ├── attentions.py │ │ │ │ ├── encoder.py │ │ │ │ ├── FCPE.py │ │ │ │ ├── stft.py │ │ │ │ ├── utils.py │ │ │ │ └── wav2mel.py │ │ │ ├── RMVPE │ │ │ │ ├── RMVPE.py │ │ │ │ ├── deepunet.py │ │ │ │ ├── e2e.py │ │ │ │ └── mel.py │ │ │ ├── WORLD │ │ │ │ ├── WORLD.py │ │ │ │ └── SWIPE.py │ │ │ └── Generator.py │ │ ├── speaker_diarization │ │ │ ├── audio.py │ │ │ ├── ECAPA_TDNN.py │ │ │ ├── embedding.py │ │ │ ├── encoder.py │ │ │ ├── features.py │ │ │ ├── parameter_transfer.py │ │ │ ├── segment.py │ │ │ ├── speechbrain.py │ │ │ └── whisper.py │ │ └── uvr5_lib │ │ ├── common_separator.py │ │ ├── separator.py │ │ ├── spec_utils.py │ │ └── demucs │ │ ├── apply.py │ │ ├── demucs.py │ │ ├── hdemucs.py │ │ ├── htdemucs.py │ │ ├── states.py │ │ └── utils.py │ └── tools │ ├── gdown.py │ ├── huggingface.py │ ├── mediafire.py │ ├── meganz.py │ ├── noisereduce.py │ └── pixeldrain.py ├── docker-compose-amd.yaml ├── docker-compose-cpu.yaml ├── docker-compose-cuda118.yaml ├── docker-compose-cuda128.yaml ├── Dockerfile ├── Dockerfile.amd ├── Dockerfile.cuda118 ├── Dockerfile.cuda128 ├── LICENSE ├── README.md ├── requirements.txt ├── run_app.bat └── tensorboard.bat# LƯU Ý - **Hiện tại các bộ mã hóa mới như MRF HIFIGAN vẫn chưa đầy đủ các bộ huấn luyện trước** - **Bộ mã hóa MRF HIFIGAN và REFINEGAN không hỗ trợ huấn luyện khi không không huấn luyện cao độ** - **Các mô hình trong kho lưu trữ Vietnamese-RVC được thu thập rải rác trên AI Hub, HuggingFace và các các kho lưu trữ khác. Có thể mang các giấy phép bản quyền khác nhau** # Tuyên bố miễn trừ trách nhiệm - **Dự án Vietnamese-RVC được phát triển với mục đích nghiên cứu, học tập và giải trí cá nhân. Tôi không khuyến khích cũng như không chịu trách nhiệm đối với bất kỳ hành vi lạm dụng công nghệ chuyển đổi giọng nói vì mục đích lừa đảo, giả mạo danh tính, hoặc vi phạm quyền riêng tư, bản quyền của bất kỳ cá nhân hay tổ chức nào.** - **Người dùng cần tự chịu trách nhiệm với hành vi sử dụng phần mềm này và cam kết tuân thủ pháp luật hiện hành tại quốc gia nơi họ sinh sống hoặc hoạt động.** - **Việc sử dụng giọng nói của người nổi tiếng, người thật hoặc nhân vật công chúng phải có sự cho phép hoặc đảm bảo không vi phạm pháp luật, đạo đức và quyền lợi của các bên liên quan.** - **Tác giả của dự án không chịu trách nhiệm pháp lý đối với bất kỳ hậu quả nào phát sinh từ việc sử dụng phần mềm này.** # Điều khoản sử dụng - Bạn phải đảm bảo rằng các nội dung âm thanh bạn tải lên và chuyển đổi qua dự án này không vi phạm quyền sở hữu trí tuệ của bên thứ ba. - Không được phép sử dụng dự án này cho bất kỳ hoạt động nào bất hợp pháp, bao gồm nhưng không giới hạn ở việc sử dụng để lừa đảo, quấy rối, hay gây tổn hại đến người khác. - Bạn chịu trách nhiệm hoàn toàn đối với bất kỳ thiệt hại nào phát sinh từ việc sử dụng sản phẩm không đúng cách. - Tôi sẽ không chịu trách nhiệm với bất kỳ thiệt hại trực tiếp hoặc gián tiếp nào phát sinh từ việc sử dụng dự án này. # Dự án này được xây dựng dựa trên các dự án như sau | Tác Phẩm | Tác Giả | Giấy Phép | |--------------------------------------------------------------------------------------------------------------------------------|-------------------------|-------------| | **[Applio](https://github.com/IAHispano/Applio/tree/main)** | IAHispano | MIT License | | **[Python-audio-separator](https://github.com/nomadkaraoke/python-audio-separator/tree/main)** | Nomad Karaoke | MIT License | | **[Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main)** | RVC Project | MIT License | | **[RVC-ONNX-INFER-BY-Anh](https://github.com/PhamHuynhAnh16/RVC_Onnx_Infer)** | Phạm Huỳnh Anh | MIT License | | **[Torch-Onnx-Crepe-By-Anh](https://github.com/PhamHuynhAnh16/TORCH-ONNX-CREPE)** | Phạm Huỳnh Anh | MIT License | | **[Hubert-No-Fairseq](https://github.com/PhamHuynhAnh16/hubert-no-fairseq)** | Phạm Huỳnh Anh | MIT License | | **[Local-attention](https://github.com/lucidrains/local-attention)** | Phil Wang | MIT License | | **[TorchFcpe](https://github.com/CNChTu/FCPE/tree/main)** | CN_ChiTu | MIT License | | **[FcpeONNX](https://github.com/deiteris/voice-changer/blob/master-custom/server/utils/fcpe_onnx.py)** | Yury | MIT License | | **[ContentVec](https://github.com/auspicious3000/contentvec)** | Kaizhi Qian | MIT License | | **[Mediafiredl](https://github.com/Gann4Life/mediafiredl)** | Santiago Ariel Mansilla | MIT License | | **[Noisereduce](https://github.com/timsainb/noisereduce)** | Tim Sainburg | MIT License | | **[World.py-By-Anh](https://github.com/PhamHuynhAnh16/world.py)** | Phạm Huỳnh Anh | MIT License | | **[Mega.py](https://github.com/3v1n0/mega.py)** | Marco Trevisan | No License | | **[Gdown](https://github.com/wkentaro/gdown)** | Kentaro Wada | MIT License | | **[Whisper](https://github.com/openai/whisper)** | OpenAI | MIT License | | **[PyannoteAudio](https://github.com/pyannote/pyannote-audio)** | pyannote | MIT License | | **[AudioEditingCode](https://github.com/HilaManor/AudioEditingCode)** | Hila Manor | MIT License | | **[StftPitchShift](https://github.com/jurihock/stftPitchShift)** | Jürgen Hock | MIT License | | **[Codename-RVC-Fork-3](https://github.com/codename0og/codename-rvc-fork-3)** | Codename;0 | MIT License | | **[Penn](https://github.com/interactiveaudiolab/penn)** | Interactive Audio Lab | MIT License | # Kho mô hình của công cụ tìm kiếm mô hình - **[VOICE-MODELS.COM](https://voice-models.com/)** # Các phương pháp trích xuất F0 trong RVC Tài liệu này trình bày chi tiết các phương pháp trích xuất cao độ được sử dụng, thông tin về ưu, nhược điểm, sức mạnh và độ tin cậy của từng phương pháp theo trải nghiệm cá nhân. | Phương pháp | Loại | Ưu điểm | Hạn chế | Sức mạnh | Độ tin cậy | |--------------------|----------------|---------------------------|------------------------------|--------------------|--------------------| | pm | Praat | Nhanh | Kém chính xác | Thấp | Thấp | | dio | PYWORLD | Thích hợp với Rap | Kém chính xác với tần số cao | Trung bình | Trung bình | | harvest | PYWORLD | Chính xác hơn DIO | Xử lý chậm hơn | Cao | Rất cao | | crepe | Deep Learning | Chính xác cao | Yêu cầu GPU | Rất cao | Rất cao | | mangio-crepe | crepe nofilter | Tối ưu hóa cho RVC | Đôi khi kém crepe gốc | Trung bình đến cao | Trung bình đến cao | | fcpe | Deep Learning | Chính xác, thời gian thực | Cần GPU mạnh | Khá | Trung bình | | fcpe-legacy | Old | Chính xác, thời gian thực | Cũ hơn | Khá | Trung bình | | rmvpe | Deep Learning | Hiệu quả với giọng hát | Tốn tài nguyên | Rất cao | Xuất sắc | | rmvpe-legacy | Old | Tính toán với Fmin-max | Cũ hơn | Cao | Khá | | yin | Librosa | Đơn giản, hiệu quả | Dễ lỗi bội | Trung bình | Thấp | | pyin | Librosa | Ổn định hơn YIN | Tính toán phức tạp hơn | Khá | Khá | | swipe | WORLD | Độ chính xác cao | Nhạy cảm với nhiễu | Cao | Khá | | piptrack | Librosa | Nhanh | Kém chính xác | Thấp | Thấp | | fcn | Deep Learning | Không Rõ | F0 Thấp | Không Rõ | Không Rõ | # Báo cáo lỗi - **Với trường hợp gặp lỗi khi sử dụng mã nguồn này tôi thực sự xin lỗi bạn vì trải nghiệm không tốt này, bạn có thể gửi báo cáo lỗi thông qua cách phía dưới** - **Bạn có thể báo cáo lỗi cho tôi thông qua hệ thống báo cáo lỗi webhook trong giao diện sử dụng** - **Với trường hợp hệ thống báo cáo lỗi không hoạt động bạn có thể báo cáo lỗi cho tôi thông qua Discord `pham_huynh_anh` Hoặc [ISSUE](https://github.com/PhamHuynhAnh16/Vietnamese-RVC/issues)** # ☎️ Liên hệ tôi - Discord: **pham_huynh_anh**