文本转语音

CosyVoice,长文本很慢

https://github.com/FunAudioLLM/CosyVoice

安装项目,建议使用git下载

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git config --global --add safe.directory /home/CosyVoice 将目录设置为安全目录
sudo git submodule update --init --recursive

安装依赖,不要用代理``
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git #克隆声音
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git #内置音色
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git #语言控制
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git

解压安装ttsfrd

cd CosyVoice-ttsfrd
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py3-none-any.whl
pip install ttsfrd-0.4.2-cp310-cp310-linux_x86_64.whl
cd ..

需额外安装一个依赖
pip install matcha

启动
python3 webui.py --port 50000 --model_dir ./pretrained_models/CosyVoice2-0.5B

使用xinference部署

使用CosyVoice模型必须使用更全依赖
更新pip依赖树
pip install -U pip setuptools wheel

pip install "xinference[all]" -i https://mirrors.cloud.tencent.com/pypi/simple

如果出现依赖冲突错误则
sudo apt-get install python3-dev
pip install -U pip setuptools wheel

确保ffmpeg不小于6.1
ffmpeg --version 验证版本
sudo add-apt-repository ppa:ubuntuhandbook1/ffmpeg6添加非官方源,记的按回车
sudo apt update
sudo apt install ffmpeg
更新ffmpeg后需要重启xinference

目前未研究出如何从 已下载文件运行,要使用魔达社区下载启动,不然出现类型无法识别问题

ChatTTS,长文本也很快

https://github.com/2noise/ChatTTS/blob/main/docs/cn/README.md