ChatTTS让文本一键变语音
什么是ChatTTS
ChatTTS(Chat Text To Speech)是专为对话场景设计的文本生成语音(TTS)模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,还可以穿插笑声、说话间的停顿、以及语气词等,听起来很真实自然,在语音合成中表现出高质量和自然度(ChatTTS团队声称:突破开源天花板)。
由于ChatTTS以下极具吸引人的特点,使得它一经推出就成为了爆款:
多语言支持:ChatTTS的一个关键特性是支持多种语言,包括英语和中文。这使其能够为广泛用户群提供服务,并克服语言障碍。
大规模数据训练:ChatTTS使用了大量数据进行训练,大约有1000万小时的中文和英文数据。这样的大规模训练使其声音合成质量高,听起来自然。
对话任务兼容性:ChatTTS很适合处理通常分配给大型语言模型LLMs的对话任务。它可以为对话生成响应,并在集成到各种应用和服务时提供更自然流畅的互动体验。
开源计划:ChatTTS团队目前开源一个经过训练的基础模型。
控制和安全性:ChatTTS致力于提高模型的可控性,添加水印,并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。
易用性:ChatTTS为用户提供了易于使用的体验。它只需要文本信息作为输入,就可以生成相应的语音文件。这样的简单性使其方便有语音合成需求的用户。
登录上财人工智能平台
登录上财教学网https://bb.sufe.edu.cn,选择“算力与实验”--“人工智能平台”进入平台
选择GPU服务申请,自动跳转到gemini平台
查看自己的可用资源配额
首次登录设置自己的SSH登录密码,方便以后使用,设置一次即可
创建项目并初始化开发环境
创建ChatTTS的演示环境
镜像选择:公开镜像 study:chattts-v1
数据集:公开数据集 ChatTTS演示项目代码
模型选择:公开模型 ChatTTS模型
映射内部端口8080
启动并运行程序
/root/start.sh 初始化开发环境
- 添加内部端口8080,映射到外部
通过web界面访问
- 在jupyterlab界面上,选择code目录下的chattts目录,进入项目代码
打开web管理端,注意要把内部端口8080映射到外部端口,而且要找到自己的运行项目的ip地址,我的项目中的ip地址是:10.2.170.106,我的外部端口是20793
校内访问链接:http://10.2.170.106:20793
- 注意,学生使用sufe的三大运营商的网络时,需要使用学校网信中心提供的VPN服务,否则有可能网络不可达
音色选择
通过点击骰子图标可以对音色和语速进行随机切换,也可以在https://github.com/kangyiwen/TTSlist,先试听音色,选择想要的音色条直接输入再合成。
另外还有一个音色库:http://www.ttslist.com/
项目中还包含了其他案例
安装配置环境
基础:一句话、多句话语音合成
进阶:音色、语调、笑声、停顿控制
进阶:自动生成语气词
封装函数
接入大模型多轮对话(零一万物、文心一言)