ChatTTS让文本一键变语音

什么是ChatTTS

ChatTTS（Chat Text To Speech）是专为对话场景设计的文本生成语音(TTS)模型，特别适用于大型语言模型(LLM)助手的对话任务，以及诸如对话式音频和视频介绍等应用。它支持中文和英文，还可以穿插笑声、说话间的停顿、以及语气词等，听起来很真实自然，在语音合成中表现出高质量和自然度（ChatTTS团队声称：突破开源天花板）。
由于ChatTTS以下极具吸引人的特点，使得它一经推出就成为了爆款：

多语言支持：ChatTTS的一个关键特性是支持多种语言，包括英语和中文。这使其能够为广泛用户群提供服务，并克服语言障碍。

大规模数据训练：ChatTTS使用了大量数据进行训练，大约有1000万小时的中文和英文数据。这样的大规模训练使其声音合成质量高，听起来自然。

对话任务兼容性：ChatTTS很适合处理通常分配给大型语言模型LLMs的对话任务。它可以为对话生成响应，并在集成到各种应用和服务时提供更自然流畅的互动体验。

开源计划：ChatTTS团队目前开源一个经过训练的基础模型。

控制和安全性：ChatTTS致力于提高模型的可控性，添加水印，并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。

易用性：ChatTTS为用户提供了易于使用的体验。它只需要文本信息作为输入，就可以生成相应的语音文件。这样的简单性使其方便有语音合成需求的用户。

项目地址：https://github.com/jianchang512/ChatTTS-ui

登录上财人工智能平台

登录上财教学网https://bb.sufe.edu.cn，选择“算力与实验”--“人工智能平台”进入平台

选择GPU服务申请，自动跳转到gemini平台

查看自己的可用资源配额

首次登录设置自己的SSH登录密码，方便以后使用，设置一次即可

创建项目并初始化开发环境

创建ChatTTS的演示环境

镜像选择：公开镜像 study:chattts-v1

数据集：公开数据集 ChatTTS演示项目代码

模型选择：公开模型 ChatTTS模型

映射内部端口8080

启动并运行程序

/root/start.sh 初始化开发环境

添加内部端口8080，映射到外部

通过web界面访问

在jupyterlab界面上，选择code目录下的chattts目录，进入项目代码

http://10.2.170.106:20793

打开web管理端，注意要把内部端口8080映射到外部端口，而且要找到自己的运行项目的ip地址，我的项目中的ip地址是：10.2.170.106，我的外部端口是20793

校内访问链接：http://10.2.170.106:20793

注意，学生使用sufe的三大运营商的网络时，需要使用学校网信中心提供的VPN服务，否则有可能网络不可达

音色选择

通过点击骰子图标可以对音色和语速进行随机切换，也可以在https://github.com/kangyiwen/TTSlist,先试听音色，选择想要的音色条直接输入再合成。
另外还有一个音色库：http://www.ttslist.com/

项目中还包含了其他案例

安装配置环境
基础：一句话、多句话语音合成
进阶：音色、语调、笑声、停顿控制
进阶：自动生成语气词
封装函数
接入大模型多轮对话（零一万物、文心一言）

欢迎同学们到上财人工智能平台动手部署一个自己的语音合成项目！

参考文档

Github：https://github.com/2noise/ChatTTS
HuggingFace：https://huggingface.co/2Noise/ChatTTS
https://www.bilibili.com/video/BV1zn4y1o7iV

results matching ""

No results matching ""