ChatTTS让文本一键变语音

什么是ChatTTS

  • ChatTTS(Chat Text To Speech)是专为对话场景设计的文本生成语音(TTS)模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,还可以穿插笑声、说话间的停顿、以及语气词等,听起来很真实自然,在语音合成中表现出高质量和自然度(ChatTTS团队声称:突破开源天花板)。

  • 由于ChatTTS以下极具吸引人的特点,使得它一经推出就成为了爆款:

多语言支持:ChatTTS的一个关键特性是支持多种语言,包括英语和中文。这使其能够为广泛用户群提供服务,并克服语言障碍。

大规模数据训练:ChatTTS使用了大量数据进行训练,大约有1000万小时的中文和英文数据。这样的大规模训练使其声音合成质量高,听起来自然。

对话任务兼容性:ChatTTS很适合处理通常分配给大型语言模型LLMs的对话任务。它可以为对话生成响应,并在集成到各种应用和服务时提供更自然流畅的互动体验。

开源计划:ChatTTS团队目前开源一个经过训练的基础模型。

控制和安全性:ChatTTS致力于提高模型的可控性,添加水印,并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。

易用性:ChatTTS为用户提供了易于使用的体验。它只需要文本信息作为输入,就可以生成相应的语音文件。这样的简单性使其方便有语音合成需求的用户。

登录上财人工智能平台

登录上财教学网https://bb.sufe.edu.cn,选择“算力与实验”--“人工智能平台”进入平台

选择GPU服务申请,自动跳转到gemini平台

查看自己的可用资源配额

首次登录设置自己的SSH登录密码,方便以后使用,设置一次即可

创建项目并初始化开发环境

创建ChatTTS的演示环境

镜像选择:公开镜像 study:chattts-v1

数据集:公开数据集 ChatTTS演示项目代码

模型选择:公开模型 ChatTTS模型

映射内部端口8080

启动并运行程序

/root/start.sh 初始化开发环境
  • 添加内部端口8080,映射到外部

通过web界面访问

  • 在jupyterlab界面上,选择code目录下的chattts目录,进入项目代码

http://10.2.170.106:20793

打开web管理端,注意要把内部端口8080映射到外部端口,而且要找到自己的运行项目的ip地址,我的项目中的ip地址是:10.2.170.106,我的外部端口是20793

校内访问链接:http://10.2.170.106:20793

  • 注意,学生使用sufe的三大运营商的网络时,需要使用学校网信中心提供的VPN服务,否则有可能网络不可达

音色选择

项目中还包含了其他案例

  • 安装配置环境

  • 基础:一句话、多句话语音合成

  • 进阶:音色、语调、笑声、停顿控制

  • 进阶:自动生成语气词

  • 封装函数

  • 接入大模型多轮对话(零一万物、文心一言)

欢迎同学们到上财人工智能平台动手部署一个自己的语音合成项目!

参考文档

Copyright © 实验中心 2025            该文件修订时间: 2024-11-24 06:35:23

results matching ""

    No results matching ""