前言:你是否曾为AI语音的生硬呆板而失望?是否希望找到一款能自然表达笑声、停顿和语气词的开源语音工具?一个名为ChatTTS的文本转语音项目在GitHub上掀起风暴,被开发者誉为“突破开源语音天花板”的革命性工具。ChatTTS让我们再次见证了开源社区的创造力。它的出现不仅降低了高质量语音合成的门槛,更为人机交互带来了全新可能。


一、ChatTTS简介

ChatTTS是专为对话场景设计的语音生成模型,特别适合LLM助手对话任务。它支持中英文双语,最大模型使用了超过10万小时的中英文数据进行训练(开源版本为4万小时训练模型)。

与普通TTS相比,ChatTTS有四大突破性优势:

  • 对话级自然流畅度:针对对话场景优化,语音合成效果接近真人对话的韵律节奏。

  • 细粒度韵律控制:通过简单标记即可在语音中加入笑声、停顿和语气词。例如输入“你好啊[laugh]朋友[laugh]”,合成语音中会自然加入笑声。

  • 多说话人支持:只需调整参数即可生成不同音色的语音,还能实现中英文混读,效果自然到被网友称为“留子圈神器”。

  • 多角色语音支持:支持不同演讲者的声音

实际体验中,ChatTTS生成的语音韵律自然度确实超越了绝大多数开源TTS模型,甚至接近微软Azure等商业产品的水平。

官方GitHub

https://github.com/2noise/ChatTTS

Hugging Face空间

https://huggingface.co/2Noise/ChatTTS

访问官网demo地址即可在线体验

https://chattts.com/zh?__theme=dark


二、ChatTTS超强功能展示

1. 笑声与停顿控制

在文本中简单添加控制标签,就能让AI语音拥有真人般的表现力:

text = “你今天看起来真精神[uv_break]是不是有什么好事[laugh]分享一下嘛[laugh]”

生成的语音中会精准插入恰到好处的停顿和自然笑声

2. 音色自由定制

通过调整音色参数,可以创造出千人千声的效果:

params_infer_code = {
    ‘spk_emb’: rand_spk, # 随机采样或自定义音色
    ‘temperature’: .3,   # 控制随机性
    ‘top_P’: 0.7,        # 解码参数
    ‘top_K’: 20,         # 解码参数
}

有用户甚至用它还原了乔布斯发布会的声音,模仿泰勒·斯威夫特时“几乎听不出AI味”。


三、ChatTTS本地部署

(1) 环境准备

# 创建环境
conda create -n ChatTTS python=3.11 -y
conda activate ChatTTS

# 克隆项目
git clone https://github.com/2noise/ChatTTS.git
cd ChatTTS

# 安装依赖,根据CUDA版本调整
pip install -r requirements.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 

(2)代码调用

import ChatTTS
chat = ChatTTS.Chat()
 # 加速推理
chat.load_models(compile=True) 


texts = [“你的文本在这里”]
wavs = chat.infer(texts, use_decoder=True)

四、ChatTTS应用场景

  1. 自媒体创作:为视频解说生成带情绪的配音,告别机械音

  2. 电商直播:24小时不间断的真人风格产品解说,提高转化率

  3. 在线教育:为课程内容添加自然生动的讲解声音

  4. AI助手对话:让LLM大模型拥有自然发声能力,提升交互体验

  5. 有声书制作:虽然目前30秒以上音频生成仍有挑战,但分段处理效果惊艳

当前局限与注意事项

  1. 长文本处理:生成超过30秒的音频可能不稳定,需手动分段处理

  2. 音色稳定性:相同参数下音色可能略有波动,需要“抽卡”式多试几次

  3. 硬件要求:生成30秒音频需至少4GB显存

  4. 伦理安全:为防止滥用,开源版本特意添加了高频噪音并压缩为mp3格式,团队已开发检测模型

开发者强调:请严格遵守法律和伦理准则,避免技术滥用风险。


参考链接:

ChatTTS介绍

开源语音新巅峰!ChatTTS:笑声停顿皆可控,轻松克隆真人语音

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐