Python 语音合成需要哪些技术？

Question

Python 语音合成需要哪些技术？

关注者

25

被浏览

4,919

7 个回答

在Python中进行语音合成（Text-to-Speech，TTS）需要借助相关库和技术。以下是一些建议：

gTTS（Google Text-to-Speech）：gTTS是一个Python库，它利用了Google的Text-to-Speech引擎。它可以将文本转换为语音并保存为MP3文件。要使用gTTS，你需要安装gTTS库：

bashCopy code
pip install gtts

然后在Python代码中使用它：

pythonCopy code
from gtts import gTTS
import os
text = "你好，这是一个示例文本。"
language = 'zh-cn'
speech = gTTS(text=text, lang=language, slow=False)
speech.save("output.mp3")
os.system("start output.mp3")

pyttsx3：pyttsx3是一个跨平台的Python库，支持离线语音合成。它不依赖于外部服务，因此具有更高的隐私性。要使用pyttsx3，首先安装库：

bashCopy code
pip install pyttsx3

然后在Python代码中使用它：

pythonCopy code
import pyttsx3

TPEngineer EECS · Accepted Answer

直接用百度paddlespeech 中的 PP-TTS 模型，不到9行代码，离线可用，开源免费。

演示效果

输入文本

PP-TTS 是 PaddleSpeech 自研的流式语音合成系统。在实现前沿算法的基础上，使用了更快的推理引擎，实现了流式语音合成技术，使其满足商业语音交互场景的需求。

输出音频

https://www.zhihu.com/video/1624693214337724416

动手实现

1. 先安装好 paddlespeech 这个库

pip install paddlespeech

2. paddlespeech 依赖需要用到 nltk 包，但是有时会因为网络原因导致不好下载，此处手动下载一下放到百度服务器的包

wget https://paddlespeech.bj.bcebos.com/Parakeet/tools/nltk_data.tar.gz
tar zxvf nltk_data.tar.gz

3. 生成语音

from paddlespeech.cli.tts import TTSExecutor
tts_executor = TTSExecutor()
wav_file = tts_executor(
    text="PP-TTS 是 PaddleSpeech 自研的流式语音合成系统。在实现前沿算法的基础上，使用了更快的推理引擎，实现了流式语音合成技术，使其满足商业语音交互场景的需求。",
    output='output.wav',
    am='fastspeech2_mix',
    voc='hifigan_csmsc',
    lang='mix',
    spk_id=174)
# fastspeech2_mix 语音合成声学模型
# hifigan_csmsc 语音合成声码器模型，这里表示单说话人，女声，约12小时，具有高音频质量

我们打开 output.wav 就能拿到生成出的语音了。

总结

paddlespeech 实现语音合成可以说非常简单，一共不到 9 行代码。