filepath = "data/" # 添加路径
filename = os.listdir(filepath) # 得到文件夹下的所有文件名称
#f = wave.open(filepath + filename[1], 'rb')
#print(filename)
for i in range(len(filename)):
with open("data/"+failename[i], 'rb') as pcmfile:
pcmdata = pcmfile.read()
with wave.open("data/"+filename[i][:-3] + '.wav', 'wb') as wavfile:
wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))
wavfile.writeframes(pcmdata)
利用
split_on_silence(sound,min_silence_len, silence_thresh, keep_silence=400)函数
第一个参数为待分割音频,第二个为多少秒“没声”代表沉默,第三个为分贝小于多少dBFS时代表沉默,第四个为为截出的每个音频添加多少ms无声
from pydub import AudioSegment
from pydub.silence import split_on_silence
sound = AudioSegment.from_mp3("movie300.wav")
loudness = sound.dBFS
#print(loudness)
chunks = split_on_silence(sound,
# must be silent for at least half a second,沉默半秒
min_silence_len=430,
# consider it silent if quieter than -16 dBFS
silence_thresh=-45,
keep_silence=400
print('总分段:', len(chunks))
# 放弃长度小于2秒的录音片段
for i in list(range(len(chunks)))[::-1]:
if len(chunks[i]) <= 2000 or len(chunks[i]) >= 10000:
chunks.pop(i)
print('取有效分段(大于2s小于10s):', len(chunks))
for x in range(0,int(len(sound)/1000)):
print(x,sound[x*1000:(x+1)*1000].max_dBFS)
for i, chunk in enumerate(chunks):
chunk.export("cutFilter300/chunk{0}.wav".format(i), format="wav")
#print(i)
将pcm文件批量处理成wav文件import waveimport osfilepath = "data/" # 添加路径filename = os.listdir(filepath) # 得到文件夹下的所有文件名称#f = wave.open(filepath + filename[1], 'rb')#print(filename)for i in range(len(fi...
电脑面前的你,是否也希望能让电脑听命于你? 当你累的时候,只需说一声“我累了”,电脑就会放着优雅的轻音乐来让你放松。 或许你希望你在百忙之中,能让电脑郎读最新的NBA比分赛况….一切都是那么惬意。
在此告诉你,不要灰心,我们真的可以做一个。做一个
语音
识别? 我相信很多人到这里会有两个心态,一是好奇,二是避之千里。
其实不然,你可以不用懂太多的编程技能,你甚至也可以不用懂自然语言处理技术,这篇文章虽然
实现
了
语音
操控但是绝没有你们想象的那么复杂。 如果仅仅把
语音
识别作为一个
实现
了的接口的话,剩下的逻辑就仅仅是IF-ELSE这些简单的元素了。
实现
语音
操控的原理
语音
操控分为
语音
识别和
语音
朗读
本文实例为大家分享了
python
实现
百度
语音
识别的具体代码,供大家参考,具体内容如下
详细百度
语音
识别api文档
先下载
python
用SDK,可以用
python
setup.py install安装
# 引入Speech SDK
from aip import AipSpeech
# 定义常量
APP_ID = '你的 App ID'
API_KEY = '你的 API Key'
SECRET_KEY = '你的 Secret Key'
# 初始化AipSpeech对象
aipSpeech = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
在上面代码中,常量
给儿子听的英文音频中有大量的静音段,效率很低。刚开始找个剪辑软件goldwave一个一个剪,后来发现太费劲,就想用程序
实现
。
python
的优势是有大量的开源库可用,于是用了两三天时间,了解了一下音频处理库,利用了成熟的库
pydub
中的函数,基本
实现
了想要的功能。
1.环境准备
主要需要一个函数库
pydub
,这个比较好安装,用代码:
pip install
pydub
就可以安装。
另一个是需要安装ffmpeg,具体如下链接。
ffmpeg的安装
安装完成后需要配置ffmpeg的环境变量,上面
我敢保证,用过微软的
语音
合成后,你就会发现这是世界上最好的
语音
合成软件。99.99%接近人声自然流程。语调也非常自然,结合其独特的sml标记语言,合成过程中可控制主播声色和音调,以及
停顿
等各种的内容。
再多的介绍,自己可以百度去了解,本文讲解如何使用免费的方法合成语言输出成MP3格式的音频文件。本文最后会贴出源代码,代码需要使用
Python
环境,这里会详细介绍。
源码在最后,使用方法见最后。
源码是
Python
脚本,不需要去微软官方注册id 不用绑定卡,微软官方的演示:https://azure.mi
一、腾讯
语音
合成介绍
腾讯云
语音
合成技术(TTS)可以将任意文本转化为
语音
,
实现
让机器和应用张口说话。 腾讯TTS技术可以应用到很多场景,比如,移动APP
语音
播报新闻;智能设备
语音
提醒;依靠网上现有节目或少量录音,快速合成明星
语音
,降低邀约成本;支持车载导航
语音
合成的个性化
语音
播报。(废话一大堆)。。。
二、腾讯
语音
合成
python
SDK文档
安装
Python
SDK 前,先获取安全凭证。在第一次使用云 API 之前,用户首先需要在腾讯云控制台上申请安全凭证,安全凭证包括 SecretID 和 SecretKey, SecretID 是用于标识 API 调用者的身份,SecretKey