ChatAudio 实现语音对话（低仿微信聊天）

相关文章推荐
大方的茴香 · 21博鳌｜金地黄俊灿：保持规模利润平衡，才能 ...· 5 月前 ·
活泼的红金鱼 · 朱竹清去衣泳装p图_哔哩哔哩_bilibili· 1 年前 ·
唠叨的桔子 · 丰田THS和本田i-MMD你更看好哪一个？ ...· 1 年前 ·
面冷心慈的红酒 · 【影评】《流浪地球2》与《流浪地球》 - 哔哩哔哩· 1 年前 ·
胆小的鼠标 · 不要忘记我爱你（2022年古力娜扎、刘以豪主 ...· 1 年前 ·
前面说到了， OpenAI 中不存在这种 API ，但是提供了一个 Whisper 机器人，支持将音频流转化为文本，也就是 STT 。
实现如下返回的 text 就是识别的语音内容
const {
   data: { text: prompt },
} = await openai.createTranscription(
  fs.createReadStream(fileName),
  "whisper-1"
实现文字转语音（TTS）
OpenAI 目前只提供了 STT，如果需要返回给用户一个音频的话。就需要用到国内的 科大讯飞 每天有 5.05w 次免费的 TTS。
如果你有国外信用卡，可以考虑使用微软推出 Azure，很多电报机器人就是用的它来开发的，免费使用 12个月。
所以在这里还是使用科大讯飞的 TTS
文字生成音频文件
音频没有直接返回流，而是直接生成一个音频返回文件路径给前端播放。
回复音频存放在 chat-audio/client/audio 中
先在 讯飞TTS 中获取需要的 keys
const tts = promisify(require("./utils/tts"));
// 环境变量
require("dotenv").config();
// 生成音频
const generateAudio = (text) => {
  return new Promise((resolve, reject) => {
    const auth = {
      app_id: process.env.TTS_APP_ID,
      app_skey: process.env.TTS_API_SECRET,
      app_akey: process.env.TTS_API_KEY
    // 讯飞 api 参数配置
    const business = {
      aue: "lame",
      sfl: 1,
      speed: 50,
      pitch: 50,
      volume: 100,
      bgs: 0,
    const id = new Date().getTime()
    // 存储文件的路径
    const file = path.resolve(__dirname, `client/audio/${id}.m4a`);
    try {
      // 执行请求
      tts(auth, business, text, file).then((res) => {
        // 返回静态文件地址
        resolve(`audio/${id}.m4a`)
    } catch (e) {
      reject(e)
封装好的讯飞的语音包 TTS，放在 ChatAudio 仓库 里面。这里就不展示出来了
调用 STT & TTS
音频对话接口
通过 api/audio，让客户端调用此方法
app.use(fileUpload());
app.post("api/audio", async (req, res) => {
  // 没有上传音频抛出异常
  if (!req.files) return res.status(400).send({ message: "缺少参数", error: true });
  const file = req.files.file;
  // 存放用户上传的文件
  const fileName = "audio.m4a";
  file.mv(fileName, async (err) => {
    if (err) {
      return res.status(500).send(err);
        // 使用ChatGPT 的 STT 机器人（Whisper）
    const {
      data: { text: prompt },
    } = await openai.createTranscription(
      fs.createReadStream(fileName),
      "whisper-1"
    console.log("解析的音频内容是>>>", prompt);
    // 判断用户上传音频是否存在内容
    if (!prompt.trim().length)
      return res.send({ message: "未识别到语音内容", error: true });
    // 将转用户提问的文本内容，去调用 ChatGPT 的回复
    const chatReply = await handleIssueReply(prompt);
    // 将 ChatGPT 的回复通过 TTS 转化为语音
    const content = await generateAudio(chatReply);
    console.log("生成的音频是>>>", content);
    res.send([
      { type: "system", content, chatReply, infoType: "audio", playStatus: false },
ChatGPT 回复问题能力
不管是 TTS、STT还是TTT，最核心对话功能还是通过 ChatGPT实现的。
ChatGPT 配置就不细说了，配置一个 KEY 然后封装一个回复问题的方法
获取 ChatGPT KEY 
const { Configuration, OpenAIApi } = require("openai");
// openai 配置
const configuration = new Configuration({
  apiKey: process.env.OPENAI_API_KEY,
// 创建 openai 实例
const openai = new OpenAIApi(configuration);
const handleIssueReply = async (prompt) => {
  const {
    data: { choices },
  } = await openai.createCompletion({
    model: "text-davinci-003",
    prompt,
    temperature: 0.5,
    max_tokens: 1000,
    top_p: 1.0,
    frequency_penalty: 0.0,
    presence_penalty: 0.0,
  const chat = choices[0].text?.trim();
  console.log("生成的文本内容是>>>", chat);
  return chat;
实现效果如下，没有录屏可以自行感受下。
补充功能 Text To Text
前面做的语音对话，只是为了让你不再孤单寂寞，但是在日常开发工作中基本上不会使用到语音对话，所以单独做了个可以直接使用的文字聊天功能。
所以新开了一个接口直接调用 ChatGPT 的回复。
app.get("/api/issue", async (req, res) => {
  // 从 query 中取出用户提出的问题
  const { issue } = req.query;
    if (!issue.trim()) return res.status(400).send({ message: "缺少参数", error: true });
  const chatReply = await handleIssueReply(issue);
  return res.send([{ type: "system", content: chatReply }]);
前端没什么太多需要注意的，列一下依赖吧，均采用的 CDN。
Elment UI
代码在 chat-audio/client/index.html 这里
使用 ChatAudio
git clone git@github.com:CrazyMrYan/chat-audio.git
配置 Key
在 ENV 文件中配置 科大讯飞 和 OpenAI 的 key
yarn install
yarn start
浏览器打开 localhost:3000
就可以看到聊天界面了
tips:
开下 ke xue shang wang
最好是 🇺🇸 节点
  分类：
 前端
 
 
   相关推荐
   
        飞桨PaddlePaddle
      
    一文读懂PaddleSpeech中英混合语音识别技术
 本次PaddleSpeech发布的中英文语音识别预训练模型Conformer_talcs可通过PaddleSpeech封装的命令行工具CLI或者Python接口快速使用，开发者可以基于此搭建自己的模型
  1730
 
 
        Python
      
    关于 ModelScope 的视频 “AI 换脸” 优化方案
 前面一文，初步完成了一下 “AI 换脸” 视频处理程序。完成了视频拆帧，拆帧图片人脸融合，已经音频提取和最后的人脸融合图片的整合。但是在人脸融合部分由于是单线程，处理耗时，所以这里就对那部分进行优化。




    
  188
 
 
      
    Tensorflow.js介绍与例子
 伴随着这篇文章的代码可以在订阅后收到 *表示需要 电子邮件地址* 开源库TensorFlow.js大约在几年前推出。然而，直到现在我还没有设法去尝试它。在这篇文章中，我们将了解如何使用这项技术，并且我
  185
 
 
        阿里云视频云
        音视频开发
      
    云端智创 | 批量化生产，如何利用Timeline快速合成短视频？
 【智能媒体生产】系列课程第三讲：开发者实战，由阿里云智能视频云技术专家分享云剪辑Timeline的功能及使用方法、云剪辑OpenAPI的使用流程、短视频批量生产的基本原理
  2132
 
 
      
    用MediaPipe BlazePose GHUM和TensorFlow.js进行3D姿势检测
 发布者：Ivan Grishchenko,Valentin Bazarevsky,Eduard Gabriel Bazavan,Na Li,Jason Mayes, Google 姿势检测是了解视频和
  351
 
 
        一个普普通通简简单单
        TensorFlow
        JavaScript
      
    前端也能机器学习（零）：TensorFlow.js 的核心概念
 震惊！！夭寿啦！！前端竟然也可以写机器学习！！宇宙第一 JS 默秒全！！！ 作为一名「前端未满」，看到知名炼丹炉 TensorFlow 竟然出了 JS version，我的内心是十分鸡冻的。哈哈哈哈，平时在学校里那帮炼丹的总是瞧不起我们画页面的，今天就让你们瞧瞧我们前端也来机器…
  2329
 




    
 
        即构开发者
        uni-app
        音视频开发
      
    Uniapp实现实时音视频的基础美颜滤镜功能
 视频基础美颜功能简介 ZEGO 音视频SDK提供基础美颜功能，为用户呈现出良好的肌肤状态，打造独特自然的美颜效果。美颜滤镜功能常用于视频通话、直播等场景。 开发者可以开启美颜开关，然后根据需要调整美白
  786
 
 
        JavaScript
        TensorFlow
      
    TensorFlow.js 指北
 We’re excited to introduce TensorFlow.js, an open-source library you can use to define, train, and run machine learning models entirely in …
  1282
 
 
        美团技术团队
      
    低延迟流式语音识别技术在人机语音交互场景中的实践
 美团语音交互部针对交互场景下的低延迟语音识别需求，提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度。
  810
 
 
        TensorFlow
      
    TensorFlow.js之设计稿楼层分割
 从长设计稿上识别多个楼层进行分割，得出分割区域坐标。 本文使用的深度学习工具为TensorFlow。主要通过改造官方例子，来训练自己的模型并测试效果，其中模型训练部分通过python实现，效果测试由前端页面展示。 这里在花瓣网上找了100多张会场设计图来进行处理。将图片一分为二…
  1888
 
 
        插猹的闰土
        TensorFlow
      
    为了预测股票，我用TensorFlow深度学习了股市数据
 相信大家这几天或多或少的都开始关注到股市了，虽然我还不是很懂里面的一些套路，但是从最近各个公众号的推送里面，我也看到最近的股市确实是形势大好。对很多人来说，股票就和房价一样，他的升与降牵动着众多人的心。这几天很多qq群、微信群都开始讨论起股票了，各位坊间大神也纷纷开始预测各种股…
  9067
 
 
        HuggingFace
      
    AI 制作 3D 素材｜基于 AI 5 天创建一个农场游戏，第 3 天
 欢迎使用 AI 进行游戏开发！ 在本系列中，我们将使用 AI 工具在 5 天内创建一个功能完备的农场游戏。到本系列结束时，您将了解到如何将多种 AI 工具整合到游戏开发流程中。本文将向您展示如何将 A
  918
 
 
        Unity3D
      
    Unity技术手册-Toggle切换
 👉关于作者 👉前提 这是小空坚持写的Unity新手向系列，欢迎品尝。 小空为了方便更多的人（新手）看明白，使用的汉字，真实项目尽量使用英文规则昂。 新手（√√√） 大佬（√） 👉实践过程 该组件的原理
  7163
 
 
        zxcvbnm1
      
    小程序-tensorflow.js跑通测试
 小程序-tensorflow.js跑通使用 1.登录微信开发平台 2.注册微信小程序 3.新建小程序后集合tensorflow.js组件 4.app.json 配置插件版本 5.配置编辑器设置【重要】
  386
 
 
        前端工程师