0x01 /声音在设备中的传递

我们知道，自然界中的声音是由震动产生的，声音会随着介质传输，直到被我们所听到。我们的电脑也有「听」声音的能力。一个声音产生之后，就被麦克风所捕获，这些信号是连续的，我们会对它进行采样，进而生成离散的数字信号。数字信号我们可以进一步进行分析、方便它的存储，然后存储为最基础的PCM数据，封装或者编码成WAV/AAC等等的音频格式，然后存储在文件系统当中。在我们需要的时候，就可以使用音响等输出设备对声音进行播放。

我们可以听到环境中会有各种各样不同的音效，人声、噪声等等，但是声音是会叠加的，即某一个时刻内，声音A和声音B进行叠加，产生了声音C，我们听到声音C时，将前后多个时刻的声音联系起来，大脑才能解析出A和B同时发出了不同的声音，而且声音的叠加是波的叠加，而不是简单的分贝相加，例如通常情况下，10个30分贝的声音不会叠加成300分贝的声音，声音的大小是比最大的声音略高。所以，我们要知道，麦克风等输入设备进行采样时，是对环境中叠加后的声音进行的采样，采样得到的数字信号是所有声音叠加过后的。

所以，在一些场景下，我们可能需要一些算法对一些特殊的声音进行增强、放大等处理，例如市面上一些主动降噪的降噪耳机所做的，就是发出一个反向的低频声音，将低频噪声抵消掉，而高频率的人声得以保留，所以即使你戴了降噪耳机，对人声的降噪效果并不是特别的明显，而对环境噪声的效果是特别显著的。

0x02 /声音的几个重要属性

我们有必要知道声音相关的几个重要的属性：我们可以使用 ffplay out.aac 播放一个音频文件，此时的Shell中就会打印音频相关的信息：

➜ ffplay out.pcm                
Input #0, aac, from 'out.aac':
  Duration: 00:04:15.59, bitrate: 117 kb/s
    Stream #0:0: Audio: aac (LC), 44100 Hz, stereo, fltp, 117 kb/s
   2.19 M-A:  0.000 fd=   0 aq=   20KB vq=    0KB sq=    0B f=0/0
2.1 采样率
即采样的频率，指的是单位时间内每秒钟进行采样的次数，频率越高，离散的数据和连续的模拟信号的拟合就越接近，声音的质量也就越高，占的存储也就越大。
通常情况下，支持的采样率有22KHz/44KHz/48KHz等等。
2.2 采样位数
用来衡量采样值的指标，从图上来看，就是采样的波动幅度，它的数值越大，就说明在一个三角函数的图像之上，最大值和最小值的差距越大。
通常采样位数会被分为8bit和16bit，对应的二进制数值分别是：256和65536,即纵坐标的划分精细到256或者是65536等等的程度。
2.3 通道数
单声道、双声道、立体声等等，实际上我们可以指定单个通道发声，也可以指定两个通道发相同的声音，多扬声器环境下 + 立体声能够感受到更立体的音频。
0x03 一些音频格式、编码
3.1 PCM脉冲编码调制
PCM，脉冲编码调制。关于PCM最重要的一点，就是PCM是未经过任何编码、处理的原汁原味的声音脉冲数据，可以对采样后的音频数据做到完全无损的还原，但是我们也要注意，PCM一般不作为一种单独的格式，而是作为一种没有压缩的编码方式。
这里的无损的还原指的是还原成数字信号，而不是还原成输入的模拟信号。
当然，我们也能将PCM数据保存到一个.pcm文件中，但是文件中通常没有描述上述的数据（采样率、通道数等等）的内容，会导致无法正常播放，例如使用FFplay播放时，我们要手动指定PCM文件的Channel、Rate等等数据
3.2 WAV格式
WAV是一种比较常见的音频文件格式，它是一个容器格式，它的构成实际上是：WAV文件头 + 音频流编码，即WAV中可以支持类似于PCM、MP3等等其它的音频格式。
如果WAV的音频编码是采用的PCM，那么它就能做到对采集的数据进行无损的还原，如果采用的是MP3，那么它的播放可能就会因为MP3本身的编码产生一些损失，所以，只要你有对应的解码器，你的WAV文件就可以进行播放。
WAV的文件头中包含的数据包括本身的二进制文件头、音频码流的格式（PCM等等）、通道数、采样率、采样深度等等，在文件头之后，才是具体的音频数据。
3.3 MP3编码 - (Moving Picture Experts Group Audio Layer III)
MP3播放器在世纪初前可谓是风靡全球，其根本的原因，是其背后的MP3格式。
MP3能够大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率，压缩成容量较小的文件，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降，这使得MP3格式在存储空间寸土寸金和网络不佳的过去是非常受欢迎的，也是MP3播放器畅销的根本原因之一。
对于MP3，通常就是以MP3文件格式存在的，其文件头用于描述MP3格式信息，而文件内容，则是以MP3编码进行编码的音频数据。
而MP3的文件结构，大致上可以分为：
ID3V2
音频数据：由一系列的数据帧构成
ID3V1
其中，ID3V1版本会将作曲、专辑等等信息记录在文件尾（固定128B），而ID3V2版本将ID3V1可存储的内容进行扩展，记录在了文件头，并且它是不定长的。
音频数据本身是由一个个的帧构成的，帧又划分为：
具体的内容可以查看这篇文章
3.4 AAC编码
由Fraunhofer IIS、杜比实验室、AT&T、索尼等公司共同开发，目的是取代MP3格式。
MPEG-4标准出现之后，AAC重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC，仍然采用了编码和压缩，是一种有损压缩格式。
AAC家族如下：
其中的红色部分，就是AAC-LC，作为一个最为基础的部分，他会和SBR共同构成AAC HE的第一个版本，即V1。
AAC-LC 低复杂度规格，码流是128K，音质好。
AAC-HE V1，其核心的思想，是按照频谱分别保存，低频编码保存其主要成分，高频单独放大编码保存音质，码流在64k左右。
AAC-HE V2，该版本认为，双声道中的声音存在某种相似性，只需要存储一个声道的全部信息，然后花很少的字节来描述另一个声道与它不同的地方（差异化存储）。
SBR : Spectral Band Replication 即频段复制
PS: Parametric Stereo：参数立体声
3.5 FLAC无损音频压缩编码
FLAC与MP3不同，MP3是有损音频压缩编码，但FLAC是无损压缩，也就是说音频以FLAC编码压缩后不会丢失任何信息，将FLAC文件还原为WAV文件后，与压缩前的WAV文件内容相同。这种压缩与ZIP的方式类似，但FLAC的压缩率大于ZIP和RAR，因为FLAC是专门针对PCM音频的特点设计的压缩方式。
3.5 OPUS格式
Opus编解码器的设计目的是处理广泛的交互式音频应用程序,包括IP语音,视频,游戏内聊天,甚至远程现场音乐表演。
细心的小伙伴可以会发现，OPUS的一个很大的应用场景就是人声，在WebRTC即时通信技术中，就采用的是OPUS音频编码。
比较详细的介绍可以看这里
0x04 /AAC的两种文件封装格式
针对网络传输和本地存储两种使用场景，AAC有两种封装格式:
4.1 ADIF 格式(Audio Data Interchange Format)
这种格式的特征，是可以确定地找到这个音频数据的开始，只能从头开始解码，不能在音频数据流中间开始解码，这种格式常用在磁盘文件中。
4.2 ADTS格式（Audio Data Transport Stream）
这种格式的特征是每一帧都有一个同步字，所以可以在音频流的任何位置开始解码，这样一来ADTS会比ADIF更大，因为它会用更多的数据空间来描述每一帧的信息，但是它更适合在网络流中进行传输。(英文缩写也应该能看出来，ADIF是一种交换格式Format，而ADTS是一种传输流Stream的格式)
ADTS通常会由7~9个字节组成。
格式中的位于含义如下：
0~11 位：同步字，当读取到0xFFF时，即代表一个ADTS头
第12位，MPEG规范，0代表MPEG4，1代表MPEG2
13~14位，Layer，总是0
第15位，Protection Absent，如果设置为1则没有CRC，而设置位0则采用CRC进行校验。
16~17，AAC的版本，HE或者LC
18~21，采样率
我们可以将对应的位输入到：www.p23.nl/projects/aa…
0x05 /从FFplay理解PCM和WAV的区别
上面描述了PCM和WAV这两种文件的详细内容，我们可以从ffplay的播放指令来理解二者的文件差异。
如果我们希望播放一个PCM文件，由于文件中没有对通道数、采样率等信息的描述，所以我们直接调用ffplay播放，那么是会出错的：
➜  ffplay out.pcm                
out.pcm: Invalid data found when processing input
我们要手动指定PCM的声音数据，才能正常地进行播放。
➜  ffplay -ar 44100 -ac 2 -f s16le out.pcm
-ar表示指定采样率是44100
-ac表示指定通道数是2
-f表示存储的数据格式，由于PCM存储的就是01数据，这里的格式就是01的存储方式，其中：S(signed)代表有符号，LE(little endian)为小端存储（先存低字节，再存高字节），s16le表示的就是以小端存储的有符号数。
而如果我们想要播放WAV，那我们只要：ffplay out.wav即可，由于WAV格式中有记录信息，所以我们可以不用再去额外地指定格式。
➜  Music ffplay out.wav                            
Input #0, wav, from 'out.wav':
  Metadata:
    encoder         : Lavf58.20.100
  Duration: 00:03:50.32, bitrate: 130 kb/s
    Stream #0:0: Audio: aac (LC) ([255][0][0][0] / 0x00FF), 44100 Hz, stereo, fltp, 135 kb/s
   1.25 M-A:  0.000 fd=   0 aq=   20KB vq=    0KB sq=    0B f=0/0 
复制代码
  分类：
 Android
 
  
   相关推荐
   
       15小时前
 
        音视频开发
      
     ios 微信浏览器视频自动播放问题解决方法【亲测有效】
 播放自动视频的两个前提条件 设置自动播放 autoplay 设置静音 muted 有些限制必须有点击操作，这个看需求，如果实现不了进入页面自动播放可以考虑价格播放按钮，引导用户点击。 因为我的视频不需
  191
 
 
        Java架构历程
      
 19小时前
 
        音视频开发
      
     什么是视频推流和视频拉流？视频推流和视频拉流都涉及哪些技术？一文带您了解！
 随着互联网的迅猛发展，视频成为了人们日常生活中不可或缺的一部分。而在视频的传输过程中，视频推流和视频拉流技术扮演了重要的角色。本文将详细介绍视频推流和视频拉流的概念、原理、应用领域以及涉及的技术。 视
  346
 
 
        superZidan
        JavaScript
        React.js
        音视频开发
      
     基于 React Flow 与 Web Audio API 的音频应用开发
 今天我们来学习通过 React Flow 和 Web Audio API 来创建一个可交互的语音广场
  7.0w




    
 
 
        纯爱掌门人
        音视频开发
      
     实现高质量视频通话的javascript技巧与方法
 在本文中，我们介绍了如何使用javascript实现高质量视频通话的技巧和方法。通过选择合适的javascript库和开发环境、搭建视频通话基础架构、实现视频流采集和处理、创建简洁美观的视频通话界面.
  213
 
 
        OpenGL
        音视频开发
      
     OpenglES之分屏滤镜
 opengl ES继续肝文系列，今天我们探讨一下在opengl ES中实现分屏滤镜的一些方式技巧。。。
  334
 
 
        OpenGL
        音视频开发
      
     Opengl ES之LUT滤镜(下)-3DLUT
 在上一篇文章中我们详细介绍了基于图片纹理的2D LUT滤镜的使用，这种方式也是目前大部分SDK在移动端的实现方式，既然有2D LUT滤镜那就有3D LUT，今天我们就来介绍下3D LUT的使用。
  308
 
 
        音视频开发
      
     如何定位分析视频异常画面
 视频典型画面不正常主要包含画面卡顿、画面模糊、画面不显示、画面花屏这 4 类问题。本文主要介绍的是画面花屏的情况，这里的画面花屏包含了花屏、闪屏、绿屏、黑屏。
  1271
 




    
 
        Geeks_Liu
        音视频开发
      
     AVFormatContext、AVIOContext与AVStream（一）
 一、简介 在音视频文件编解码中有三个重要的阶段，对于解码：先将文件读取到内存中，再解封装，再解码；对于编码过程也是一样的，这里边涉及三个结构体：
  384
 
 
        关键帧Keyframe
        音视频开发
      
     HLS 协议：直播回放首选这个协议？丨音视频基础
 去公众号发送消息『像素王国』，帮你生成像素风格图片 这个公众号会路线图式的遍历分享音视频技术：音视频基础(进行中) → 音视频工具(准备) → 音视频工程示例(准备) → 音视频工业实战(准备)。关注
  3940
 
 
        一只修仙的猿
        Android
        音视频开发
      
     聊一聊关于视频缩略图缓存策略
 前言 很高兴见到你！ 最近回归android业务开发，开发了如下图的视频剪辑时间轴（图源：剪映）： 对于时间轴上的缩略图，需要去解码器加载获取。若每次都去解码器获取，会导致缩略图加载卡顿，无法满足性能
  153
 
 
        关键帧Keyframe
        Android
        音视频开发
      
     如何正确将 HDR 视频转换成 SDR 视频丨音视频工业实战
 1、什么是 SDR 和 HDR？ SDR（Standard Dynamic Range）即标准动态范围，是一种基于亮度、对比度、颜色特性，以及 CRT 显示器的局限性来展示视频的技术。这里说的动态范围
  1432
 
 
        关键帧Keyframe
        Android
        音视频开发
      
     《Stable Diffusion 倚天剑术》第 1 卷：在各种设备上把 Stable Diffusion 玩起来
 预计『AI 绘画』这个主题将持续更新一个系列，包括 Midjourney 和 Stable Diffusion，感兴趣的话可以点个关注，保持联系。关于使用 Stable Diffusion 需要用到的
  1537
 




    
 
        Android Jetpack
        Kotlin
      
     大型Android项目架构：基于组件化+模块化+Kotlin+协程+Flow+Retrofit+Jetpack+MVVM架构实现WanAndroid客户端
 前言：苟有恒，何必三更眠五更起；最无益，莫过一日曝十日寒。项目采用 Kotlin 语言，Android Jetpack，组件化，模块化拆分，加入短视频功能，Flow冷流的使用···
  6156
 
 
        关键帧Keyframe
        Android
        音视频开发
      
     《Stable Diffusion 倚天剑术》第 1.1 卷：在国内云使用 Stable Diffusion（AutoDL 版）
 预计『AI 绘画』这个主题将持续更新一个系列，包括 Midjourney 和 Stable Diffusion，感兴趣的话可以点个关注，保持联系。关于使用 Stable Diffusion 需要用到的
  1416
 
 
        关键帧Keyframe
        Android
        音视频开发
      
     音视频知识图谱 2022.12
 前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看这个合集：音视频面试
  1886
 
 
        Flutter
        Android
      
     [Flutter] 如何替换so文件来动态替换Flutter代码
 一、Flutter代码的启动起点 我们在多数的业务场景下，使用的都是FlutterActivity、FlutterFragment。在在背后，我们知道有着FlutterEnigine、DartExec
  2696
 
 
        Android
      
     Android 中的类文件和类加载器
 我们所编写的Java代码，使用Java自带的编译器编译完成之后默认的输出一定是.class文件，而在ART或者*Dalvik虚拟机中需要输入Dex文件，那么在其中必然存在Class -> Dex文件的
  4565
 
 
        Flutter
      
     [Flutter] 为什么我的 ListView 又双叒叕崩了
 作为Flutter开发的你，一定对这些东西非常熟悉： 在写完布局，满怀期待按下ctrl + s，短暂的热重载之后。控制台里的信息清晰可见：ListView又崩溃了。为什么要用又？因为在实现和Row、C
  3303
 
 
        Flutter
      
     [Flutter] ProxyWidget和Element更新的正确姿势
 Flutter的众多Widget当中，有作用于渲染的RenderObjectWidget、聚焦于功能整合的StatefulWidget。但是，还有一个大类，ProxyWidget也同样值得我们关注。
  2902
 
 
        Flutter
      
     [Flutter] 认识Zone和异常处理
 1. 认识Zone Zone像一个沙盒，是我们代码执行的一个环境。 我们的main函数默认就运行在Root Zone当中。 子Zone的构造有点像Linux中的进程，它支持从当前的Zone中Fork出
  2874
 
 
          
 
 
  
 
 友情链接：
 
        reactjs 获取url参数
        js 后面加随机数 无缓存
        css伪元素after
        Android @ ~