|
|
奋斗的针织衫 · 我院谢楠教授与朋友、学生们新专辑《非·常·四 ...· 6 月前 · |
|
|
被表白的饺子 · 南方医科大学病理生理学教研室-基础医学院· 7 月前 · |
|
|
聪明伶俐的李子 · 运维笔记--阿里云服务器「系统盘」磁盘扩容 ...· 1 年前 · |
|
|
有胆有识的小狗 · 斗罗2主角建模曝光,新七怪造型失败,柔骨兔没 ...· 2 年前 · |
通过语音 SDK 的内容评估(预览版)将于 2025 年 7 月停用。 相反,可以使用 Azure OpenAI 模型获取内容评估结果,如 内容评估文档 中所述。
对目标平台的支持正在更改:
Close()
不是同步的。
recognizer
添加了使用Microsoft Entra令牌凭据的示例代码。
Azure AI 语音工具包扩展现已可供 Visual Studio Code 用户使用。 它包含一系列语音快速入门和场景示例,只需单击即可轻松构建和运行。 有关详细信息,请参阅 Visual Studio Code 市场中的 Azure AI 语音工具包 。
语音 SDK 版本 1.39.0 是一个内部版本,没有丢失。
G.722
压缩音频流式处理的支持。
PersonalVoiceSynthesisRequest
增加了对个人语音输入文本流式处理的支持。 此 API 为预览版,在未来版本中可能会发生变化。
ConversationTranscriber
时对中间结果进行分割聚类的支持。
glibc
2.31 或更高版本兼容。
修复了在 SynthesisStarted 事件期间调用 Stop 时未触发的 SynthesisCanceled 事件。
修复了嵌入式语音合成中的干扰问题。
修复了并行运行多个识别器时嵌入式语音识别中的崩溃问题。
修复了 v1/v2 终结点上的短语检测模式设置问题。
修复了 Microsoft Audio Stack 的各种问题。
SpeechRecognizer
已更新为默认情况下(即未显式指定 URL 时)使用新的终结点,对于大多数属性,该终结点不再支持查询字符串参数。 请使用相应的 API 函数,而不是直接使用 ServicePropertyChannel.UriQueryParameter 设置查询字符串参数。
语音 SDK 1.31.0 公共预览版支持实时话者分离。 此功能在以下 SDK 中可用:C#、C++、Java、JavaScript、Python 和 Objective-C/Swift。
通过音频播放同步语音合成文字边界和唇形活动
以前的“对话听录”方案重命名为“会议听录”。 例如,使用
MeetingTranscriber
而不是
ConversationTranscriber
,使用
CreateMeetingAsync
而不是
CreateConversationAsync
。 尽管 SDK 对象和方法的名称已更改,但重命名操作不会更改功能本身。 使用会议听录对象来听录具有用户配置文件和语音签名的会议。 “对话翻译”对象和方法不受这些更改的影响。 你仍然可以将
ConversationTranslator
对象及其方法用于会议翻译方案。
对于实时话者分离,引入了一个新的
ConversationTranscriber
对象。 新的“对话听录”对象模型和调用模式类似于对
SpeechRecognizer
对象的连续识别。 主要区别在于,
ConversationTranscriber
对象设计为用于要区分多个说话人的对话方案(话者分离)。 用户配置文件和语音签名不适用。
此表显示了用于实时话者分离和会议听录的旧对象和新对象名称。 方案名称在第一列中,旧对象名称在第二列中,新对象名称在第三列中。
旧对象名称 新对象名称
ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant
ParticipantChangedReason
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting
1
、
Participant
、
ParticipantChangedReason
和
User
对象同时适用于会议听录和会议翻译方案。
2
Meeting
对象是新的,与
MeetingTranscriber
对象一起使用。
新 C# 对话听录快速入门
新 C# 会议听录快速入门
public
、
internal
或
protected
。 此更改应该不会影响开发人员,因为我们预计应用程序不会使用这些更改。 此处注明是为了提高透明度。
LocaleName
属性添加到
VoiceInfo
类的社区贡献。 感谢 GitHub 用户
shivsarthak
的拉取请求。
C++、C#、Java - 添加了对从 16kHz 到 48kHz 采样率的嵌入式文本转语音输出重新采样的支持。
hi-IN
区域设置的支持。
NoMatchReason::EndSilenceTimeout
。 这与使用实时语音服务进行识别时的行为匹配。
SpeechTranslationConfig
枚举值时设置
PropertyId
的属性。
PropertyId::Speech_SegmentationSilenceTimeoutMs
设置的支持。
LanguageUnderstandingServiceResponse_JsonResult
获得。
SpeechServiceConnection_LanguageIdMode
。 这个单一属性取代了之前的两个属性(
SpeechServiceConnection_SingleLanguageIdPriority
和
SpeechServiceConnection_ContinuousLanguageIdPriority
)。 在最近的模型改进之后,不再需要在低延迟和高准确度之间进行优先排序。 现在,你只需在进行连续语音识别或翻译时,选择是运行启动时语言识别还是连续语言识别即可。
PronunciationAssessmentGranularity.FullText
时获取发音评估结果的问题(
客户问题
)
添加了展示如何使用嵌入式语音的示例
为 MAUI 添加了语音转文本示例
请参阅 语音 SDK 示例存储库 。
AudioStreamWaveFormat
将 ALAW 和 MULAW 直接流式传输到语音服务(除了现有的 PCM 流)。
libMicrosoft.CognitiveServices.Speech.extension.mas.so
的大小减少了大约 70%。
fr
、
de
、
es
、
jp
的正字法支持
es
的预生成整数支持。
connectionMessage
为空时识别的回调(
客户问题
)。
recognizeOnceAsync(text)
时操作挂起的问题。
zh-cn
和
zh-hk
的支持。
C#
:添加了对
AnyCPU
.NET Framework 生成的支持
我们已经与 Azure DevOps 和 GitHub 一起取消了对 Ubuntu 16.04 的支持。 Ubuntu 16.04 已于 2021 年 4 月结束生命周期。 请将 Ubuntu 16.04 工作流迁移到 Ubuntu 18.04 或更高版本。
Linux 二进制文件中的 OpenSSL 链接已更改为动态。 Linux 二进制文件大小减少了约 50%。
增加了对基于 Mac M1 ARM 的芯片支持。
C++/C#/Java:增加了新的 API 以通过 Microsoft 音频堆栈实现对语音输入的音频处理支持。 文档在 此处 。
C++:新增了用于意图识别的 API,有助于更高级的模式匹配。 这包括 List 和 Prebuilt Integer 实体,而且支持将意图和实体分组为模型(文档、更新和示例正在开发中,将于近期发布)。
Mac :与 GitHub 问题 1244 相关的 CocoaPod、Python、Java 和 NuGet 包支持基于 Arm64 (M1) 的芯片。iOS/Mac :iOS 和 macOS 二进制文件现已打包到与 GitHub 问题 919 相关的 xcframework 中。
iOS/Mac:支持与 GitHub 问题 1171 相关的 Mac 催化剂。
Linux:针对 CentOS7 新增了 tar 包
关于语音 SDK
。 Linux .tar 包现在包含
lib/centos7-x64
中 RHEL/CentOS 7 的特定库。 lib/x64 中的语音 SDK 库仍适用于所有其他受支持的 Linux x64 分发版(包括 RHEL/CentOS 8),不适用于 RHEL/CentOS 7。
JavaScript :VoiceProfile 和 SpeakerRecognizer API 为异步/可等待。
Windows:新增了对通用 Windows 平台 (UWP) 上的播放的支持。
Android:适用于 Android 包的 OpenSSL 安全更新(更新到版本 1.1.1l)。
Python:解决了在 Python 上选择扬声器设备失败的 bug。
核心:连接尝试失败时自动重新连接。
iOS :在使用 GStreamer 时,iOS 包会因稳定性和 bitcode 生成问题而禁用音频压缩。 可以通过 GitHub 问题 1209 了解详细信息。GitHub 示例
Mac/iOS:更新了示例和快速入门,改为使用 xcframework 包。
.NET:更新了示例,改为使用 .NET core 3.1 版本。
JavaScript:增加了语音助手的示例。
请注意:在 此处 开始使用语音 SDK。
GetActivationPhrasesAsync()
,用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
SpeechRecognizer
。
getActivationPhrasesAsync
API,用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
VoiceProfileClient
API 现在为异步可等待
enrollProfileAsync
。 有关示例用法,请参阅
此独立标识代码
。
Microsoft.CognitiveServices.Speech.core
二进制:x64 Linux 小了 475KB(减少了 8.0%);Arm64 Windows UWP 小了 464KB(减少了 11.5%);x86 Windows 小了 343KB(减少了 17.5%);x64 Windows 小了 451KB(减少了 19.4%)。
AudioWorkletNode
。 有关详细信息,请参阅
此文
。
enrollProfileAsync()
的新用法。 请参阅
此处
的示例。
单击 此处 ,开始使用语音 SDK。
retrieveEnrollmentResultAsync
和
getAuthorizationPhrasesAsync
,以方便用户管理给定帐户的所有语音配置文件。 请分别参阅
C++
、
C#
、
Java
、
JavaScript
的文档。 这解决了
GitHub 问题 #338
。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
设置为
false
以禁用此功能。 有关
C++
、
C#
、
Java
、
Objective-C
、
Python
的详细信息。
VisemeReceived
事件,用于返回同步的视素动画。 参阅
此处
的文档。
C++/C#/Java/JavaScript/Objective-C/Python
:为 TTS 添加了
BookmarkReached
事件。 你可以在输入 SSML 中设置书签,并获取每个书签的音频偏移量。 参阅
此处
的文档。
DialogServiceConnector
来访问自定义命令应用程序,会发生连接错误。 可以通过使用
config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
手动将应用程序 ID 添加到请求来解决此错误。 在下一版本中,将还原
CustomCommandsConfig
的预期行为。
minifyEnabled
设置为 true 时回叫不起作用的问题。
C++/C#/Java/Objective-C/Python
:
TCP_NODELAY
会被正确设置为 TTS 的基础套接字 IO 以降低延迟。
C++/C#/Java/Python/Objective-C/Go
:修复了因识别器刚开始识别就被销毁而偶尔发生的崩溃。
C++/C#/Java
:修复了在解构扬声器识别器时偶尔发生的崩溃。
JavaScript
:
浏览器示例
不再需要单独下载 JavaScript 库文件。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。
EndpointId
设置自定义语音的支持(
C++
、
C#
、
Java
、
JavaScript
、
Objective-C
、
Python
)。 在此项更改之前,自定义语音用户需要通过
FromEndpoint
方法设置终结点 URL。 现在,客户可以像处理预生成语音一样使用
FromSubscription
方法,然后通过设置
EndpointId
来提供部署 ID。 这简化了自定义语音的设置。
C++/C#/Java/Objective-C/Python
:从
IntentRecognizer
获取比首要意向更多的信息。 它现在支持使用
LanguageUnderstandingModel FromEndpoint
uri 参数通过
verbose=true
方法来配置包含所有意向(而不仅仅是首要评分意向)的 JSON 结果。 这解决了
GitHub 问题 #880
。
DialogServiceConnector
(
C++
、
C#
、
Java
)现有一个与
StopListeningAsync()
配合使用的
ListenOnceAsync()
方法。 此方法会立即停止音频捕获并正常等待结果,因此非常适合用于按动“立即停止”按钮的场景。
DialogServiceConnector
(
C++
、
C#
、
Java
、
JavaScript
)现有一个新的
TurnStatusReceived
事件处理程序。 这些可选事件对应于机器人上的每个
ITurnContext
解决方案,并且将在发生轮次执行失败(例如,由于 Direct Line Speech 与机器人之间发生未经处理的异常、超时或断网)时予以报告。 使用
TurnStatusReceived
可以更轻松地对失败状况做出响应。 举例而言,如果机器人在后端数据库查询(例如查找产品)上花费的时间太长,
TurnStatusReceived
将允许客户端适时地以“抱歉,我有点迷糊,请重试”或类似内容重新发出提示。
C++/C#
:在更多平台上使用语音 SDK。
语音 SDK NuGet 包
现在支持 Windows ARM/ARM64 桌面本机二进制文件(UWP 已受支持),使语音 SDK 在更多类型的计算机上有更大的用途。
Java
:
DialogServiceConnector
现有一个
setSpeechActivityTemplate()
方法,以前无意中从该语言中排除了此方法。 此方法相当于设置
Conversation_Speech_Activity_Template
属性,并会请求由 Direct Line Speech 服务发起的所有未来 Bot Framework 活动将提供的内容合并到其 JSON 有效负载中。
Connection
类现有一个
MessageReceived
事件。 此事件提供对服务传入的数据的低级别访问,并且对诊断和调试非常有用。
BotFrameworkConfig
更轻松地设置语音助理和机器人。该类现有
fromHost()
和
fromEndpoint()
工厂方法,与手动设置属性相比,这些方法简化了自定义服务位置的使用。 我们还标准化了
botId
的可选规范,以便在各个配置工厂中使用非默认机器人。
JavaScript
:通过为 websocket 压缩添加的字符串控制属性改进了设备性能。 出于性能原因,我们默认禁用了 websocket 压缩。 在低带宽应用场景下可以重新启用此功能。
此处
提供了更多详细信息。 这解决了
GitHub 问题 #242
。
DialogServiceConnector
存在的垃圾回收问题,解决了
GitHub 问题 #794
。
C#
:修复了线程关闭的问题,此问题导致对象在释放时阻塞大约一秒。
C++/C#/Java
:修复了一个异常,该异常会阻止应用程序在
DialogServiceConnector
上多次设置语音授权令牌或活动模板。
C++/C#/Java
:修复了由于在清理时出现争用状况而导致识别器崩溃的问题。
DialogServiceConnector
的工厂中指定的可选
botId
参数。 这样,就需要手动设置
botId
查询字符串参数才能使用非默认机器人。 该 bug 已予纠正,现在会遵循并使用提供给
botId
的工厂的
BotFrameworkConfig
值,包括新添加的
fromHost()
和
fromEndpoint()
。 这也适用于
applicationId
的
CustomCommandsConfig
参数。
speech.config
,从而浪费了带宽。
ConversationTranslator
和
ConversationTranscriber
中的类型错误导致 TypeScript 用户遇到编译错误。
Objective-C
:修复了在 Xcode 11.4 上针对 iOS 进行 GStreamer 生成时失败的问题;解决了
GitHub 问题 #911
。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。
HttpHeader
键/值的支持。
AudioDataStream FromWavFileInput
和
此处 (C#)
添加了新的
方法(以读取 .WAV 文件)。
stopSpeakingAsync()
方法以停止文本转语音合成。 请参阅
此处 (C++)
、
此处 (C#)
、
此处 (Java)
、
此处 (Python)
和
此处 (Objective-C/Swift)
的参考文档。
FromDialogServiceConnector()
函数,该函数可用于监视
Connection
的连接和断开连接事件。 请参阅
此处 (C#)
、
此处 (C++)
和
此处 (Java)
的参考文档。
SetServiceProperty
中的 1.13 回归(带有某些特殊字符的值被忽略)。
C#
:修复了 Visual Studio 2019 上的 Windows 控制台示例找不到本机 DLL 的问题。
C#
:修复了将流用作
KeywordRecognizer
输入时内存管理崩溃的问题。
DialogServiceConnector
在第一次调用后禁用
ListenOnce
调用的修补程序。
JavaScript
:修复了结果输出只能是“simple”的问题。
JavaScript
:修复了 macOS 上 Safari 中的连续识别问题。
JavaScript
:针对高请求吞吐量场景的 CPU 负载缓解措施。
JavaScript
:允许访问“语音配置文件注册”结果的详细信息。
JavaScript
:针对
IntentRecognizer
中的连续识别添加了修补程序。
VoiceProfileType
对象时的参数。
SPX_INVALID_ARG
。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。
JavaScript :添加了对 浏览器 和 Node.js 的说话人识别支持。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
JavaScript :优化了浏览器麦克风实现,改善了语音识别的准确性。 Java :使用直接 JNI 实现(没有 SWIG)重构了绑定。 此项更改对于 Windows、Android、Linux 和 Mac 的所有 Java 包而言减少了 10 倍的绑定大小,并简化了语音 SDK Java 实现的进一步开发。
IntentRecognizer
结果原因未正确设置的问题。
SpeechRecognitionEventArgs
结果偏移量的问题。
TranslationRecognizer
可重现。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了什么内容,请在
GitHub
上告诉我们。
请保重身体!
UtteranceId
中添加了
ConversationTranscriptionResult
,这是在所有中间产物和最终的语音识别结果中保持一致的一个 ID。 请参阅适用于
C#
、
C++
的详细信息。
Language ID
的支持。 参阅
GitHub 存储库
中的 speech_sample.py。
SendMessageAsync
现在以二进制类型发送二进制消息。 请参阅适用于
C#
、
C++
的详细信息。
Connection MessageReceived
事件时在
Recognizer
对象之前释放
Connection
可能会导致故障的问题。 请参阅适用于
C#
、
C++
的详细信息。
fromSubscription
API 中增加了对中国的区域的支持。 有关详细信息,请参阅
此文
。
Language ID
添加了示例。 有关详细信息,请参阅
此文
。
客户必须根据 这些说明 配置 OpenSSL。
.aar
包添加了关键字识别支持,并添加了 x86 和 x64 风格的支持。
SendMessage
和
SetMessageProperty
方法添加到
Connection
对象。 参阅
此处
的文档。
std::wstring
用作合成文本输入,这样,在将 wstring 传递给 SDK 之前,无需先将其转换为字符串。 请参阅
此处
的详细信息。
Connection
对象,以便从语音服务以回调
receivedServiceMessage
的形式传递自定义消息。
NODE_TLS_REJECT_UNAUTHORIZED
的贡献,我们现在可以采用
。 请参阅
此处
的详细信息。
OpenSSL
已更新到版本 1.1.1b,并静态链接到适用于 Linux 的语音 SDK 核心库。 如果未在系统的
OpenSSL
目录中安装收件箱
/usr/lib/ssl
,这可能会造成中断。 请查看语音 SDK 文档下的
文档
来解决此问题。
WordLevelTimingResult.Offset
返回的数据类型从
int
更改为
long
,以便在语音数据超过 2 分钟时能够访问
WordLevelTimingResults
。
PushAudioInputStream
和
PullAudioInputStream
现在可以根据
AudioStreamFormat
(创建这两个类时选择性地指定)将 wav 标头信息发送到语音服务。 现在,客户必须使用
支持的音频输入格式
。 任何其他格式会导致识别结果欠佳,或者导致出现其他问题。
OpenSSL
更新。 修复了 Linux 和 Java 中的间歇性崩溃和性能问题(负载较高时发生锁争用)。
Microsoft.CognitiveServices.Speech.core.dll
和
Microsoft.CognitiveServices.Speech.extension.kws.dll
的三个副本,使 NuGet 包更小、下载更快,并添加了编译某些 C++ 本机应用所需的标头。
<voice>
标记或
<audio>
标记时出现的 TTS 错误以解决
此客户问题
。
int
和
string
类型。
FromHost()
API,以方便用户将其与本地容器和主权云配合使用。
SourceLanguageConfig
对象,用于指定所需的源语言(在 Java 和 C++ 中)
KeywordRecognizer
支持
Microsoft.CognitiveServices.Speech.Transcription
命名空间下。
Conversation
类。
KeywordRecognizer
,则会发生故障
KeywordRecognizer
的 Xamarin 示例
KeywordRecognizer
的 Unity 示例
Compressed
输入支持
SendMessageAsync
类中添加了
Connection
,用于向服务发送消息
SetMessageProperty
类中添加了
Connection
DialogServiceConnector
使用的印象 ID 重复
Canceled
上时(通过
DialogServiceConnector
事件)对故障进行的报告
DialogServiceConnector
会话开始时会正确提供事件,包括在活动
ListenOnceAsync()
期间调用
StartKeywordRecognitionAsync()
的时候
DialogServiceConnector
活动相关联的崩溃
DialogServiceConnector
的更新的快速入门示例
改进 / 更改
SpeechBotConnector
已重名为
DialogServiceConnector
BotConfig
已重名为
DialogServiceConfig
BotConfig::FromChannelSecret()
已重新映射到
DialogServiceConfig::FromBotSecret()
NSError
对象,另一个版本引发异常。 前者向 Swift 公开。 此更改需要适应现有的 Swift 代码。
SpeakTextAsync
不等到音频完成渲染就会提前返回
pip install --user
问题
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
FromEndpoint
,也能通过标准配置属性来配置识别器。
OutputFormat
属性添加到
SPXSpeechConfiguration
。
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
这是一个仅限 JavaScript 的版本。 未增加任何功能。 进行了以下修复:
properties
属性公开识别结果的附加属性。
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
Bug 修复
AudioConfig
类来选择输入麦克风。 这样,便可以将音频数据从非默认麦克风流式传输到语音服务。 有关详细信息,请参阅介绍
音频输入设备选择
的文档。 此功能在 JavaScript 中尚不可用。
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
文件(在以前的版本中提供)。 此功能现在集成到核心 SDK 中。
AudioConfig.FromMicrophoneInput
的其他示例。
Connection
对象的更多示例。
SpeechConfig
中的参数验证和错误消息。
Connection
对象的支持。
Connection
对象的支持。
FromEndpoint
,则可将参数直接添加到终结点 URL。 使用
FromEndpoint
时,无法通过标准的配置属性来配置识别器。
SpeechConfig
中指定,并将 API 密钥留空。 然后,像往常一样创建识别器。
Connection
对象不能正确释放。 现在已修复此问题。
这是一个仅限 JavaScript 的版本。 未增加任何功能。 进行了以下修复:
Connection
对象)的父级。
Recognizer
中访问
Connection
对象。 此对象允许你显式启动服务连接并订阅连接事件和断开连接事件。
(此功能在 JavaScript 和 Python 中尚不可用。)
RecognizeAsync
中的类型不匹配导致的内存泄漏。
async
操作,则可能会在异步任务完成之前释放识别器。
RecognizingIntent
。
SpeechConfig
中将默认输出格式设置为“simple”。
SpeechConfig
对象中,现在可以调用某个函数来设置代理信息(主机名、端口、用户名和密码)。 此功能在 iOS 上尚不可用。
Reason
(在已取消事件中)或
CancellationDetails
(在识别结果中)设置为
Error
。 取消的事件现在包含两个附加的成员:
ErrorCode
和
ErrorDetails
。 如果服务器随所报告的错误返回了附加的错误信息,则现在将在新成员中提供该信息。
Canceled
事件。
EndpointId
(在某些情况下)的 bug。
AddIntent
JavaScript 签名。
可靠性改进和 bug 修复:
在 示例存储库 中已添加了适用于 JavaScript 的新示例。
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
函数不再需要路径参数。 现在,在所有受支持的平台上都会自动检测路径。
EndpointUrl
的 get 访问器已被删除。
StartContinuousRecognitionAsync()
支持识别功能长时间运行。
InitialSilenceTimeout
、
InitialBabbleTimeout
)。
NoMatch
事件类型已合并到
Error
事件中。
OutputFormat
以与 C++ 保持一致。
AudioInputStream
接口的某些方法的返回类型略有更改:
read
方法现返回
long
而不是
int
。
Read
方法现返回
uint
而不是
int
。
Read
和
GetFormat
方法现返回
size_t
而不是
int
。
shared_ptr
传递。
RecognizeAsync()
超时时结果中的错误返回值。
音频输入流
一种现可将流用作音频源的识别器。 有关详细信息,请参阅相关 操作说明指南 。
详细输出格式
创建
SpeechRecognizer
时,可请求
Detailed
或
Simple
输出格式。
DetailedSpeechRecognitionResult
包含置信度分数、识别的文本、原始词法形式、标准化形式和已屏蔽不当字词的标准化形式。
SpeechRecognitionResult.Text
更改为
SpeechRecognitionResult.RecognizedText
。
NoMatch
结果。
Region
是创建识别器所必需的信息。
已添加更多示例,还将持续更新。 有关最新的示例集,请参阅 语音 SDK 示例 GitHub 存储库 。
此版本是 Azure AI 语音 SDK 的第一个公共预览版本。
已更新为使用语音 SDK 1.40.0
已更新为使用语音 SDK 1.38.0
已更新为使用语音 SDK 1.37.0
已更新为使用语音 SDK 1.36.0
已更新为使用语音 SDK 1.35.0
已更新为使用语音 SDK 1.34.0
已更新为使用语音 SDK 1.33.0
已更新为使用语音 SDK 1.31.0
已更新为使用语音 SDK 1.30.0
已更新为使用语音 SDK 1.29.0
已更新为使用语音 SDK 1.28.0
已更新为使用语音 SDK 1.26.0.
已更新为使用语音 SDK 1.25.0。
使用语音 SDK 1.24.0。
使用语音 SDK 1.23.0。
--output vtt
和
--output srt
)大型结果拆分(最多 37 个字符,3 行)
spx synthesize
--format
选项(请参阅
spx help synthesize format
)
spx csr
命令/选项(请参阅
spx help csr
)
spx csr model copy
命令(请参阅
spx help csr model copy
)
--check result
选项(请参阅
spx help check result
)
使用语音 SDK 1.22.0。
spx init
命令,指导用户完成语音资源密钥创建,而无需转到 Azure Web 门户。
spx init
将立即生效。
使用语音 SDK 1.21.0。
--output vtt
添加了
spx translate
支持
--output vtt file FILENAME
替代默认 VTT FILENAME
--output vtt file -
写入到标准输出
--target en;de;fr
)创建单个 VTT 文件
--output srt
、
spx recognize
和
spx intent
中添加了
spx translate
支持
--output srt file FILENAME
替代默认 SRT FILENAME
--output srt file -
写入到标准输出
spx translate
,会为每个目标语言(例如
--target en;de;fr
)创建单个 SRT 文件
hh:mm:ss.fff
格式
spx profile enroll
和
spx speaker [identify/verify]
现在支持麦克风输入
spx intent
)
--keyword FILE.table
--pattern
和
--patterns
--output all/each intentid
--output all/each entity json
--output all/each ENTITY entity
--once
、
--once+
和
--continuous
(现在默认值是 continuous)
--output all/each connection EVENT
--output all/each connection message
(例如
text
和
path
)
--expect PATTERN
和
--not expect PATTERN
--auto expect
有助于创建所需模式
--log expect PATTERN
和
--not log expect PATTERN
--log auto expect [FILTER]
--log FILE
和
spx profile
上的
spx speaker
支持
--format ANY
--file -
支持(从标准输入读取,启用管道方案)
--audio output -
写入标准输出,启用管道方案
--output all/each file -
写入标准输出
--output batch file -
写入标准输出
--output vtt file -
写入标准输出
--output json file -
写入标准输出,适用于
spx csr
和
spx batch
命令
--output […] result XXX property
(PropertyId 或字符串)
--output […] connection message received XXX property
(PropertyId 或字符串)
--output […] recognizer XXX property
(PropertyId 或字符串)
spx webjob
现在遵循子命令模式
spx help webjob
)
--output vtt FILE
和
--output batch FILE
时的 bug
spx [...] --zip ZIPFILENAME
现在包括所有方案所需的所有二进制文件(如果存在)
spx profile
和
spx speaker
命令现在返回有关取消的详细错误信息
spx profile
和
spx speaker
。
spx dialog
。
spx
帮助。 通过打开
GitHub 问题
,向我们提供有关其工作原理的反馈。
随着疫情持续,我们的工程师不得不远程办公,因此疫情前的手动验证脚本现在只在少数的设备和配置上进行测试,特定环境下出现的 bug 也更容易被漏掉。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们不小心遗漏了一些内容,请通过
GitHub
告诉我们。
请保重身体!
spx intent
命令,替换
spx recognize intent
。
spx recognize --wer url <URL>
来计算字词错误率。
spx recognize --output vtt file <FILENAME>
将结果输出为 VTT 文件。
随着疫情持续,我们的工程师不得不远程办公,因此疫情前的手动验证脚本现在只在少数的设备和配置上进行测试,特定环境下出现的 bug 也更容易被漏掉。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们不小心遗漏了一些内容,请通过
GitHub
告诉我们。
请保重身体!
随着疫情持续,我们的工程师不得不远程办公,因此疫情前的手动验证脚本现在只在少数的设备和配置上进行测试,特定环境下出现的 bug 也更容易被漏掉。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们不小心遗漏了一些内容,请通过
GitHub
告诉我们。
请保重身体!
SPX 是命令行接口,无需编写代码即可使用语音服务。
在
此处
下载最新版本。
spx csr dataset upload --kind audio|language|acoustic
- 基于本地数据(而不只是从 URL)创建数据集。
spx csr evaluation create|status|list|update|delete
- 将新模型与基线事实/其他模型进行比较。
spx * list
- 支持非分页体验(不需要 --top X --skip X)。
spx * --http header A=B
- 支持自定义标头(为 Office 添加以进行自定义身份验证)。
spx help
- 改进了已编码的文本和反引号文本颜色(蓝色)。
spx help find --text TEXT
spx help find --topic NAME
spx help batch examples
spx help csr examples
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们不小心遗漏了一些内容,请通过
GitHub
告诉我们。
请保重身体!
SPX 是新的命令行工具,可用于从命令行执行识别、合成、翻译、批量听录和自定义语音管理 。 使用它来测试语音服务,或为需要执行的语音服务任务编写脚本。 下载该工具,并在 此处 查看文档。
以下 HD 语音现已正式发布:
添加了对
newscast
和
cheerful
语音的
empathetic
、
en-IN-NeerjaNeural
、
hi-IN-SwaraNeural
样式支持。
为以下语音添加了新样式:
es-MX-DaliaNeural
:
whispering
、
sad
、
cheerful
fr-FR-DeniseNeural
:
whispering
、
sad
、
excited
it-IT-IsabellaNeural
:
whispering
、
sad
、
excited
、
cheerful
pt-PT-RaquelNeural
:
whispering
,
sad
de-DE-ConradNeural
:
sad
,
cheerful
en-GB-RyanNeural
:
whispering
,
sad
es-MX-JorgeNeural
:
whispering
、
sad
、
excited
、
cheerful
fr-FR-HenriNeural
:
whispering
、
sad
、
excited
it-IT-DiegoNeural
:
sad
、
excited
、
cheerful
es-ES-AlvaroNeural
:
cheerful
,
sad
ko-KR-InjoonNeural
:
sad
有关详细信息,请参阅 语音风格和角色 。
在公共预览版中推出了新的多语言声音。 有关详细信息,请参阅 完整的语言和语音列表 。
全新的多语言声音
现在有三种多语言声音支持风格。 有关详细信息,请参阅 语音风格和角色 。
empathetic
、
excited
、
friendly
、
shy
、
serious
、
relieved
、
sad
。
empathetic
和
relieved
。
affectionate
,
cheerful
,
empathetic
,
excited
,
poetry-reading
,
sorry
, 和
story
.
zh-cn-YunfanMultilingualNeural
和
zh-cn-YunxiaoMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
en-US-JennyMultilingual
声音在生产环境中发布,支持多达 24 个区域设置的设备端体验。 有关支持的区域设置,请参阅下表。
在公共预览版中引入了 8 种新的多语言语音:
en-GB-AdaMultilingualNeural
、
en-GB-OllieMultilingualNeural
、
es-ES-ArabellaMultilingualNeural
、
es-ES-IsidoraMultilingualNeural
、
it-IT-AlessioMultilingualNeural
、
it-IT-IsabellaMultilingualNeural
、
it-IT-MarcelloMultilingualNeural
和
pt-BR-ThalitaMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
在公共预览版中引入了针对呼叫中心场景优化的 2 种新的
en-US
语音:
en-US-LunaNeural
和
en-US-KaiNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
9 种多语言语音在所有区域正式发布:
en-US-AvaMultilingualNeural
、
en-US-AndrewMultilingualNeural
、
en-US-EmmaMultilingualNeural
、
en-US-BrianMultilingualNeural
、
de-DE-FlorianMultilingualNeural
、
de-DE-SeraphinaMultilingualNeural
、
fr-FR-RemyMultilingualNeural
、
fr-FR-VivienneMultilingualNeural
、
zh-cn-XiaoxiaoMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
为公共预览版引入一种新的多语言语音:
ja-JP-MasaruMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
其他更新:
en-US-RyanMultilingualNeural
在所有区域正式发布。
en-US-JennyMultilingualV2Neural
在所有区域正式发布,并与
en-US-JennyMultilingualNeural
合并。
多语言语音
en-US-JennyMultilingualV2Neural
和
en-US-RyanMultilingualNeural
会自动检测输入文本的语言。 但是,你仍然可以使用
<lang>
元素来调整这些语音的说话语言。
这些新的多语言语音可以使用 41 种语言和口音说出:
Arabic (Egypt)
、
Arabic (Saudi Arabia)
、
Catalan
、
Czech (Czechia)
、
Danish (Denmark)
、
German (Austria)
、
German (Switzerland)
、
German (Germany)
、
English (Australia)
、
English (Canada)
、
English (United Kingdom)
、
English (Hong Kong SAR, China)
、
English (Ireland)
、
English (India)
、
English (United States)
、
Spanish (Spain)
、
Spanish (Mexico)
、
Finnish (Finland)
、
French (Belgium)
、
French (Canada)
、
French (Switzerland)
、
French (France)
、
Hindi (India)
、
Hungarian (Hungary)
、
Indonesian (Indonesia)
、
Italian (Italy)
、
Japanese (Japan)
、
Korean (Korea)
、
Norwegian Bokmål (Norway)
、
Dutch (Belgium)
、
Dutch (Netherlands)
、
Polish (Poland)
、
Portuguese (Brazil)
、
Portuguese (Portugal)
、
Russian (Russia)
、
Swedish (Sweden)
、
Thai (Thailand)
、
Turkish (Türkiye)
、
Chinese (Mandarin, Simplified)
、
Chinese (Cantonese, Traditional)
、
Chinese (Taiwanese Mandarin, Traditional)
。
这些多语言语音并不完全支持某些 SSML 元素,例如中断、强调、静音和亚语音。
en-US-JennyMultilingualV2Neural
语音暂时以公共预览版形式提供,仅用于评估目的。 未来将会删除。
若要使用英语以外的语言说话,语音的
en-US-JennyMultilingualNeural
当前实现需要设置
<lang xml:lang>
元素。 我们预计,在 2023 日历年第 4 季度,
en-US-JennyMultilingualNeural
语音将更新为使用输入文本的语言说话,而无需
<lang xml:lang>
元素。 这将与
en-US-JennyMultilingualV2Neural
语音相当。
公共预览版中对以下语音推出新功能:
sr-RS
语音添加了拉丁语输入:
sr-latn-RS-SophieNeural
和
sr-latn-RS-NicholasNeural
。
sq-AL
语音的英语发音支持:
sq-AL-AnilaNeural
和
sq-AL-IlirNeural
。
en-GB-RyanNeural
、
en-GB-SoniaNeural
、
es-MX-JorgeNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
和
it-IT-IsabellaNeural
style=“sad”
en-GB-SoniaNeural
、
fr-FR-DeniseNeural
和
fr-FR-HenriNeural
语音合成标记语言 (SSML) 已更新,可支持音频效果处理器元素,这些元素可针对设备上的特定方案优化合成语音输出的质量。 在 语音合成标记 中了解详细信息。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
fil-PH-AngeloNeural
和
fil-PH-BlessicaNeural
语音的质量。
es-CL
西班牙语(智利) 和
uz-UZ
乌兹别克语(乌兹别克斯坦) 的语音更新了文本规范化规则。
sq-AL
阿尔巴尼亚语(阿尔巴尼亚) 和
az-AZ
阿塞拜疆语(阿塞拜疆) 的语音添加了英语字母拼写。
zh-HK-WanLungNeural
语音的英语发音。
nl-NL-MaartenNeural
和
pt-BR-AntonioNeural
语音的问题语气。
<lang ="en-US">
标记的支持,该标记可以改善以下语音的英语发音:
de-DE-ConradNeural
、
de-DE-KatjaNeural
、
es-ES-AlvaroNeural
、
es-MX-DaliaNeural
、
es-MX-JorgeNeural
、
fr-CA-SylvieNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
、
it-IT-DiegoNeural
和
it-IT-IsabellaNeural
。
style="chat"
标记的支持:
en-GB-RyanNeural
、
es-MX-JorgeNeural
和
it-IT-IsabellaNeural
。
style="cheerful"
标记的支持:
en-GB-RyanNeural
、
en-GB-SoniaNeural
、
es-MX-JorgeNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
和
it-IT-IsabellaNeural
。
style="sad"
标记的支持:
en-GB-SoniaNeural
、
fr-FR-DeniseNeural
和
fr-FR-HenriNeural
。
发布了新语音的公共预览版:
en-US-AIGenerate1Neural
和
en-US-AIGenerate2Neural
。
zh-cn-henan-YundengNeural
、
zh-cn-shaanxi-XiaoniNeural
和
zh-cn-shandong-YunxiangNeural
。
有关详细信息,请参阅 语言和语音列表 。
zh-cn
中文(普通话,简体)语音和 1 种新的
en-US
英语(美国)语音。 参阅
完整语言和语音列表
。
affectionate
、
angry
、
cheerful
、
disgruntled
、
embarrassed
、
fearful
、
gentle
、
sad
、
serious
zh-cn-XiaozhenNeural
公共预览版
angry
、
cheerful
、
disgruntled
、
fearful
、
sad
、
serious
zh-cn-YunxiaNeural
公共预览版
angry
、
calm
、
cheerful
、
fearful
、
sad
zh-cn-YunzeNeural
公共预览版
angry
、
calm
、
cheerful
、
depressed
、
disgruntled
、
documentary-narration
、
fearful
、
sad
、
serious
en-SG-LunaNeural
和
en-SG-WayneNeural
的质量
Angry
的公共预览版支持这些新风格:
Excited
、
Friendly
、
Hopeful
、
Sad
、
Shouting
、
Unfriendly
、
Terrified
、
Whispering
和
en-US-AriaNeural
。
Angry
、
Cheerful
的公共预览版支持这些新风格:
Excited
、
Friendly
、
Hopeful
、
Sad
、
Shouting
、
Unfriendly
、
Terrified
、
Whispering
、
en-US-GuyNeural
和
en-US-JennyNeural
。
Excited
的公共预览版支持这些新风格:
Friendly
、
Hopeful
、
Shouting
、
Unfriendly
、
Terrified
、
Whispering
和
en-US-SaraNeural
。 请参阅
语音风格和角色
。
zh-cn-YunjianNeural
、
zh-cn-YunhaoNeural
和
zh-cn-YunfengNeural
的公共预览版。 参阅
完整语言和语音列表
。
sports-commentary
的公共预览版支持 2 个新样式:
sports-commentary-excited
、
zh-cn-YunjianNeural
。 请参阅
语音风格和角色
。
advertisement-upbeat
的公共预览版支持 1 个新样式:
zh-cn-YunhaoNeural
。 请参阅
语音风格和角色
。
cheerful
支持的样式
sad
和
fr-FR-DeniseNeural
在所有区域中都已正式发布。
Cheerful
增加了对
Sad
和
fr-FR-DeniseNeural
样式的支持。 请参阅
语音风格和角色
。
为神经网络文本转语音添加了 10 种新语言和变体:
为神经网络文本转语音添加了 49 种新语言和 98 种语音:
Adri
af-ZA
南非语(南非)、Willem
af-ZA
南非语(南非)、Mekde
am-ET
阿姆哈拉语(埃塞俄比亚)、Ameha
am-ET
阿姆哈拉语(埃塞俄比亚)、Fatima
ar-AE
阿拉伯语(阿拉伯联合酋长国)、Hamdan
ar-AE
阿拉伯语(阿拉伯联合酋长国)、Laila
ar-BH
阿拉伯语(巴林)、Ali
ar-BH
阿拉伯语(巴林)、Amina
ar-DZ
阿拉伯语(阿尔及利亚)、Ismael
ar-DZ
阿拉伯语(阿尔及利亚)、Rana
ar-IQ
阿拉伯语(伊拉克)、Bassel
ar-IQ
阿拉伯语(伊拉克)、Sana
ar-JO
阿拉伯语(约旦)、Taim
ar-JO
阿拉伯语(约旦)、Noura
ar-KW
阿拉伯语(科威特)、Fahed
ar-KW
阿拉伯语(科威特)、Iman
ar-LY
阿拉伯语(利比亚)、Omar
ar-LY
阿拉伯语(利比亚)、Mouna
ar-MA
阿拉伯语(摩洛哥)、Jamal
ar-MA
阿拉伯语(摩洛哥)、Amal
ar-QA
阿拉伯语(卡塔尔)、Moaz
ar-QA
阿拉伯语(卡塔尔)、Amany
ar-SY
阿拉伯语(叙利亚)、Laith
ar-SY
阿拉伯语(叙利亚)、Reem
ar-TN
阿拉伯语(突尼斯)、Hedi
ar-TN
阿拉伯语(突尼斯)、Maryam
ar-YE
阿拉伯语(也门)、Saleh
ar-YE
阿拉伯语(也门)、Nabanita
bn-BD
孟加拉语(孟加拉国)、Pradeep
bn-BD
孟加拉语(孟加拉国)、Asilia
en-KE
英语(肯尼亚)、Chilemba
en-KE
英语(肯尼亚)、Ezinne
en-NG
英语(尼日利亚)、Abeo
en-NG
英语(尼日利亚)、Imani
en-TZ
英语(坦桑尼亚)、Elimu
en-TZ
英语(坦桑尼亚)、Sofia
es-BO
西班牙语(玻利维亚)、Marcelo
es-BO
西班牙语(玻利维亚)、Catalina
es-CL
西班牙语(智利)、Lorenzo
es-CL
西班牙语(智利)、Maria
es-CR
西班牙语(哥斯达黎加)、Juan
es-CR
西班牙语(哥斯达黎加)、Belkys
es-CU
西班牙语(古巴)、Manuel
es-CU
西班牙语(古巴)、Ramona
es-DO
西班牙语(多米尼加共和国)、Emilio
es-DO
西班牙语(多米尼加共和国)、Andrea
es-EC
西班牙语(厄瓜多尔)、Luis
es-EC
西班牙语(厄瓜多尔)、Teresa
es-GQ
西班牙语(赤道几内亚)、Javier
es-GQ
西班牙语(赤道几内亚)、Marta
es-GT
西班牙语(危地马拉)、Andres
es-GT
西班牙语(危地马拉)、Karla
es-HN
西班牙语(洪都拉斯)、Carlos
es-HN
西班牙语(洪都拉斯)、Yolanda
es-NI
西班牙语(尼加拉瓜)、Federico
es-NI
西班牙语(尼加拉瓜)、Margarita
es-PA
西班牙语(巴拿马)、Roberto
es-PA
西班牙语(巴拿马)、Camila
es-PE
西班牙语(秘鲁)、Alex
es-PE
西班牙语(秘鲁)、Karina
es-PR
西班牙语(波多黎各)、Victor
es-PR
西班牙语(波多黎各)、Tania
es-PY
西班牙语(巴拉圭)、Mario
es-PY
西班牙语(巴拉圭)、Lorena
es-SV
西班牙语(萨尔瓦多)、Rodrigo
es-SV
西班牙语(萨尔瓦多)、Valentina
es-UY
西班牙语(乌拉圭)、Mateo
es-UY
西班牙语(乌拉圭)、Paola
es-VE
西班牙语(委内瑞拉)、Sebastian
es-VE
西班牙语(委内瑞拉)、Dilara
fa-IR
波斯语(伊朗)、Farid
fa-IR
波斯语(伊朗)、Blessica
fil-PH
菲律宾语(菲律宾)、Angelo
fil-PH
菲律宾语(菲律宾)、Sabela
gl-ES
加利西亚语、Roi
gl-ES
加利西亚语、Siti
jv-ID
爪哇语(印度尼西亚)、Dimas
jv-ID
爪哇语(印度尼西亚)、Sreymom
km-KH
高棉语(柬埔寨)、Piseth
km-KH
高棉语(柬埔寨)、Nilar
my-MM
缅甸语(缅甸)、Thiha
my-MM
缅甸语(缅甸)、Ubax
so-SO
索马里语(索马里)、Muuse
so-SO
索马里语(索马里)、Tuti
su-ID
巽他语(印度尼西亚)、Jajang
su-ID
巽他语(印度尼西亚)、Rehema
sw-TZ
斯瓦希里语(坦桑尼亚)、Daudi
sw-TZ
斯瓦希里语(坦桑尼亚)、Saranya
ta-LK
泰米尔语(斯里兰卡)、Kumar
ta-LK
泰米尔语(斯里兰卡)、Venba
ta-SG
泰米尔语(新加坡)、Anbu
ta-SG
泰米尔语(新加坡)、Gul
ur-IN
乌尔都语(印度)、Salman
ur-IN
乌尔都语(印度)、Madina
uz-UZ
乌兹别克语(乌兹别克斯坦)、Sardor
uz-UZ
乌兹别克语(乌兹别克斯坦)、Thando
zu-ZA
祖鲁语(南非)、Themba
zu-ZA
祖鲁语(南非)。
en-US
英语(美国)):Sara 表示一位年轻女性,其说话风格更随意,最适合聊天机器人场景
。
ja-JP
日语语音 Nanami 添加的新样式
:Nanami 现在提供三种新样式:聊天、客户服务和快乐。
整体发音改进
:Ardi
id-ID
、Premwadee
th-TH
、Christel
da-DK
、HoaiMy 和 NamMinh
vi-VN
。
zh-cn
中文(普通话):小陈和小燕,针对自发语音和客户服务场景进行了优化
。
神经网络文本转语音更新
Speech Studio 更新
引入了 10 种新语言 - 神经 TTS 语言列表中添加了 10 个新区域设置中的 20 种新语音,分别为:Yan
英语(香港),Sam
en-HK
英语(香港),Molly
en-HK
英语(新西兰),Mitchell
en-NZ
英语(新西兰),Luna
en-NZ
英语(新加坡),Wayne
en-SG
英语(新加坡),Leah
en-SG
英语(南非),Luke
en-ZA
英语(南非),Dhwani
en-ZA
古吉拉特语(印度),Niranjan
gu-IN
古吉拉特语(印度),Aarohi
gu-IN
马拉地语(印度),Manohar
mr-IN
马拉地语(印度),Elena
mr-IN
西班牙语(阿根廷),Tomas
es-AR
西班牙语(阿根廷),Salome
es-AR
西班牙语(哥伦比亚),Gonzalo
es-CO
西班牙语(哥伦比亚),Paloma
es-CO
西班牙语(美国),Alonso
es-US
西班牙语(美国),Zuri
es-US
斯瓦希里语(肯尼亚),Rafiki
sw-KE
斯瓦希里语(肯尼亚)。
预览版中添加十一种新 en-US 语音 - 预览版中有 11 种新 en-US 语音添加到美式英语中,分别为 Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob。
五种
zh-cn
中文(普通话,简体中文)语音正式发布 - 5 种中文(普通话,简体中文)语音从预览版转为正式发布。 分别为 Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui。 现在,这些语音在所有
区域
都可以使用。 Yunxi 添加了一种新的“助手”风格,适用于聊天机器人和语音代理。 Xiaomo 的语音风格经过改进,更加自然和富有特色。
引入了六种新语言 - 向神经 TTS 语言列表中添加了 6 个新的区域设置中的 12 种新语音:
威尔士语(英国) 中的 Nia、
cy-GB
威尔士语(英国) 中的 Aled、
cy-GB
英语(菲律宾) 中的 Rosa、
en-PH
英语(菲律宾) 中的 James、
en-PH
法语(比利时) 中的 Charline、
fr-BE
法语(比利时) 中的 Gerard、
fr-BE
荷兰语(比利时) 中的 Dena、
nl-BE
荷兰语(比利时) 中的 Arnaud、
nl-BE
乌克兰语(乌克兰) 中的 Polina、
uk-UA
乌克兰语(乌克兰) 中的 Ostap、
uk-UA
乌尔都语(巴基斯坦) 中的 Uzma、
ur-PK
乌尔都语(巴基斯坦) 中的 Asad。
五种语言从预览版升级到正式版 - 11 月在 5 个区域设置中引入的 10 种语音现在已正式发布:
爱沙尼亚语(爱沙尼亚) 中的 Kert、
et-EE
爱尔兰语(爱尔兰) 中的 Colm、
ga-IE
拉脱维亚语(拉脱维亚) 中的 Nils、
lv-LV
立陶宛语(立陶宛) 中的 Leonas、
lt-LT
马耳他语(马耳他) 中的 Joseph。
为法语(加拿大) 添加了新的男性语音 - 现在为 法语(加拿大) 提供了新语音 Antoine。
质量改进 - 降低了语音错误率:
匈牙利语 - 48.17%、
hu-HU
挪威语 - 52.76%、
nb-NO
荷兰语(荷兰) - 22.11%。
此发行版现在支持 60 种语言/区域设置的总共 142 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问 语言支持 。
获取人脸姿态事件以创建角色动画
神经网络文本转语音现在包含
视素事件
。 使用视素事件,用户可获取人脸姿态序列和合成语音。 视素可以用来控制 2D 和 3D 头像模型的运动,使嘴巴的运动与合成的语音匹配。 视素事件目前仅适用于
en-US-AriaNeural
语音。
使用 bookmark 元素 可以在 SSML 中插入自定义标记,以获得音频流中每个标记的偏移量。 它可用于引用文本或标记序列中的特定位置。
为 54 种语言/区域设置中的总共 129 种神经语音发布了 51 种新语音:
正式版区域设置中的 46 种新语音 :
ar-EG
阿拉伯语(埃及)中的 Shakir、
ar-SA
阿拉伯语(沙特阿拉伯)中的 Hamed、
bg-BG
保加利亚语(保加利亚)中的 Borislav、
ca-ES
加泰罗尼亚语中的 Joana、
cs-CZ
捷克语(捷克共和国)中的 Antonin、
da-DK
丹麦语(丹麦)中的 Jeppe、
de-AT
德语(澳大利亚)中的 Jonas、
de-CH
德语(瑞士)中的 Jan、
el-GR
希腊语(希腊)中的 Nestoras、
en-CA
英语(加拿大)中的 Liam、
en-IE
英语(爱尔兰)中的 Connor、
en-IN
印地语(印度)中的 Madhur、
en-IN
泰卢固语(印度)中的 Mohan、
en-IN
英语(印度)中的 Prabhat、
en-IN
泰米尔语(印度)中的 Valluvar、
es-ES
加泰罗尼亚语中的 Enric、
et-EE
爱沙尼亚语(爱沙尼亚)中的 Kert、
fi-FI
芬兰语(芬兰)中的 Harri、
fi-FI
芬兰语(芬兰)中的 Selma、
fr-CH
法语(瑞士)中的 Fabrice、
ga-IE
爱尔兰语(爱尔兰)中的 Colm、
he-IL
希伯来语(以色列)中的 Avri、
hr-HR
克罗地亚语(克罗地亚)中的 Srecko、
hu-HU
匈牙利语(匈牙利)中的 Tamas、
id-ID
印度尼西亚语(印度尼西亚)中的 Gadis、
lt-LT
立陶宛语(立陶宛)中的 Leonas、
lv-LV
拉脱维亚语(拉脱维亚)中的 Nils、
ms-MY
马来语(马来西亚)中的 Osman、
mt-MT
马耳他语(马耳他)中的 Joseph、
nb-NO
挪威语、博克马尔语(挪威)中的 Finn、
nb-NO
挪威语、博克马尔语(挪威)中的 Pernille、
nl-NL
荷兰语(荷兰)的 Fenna、
nl-NL
荷兰语(荷兰)中的 Maarten、
pl-PL
波兰语(波兰)中的 Agnieszka、
pl-PL
波兰语(波兰)中的 Marek、
pt-BR
葡萄牙语(巴西)中的 Duarte、
pt-PT
葡萄牙语(葡萄牙)中的 Raquel、
ro-RO
罗马尼亚语(罗马尼亚)中的 Emil、
ru-RU
俄语(俄罗斯)中的 Dmitry、
ru-RU
俄语(俄罗斯)中的 Svetlana、
sk-SK
斯洛伐克语(斯洛伐克)中的 Lukas、
sl-SI
斯洛文尼亚语(斯洛文尼亚)中的 Rok、
sv-SE
瑞典语(瑞典)中的 Mattias、
sv-SE
瑞典语(瑞典)中的 Sofie、
th-TH
泰语(泰国)中的 Niwat、
tr-TR
土耳其语(土耳其)中的 Ahmet、
vi-VN
越南语(越南)中的 NamMinh、
zh-TW
台湾普通话(中国台湾)中的 HsiaoChen、
zh-TW
台湾普通话(中国台湾)中的 YunJhe、
zh-HK
粤语(中国香港特別行政区)中的 HiuMaan、
zh-HK
粤语(中国香港特別行政区)中的 WanLung。
预览版区域设置中的 5 种新语音 :
et-EE
爱沙尼亚语(爱沙尼亚)中的 Kert、
ga-IE
爱尔兰语(爱尔兰)中的 Colm、
lv-LV
拉脱维亚语(拉脱维亚)中的 Nils、
lt-LT
立陶宛语(立陶宛)中的 Leonas、
mt-MT
马耳他语(马耳他)中的 Joseph。
此发行版现在支持 54 种语言/区域设置中的总共 129 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问 语言支持 。
音频内容创建的更新
StyleDegree
神经语音启用
zh-cn
控件。
若要查看新功能,请访问
音频内容创建工具
。
zh-cn
神经语音以支持英语。
zh-cn
神经语音以支持语调调整。 可以使用 SSML 或音频内容创建工具进行调整以获取最佳语调。
zh-cn
多样式神经语音以支持
StyleDegree
控件。 可调整情感强度(弱或强)。
zh-cn-YunyeNeural
以支持可以执行不同情感的多种风格。
有关详细信息,请参阅 此技术博客 。
newscast
样式。 请参阅
如何在 SSML 中使用说话风格
。
pl-PL
(错误率降低:51%)和
fi-FI
(错误速率降低:58%)
ja-JP
单个字词阅读功能。 将发音错误减小了 80%。
zh-cn-XiaoxiaoNeural
:改进了情绪/客户服务/新闻广播/快乐/愤怒风格的语音质量。
zh-cn
:改进了儿化音发音和轻声,优化了空间韵律,从而大大提高了清晰度。
en-US
和
zh-cn
语音的新说话风格。
英语(美国)区域设置中的 Jenny 支持聊天机器人、客户服务和助理说话风格。 简体中文语音 XiaoXiao 有 10 种新的说话风格可用。 此外,XiaoXiao 神经语音支持
StyleDegree
优化。 请参阅
如何在 SSML 中使用说话风格
。
神经网络文本转语音:为
en-US
Aria 语音添加了新的说话风格。 播报新闻时,AriaNeural 听起来像新闻播音员。 “newscast-formal”风格听起来更严肃,而“newscast-casual”风格则更为放松和随意。 请参阅
如何在 SSML 中使用说话风格
。
发音:将发音优化功能更新为最新的音素集。 可以从库中选取正确的音素元素,并优化所选字词的发音。
下载:音频“下载”/“导出”这一功能得到增强,支持按段落生成音频。 可以编辑同一文件/SSML 中的内容,同时生成多个音频输出。 “下载”的文件结构也得到了完善。 现在,可以轻松将所有音频文件保存在一个文件夹中。
任务状态:多文件导出体验得到改善。 过去导出多个文件时,如果其中一个文件失败,则整个任务将失败。 但现在,所有其余文件都将成功导出。 任务报表中包含了更加详细和结构化的信息。 可以通过报表查看所有失败文件和句子的记录。
SSML 文档:链接到 SSML 文档,有助于查看有关如何使用所有优化功能的规则。
降低了单词级别发音错误 %:
ru-RU
(错误减少 56%)、
sv-SE
(错误减少 49%)
对
en-US
神经网络语音的复音词读取能力提高了 40%。 复音词的示例包括“read”、“live”、“content”、“record”、“object”等。
使
fr-FR
中的疑问语气更加自然。 MOS(平均意见得分)增益:+0.28
更新了以下语音的 vocoder,提高了保真度,整体性能提高 40%。
Voice
我们已对
ta-IN
和
ms-MY
的发音评估模型作出了重大升级。 你将在皮尔逊相关系数(PCC)中看到显著提升,这意味着更精确且更可靠的评估。
这些更新后的模型已准备好通过 API 和 Azure AI Foundry 操作台中使用,就像以前一样。
语音转文本模型针对
ta-IN
、
te-IN
、
en-IN
和
hu-HU
区域的准确性分别提高了5-10%。 我们还预计,对于
ta-IN
和
te-IN
模型,冗余词数量减少了大约20倍。
若要在音频文件中连续准确地转录多语言内容,现在可以使用最新的多语言模型,而无需通过快速听录 API 指定区域设置代码。 有关详细信息,请参阅 快速转录中的多语言转录 。
快速转录现在支持其他地区,包括 fi-FI、he-IL、id-ID、pl-PL、pt-PT、sv-SE等。有关详细信息,请参阅 语音转文本支持的语言 。
我们很高兴地宣布对这些区域设置的发音评估模型的大幅改进:
de-DE
、、
es-MX
、
it-IT
ja-JP
、
ko-KR
和
pt-BR
。 这些增强功能在皮尔逊相关系数(PCC)中取得了显著进展,确保评估更加准确和可靠。
与以前一样,模型通过 API 提供。
对话听录多声道分割聚类于 2025 年 3 月 28 日停用。
若要继续使用语音转文本进行分割聚类,请改用以下功能:
使用分割聚类进行快速听录这些语音转文本功能仅支持单声道音频的分割聚类。 不支持用于对话听录多通道分割聚类的多声道音频。
宣告发布新功能:语义分段。 此功能在解码器中集成标点符号模块,以基于语义信息对音频进行分段,从而产生更符合逻辑和更精准的分段边界。 主要优势:
支持的语言环境:
有关实现详细信息,请参阅文档: 如何识别语音 的“语义分段”部分。
宣告发布最新的英语语音模型(en-US、en-CA),该模型在各种性能指标方面带来了实质性的改进。 下面是此次发布的主要亮点:
新模型还提高了整体性能,包括实体识别和更好地识别拼写的字母。
这些改进预计将为所有用户提供更准确、高效且令人满意的体验。 新模型通过 API 和 Azure AI Foundry 操场提供。 鼓励提供反馈以进一步优化其功能。
语音转文本 REST API 版本 2024-11-15 已正式发布。 有关详细信息,请参阅 语音转文本 REST API 参考文档 和 语音转文本 REST API 指南 。
语音转文本 REST API 版本 2024-05-15-preview 已弃用。
快速听录现已通过 语音转文本 REST API 版本 2024-11-15 正式发布。 通过快速转录,您可以以高速度准确同步地将音频文件转录为文本。 它可以比实际音频的时长更快地转录音频。 有关详细信息,请参阅 快速听录 API 指南 。
通过
es-US
双语模型,对短西班牙语术语的识别质量有了显著改善。 该模型是双语的,也支持英语。 英语识别的质量也得到了提高。
fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ
快速听录现在支持差异化以识别和区分单声道音频文件中的多个说话者。 有关详细信息,请参阅 快速听录 API 指南 。
语言学习现在以公共预览版提供。 交互式语言学习可让你的学习体验变得更加有趣和有效。 有关详细信息,请参阅 带有发音评估的交互式语言学习 。
语音 发音评估 现在支持 33 种正式发布的语言,每种语言均可在所有语音转文本 区域 使用。 有关详细信息,请参阅 发音评估的完整语言列表 。
区域设置 (BCP-47)快速听录现在以公共预览版提供。 通过快速转录,您可以以高速度准确同步地将音频文件转录为文本。 它可以比实际音频的时长更快地转录音频。 有关详细信息,请参阅 快速听录 API 指南 。
语音转文本 REST API 版本 3.2 现已正式发布。 有关语音转文本 REST API v3.2 的详细信息,请参阅 语音转文本 REST API v3.2 参考文档 和 语音转文本 REST API 指南 。
预览版 3.2-preview.1 和 3.2-preview.2 于 2024 年 9 月停用。
语音转文本 REST API v3.1 即将停用,具体日期有待宣布。 语音转文本 REST API v3.0 将于 2026 年 3 月 31 日停用。 有关升级的详细信息,请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。
语音 发音评估 现在正式支持 24 种语言(添加了 1 种新语言),另外,对 7 种语言的支持推出了公共预览版。 有关详细信息,请参阅 发音评估的完整语言列表 。
en-IN
模型现在支持英语和印地语双语方案,并提高了准确性。 阿拉伯语区域设置(
ar-AE
、
ar-BH
、
ar-DZ
、
ar-IL
、
ar-IQ
、
ar-KW
、
ar-LB
、
ar-LY
、
ar-MA
、
ar-OM
、
ar-PS
、
ar-QA
、
ar-SA
、
ar-SY
、
ar-TN
、
ar-YE
)现在都具有双语英语支持、更高的准确性和呼叫中心支持。
批量听录 为以下区域设置提供具有新体系结构的模型:
es-ES
、
es-MX
、
fr-FR
、
it-IT
、
ja-JP
、
ko-KR
、
pt-BR
和
zh-cn
。 这些模型显著改善了可读性和实体识别。
添加了对以下区域设置的短语列表支持:ar-SA、de-CH、en-IE、en-ZA、es-US、id-ID、nl-NL、pl-PL、pt-PT、ru-RU、sv-SE、th-TH、vi-VN、zh-HK、zh-TW。
我们很高兴能够为我们的实时语音建模(双语语音建模)提供开创性补充。 这一显著增强功能使我们的语音模型能够无缝支持双语语言对,如英语和西班牙语以及英语和法语。 这一功能使用户能够在实时交互过程中轻松切换语言,这标志着我们致力于增强沟通体验的关键时刻。
主要亮点:
如何使用:
调用语音服务 API 或在 Speech Studio 上试用时,请选择 es-US(西班牙语和英语)或 fr-CA(法语和英语)。 可以随意使用任何一种语言或将它们混合在一起 — 该模型旨在动态调整,以两种语言提供准确和上下文感知的响应。
是时候使用我们最新发布的功能提升你的沟通游戏了 — 无缝多语言沟通触手可及!
我们很高兴能对语音模型进行重大更新,承诺增强的准确度、提高可读性和改进实体识别。 这一升级带来了强大的新结构,并得到了扩展的定型数据集的支持,确保了整体性能的显著提升。 它包括新发布的 en-US、zh-cn、ja-JP、it、pt-BR、es-MX、es-ES、fr-FR、de-DE、ko-KR、tr-TR、sv-SE 和 he-IL 的模型。
潜在影响:尽管取得了这些进步,但重要的是要注意潜在影响:
我们鼓励探索这些改进,并考虑无缝过渡的潜在问题,一如既往,你的反馈有助于改进和推进我们的服务。
语音 发音评估 现在支持 18 种语言,还有 6 种语言可供公众预览。 有关详细信息,请参阅 发音评估的完整语言列表 。
我们很高兴地宣布,发音评估将从 2023 年 11 月 1 日开始引入新功能:韵律、语法、词汇和主题。 这些增强功能旨在为阅读和说话评估提供更全面的语言学习体验。 升级到 SDK 1.35.0 或更改版本,在 如何使用发音评估 和 Speech Studio 中的发音评估 中浏览更多详细信息。
语音转文本 REST API v3.2 以预览版提供。 语音转文本 REST API v3.1 已正式发布。 语音转文本 REST API v3.0 将于 2026 年 3 月 31 日停用。 有关详细信息,请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。
语音转文本支持两个新的区域设置,如下表所示。 在 此处 查看完整的语言列表。
为
de-AT
区域设置添加了对音频 + 人工标记的脚本的支持。
为更多区域设置添加了对“音频 + 人工标记的脚本”的支持:
ar-BH
、
ar-DZ
、
ar-EG
、
ar-MA
、
ar-SA
、
ar-TN
、
ar-YE
和
ja-JP
。
为
de-AT
区域设置添加了对结构化文本改编的支持。
语音转文本 REST API 版本 3.1 已推出正式版。 语音转文本 REST API 版本 3.0 即将停用。 若要详细了解如何进行迁移,请参阅 指南 。
添加了
ml-IN
区域设置的马拉雅拉姆语(印度)的支持。 在
此处
查看完整的语言列表。
增加了 7 个新区域设置,如下表所示。 在 此处 查看完整的语言列表。
/synthesize/health
。 服务正常时,此终结点返回 HTTP 状态 200;如果服务运行不正常,则返回 HTTP 状态 503。
添加了对最新模型版本的支持:
对于语音转文本和自定义语音转文本,包括以下功能:
对于文本转语音,添加了对新神经语音的支持:
en-GB-OliviaNeural
和
en-US-ChristopherNeural
nl-NL-FennaNeural
。
添加了对最新模型版本的支持:
以下是版本的亮点:
语音转文本 自定义语音转文本 神经文本转语音 语音语言识别
uk-UA
区域设置的支持
cs-CZ
、
da-DK
、
en-GB
、
fr-CA
、
hu-HU
、
it-CH
、
tr-TR
、
zh-cn-sichuan
添加了对最新模型版本的支持:
en-us-andrewmultilingualneural
、
en-us-jessaneural
、
es-us-alonsoneural
、
es-us-palomaneural
、
it-it-isabellamultilingualneural
ar-YE
、
af-ZA
、
am-ET
、
ar-MA
、
ar-TN
、
sw-KE
、
sw-TZ
、
zu-ZA
添加了对最新模型版本的支持:
PropertyId.Speech_SegmentationSilenceTimeoutMs
被忽略的问题。
uk-UA
区域设置
添加了对最新模型版本的支持:
将语音转文本组件到最新。
将所有
es
区域设置模型升级到最新。
增加语音转文本用例的媒体转换缓冲区。
添加了对最新模型版本的支持:
添加了对最新模型版本的支持:
修复多个高风险漏洞问题。
移除容器中的冗余日志。
将内部媒体组件升级到最新版本。
添加对语音
en-IN-NeerjaNeural
的支持。
添加了对最新模型版本的支持:
将自定义语音转文本和语音转文本升级到最新框架。
修复漏洞问题。
添加对语音
ar-AE-FatimaNeural
的支持。
添加了对最新模型版本的支持:
修复使用本地自定义模型文件通过
docker
装载选项运行语音转文本容器的问题。
修复在某些情况下
RECOGNIZING
事件不会通过语音 SDK 在响应中显示的问题。
修复漏洞问题。
添加了对最新模型版本的支持:
本地语音转文本图像升级至 .NET 6.0
升级用于语言区域设置的显示模型,包括
en-us
、
ar-eg
、
ar-bh
、
ja-jp
、
ko-kr
等。
升级语音转文本容器组件以解决漏洞问题。
添加对以下区域设置语音的支持:
de-DE-AmalaNeural
、
de-AT-IngridNeural
、
de-AT-JonasNeural
和
en-US-JennyMultilingualNeural
添加了对最新模型版本的支持:
修复
he-IL
标点问题
修复漏洞问题
添加新的区域语音
en-US-MichelleNeural
和
es-MX-CandelaNeural
修复漏洞问题
添加了对最新模型版本的支持:
修复漏洞问题
修复
tr-TR
大写问题
升级语音转文本
en-US
显示模式
添加对
ar-AE-HamdanNeural
标准语音的支持。
添加了对最新模型版本的支持:
修复漏洞问题
定期升级语音模型
添加新的阿拉伯区域设置:
升级希伯来语和土耳其语显示模型
添加了对最新模型版本的支持:
修复假设模式问题
修复 HTTP 代理问题
自定义语音转文本容器断开连接模式
向 TTS 前端添加 CNV 断开连接容器支持
添加对以下区域设置语音的支持:
添加了对最新模型版本的支持:
修复 ipv4/ipv6 问题
修复漏洞问题
添加了对最新模型版本的支持:
添加了对最新模型版本的支持:
添加了最新模型版本的支持。
添加了以下区域设置的支持:
每月定期更新,包括安全升级和漏洞修复。
每月定期更新,包括安全升级和漏洞修复。
添加对这些 标准语音 的支持:
az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural
每月定期更新,包括安全升级和漏洞修复。
添加了在断开连接的环境中使用容器的支持。
每月定期更新,包括安全升级和漏洞修复。
添加对这些标准语音的支持:
am-et-amehaneural
、
am-et-mekdesneural
、
so-so-muuseneural
和
so-so-ubaxneural
。
每月定期更新,包括安全升级和漏洞修复。
|
|
被表白的饺子 · 南方医科大学病理生理学教研室-基础医学院 7 月前 |