想出家的葫芦 · javascript - ...· 1 年前 · |
非常酷的打火机 · 解决Oracle19c数据库报错:ORA-2 ...· 1 年前 · |
豪气的感冒药 · jQuery – AJAX get() 和 ...· 1 年前 · |
豪爽的皮带 · asp.net - How to ...· 1 年前 · |
精明的茶叶 · vue按钮点击后禁用-掘金· 1 年前 · |
选择服务或资源
文本转语音服务 语音转文本服务
NoMatchReason::EndSilenceTimeout
。 这与使用实时语音服务进行识别时的行为匹配。
PropertyId
枚举值时设置
SpeechTranslationConfig
的属性。
PropertyId::Speech_SegmentationSilenceTimeoutMs
设置的支持。
LanguageUnderstandingServiceResponse_JsonResult
获得。
SpeechServiceConnection_LanguageIdMode
。 这个单一属性取代了之前的两个属性(
SpeechServiceConnection_SingleLanguageIdPriority
和
SpeechServiceConnection_ContinuousLanguageIdPriority
)。 在最近的模型改进之后,不再需要在低延迟和高准确度之间进行优先排序。 现在,你只需在进行连续语音识别或翻译时,选择是运行启动时语言识别还是连续语言识别即可。
PronunciationAssessmentGranularity.FullText
时获取发音评估结果的问题(
客户问题
)
添加了展示如何使用嵌入式语音的示例
添加了适用于 MAUI 的语音转文本示例
请参阅 语音 SDK 示例存储库 。
AudioStreamWaveFormat
将 ALAW 和 MULAW 直接流式传输到语音服务的支持(此外还可使用现有的 PCM 流)。
libMicrosoft.CognitiveServices.Speech.extension.mas.so
的大小减少了大约 70%。
fr
、
de
、
es
、
jp
的正字法支持
es
的预生成整数支持。
connectionMessage
为空时识别的回调(
客户问题
)。
recognizeOnceAsync(text)
时操作挂起的问题。
zh-cn
和
zh-hk
的支持。
AnyCPU
.NET Framework 生成的支持
说话人辨识服务现在正式发布 (GA)。 可以通过 C++、C#、Java 和 JavaScript 来使用语音 SDK API。 通过说话人辨识服务,你可以根据说话人独特的语音特征准确地验证和识别说话人。 有关此主题的详细信息,请参阅 文档 。
我们已经与 Azure DevOps 和 GitHub 一起取消了对 Ubuntu 16.04 的支持。 Ubuntu 16.04 已于 2021 年 4 月结束生命周期。 请将 Ubuntu 16.04 工作流迁移到 Ubuntu 18.04 或更高版本。
Linux 二进制文件中的 OpenSSL 链接已更改为动态。 Linux 二进制文件大小减少了约 50%。
增加了对基于 Mac M1 ARM 的芯片支持。
C++/C#/Java:增加了新的 API 以通过 Microsoft 音频堆栈实现对语音输入的音频处理支持。 文档在 此处 。
C++:新增了用于意图识别的 API,有助于更高级的模式匹配。 这包括 List 和 Prebuilt Integer 实体,而且支持将意图和实体分组为模型(文档、更新和示例正在开发中,将于近期发布)。
Mac:与 GitHub 问题 1244 相关的 CocoaPod、Python、Java 和 NuGet 包支持基于 ARM64 (M1) 的芯片。
iOS/Mac :iOS 和 macOS 二进制文件现已打包到与 GitHub 问题 919 相关的 xcframework 中。
iOS/Mac:支持与 GitHub 问题 1171 相关的 Mac 催化剂。
Linux:针对 CentOS7 新增了 tar 包
关于语音 SDK
。 Linux .tar 包现在包含
lib/centos7-x64
中 RHEL/CentOS 7 的特定库。 lib/x64 中的语音 SDK 库仍适用于所有其他受支持的 Linux x64 分发版(包括 RHEL/CentOS 8),不适用于 RHEL/CentOS 7。
JavaScript :VoiceProfile 和 SpeakerRecognizer API 已变为可同步/可等待。
JavaScript :新增了对美国政府 Azure 区域的支持。
Windows:新增了对通用 Windows 平台 (UWP) 上的播放的支持。
Android:适用于 Android 包的 OpenSSL 安全更新(更新到版本 1.1.1l)。
Python:解决了在 Python 上选择扬声器设备失败的 bug。
核心:连接尝试失败时自动重新连接。
iOS :在使用 GStreamer 时,iOS 包会因稳定性和 bitcode 生成问题而禁用音频压缩。 可以通过 GitHub 问题 1209 了解详细信息。
Mac/iOS:更新了示例和快速入门,改为使用 xcframework 包。
.NET:更新了示例,改为使用 .NET core 3.1 版本。
JavaScript:增加了语音助手的示例。
请注意:在 此处 开始使用语音 SDK。
VoiceProfileClient
类添加了新 API
GetActivationPhrasesAsync()
,用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
SpeechRecognizer
和
TranslationRecognizer
对象上添加了
对连续语言标识 (LID) 的支持
。
SourceLanguageRecognizer
的
新 Python 对象
,以执行一次性或连续的 LID(不进行识别或翻译)。
VoiceProfileClient
类添加了
getActivationPhrasesAsync
API,用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
VoiceProfileClient
的
enrollProfileAsync
API 现在为异步可等待。 有关示例用法,请参阅
此独立标识代码
。
Microsoft.CognitiveServices.Speech.core
二进制:x64 Linux 小了 475KB(减少了 8.0%);ARM64 Windows UWP 小了 464KB(减少了 11.5%);x86 Windows 小了 343KB(减少了 17.5%);x64 Windows 小了 451KB(减少了 19.4%)。
AudioWorkletNode
而不是已弃用的
ScriptProcessorNode
。 有关详细信息,请参阅
此文
。
enrollProfileAsync()
的新用法。 请参阅
此处
的示例。
单击 此处 ,开始使用语音 SDK。
SourceLanguageRecognizer
API 实现新的独立开始时和连续语言检测。 如果只希望检测音频内容中使用的语言,此 API 可帮你做到这一点。 查看
C++
和
C#
的详细信息。
connection
对象。 这有助于管理和监视与语音服务的连接,尤其有助于进行预连接以减少延迟。 参阅
此处
的文档。
SpeechSynthesisResult
中公开了延迟和欠载运行时间,以帮助你监视和诊断语音合成延迟问题。 请分别参阅
C++
、
C#
、
Java
、
Python
、
Objective-C
和
Go
的详细信息。
retrieveEnrollmentResultAsync
、
getAuthorizationPhrasesAsync
和
getAllProfilesAsync()
,以方便用户管理给定帐户的所有语音配置文件。 请分别参阅
C++
、
C#
、
Java
、
JavaScript
的文档。 这解决了
GitHub 问题 #338
。
DialogServiceConnector.stopListeningAsync
可能导致错误的问题。
ConversationTranslator
会抛出“this.cancelSpeech 不是函数”错误。
AudioConfig
可能会导致“ReferenceError: MediaStream 未定义”的问题。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 可从 此处 下载。
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
设置为
false
以禁用此功能。 有关
C++
、
C#
、
Java
、
Objective-C
、
Python
的详细信息。
AudioConfig.fromWavFileInput
API
。 这解决了
GitHub 问题 #252
。
GetVoicesAsync()
方法,用于返回所有可用的合成语音。 有关
C++
、
C#
、
Java
、
Objective-C
和
Python
的详细信息。
VisemeReceived
事件,用于返回同步的视素动画。 参阅
此处
的文档。
BookmarkReached
事件。 你可以在输入 SSML 中设置书签,并获取每个书签的音频偏移量。 参阅
此处
的文档。
DialogServiceConnector
无法使用
CustomCommandsConfig
来访问自定义命令应用程序,会发生连接错误。 可以通过使用
config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
手动将应用程序 ID 添加到请求来解决此错误。 在下一版本中,将还原
CustomCommandsConfig
的预期行为。
minifyEnabled
设置为 true 时回叫不起作用的问题。
TCP_NODELAY
会被正确设置为 TTS 的基础套接字 IO 以降低延迟。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 可从 此处 下载。
EndpointId
设置自定义语音的支持(
C++
、
C#
、
Java
、
JavaScript
、
Objective-C
、
Python
)。 在此项更改之前,自定义语音用户需要通过
FromEndpoint
方法设置终结点 URL。 现在,客户可以像处理预生成语音一样使用
FromSubscription
方法,然后通过设置
EndpointId
来提供部署 ID。 这简化了自定义语音的设置。
IntentRecognizer
获取比首要意向更多的信息。 它现在支持使用
verbose=true
uri 参数通过
LanguageUnderstandingModel FromEndpoint
方法来配置包含所有意向(而不仅仅是首要评分意向)的 JSON 结果。 这解决了
GitHub 问题 #880
。 请参阅
此处
的已更新文档。
DialogServiceConnector
(
C++
、
C#
、
Java
)现有一个与
ListenOnceAsync()
配合使用的
StopListeningAsync()
方法。 此方法会立即停止音频捕获并正常等待结果,因此非常适合用于按动“立即停止”按钮的场景。
DialogServiceConnector
(
C++
、
C#
、
Java
、
JavaScript
)现有一个新的
TurnStatusReceived
事件处理程序。 这些可选事件对应于机器人上的每个
ITurnContext
解决方案,并且将在发生轮次执行失败(例如,由于 Direct Line Speech 与机器人之间发生未经处理的异常、超时或断网)时予以报告。 使用
TurnStatusReceived
可以更轻松地对失败状况做出响应。 举例而言,如果机器人在后端数据库查询(例如查找产品)上花费的时间太长,
TurnStatusReceived
将允许客户端适时地以“抱歉,我有点迷糊,请重试”或类似内容重新发出提示。
DialogServiceConnector
现有一个
setSpeechActivityTemplate()
方法,以前无意中从该语言中排除了此方法。 此方法相当于设置
Conversation_Speech_Activity_Template
属性,并会请求由 Direct Line Speech 服务发起的所有未来 Bot Framework 活动将提供的内容合并到其 JSON 有效负载中。
Connection
类现有一个
MessageReceived
事件。 此事件提供对服务传入的数据的低级别访问,并且对诊断和调试非常有用。
BotFrameworkConfig
更轻松地设置语音助理和机器人。该类现有
fromHost()
和
fromEndpoint()
工厂方法,与手动设置属性相比,这些方法简化了自定义服务位置的使用。 我们还标准化了
botId
的可选规范,以便在各个配置工厂中使用非默认机器人。
DialogServiceConnector
存在的垃圾回收问题,解决了
GitHub 问题 #794
。
DialogServiceConnector
上多次设置语音授权令牌或活动模板。
DialogServiceConnector
以前不遵循
BotFrameworkConfig
的工厂中指定的可选
botId
参数。 这样,就需要手动设置
botId
查询字符串参数才能使用非默认机器人。 该 bug 已予纠正,现在会遵循并使用提供给
BotFrameworkConfig
的工厂的
botId
值,包括新添加的
fromHost()
和
fromEndpoint()
。 这也适用于
CustomCommandsConfig
的
applicationId
参数。
speech.config
,从而浪费了带宽。
ConversationTranslator
和
ConversationTranscriber
中的类型错误导致 TypeScript 用户遇到编译错误。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 可从 此处 下载。
KeywordRecognizer
API 的支持。 文档见
此处
。
ServicePropertyChannel::HttpHeader
设置任何
HttpHeader
键/值的支持。
ConversationTranscriber
API 的支持。 阅读
此处
的文档。
AudioDataStream FromWavFileInput
方法(以读取 .WAV 文件)。
stopSpeakingAsync()
方法以停止文本转语音合成。 请参阅
此处 (C++)
、
此处 (C#)
、
此处 (Java)
、
此处 (Python)
和
此处 (Objective-C/Swift)
的参考文档。
Connection
类添加了
FromDialogServiceConnector()
函数,该函数可用于监视
DialogServiceConnector
的连接和断开连接事件。 请参阅
此处 (C#)
、
此处 (C++)
和
此处 (Java)
的参考文档。
SetServiceProperty
中的 1.13 回归(带有某些特殊字符的值被忽略)。
KeywordRecognizer
输入时内存管理崩溃的问题。
DialogServiceConnector
在第一次调用后禁用
ListenOnce
调用的修补程序。
IntentRecognizer
中的连续识别添加了修补程序。
IntentRecognizer
中 australiaeast 和 brazilsouth 的错误 URL。
VoiceProfileType
作为创建
VoiceProfile
对象时的参数。
AudioDataStream
时潜在的
SPX_INVALID_ARG
。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 从 此处 下载并安装它。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
KeywordRecognizer
对象和 API。 在
此处
阅读该文档。 有关示例代码,请参阅下面的“示例”部分。
改进与优化
IntentRecognizer
结果原因未正确设置的问题。
SpeechRecognitionEventArgs
结果偏移量的问题。
TranslationRecognizer
可重现。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了什么内容,请在
GitHub
上告诉我们。
请保重身体!
ConversationTranscriptionResult
中添加了
UtteranceId
,这是在所有中间产物和最终的语音识别结果中保持一致的一个 ID。 请参阅适用于
C#
、
C++
的详细信息。
Language ID
的支持。 参阅
GitHub 存储库
中的 speech_sample.py。
SendMessageAsync
现在以二进制类型发送二进制消息。 请参阅适用于
C#
、
C++
的详细信息。
Connection MessageReceived
事件时在
Connection
对象之前释放
Recognizer
可能会导致故障的问题。 请参阅适用于
C#
、
C++
的详细信息。
fromSubscription
API 中增加了对中国的区域的支持。 有关详细信息,请参阅
此文
。
Language ID
添加了示例。 有关详细信息,请参阅
此文
。
Covid19 缩减测试:
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动的设备验证测试。 例如,我们无法在 Linux、iOS 和 macOS 上测试麦克风输入与扬声器输出。 我们没有做我们认为可能会破坏这些平台上的任何东西的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
感谢你长久以来的支持。 与往常一样,请在
GitHub
或
Stack Overflow
上发布问题或反馈。
请保重身体!
客户必须根据 这些说明 配置 OpenSSL。
.aar
包添加了关键字识别支持,并添加了 x86 和 x64 风格的支持。
SendMessage
和
SetMessageProperty
方法添加到
Connection
对象。 参阅
此处
的文档。
std::wstring
用作合成文本输入,这样,在将 wstring 传递给 SDK 之前,无需先将其转换为字符串。 请参阅
此处
的详细信息。
Connection
对象,以便从语音服务以回调
receivedServiceMessage
的形式传递自定义消息。
FromHost API
的支持,以方便与本地容器和主权云配合使用。 参阅
此处
的文档。
NODE_TLS_REJECT_UNAUTHORIZED
。 请参阅
此处
的详细信息。
OpenSSL
已更新到版本 1.1.1b,并静态链接到适用于 Linux 的语音 SDK 核心库。 如果未在系统的
/usr/lib/ssl
目录中安装收件箱
OpenSSL
,这可能会造成中断。 请查看语音 SDK 文档下的
文档
来解决此问题。
WordLevelTimingResult.Offset
返回的数据类型从
int
更改为
long
,以便在语音数据超过 2 分钟时能够访问
WordLevelTimingResults
。
PushAudioInputStream
和
PullAudioInputStream
现在可以根据
AudioStreamFormat
(创建这两个类时选择性地指定)将 wav 标头信息发送到语音服务。 现在,客户必须使用
支持的音频输入格式
。 任何其他格式会导致识别结果欠佳,或者导致出现其他问题。
OpenSSL
更新。 修复了 Linux 和 Java 中的间歇性崩溃和性能问题(负载较高时发生锁争用)。
Microsoft.CognitiveServices.Speech.core.dll
和
Microsoft.CognitiveServices.Speech.extension.kws.dll
的三个副本,使 NuGet 包更小、下载更快,并添加了编译某些 C++ 本机应用所需的标头。
<voice>
标记或
<audio>
标记时出现的 TTS 错误以解决
此客户问题
。
int
和
string
类型。
FromHost()
API,以方便用户将其与本地容器和主权云配合使用。
SourceLanguageConfig
对象,用于指定所需的源语言(在 Java 和 C++ 中)
KeywordRecognizer
支持
Microsoft.CognitiveServices.Speech.Transcription
命名空间下。
Conversation
类。
KeywordRecognizer
,则会发生故障
KeywordRecognizer
的 Xamarin 示例
KeywordRecognizer
的 Unity 示例
Compressed
输入支持
Connection
类中添加了
SendMessageAsync
,用于向服务发送消息
Connection
类中添加了
SetMessageProperty
DialogServiceConnector
使用的印象 ID 重复
DialogServiceConnector
上时(通过
Canceled
事件)对故障进行的报告
DialogServiceConnector
会话开始时会正确提供事件,包括在活动
StartKeywordRecognitionAsync()
期间调用
ListenOnceAsync()
的时候
DialogServiceConnector
活动相关联的崩溃
DialogServiceConnector
的更新的快速入门示例
改进 / 更改
SpeechBotConnector
已重名为
DialogServiceConnector
BotConfig
已重名为
DialogServiceConfig
BotConfig::FromChannelSecret()
已重新映射到
DialogServiceConfig::FromBotSecret()
NSError
对象,另一个版本引发异常。 前者向 Swift 公开。 此更改需要适应现有的 Swift 代码。
SpeakTextAsync
不等到音频完成渲染就会提前返回
pip install --user
问题
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
改进 / 更改
FromEndpoint
,也能通过标准配置属性来配置识别器。
OutputFormat
属性添加到
SPXSpeechConfiguration
。
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
这是一个仅限 JavaScript 的版本。 未增加任何功能。 进行了以下修复:
改进 / 更改
properties
属性公开识别结果的附加属性。
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
Bug 修复
AudioConfig
类来选择输入麦克风。 这样,便可以将音频数据从非默认麦克风流式传输到语音服务。 有关详细信息,请参阅介绍
音频输入设备选择
的文档。 此功能在 JavaScript 中尚不可用。
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
文件(在以前的版本中提供)。 此功能现在集成到核心 SDK 中。
示例存储库 中提供了以下新内容:
AudioConfig.FromMicrophoneInput
的其他示例。
Connection
对象的更多示例。
改进 / 更改
SpeechConfig
中的参数验证和错误消息。
Connection
对象的支持。
Connection
对象的支持。
FromEndpoint
,则可将参数直接添加到终结点 URL。 使用
FromEndpoint
时,无法通过标准的配置属性来配置识别器。
SpeechConfig
中进行指定并将订阅密钥保留为空。 然后,像往常一样创建识别器。
Connection
对象不能正确释放。 现在已修复此问题。
这是一个仅限 JavaScript 的版本。 未增加任何功能。 进行了以下修复:
Connection
对象)的父级。
Recognizer
中访问
Connection
对象。 此对象允许你显式启动服务连接并订阅连接事件和断开连接事件。
(此功能在 JavaScript 和 Python 中尚不可用。)
RecognizeAsync
中的类型不匹配导致的内存泄漏。
async
操作,则可能会在异步任务完成之前释放识别器。
RecognizingIntent
。
SpeechConfig
中将默认输出格式设置为“simple”。
SpeechConfig
对象中,现在可以调用某个函数来设置代理信息(主机名、端口、用户名和密码)。 此功能在 iOS 上尚不可用。
Reason
(在已取消事件中)或
CancellationDetails
(在识别结果中)设置为
Error
。 取消的事件现在包含两个附加的成员:
ErrorCode
和
ErrorDetails
。 如果服务器随所报告的错误返回了附加的错误信息,则现在将在新成员中提供该信息。
Canceled
事件。
EndpointId
(在某些情况下)的 bug。
AddIntent
JavaScript 签名。
可靠性改进和 bug 修复:
在 示例存储库 中已添加了适用于 JavaScript 的新示例。
功能性更改
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
函数不再需要路径参数。 现在,在所有受支持的平台上都会自动检测路径。
EndpointUrl
的 get 访问器已被删除。
功能性更改
StartContinuousRecognitionAsync()
支持识别功能长时间运行。
InitialSilenceTimeout
、
InitialBabbleTimeout
)。
NoMatch
事件类型已合并到
Error
事件中。
OutputFormat
以与 C++ 保持一致。
AudioInputStream
接口的某些方法的返回类型略有更改:
read
方法现返回
long
而不是
int
。
Read
方法现返回
uint
而不是
int
。
Read
和
GetFormat
方法现返回
size_t
而不是
int
。
shared_ptr
传递。
RecognizeAsync()
超时时结果中的错误返回值。
功能性更改
AudioInputStream
一种现可将流用作音频源的识别器。 有关详细信息,请参阅相关 操作说明指南 。
详细输出格式
创建
SpeechRecognizer
时,可请求
Detailed
或
Simple
输出格式。
DetailedSpeechRecognitionResult
包含置信度分数、识别的文本、原始词法形式、标准化形式和已屏蔽不当字词的标准化形式。
SpeechRecognitionResult.RecognizedText
更改为
SpeechRecognitionResult.Text
。
NoMatch
结果。
Region
是创建识别器所必需的信息。
已添加更多示例,还将持续更新。 有关最新的示例集,请参阅 语音 SDK 示例 GitHub 存储库 。
此版本是认知服务语音 SDK 的第一个公共预览版本。
已更新为使用语音 SDK 1.28.0
已更新为使用语音 SDK 1.26.0.
已更新为使用语音 SDK 1.25.0。
使用语音 SDK 1.24.0。
使用语音 SDK 1.23.0。
--output vtt
和
--output srt
)大型结果拆分(最多 37 个字符,3 行)
spx synthesize
--format
选项(请参阅
spx help synthesize format
)
spx csr
命令/选项(请参阅
spx help csr
)
spx csr model copy
命令(请参阅
spx help csr model copy
)
--check result
选项(请参阅
spx help check result
)
使用语音 SDK 1.22.0。
spx init
命令,指导用户完成语音资源密钥创建,而无需转到 Azure Web 门户。
spx init
将立即生效。
使用语音 SDK 1.21.0。
spx translate
添加了
--output vtt
支持
--output vtt file FILENAME
替代默认 VTT FILENAME
--output vtt file -
写入到标准输出
--target en;de;fr
)创建单个 VTT 文件
spx recognize
、
spx intent
和
spx translate
中添加了
--output srt
支持
--output srt file FILENAME
替代默认 SRT FILENAME
--output srt file -
写入到标准输出
spx translate
,会为每个目标语言(例如
--target en;de;fr
)创建单个 SRT 文件
hh:mm:ss.fff
格式
spx profile enroll
和
spx speaker [identify/verify]
现在支持麦克风输入
spx intent
)
--keyword FILE.table
--pattern
和
--patterns
--output all/each intentid
--output all/each entity json
--output all/each ENTITY entity
--once
、
--once+
和
--continuous
(现在默认值是 continuous)
--output all/each connection EVENT
--output all/each connection message
(例如
text
和
path
)
--expect PATTERN
和
--not expect PATTERN
--auto expect
有助于创建所需模式
--log expect PATTERN
和
--not log expect PATTERN
--log auto expect [FILTER]
spx profile
和
spx speaker
上的
--log FILE
支持
--format ANY
--file -
支持(从标准输入读取,启用管道方案)
--audio output -
写入标准输出,启用管道方案
--output all/each file -
写入标准输出
--output batch file -
写入标准输出
--output vtt file -
写入标准输出
--output json file -
写入标准输出,适用于
spx csr
和
spx batch
命令
--output […] result XXX property
(PropertyId 或字符串)
--output […] connection message received XXX property
(PropertyId 或 字符串)
--output […] recognizer XXX property
(PropertyId 或 字符串)
spx webjob
现在遵循子命令模式
spx help webjob
)
--output vtt FILE
和
--output batch FILE
时的 bug
spx [...] --zip ZIPFILENAME
现在包括所有方案所需的所有二进制文件(如果存在)
spx profile
和
spx speaker
命令现在返回有关取消的详细错误信息
spx profile
和
spx speaker
。
spx dialog
。
spx
帮助。 请提交
GitHub 问题
,向我们提供有关此功能的反馈。
由于疫情并未消退,我们的工程师仍旧必须在家办公,因此疫情发生前的手动验证脚本已大幅减少。 我们只是使用较少的配置在较少的设备上进行了测试,环境特定的 bug 的漏测可能性也许会增大。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
spx intent
命令,替换
spx recognize intent
。
spx recognize --wer url <URL>
来计算字词错误率。
spx recognize --output vtt file <FILENAME>
将结果输出为 VTT 文件。
由于疫情并未消退,我们的工程师仍旧必须在家办公,因此疫情发生前的手动验证脚本已大幅减少。 我们只是使用较少的配置在较少的设备上进行了测试,环境特定的 bug 的漏测可能性也许会增大。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
由于疫情并未消退,我们的工程师仍旧必须在家办公,因此疫情发生前的手动验证脚本已大幅减少。 我们只是使用较少的配置在较少的设备上进行了测试,环境特定的 bug 的漏测可能性也许会增大。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
SPX 是命令行接口,无需编写代码即可使用 Azure 语音服务。
在
此处
下载最新版本。
spx csr dataset upload --kind audio|language|acoustic
- 通过本地数据创建数据集,而不仅仅通过 URL。
spx csr evaluation create|status|list|update|delete
- 将新模型与基线事实/其他模型进行比较。
spx * list
- 支持非分页体验(不需要 --top X --skip X)。
spx * --http header A=B
- 支持自定义标头(为 Office 添加以进行自定义身份验证)。
spx help
- 改进了已编码的文本和反引号文本颜色(蓝色)。
spx help find --text TEXT
spx help find --topic NAME
spx help batch examples
spx help csr examples
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
SPX 是新的命令行工具,可用于从命令行执行识别、合成、翻译、批量听录和自定义语音管理。 使用它来测试语音服务,或为需要执行的语音服务任务编写脚本。 下载该工具,并在 此处 查看文档。
en-GB-RyanNeural
、
en-GB-SoniaNeural
、
es-MX-JorgeNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
和
it-IT-IsabellaNeural
style="sad"
en-GB-SoniaNeural
、
fr-FR-DeniseNeural
和
fr-FR-HenriNeural
语音合成标记语言 (SSML) 已更新,可支持音频效果处理器元素,这些元素可针对设备上的特定方案优化合成语音输出的质量。 在 语音合成标记 中了解详细信息。
添加了对
nl-BE
区域设置使用
神经网络定制声音专业版
的支持。 有关详细信息,请参阅
完整的语言和语音列表
。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
en-AU
英语(澳大利亚)
en-AU-AnnetteNeural
(女)
en-AU-CarlyNeural
(女)
en-AU-DarrenNeural
(男)
en-AU-DuncanNeural
(男)
en-AU-ElsieNeural
(女)
en-AU-FreyaNeural
(女)
en-AU-JoanneNeural
(女)
en-AU-KenNeural
(男)
en-AU-KimNeural
(女)
en-AU-NeilNeural
(男)
en-AU-TimNeural
(男)
en-AU-TinaNeural
(女)
en-AU-WilliamNeural
(男)
en-GB
英语(英国)
en-GB-RyanNeural
(男)
en-GB-SoniaNeural
(女)
es-ES
西班牙语(西班牙)
es-ES-AbrilNeural
(女)
es-ES-ArnauNeural
(男)
es-ES-DarioNeural
(男)
es-ES-EliasNeural
(男)
es-ES-EstrellaNeural
(女)
es-ES-IreneNeural
(女)
es-ES-LaiaNeural
(女)
es-ES-LiaNeural
(女)
es-ES-NilNeural
(男)
es-ES-SaulNeural
(男)
es-ES-TeoNeural
(男)
es-ES-TrianaNeural
(女)
es-ES-VeraNeural
(女)
es-MX
西班牙语(墨西哥)
es-MX-JorgeNeural
(男)
fr-FR
法语(法国)
fr-FR-HenriNeural
(男)
it-IT
意大利语(意大利)
it-IT-IsabellaNeural
(女)
ja-JP
日语(日本)
ja-JP-AoiNeural
(女)
ja-JP-DaichiNeural
(男)
ja-JP-MayuNeural
(女)
ja-JP-NaokiNeural
(男)
ja-JP-ShioriNeural
(女)
添加了对
de-DE-ConradNeural
语音的
cheerful
样式的支持。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
zh-CN
中文(普通话,简体)
zh-CN-XiaomengNeural
(女)
zh-CN-XiaoyiNeural
(女)
zh-CN-XiaozhenNeural
(女)
zh-CN-YunfengNeural
(男)
zh-CN-YunhaoNeural
(男)
zh-CN-YunjianNeural
(男)
zh-CN-YunxiaNeural
(男)
zh-CN-YunzeNeural
(男)
zh-CN-henan
中文(中原官话河南,简体)
zh-CN-henan-YundengNeural
(男)
批处理合成 API 目前为公共预览版。 一旦正式发布,长音频 API 将弃用。 有关详细信息,请参见 迁移到批处理合成 API 。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
es-MX
西班牙语(墨西哥)
es-MX-BeatrizNeural
(女)
es-MX-CandelaNeural
(女)
es-MX-CarlotaNeural
(女)
es-MX-CecilioNeural
(男)
es-MX-GerardoNeural
(男)
es-MX-LarissaNeural
(女)
es-MX-LibertoNeural
(男)
es-MX-LucianoNeural
(男)
es-MX-MarinaNeural
(女)
es-MX-NuriaNeural
(女)
es-MX-PelayoNeural
(男)
es-MX-RenataNeural
(女)
es-MX-YagoNeural
(男)
it-IT
意大利语(意大利)
it-IT-BenignoNeural
(男)
it-IT-CalimeroNeural
(男)
it-IT-CataldoNeural
(男)
it-IT-FabiolaNeural
(女)
it-IT-FiammaNeural
(女)
it-IT-GianniNeural
(男)
it-IT-ImeldaNeural
(女)
it-IT-IrmaNeural
(女)
it-IT-LisandroNeural
(男)
it-IT-PalmiraNeural
(女)
it-IT-PierinaNeural
(女)
it-IT-RinaldoNeural
(男)
pt-BR
葡萄牙语(巴西)
pt-BR-BrendaNeural
(女)
pt-BR-DonatoNeural
(男)
pt-BR-ElzaNeural
(女)
pt-BR-FabioNeural
(男)
pt-BR-GiovannaNeural
(女)
pt-BR-HumbertoNeural
(男)
pt-BR-JulioNeural
(男)
pt-BR-LeilaNeural
(女)
pt-BR-LeticiaNeural
(女)
pt-BR-ManuelaNeural
(女)
pt-BR-NicolauNeural
(男)
pt-BR-ValerioNeural
(男)
pt-BR-YaraNeural
(女)
为 神经网络定制声音 添加了以下区域设置支持。 有关详细信息,请参阅 完整的语言和语音列表 。
fr-BE
区域设置使用神经网络定制声音专业版的支持。
es-ES
区域设置使用神经网络定制声音精简版的支持。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
en-AU
英语(澳大利亚)
en-AU-AnnetteNeural
(女)
en-AU-CarlyNeural
(女)
en-AU-DarrenNeural
(男)
en-AU-DuncanNeural
(男)
en-AU-ElsieNeural
(女)
en-AU-FreyaNeural
(女)
en-AU-JoanneNeural
(女)
en-AU-KenNeural
(男)
en-AU-KimNeural
(女)
en-AU-NeilNeural
(男)
en-AU-TimNeural
(男)
en-AU-TinaNeural
(女)
es-ES
西班牙语(西班牙)
es-ES-AbrilNeural
(女)
es-ES-AlvaroNeural
(男)
es-ES-ArnauNeural
(男)
es-ES-DarioNeural
(男)
es-ES-EliasNeural
(男)
es-ES-EstrellaNeural
(女)
es-ES-IreneNeural
(女)
es-ES-LaiaNeural
(女)
es-ES-LiaNeural
(女)
es-ES-NilNeural
(男)
es-ES-SaulNeural
(男)
es-ES-TeoNeural
(男)
es-ES-TrianaNeural
(女)
es-ES-VeraNeural
(女)
ja-JP
日语(日本)
ja-JP-AoiNeural
(女)
ja-JP-DaichiNeural
(男)
ja-JP-MayuNeural
(女)
ja-JP-NaokiNeural
(男)
ja-JP-ShioriNeural
(女)
ko-KR
韩语(韩国)
ko-KR-BongJinNeural
(男)
ko-KR-GookMinNeural
(男)
ko-KR-JiMinNeural
(女)
ko-KR-SeoHyeonNeural
(女)
ko-KR-SoonBokNeural
(女)
ko-KR-YuJinNeural
(女)
wuu-CN
中文(吴语,简体)
wuu-CN-XiaotongNeural
(女)
wuu-CN-YunzheNeural
(男)
yue-CN
中文(粤语,简体)
yue-CN-XiaoMinNeural
(女)
yue-CN-YunSongNeural
(男)
fil-PH-AngeloNeural
和
fil-PH-BlessicaNeural
语音的质量。
es-CL
西班牙语(智利) 和
uz-UZ
乌兹别克语(乌兹别克斯坦) 的语音更新了文本规范化规则。
sq-AL
阿尔巴尼亚语(阿尔巴尼亚) 和
az-AZ
阿塞拜疆语(阿塞拜疆) 的语音添加了英语字母拼写。
zh-HK-WanLungNeural
语音的英语发音。
nl-NL-MaartenNeural
和
pt-BR-AntonioNeural
语音的问题语气。
<lang ="en-US">
标记的支持,该标记可以改善以下语音的英语发音:
de-DE-ConradNeural
、
de-DE-KatjaNeural
、
es-ES-AlvaroNeural
、
es-MX-DaliaNeural
、
es-MX-JorgeNeural
、
fr-CA-SylvieNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
、
it-IT-DiegoNeural
和
it-IT-IsabellaNeural
。
style="chat"
标记的支持:
en-GB-RyanNeural
、
es-MX-JorgeNeural
和
it-IT-IsabellaNeural
。
style="cheerful"
标记的支持:
en-GB-RyanNeural
、
en-GB-SoniaNeural
、
es-MX-JorgeNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
和
it-IT-IsabellaNeural
。
style="sad"
标记的支持:
en-GB-SoniaNeural
、
fr-FR-DeniseNeural
和
fr-FR-HenriNeural
。
发布了新语音的公共预览版:
en-US-AIGenerate1Neural
和
en-US-AIGenerate2Neural
。
zh-CN-henan-YundengNeural
、
zh-CN-shaanxi-XiaoniNeural
和
zh-CN-shandong-YunxiangNeural
。
有关详细信息,请参阅 语言和语音列表 。
zh-CN
中文(普通话,简体)语音和 1 种新的
en-US
英语(美国)语音。 参阅
完整语言和语音列表
。
affectionate
,
angry
,
cheerful
,
disgruntled
,
embarrassed
,
fearful
,
gentle
,
sad
,
serious
zh-CN-XiaozhenNeural
公共预览版
angry
,
cheerful
,
disgruntled
,
fearful
,
sad
,
serious
zh-CN-YunxiaNeural
公共预览版
angry
,
calm
,
cheerful
,
fearful
,
sad
zh-CN-YunzeNeural
公共预览版
angry
,
calm
,
cheerful
,
depressed
,
disgruntled
,
documentary-narration
,
fearful
,
sad
,
serious
en-SG-LunaNeural
和
en-SG-WayneNeural
的质量
en-US-AriaNeural
的公共预览版支持这些新风格:
Angry
、
Excited
、
Friendly
、
Hopeful
、
Sad
、
Shouting
、
Unfriendly
、
Terrified
和
Whispering
。
en-US-GuyNeural
、
en-US-JennyNeural
的公共预览版支持这些新风格:
Angry
、
Cheerful
、
Excited
、
Friendly
、
Hopeful
、
Sad
、
Shouting
、
Unfriendly
、
Terrified
和
Whispering
。
en-US-SaraNeural
的公共预览版支持这些新风格:
Excited
、
Friendly
、
Hopeful
、
Shouting
、
Unfriendly
、
Terrified
和
Whispering
。 请参阅
语音风格和角色
。
zh-CN-YunjianNeural
、
zh-CN-YunhaoNeural
和
zh-CN-YunfengNeural
的公共预览版。 参阅
完整语言和语音列表
。
zh-CN-YunjianNeural
的公共预览版支持 2 个新样式:
sports-commentary
、
sports-commentary-excited
。 请参阅
语音风格和角色
。
zh-CN-YunhaoNeural
的公共预览版支持 1 个新样式:
advertisement-upbeat
。 请参阅
语音风格和角色
。
fr-FR-DeniseNeural
支持的样式
cheerful
和
sad
在所有区域中都已正式发布。
fr-FR-DeniseNeural
增加了对
Cheerful
和
Sad
样式的支持。 请参阅
语音风格和角色
。
为神经网络文本转语音添加了 10 种新语言和变体:
Locale为神经网络文本转语音添加了 49 种新语言和 98 种语音:
Adri
af-ZA
南非语(南非)、Willem
af-ZA
南非语(南非)、Mekdes
am-ET
阿姆哈拉语(埃塞俄比亚)、Ameha
am-ET
阿姆哈拉语(埃塞俄比亚)、Fatima
ar-AE
阿拉伯语(阿拉伯联合酋长国)、Hamdan
ar-AE
阿拉伯语(阿拉伯联合酋长国)、Laila
ar-BH
阿拉伯语(巴林)、Ali
ar-BH
阿拉伯语(巴林)、Amina
ar-DZ
阿拉伯语(阿尔及利亚)、Ismael
ar-DZ
阿拉伯语(阿尔及利亚)、Rana
ar-IQ
阿拉伯语(伊拉克)、Bassel
ar-IQ
阿拉伯语(伊拉克)、Sana
ar-JO
阿拉伯语(约旦)、Taim
ar-JO
阿拉伯语(约旦)、Noura
ar-KW
阿拉伯语(科威特)、Fahed
ar-KW
阿拉伯语(科威特)、Iman
ar-LY
阿拉伯语(利比亚)、Omar
ar-LY
阿拉伯语(利比亚)、Mouna
ar-MA
阿拉伯语(摩洛哥)、Jamal
ar-MA
阿拉伯语(摩洛哥)、Amal
ar-QA
阿拉伯语(卡塔尔)、Moaz
ar-QA
阿拉伯语(卡塔尔)、Amany
ar-SY
阿拉伯语(叙利亚)、Laith
ar-SY
阿拉伯语(叙利亚)、Reem
ar-TN
阿拉伯语(突尼斯)、Hedi
ar-TN
阿拉伯语(突尼斯)、Maryam
ar-YE
阿拉伯语(也门)、Saleh
ar-YE
阿拉伯语(也门)、Nabanita
bn-BD
孟加拉语(孟加拉国)、Pradeep
bn-BD
孟加拉语(孟加拉国)、Asilia
en-KE
英语(肯尼亚)、Chilemba
en-KE
英语(肯尼亚)、Ezinne
en-NG
英语(尼日利亚)、Abeo
en-NG
英语(尼日利亚)、Imani
en-TZ
英语(坦桑尼亚)、Elimu
en-TZ
英语(坦桑尼亚)、Sofia
es-BO
西班牙语(玻利维亚)、Marcelo
es-BO
西班牙语(玻利维亚)、Catalina
es-CL
西班牙语(智利)、Lorenzo
es-CL
西班牙语(智利)、Maria
es-CR
西班牙语(哥斯达黎加)、Juan
es-CR
西班牙语(哥斯达黎加)、Belkys
es-CU
西班牙语(古巴)、Manuel
es-CU
西班牙语(古巴)、Ramona
es-DO
西班牙语(多米尼加共和国)、Emilio
es-DO
西班牙语(多米尼加共和国)、Andrea
es-EC
西班牙语(厄瓜多尔)、Luis
es-EC
西班牙语(厄瓜多尔)、Teresa
es-GQ
西班牙语(赤道几内亚)、Javier
es-GQ
西班牙语(赤道几内亚)、Marta
es-GT
西班牙语(危地马拉)、Andres
es-GT
西班牙语(危地马拉)、Karla
es-HN
西班牙语(洪都拉斯)、Carlos
es-HN
西班牙语(洪都拉斯)、Yolanda
es-NI
西班牙语(尼加拉瓜)、Federico
es-NI
西班牙语(尼加拉瓜)、Margarita
es-PA
西班牙语(巴拿马)、Roberto
es-PA
西班牙语(巴拿马)、Camila
es-PE
西班牙语(秘鲁)、Alex
es-PE
西班牙语(秘鲁)、Karina
es-PR
西班牙语(波多黎各)、Victor
es-PR
西班牙语(波多黎各)、Tania
es-PY
西班牙语(巴拉圭)、Mario
es-PY
西班牙语(巴拉圭)、Lorena
es-SV
西班牙语(萨尔瓦多)、Rodrigo
es-SV
西班牙语(萨尔瓦多)、Valentina
es-UY
西班牙语(乌拉圭)、Mateo
es-UY
西班牙语(乌拉圭)、Paola
es-VE
西班牙语(委内瑞拉)、Sebastian
es-VE
西班牙语(委内瑞拉)、Dilara
fa-IR
波斯语(伊朗)、Farid
fa-IR
波斯语(伊朗)、Blessica
fil-PH
菲律宾语(菲律宾)、Angelo
fil-PH
菲律宾语(菲律宾)、Sabela
gl-ES
加利西亚语(西班牙)、Roi
gl-ES
加利西亚语(西班牙)、Siti
jv-ID
爪哇语(印度尼西亚)、Dimas
jv-ID
爪哇语(印度尼西亚)、Sreymom
km-KH
高棉语(柬埔寨)、Piseth
km-KH
高棉语(柬埔寨)、Nilar
my-MM
缅甸语(缅甸)、Thiha
my-MM
缅甸语(缅甸)、Ubax
so-SO
索马里语(索马里)、Muuse
so-SO
索马里语(索马里)、Tuti
su-ID
巽他语(印度尼西亚)、Jajang
su-ID
巽他语(印度尼西亚)、Rehema
sw-TZ
斯瓦希里语(坦桑尼亚)、Daudi
sw-TZ
斯瓦希里语(坦桑尼亚)、Saranya
ta-LK
泰米尔语(斯里兰卡)、Kumar
ta-LK
泰米尔语(斯里兰卡)、Venba
ta-SG
泰米尔语(新加坡)、Anbu
ta-SG
泰米尔语(新加坡)、Gul
ur-IN
乌尔都语(印度)、Salman
ur-IN
乌尔都语(印度)、Madina
uz-UZ
乌兹别克语(乌兹别克斯坦)、Sardor
uz-UZ
乌兹别克语(乌兹别克斯坦)、Thando
zu-ZA
祖鲁语(南非)、Themba
zu-ZA
祖鲁语(南非)。
en-US
英语(美国))
:Sara 表示一位年轻女性,其说话风格更随意,最适合聊天机器人场景。
ja-JP
日语语音 Nanami 添加的新样式
:Nanami 现在提供三种新样式:聊天、客户服务和快乐。
id-ID
、Premwadee
th-TH
、Christel
da-DK
、HoaiMy 和 NamMinh
vi-VN
。
zh-CN
中文(普通话)
:小陈和小燕,针对自发语音和客户服务场景进行了优化。
神经网络文本转语音更新
Speech Studio 更新
为神经 TTS 添加的新语言和语音
引入了 10 种新语言 - 神经 TTS 语言列表中添加了 10 个新区域设置中的 20 种新语音,分别为:Yan
en-HK
英语(香港),Sam
en-HK
英语(香港),Molly
en-NZ
英语(新西兰),Mitchell
en-NZ
英语(新西兰),Luna
en-SG
英语(新加坡),Wayne
en-SG
英语(新加坡),Leah
en-ZA
英语(南非),Luke
en-ZA
英语(南非),Dhwani
gu-IN
古吉拉特语(印度),Niranjan
gu-IN
古吉拉特语(印度),Aarohi
mr-IN
马拉地语(印度),Manohar
mr-IN
马拉地语(印度),Elena
es-AR
西班牙语(阿根廷),Tomas
es-AR
西班牙语(阿根廷),Salome
es-CO
西班牙语(哥伦比亚),Gonzalo
es-CO
西班牙语(哥伦比亚),Paloma
es-US
西班牙语(美国),Alonso
es-US
西班牙语(美国),Zuri
sw-KE
斯瓦希里语(肯尼亚),Rafiki
sw-KE
斯瓦希里语(肯尼亚)。
预览版中添加十一种新 en-US 语音 - 预览版中有 11 种新 en-US 语音添加到美式英语中,分别为 Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob。
五种
zh-CN
中文(普通话,简体中文)语音正式发布 - 5 种中文(普通话,简体中文)语音从预览版转为正式发布。 分别为 Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui。 现在,这些语音在所有
区域
都可以使用。 Yunxi 添加了一种新的“助手”风格,适用于聊天机器人和语音代理。 Xiaomo 的语音风格经过改进,更加自然和富有特色。
神经网络文本转语音已在 21 个区域中可用
Japan East
、
Japan West
、
Korea Central
、
North Central US
、
North Europe
、
South Central US
、
Southeast Asia
、
UK South
、
west Central US
、
West Europe
、
West US
、
West US 2
。 查看
此处
,了解 21 个受支持区域的完整列表。
为神经 TTS 添加的新语言和语音
引入了六种新语言 - 向神经 TTS 语言列表中添加了 6 个新的区域设置中的 12 种新语音:
cy-GB
威尔士语(英国) 中的 Nia、
cy-GB
威尔士语(英国) 中的 Aled、
en-PH
英语(菲律宾) 中的 Rosa、
en-PH
英语(菲律宾) 中的 James、
fr-BE
法语(比利时) 中的 Charline、
fr-BE
法语(比利时) 中的 Gerard、
nl-BE
荷兰语(比利时) 中的 Dena、
nl-BE
荷兰语(比利时) 中的 Arnaud、
uk-UA
乌克兰语(乌克兰) 中的 Polina、
uk-UA
乌克兰语(乌克兰) 中的 Ostap、
ur-PK
乌尔都语(巴基斯坦) 中的 Uzma、
ur-PK
乌尔都语(巴基斯坦) 中的 Asad。
五种语言从预览版升级到正式版 - 11 月在 5 个区域设置中引入的 10 种语音现在已正式发布:
et-EE
爱沙尼亚语(爱沙尼亚) 中的 Kert、
ga-IE
爱尔兰语(爱尔兰) 中的 Colm、
lv-LV
拉脱维亚语(拉脱维亚) 中的 Nils、
lt-LT
立陶宛语(立陶宛) 中的 Leonas、
mt-MT
马耳他语(马耳他) 中的 Joseph。
为法语(加拿大) 添加了新的男性语音 - 现在为
fr-CA
法语(加拿大) 提供了新语音 Antoine。
质量改进 - 降低了语音错误率:
hu-HU
匈牙利语 - 48.17%、
nb-NO
挪威语 - 52.76%、
nl-NL
荷兰语(荷兰) - 22.11%。
此发行版现在支持 60 种语言/区域设置的总共 142 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问 语言支持 。
获取人脸姿态事件以创建角色动画
神经网络文本转语音现在包含
视素事件
。 使用视素事件,用户可获取人脸姿态序列和合成语音。 视素可以用来控制 2D 和 3D 头像模型的运动,使嘴巴的运动与合成的语音匹配。 视素事件目前仅适用于
en-US-AriaNeural
语音。
以语音合成标记语言 (SSML) 添加 bookmark 元素
使用 bookmark 元素 可以在 SSML 中插入自定义标记,以获得音频流中每个标记的偏移量。 它可用于引用文本或标记序列中的特定位置。
自定义神经语音正式发布
2 月份以 13 种语言正式发布了自定义神经语音:中文(普通话,简体)、英语(澳大利亚)、英语(印度)、英语(英国)、英语(美国)、法语(加拿大)、法语(法国)、德语(德国)、意大利语(意大利)、日语(日本)、韩语(韩国)、葡萄牙语(巴西)、西班牙语(墨西哥)、西班牙语(西班牙)。 详细了解 什么是自定义神经语音 以及 如何负责任地使用它 。 自定义神经语音功能需要注册。Microsoft 可能会根据 Microsoft 的资格条件限制访问权限。 详细了解 受限访问 。
正式版和预览版中的新神经语音
为 54 种语言/区域设置中的总共 129 种神经语音发布了 51 种新语音:
正式版区域设置中的 46 种新语音
:
ar-EG
阿拉伯语(埃及)中的 Shakir、
ar-SA
阿拉伯语(沙特阿拉伯)中的 Hamed、
bg-BG
保加利亚语(保加利亚)中的 Borislav、
ca-ES
加泰罗尼亚语(西班牙)中的 Joana、
cs-CZ
捷克语(捷克共和国)中的 Antonin、
da-DK
丹麦语(丹麦)中的 Jeppe、
de-AT
德语(澳大利亚)中的 Jonas、
de-CH
德语(瑞士)中的 Jan、
el-GR
希腊语(希腊)中的 Nestoras、
en-CA
英语(加拿大)中的 Liam、
en-IE
英语(爱尔兰)中的 Connor、
en-IN
印地语(印度)中的 Madhur、
en-IN
泰卢固语(印度)中的 Mohan、
en-IN
英语(印度)中的 Prabhat、
en-IN
泰米尔语(印度)中的 Valluvar、
es-ES
加泰罗尼亚语(西班牙)中的 Enric、
et-EE
爱沙尼亚语(爱沙尼亚)中的 Kert、
fi-FI
芬兰语(芬兰)中的 Harri、
fi-FI
芬兰语(芬兰)中的 Selma、
fr-CH
法语(瑞士)中的 Fabrice、
ga-IE
爱尔兰语(爱尔兰)中的 Colm、
he-IL
希伯来语(以色列)中的 Avri、
hr-HR
克罗地亚语(克罗地亚)中的 Srecko、
hu-HU
匈牙利语(匈牙利)中的 Tamas、
id-ID
印度尼西亚语(印度尼西亚)中的 Gadis、
lt-LT
立陶宛语(立陶宛)中的 Leonas、
lv-LV
拉脱维亚语(拉脱维亚)中的 Nils、
ms-MY
马来语(马来西亚)中的 Osman、
mt-MT
马耳他语(马耳他)中的 Joseph、
nb-NO
挪威语、博克马尔语(挪威)中的 Finn、
nb-NO
挪威语、博克马尔语(挪威)中的 Pernille、
nl-NL
荷兰语(荷兰)的 Fenna、
nl-NL
荷兰语(荷兰)中的 Maarten、
pl-PL
波兰语(波兰)中的 Agnieszka、
pl-PL
波兰语(波兰)中的 Marek、
pt-BR
葡萄牙语(巴西)中的 Duarte、
pt-PT
葡萄牙语(葡萄牙)中的 Raquel、
ro-RO
罗马尼亚语(罗马尼亚)中的 Emil、
ru-RU
俄语(俄罗斯)中的 Dmitry、
ru-RU
俄语(俄罗斯)中的 Svetlana、
sk-SK
斯洛伐克语(斯洛伐克)中的 Lukas、
sl-SI
斯洛文尼亚语(斯洛文尼亚)中的 Rok、
sv-SE
瑞典语(瑞典)中的 Mattias、
sv-SE
瑞典语(瑞典)中的 Sofie、
th-TH
泰语(泰国)中的 Niwat、
tr-TR
土耳其语(土耳其)中的 Ahmet、
vi-VN
越南语(越南)中的 NamMinh、
zh-TW
台湾普通话(台湾)中的 HsiaoChen、
zh-TW
台湾普通话(台湾)中的 YunJhe、
zh-HK
粤语(香港特別行政区)中的 HiuMaan、
zh-HK
粤语(香港特別行政区)中的 WanLung。
预览版区域设置中的 5 种新语音
:
et-EE
爱沙尼亚语(爱沙尼亚)中的 Kert、
ga-IE
爱尔兰语(爱尔兰)中的 Colm、
lv-LV
拉脱维亚语(拉脱维亚)中的 Nils、
lt-LT
立陶宛语(立陶宛)中的 Leonas、
mt-MT
马耳他语(马耳他)中的 Joseph。
此发行版现在支持 54 种语言/区域设置中的总共 129 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问 语言支持 。
音频内容创建的更新
zh-CN
神经语音启用
StyleDegree
控件。
若要查看新功能,请访问
音频内容创建工具
。
zh-CN 语音的更新
zh-CN
神经语音以支持英语。
zh-CN
神经语音以支持语调调整。 可以使用 SSML 或音频内容创建工具进行调整以获取最佳语调。
zh-CN
多样式神经语音以支持
StyleDegree
控件。 可调整情感强度(弱或强)。
zh-CN-YunyeNeural
以支持可以执行不同情感的多种风格。
预览版中的新区域设置和语音
zh-CN
语音,支持多个样式和角色
:Xiaohan、Xiaomo、Xiaorui、Xiaoxuan 和 Yunxi。
在以下三个 Azure 区域的公共预览版中可以使用这些语音:EastUS、SouthEastAsia 和 WestEurope。
神经网络文本转语音容器 GA
有关详细信息,请参阅 此技术博客 。
newscast
样式。 请参阅
如何在 SSML 中使用说话风格
。
一般性的 TTS 语音质量改进
pl-PL
(错误率降低:51%)和
fi-FI
(错误速率降低:58%)
ja-JP
单个字词阅读功能。 将发音错误减小了 80%。
zh-CN-XiaoxiaoNeural
:改进了情绪/客户服务/新闻广播/快乐/愤怒风格的语音质量。
zh-CN
:改进了儿化音发音和轻声,优化了空间韵律,从而大大提高了清晰度。
神经网络文本转语音
en-US
和
zh-CN
语音的新说话风格。
英语(美国)区域设置中的 Jenny 支持聊天机器人、客户服务和助理说话风格。 简体中文语音 XiaoXiao 有 10 种新的说话风格可用。 此外,XiaoXiao 神经语音支持
StyleDegree
优化。 请参阅
如何在 SSML 中使用说话风格
。
容器:已发布公共预览版神经网络文本转语音容器,其中提供了 14 种语言的 16 种语音。 详细了解 如何部署用于神经网络文本转语音的语音容器
神经网络文本转语音:
en-US
Aria 语音的新说话风格
。 播报新闻时,AriaNeural 听起来像新闻播音员。 “newscast-formal”风格听起来更严肃,而“newscast-casual”风格则更为放松和随意。 请参阅
如何在 SSML 中使用说话风格
。
自定义语音:发布了一项新功能以自动检查训练数据质量 。 当你上传数据时,系统将检查音频和脚本数据的各个方面,并自动修复或筛选问题,以提高语音模型的质量。 这涉及到音频音量、噪声级别、语音的发音准确度、语音与规范化文本的相符程度、音频中的沉默,以及音频和脚本格式。
音频内容创建:一组新功能,可实现更强大的语音优化和音频管理功能 。
发音:将发音优化功能更新为最新的音素集。 可以从库中选取正确的音素元素,并优化所选字词的发音。
下载:音频“下载”/“导出”这一功能得到增强,支持按段落生成音频。 可以编辑同一文件/SSML 中的内容,同时生成多个音频输出。 “下载”的文件结构也得到了完善。 现在,可以轻松将所有音频文件保存在一个文件夹中。
任务状态:多文件导出体验得到改善。 过去导出多个文件时,如果其中一个文件失败,则整个任务将失败。 但现在,所有其余文件都将成功导出。 任务报表中包含了更加详细和结构化的信息。 可以通过报表查看所有失败文件和句子的记录。
SSML 文档:链接到 SSML 文档,有助于查看有关如何使用所有优化功能的规则。
语音列表 API 已更新,现包含易记的显示名称和神经网络语音支持的说话风格 。
降低了单词级别发音错误 %:
ru-RU
(错误减少 56%)、
sv-SE
(错误减少 49%)
对
en-US
神经网络语音的复音词读取能力提高了 40%。 复音词的示例包括“read”、“live”、“content”、“record”、“object”等。
使
fr-FR
中的疑问语气更加自然。 MOS(平均意见得分)增益:+0.28
更新了以下语音的 vocoder,提高了保真度,整体性能提高 40%。
Locale
为更多区域设置添加了对“音频 + 人工标记的脚本”的支持:
ar-BH
、
ar-DZ
、
ar-EG
、
ar-MA
、
ar-SA
、
ar-TN
、
ar-YE
和
ja-JP
。
为
de-AT
区域设置添加了对结构化文本改编的支持。
语音转文本 REST API 版本 3.1 已正式发布。 语音转文本 REST API 版本 3.0 即将停用。 若要详细了解如何进行迁移,请参阅 指南 。
添加了
ml-IN
区域设置的马拉雅拉姆语(印度)的支持。 在
此处
查看完整的语言列表。
增加了 7 个新区域设置,如下表所示。 在 此处 查看完整的语言列表。
Locale每月定期更新,包括安全升级和漏洞修复。
添加了对这些预生成神经语音的支持:
am-et-amehaneural
、
am-et-mekdesneural
、
so-so-muuseneural
和
so-so-ubaxneural
。
每月定期更新,包括安全升级和漏洞修复。
精明的茶叶 · vue按钮点击后禁用-掘金 1 年前 |