流式文本语音合成WebSocket协议_智能语音交互(ISI)-阿里云帮助中心

前提条件

在使用WebSocket协议对接之前，请先阅读接口说明。

鉴权

服务端通过临时Token进行鉴权，请求时需要在URL中携带Token参数，Token获取方式请参见获取Token概述。获取Token之后通过如下方式访问语音服务端。

访问类型

说明

URL

外网访问

所有服务器均可使用外网访问URL（SDK中默认设置了外网访问URL）。

北京： wss://nls-gateway-cn-beijing.aliyuncs.com/ws/v1

ECS内网访问

使用阿里云北京ECS（即ECS地域为华北2（北京）），可使用内网访问URL。 ECS的经典网络不能访问AnyTunnel，即不能在内网访问语音服务；如果希望使用AnyTunnel，需要创建专有网络在其内部访问。

北京： ws://nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1

请求指令

请求指令用于控制语音识别任务的起止，标识任务边界，以JSON格式的Text Frame方式发送服务端请求，需要在Header中设置请求的基础信息。指令由Header和Payload两部分组成，其中Header部分为统一格式，不同指令的Payload部分格式各不相同。

1. Header格式说明

Header格式如下：

参数	类型	是否必选	说明
header	请求头	-	-
header.appkey	String	是	管控台创建的项目Appkey。
header.message_id	String	是	当次消息请求ID，随机生成32位唯一ID。
header.task_id	String	是	整个实时语音合成的会话ID，整个请求中需要保持一致，32位唯一ID。
header.namespace	String	是	访问的产品名称，固定为“FlowingSpeechSynthesizer”。
header.name	String	是	指令名称，包含StartSynthesis和StopSynthesis指令。

2. StartSynthesis指令

参数	类型	是否必选	说明
payload.voice	String	否	发音人，默认是xiaoyun。发音人，默认是xiaoyun。
payload.format	String	否	音频编码格式，支持pcm、wav和mp3格式，默认值：pcm。音频编码格式，支持pcm、wav和mp3格式，默认值：pcm。
payload.sample_rate	Integer	否	音频采样率，默认值：16000Hz。
payload.volume	Integer	否	音量，取值范围：0～100。默认值：50。
payload.speech_rate	Integer	否	语速，取值范围：-500～500，默认值：0。 [-500,0,500]对应的语速倍速区间为 [0.5,1.0,2.0]。
payload.pitch_rate	Integer	否	语调，取值范围：-500～500，默认值：0。
payload.enable_subtitle	Boolean	否	开启字级别时间戳。
payload.enable_phoneme_timestamp	Boolean	否	开启音素级别时间戳。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "StartSynthesis",
        "appkey": "17d4c634****"
    "payload": {
        "voice": "xiaoyun",
        "format": "wav",
        "sample_rate": 16000,
        "volume": 50,
        "speech_rate": 0,
        "pitch_rate": 0,
        "enable_subtitle": true
}

3. RunSynthesis指令

参数	类型	是否必选	说明
text	String	是	需要合成的文本

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "RunSynthesis",
        "appkey": "17d4c634****"
    "payload": {
        "text": "流式输入文本"
}

4. StopSynthesis指令

StopSynthesis指令要求服务端停止语音合成，并且合成所有缓存文本。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "StopSynthesis",
        "appkey": "17d4c634****"
}

audio_data = None
# 监听消息的回调函数
def on_message(self, ws, message):
    if isinstance(message, str):
        # 将文本帧解析为json
            json_data = json.loads(message)
            # TODO: 解析事件
        except json.JSONDecodeError:
            print("Failed to parse message as JSON.")
    elif isinstance(message, (bytes, bytearray)):
        # 将二进制帧作为音频帧保存
        # TODO: 保存音频或使用支持流式输入的播放器播放，例如pyaudio
        if audio_data is None:
            audio_data = bytes(message)
        else:
            audio_data = self._audio_data + bytes(message)
ws = websocket.WebSocketApp(
    header={
        "X-NLS-Token": token,
    on_message=on_message,
    on_error=None,
    on_close=None,
)

参数	类型	说明
session_id	String	客户端请求时传入session_id的话则原样返回，否则由服务端自动生成32位唯一ID。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SynthesisStarted",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    "payload": {
        "session_id": "1231231dfdf****"

参数	类型	说明
index	Integer	句子编号，从1开始递增。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SentenceBegin",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    "payload": {
        "index": 1
}

参数	类型	说明
subtitles[]	ArrayList	时间戳信息。
subtitles[0].text	String	⽂本信息。
subtitles[0].sentence	String	句子时间戳控制，True表示当前时间戳为句子。
subtitles[0].begin_index	Integer	该字在整句中的开始位置，从0开始。
subtitles[0].end_index	Integer	该字在整句中的结束位置，从0开始。
subtitles[0].begin_time	Integer	⽂本对应TTS语⾳开始时间戳，单位ms。
subtitles[0].end_time	Integer	⽂本对应TTS语⾳结束时间戳，单位ms。
subtitles[0].phoneme_list	ArrayList	文本的音素时间戳信息。
subtitles[0].phoneme_list[0].index	Integer	该音素的下标，从0开始。
subtitles[0].phoneme_list[0].beginTime	Integer	该音素对应TTS语音开始时间戳，单位ms。
subtitles[0].phoneme_list[0].endTime	Integer	该音素对应TTS语音结束时间戳，单位ms。
subtitles[0].phoneme_list[0].phoneme	String	音素信息。
subtitles[0].phoneme_list[0].tone	String	语气信息。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SentenceSynthesis",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    "payload": {
        "subtitles": [
                "text": "",
                "begin_time": 0,
                "end_time": 0,
                "begin_index": 0,
                "end_index": 1,
                "sentence": true,
                "phoneme_list": []
                "text": "今",
                "begin_time": 0,
                "end_time": 175,
                "begin_index": 0,
                "end_index": 1,
                "sentence": false,
                "phoneme_list": [
                        "begin_time": 0,
                        "end_time": 120,
                        "text": "j_c",
                        "tone": "1"
                        "begin_time": 120,
                        "end_time": 170,
                        "text": "in_c",
                        "tone": "1"
}

参数	类型	说明
subtitles[]	ArrayList	时间戳信息。
subtitles[0].text	String	⽂本信息。
subtitles[0].sentence	String	句子时间戳控制，True表示当前时间戳为句子。
subtitles[0].begin_index	Integer	该字在整句中的开始位置，从0开始。
subtitles[0].end_index	Integer	该字在整句中的结束位置，从0开始。
subtitles[0].begin_time	Integer	⽂本对应TTS语⾳开始时间戳，单位ms。
subtitles[0].end_time	Integer	⽂本对应TTS语⾳结束时间戳，单位ms。
subtitles[0].phoneme_list	ArrayList	文本的音素时间戳信息。
subtitles[0].phoneme_list[0].index	Integer	该音素的下标，从0开始。
subtitles[0].phoneme_list[0].beginTime	Integer	该音素对应TTS语音开始时间戳，单位ms。
subtitles[0].phoneme_list[0].endTime	Integer	该音素对应TTS语音结束时间戳，单位ms。
subtitles[0].phoneme_list[0].phoneme	String	音素信息。
subtitles[0].phoneme_list[0].tone	String	语气信息。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SentenceEnd",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    "payload": {
        "subtitles": [
                "text": "",
                "begin_time": 0,
                "end_time": 0,
                "begin_index": 0,
                "end_index": 1,
                "sentence": true,
                "phoneme_list": []
                "text": "今",
                "begin_time": 0,
                "end_time": 175,
                "begin_index": 0,
                "end_index": 1,
                "sentence": false,
                "phoneme_list": [
                        "begin_time": 0,
                        "end_time": 120,
                        "text": "j_c",
                        "tone": "1"
                        "begin_time": 120,
                        "end_time": 170,
                        "text": "in_c",
                        "tone": "1"
                "text": "天",
                "begin_time": 175,
                "end_time": 320,
                "begin_index": 1,
                "end_index": 2,
                "sentence": false,
                "phoneme_list": [
                        "begin_time": 0,
                        "end_time": 120,
                        "text": "t_c",
                        "tone": "1"
                        "begin_time": 120,
                        "end_time": 170,
                        "text": "ian_c",
                        "tone": "1"
}

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SynthesisCompleted",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
}

pip install websocket-client
python NlsStreamInputTtsMockServer.py

WebSocket协议说明

前提条件

鉴权

请求指令

1. Header格式说明

2. StartSynthesis指令

3. RunSynthesis指令

4. StopSynthesis指令

下行数据

事件

1. SynthesisStarted事件

2. SentenceBegin事件

3. SentenceSynthesis事件

4. SentenceEnd事件

5. SynthesisCompleted事件

下行音频流

JavaScript示例代码

播放器说明

测试工具