通过Java SDK调用Paraformer实时语音识别API - Alibaba Cloud Model Studio

	paraformer-realtime-v2	paraformer-realtime-8k-v2
適用情境	直播、會議等情境	電話客服、語音信箱等 8kHz 音訊識別情境
採樣率	任意	8kHz
語種	中文（包含中文普通話和各種方言）、英文、日語、韓語、德語、法語、俄語支援的中文方言：上海話、吳語、閩南語、東北話、甘肅話、貴州話、河南話、湖北話、湖南話、江西話、寧夏話、山西話、陝西話、山東話、四川話、天津話、雲南話、粵語	中文
標點符號預測	✅ 預設支援，無需配置	✅ 預設支援，無需配置
逆文本正則化（ITN）	✅ 預設支援，無需配置	✅ 預設支援，無需配置
定製熱詞	✅ 參見定製熱詞	✅ 參見定製熱詞
指定待識別語種	✅ 通過 `language_hints` 參數指定	❌
情感識別	❌	✅ （點擊查看使用方式）情感識別遵循如下約束：僅限 `paraformer-realtime-8k-v2` 模型。必須關閉語義斷句（可通過請求參數 `semantic_punctuation_enabled` 控制）。語義斷句預設為關閉狀態。只有在即時識別結果（RecognitionResult）的 `isSentenceEnd` 方法返回結果為 `true` 時才顯示情感識別結果。情感識別結果擷取方式：調用單句資訊（Sentence）的 `getEmoTag` 和 `getEmoConfidence` 方法分別擷取當前句子的情感和情感信賴度。

import com.alibaba.dashscope.audio.asr.recognition.Recognition;
import com.alibaba.dashscope.audio.asr.recognition.RecognitionParam;
import com.alibaba.dashscope.exception.NoApiKeyException;
import io.reactivex.BackpressureStrategy;
import io.reactivex.Flowable;
import javax.sound.sampled.AudioFormat;
import javax.sound.sampled.AudioSystem;
import javax.sound.sampled.TargetDataLine;
import java.nio.ByteBuffer;
public class Main {
    public static void main(String[] args) throws NoApiKeyException {
        // 建立一個Flowable<ByteBuffer>
        Flowable<ByteBuffer> audioSource =
                Flowable.create(
                        emitter -> {
                            new Thread(
                                    () -> {
                                        try {
                                            // 建立音頻格式
                                            AudioFormat audioFormat = new AudioFormat(16000, 16, 1, true, false);
                                            // 根據格式匹配預設錄音裝置
                                            TargetDataLine targetDataLine =
                                                    AudioSystem.getTargetDataLine(audioFormat);
                                            targetDataLine.open(audioFormat);
                                            // 開始錄音
                                            targetDataLine.start();
                                            ByteBuffer buffer = ByteBuffer.allocate(1024);
                                            long start = System.currentTimeMillis();
                                            // 錄音50s並進行即時轉寫
                                            while (System.currentTimeMillis() - start < 50000) {
                                                int read = targetDataLine.read(buffer.array(), 0, buffer.capacity());
                                                if (read > 0) {
                                                    buffer.limit(read);
                                                    // 將錄音音頻資料發送給流式識別服務
                                                    emitter.onNext(buffer);
                                                    buffer = ByteBuffer.allocate(1024);
                                                    // 錄音速率有限，防止cpu佔用過高，休眠一小會兒
                                                    Thread.sleep(20);
                                            // 通知結束轉寫
                                            emitter.onComplete();
                                        } catch (Exception e) {
                                            emitter.onError(e);
                                    .start();
                        BackpressureStrategy.BUFFER);
        // 建立Recognizer
        Recognition recognizer = new Recognition();
        // 建立RecognitionParam，audioFrames參數中傳入上面建立的Flowable<ByteBuffer>
        RecognitionParam param = RecognitionParam.builder()
                // 若沒有將API Key配置到環境變數中，需將apiKey替換為自己的API Key
                // .apiKey("yourApikey")
                .model("paraformer-realtime-v2")
                .format("pcm")
                .sampleRate(16000)
                // “language_hints”只支援paraformer-realtime-v2模型
                .parameter("language_hints", new String[]{"zh", "en"})
                .build();
        // 流式調用介面
        recognizer
                .streamCall(param, audioSource)
                .blockingForEach(
                        result -> {
                            // Subscribe to the output result
                            if (result.isSentenceEnd()) {
                                System.out.println("Final Result: " + result.getSentence().getText());
                            } else {
                                System.out.println("Intermediate Result: " + result.getSentence().getText());
        // 任務結束後關閉 Websocket 串連
        recognizer.getDuplexApi().close(1000, "bye");
        System.out.println(
                "[Metric] requestId: "
                        + recognizer.getLastRequestId()
                        + ", first package delay ms: "
                        + recognizer.getFirstPackageDelay()
                        + ", last package delay ms: "
                        + recognizer.getLastPackageDelay());
        System.exit(0);
}

RecognitionParam param = RecognitionParam.builder()
  .model("paraformer-realtime-v2")
  .format("pcm")
  .sampleRate(16000)
  // “language_hints”只支援paraformer-realtime-v2模型
  .parameter("language_hints", new String[]{"zh", "en"})
  .build();

參數	類型	預設值	是否必須	說明
model	String	-	是	用於即時語音辨識的模型。詳情請參見模型列表。
sampleRate	Integer	-	是	設定待識別音頻採樣率（單位Hz）。因模型而異： paraformer-realtime-v2支援任意採樣率。 paraformer-realtime-8k-v2僅支援8000Hz採樣率。
format	String	-	是	設定待識別音頻格式。支援的音頻格式：pcm、wav、mp3、opus、speex、aac、amr。
vocabularyId	String	-	否	設定熱詞ID，若未設定則不生效。v2及更高版本模型設定熱詞ID時使用該欄位。在本次語音辨識中，將應用與該熱詞ID對應的熱詞資訊。具體使用方法請參見定製熱詞。
disfluencyRemovalEnabled	boolean	false	否	設定是否過濾語氣詞： true：過濾語氣詞 false（預設）：不過濾語氣詞
language_hints	String[]	["zh", "en"]	否	設定待識別語言代碼。如果無法提前確定語種，可不設定，模型會自動識別語種。目前支援的語言代碼： zh: 中文 en: 英文 ja: 日語 yue: 粵語 ko: 韓語 de：德語 fr：法語 ru：俄語該參數僅對支援多語言的模型生效（參見模型列表）。
semantic_punctuation_enabled	boolean	false	否	設定是否開啟語義斷句，預設關閉。 true：開啟語義斷句，關閉VAD（Voice Activity Detection，語音活動檢測）斷句。 false（預設）：開啟VAD（Voice Activity Detection，語音活動檢測）斷句，關閉語義斷句。語義斷句準確性更高，適合會議轉寫情境；VAD（Voice Activity Detection，語音活動檢測）斷句延遲較低，適合互動情境。通過調整 `semantic_punctuation_enabled` 參數，可以靈活切換語音辨識的斷句方式以適應不同情境需求。該參數僅在模型為v2及更高版本時生效。
max_sentence_silence	Integer	800	否	設定VAD（Voice Activity Detection，語音活動檢測）斷句的靜音時間長度閾值（單位為ms）。當一段語音後的靜音時間長度超過該閾值時，系統會判定該句子已結束。參數範圍為200ms至6000ms，預設值為800ms。該參數僅在 `semantic_punctuation_enabled` 參數為false（VAD斷句）且模型為v2及更高版本時生效。
multi_threshold_mode_enabled	boolean	false	否	該開關開啟時（true）可以防止VAD斷句切割過長。預設關閉。該參數僅在 `semantic_punctuation_enabled` 參數為false（VAD斷句）且模型為v2及更高版本時生效。
punctuation_prediction_enabled	boolean	true	否	設定是否在識別結果中自動添加標點： true（預設）：是 false：否該參數僅在模型為v2及更高版本時生效。
heartbeat	boolean	false	否	當需要與服務端保持長串連時，可通過該開關進行控制： true：在持續發送靜音音訊情況下，可保持與服務端的串連不中斷。 false（預設）：即使持續發送靜音音頻，串連也將在60秒後因逾時而斷開。靜音音頻指的是在音頻檔案或資料流中沒有聲音訊號的內容。靜音音頻可以通過多種方法產生，例如使用音頻編輯軟體如Audacity或Adobe Audition，或者通過命令列工具如FFmpeg。該參數僅在模型為v2及更高版本時生效。
inverse_text_normalization_enabled	boolean	true	否	設定是否開啟ITN（Inverse Text Normalization，逆文本正則化）。預設開啟（true）。開啟後，中文數字將轉換為阿拉伯數字。該參數僅在模型為v2及更高版本時生效。
apiKey	String	-	否	使用者API Key。

介面/方法	參數	傳回值	描述
`public void call(RecognitionParam param, final ResultCallback<RecognitionResult> callback)`	`param` ：請求參數 `callback` ：回調介面（ResultCallback）	無	基於回調形式的流式即時識別，該方法不會阻塞當前線程。
`public String call(RecognitionParam param, File file)`	`param` ：請求參數 `file` ：待識別音頻檔案	識別結果	基於本地檔案的同步調用，該方法會阻塞當前線程直到全部音頻讀完，該方法要求所識別檔案具有可讀許可權。
`public Flowable<RecognitionResult> streamCall(RecognitionParam param, Flowable<ByteBuffer> audioFrame)`	`param` ：請求參數 `audioFrame` ： `Flowable<ByteBuffer>` 執行個體	`Flowable<RecognitionResult>`	基於Flowable的流式即時識別。
`public void sendAudioFrame(ByteBuffer audioFrame)`	`audioFrame` ：二進位音頻流，為 `ByteBuffer` 類型	無	推送音頻，每次推送的音頻流不宜過大或過小，建議每包音頻時間長度為100ms左右，大小在1KB~16KB之間。識別結果通過回調介面（ResultCallback）的onEvent方法擷取。
`public void stop()`	無	無	停止即時識別。該方法會阻塞當前線程，直到回調執行個體 `ResultCallback` 的 `onComplete` 或者 `onError` 被調用之後才會解除對當前線程的阻塞。
`boolean getDuplexApi().close(int code, String reason)`	code: WebSocket關閉碼（Close Code） reason：關閉原因這兩個參數可參考 The WebSocket Protocol 文檔進行配置	true	在任務結束後，無論是否出現異常都需要關閉WebSocket串連，避免造成串連泄漏。關於如何複用串連提升效率請參考即時語音辨識高並發情境。
`public String getLastRequestId()`	無	requestId	擷取當前任務的requestId，在調用 `call` 、 `streamingCall` 開始新任務之後可以使用。
`public long getFirstPackageDelay()`	無	首包延遲	擷取首包延遲，從發送第一包音頻到收到首包識別結果延遲，在任務完成後使用。
`public long getLastPackageDelay()`	無	尾包延遲	獲得尾包延遲，發送 `stop` 指令到最後一包識別結果下發耗時，在任務完成後使用。

ResultCallback<RecognitionResult> callback = new ResultCallback<RecognitionResult>() {
    @Override
    public void onEvent(RecognitionResult result) {
        System.out.println("RequestId為：" + result.getRequestId());
        // 在此實現處理語音辨識結果的邏輯
    @Override
    public void onComplete() {
        System.out.println("任務完成");
    @Override
    public void onError(Exception e) {
        System.out.println("任務失敗：" + e.getMessage());
};

介面/方法	參數	傳回值	描述
`public void onEvent(RecognitionResult result)`	`result` ：即時識別結果（RecognitionResult）	無	當服務有回複時會被回調。
`public void onComplete()`	無	無	任務完成後該介面被回調。
`public void onError(Exception e)`	`e` ：異常資訊	無	發生異常時該介面被回調。

介面/方法	參數	傳回值	描述
`public String getRequestId()`	無	requestId	擷取requestId。
`public boolean isSentenceEnd()`	無	是否是完整句子，即產生斷句	判斷給定句子是否已經結束。
`public Sentence getSentence()`	無	單句資訊（Sentence）	擷取單句資訊，包括時間戳記和文本資訊等。

介面/方法	參數	傳回值	描述
`public Long getBeginTime()`	無	句子開始時間，單位為ms	返回句子開始時間。
`public Long getEndTime()`	無	句子結束時間，單位為ms	返回句子結束時間。
`public String getText()`	無	識別文本	返回識別文本。
`public List<Word> getWords()`	無	字時間戳記資訊（Word）的List集合	返回字時間戳記資訊。
`public String getEmoTag()`	無	當前句子的情感	返回當前句子的情感： positive：正面情感，如開心、滿意 negative：負面情感，如憤怒、沉悶 neutral：無明顯情感情感識別遵循如下約束：僅限 `paraformer-realtime-8k-v2` 模型。必須關閉語義斷句（可通過請求參數 `semantic_punctuation_enabled` 控制）。語義斷句預設為關閉狀態。只有在即時識別結果（RecognitionResult）的 `isSentenceEnd` 方法返回結果為 `true` 時才顯示情感識別結果。
`public Double getEmoConfidence()`	無	當前句子識別情感的信賴度	返回當前句子識別情感的信賴度，取值範圍：[0.0,1.0]，值越大表示信賴度越高。情感識別遵循如下約束：僅限 `paraformer-realtime-8k-v2` 模型。必須關閉語義斷句（可通過請求參數 `semantic_punctuation_enabled` 控制）。語義斷句預設為關閉狀態。只有在即時識別結果（RecognitionResult）的 `isSentenceEnd` 方法返回結果為 `true` 時才顯示情感識別結果。

介面/方法	參數	傳回值	描述
`public long getBeginTime()`	無	字開始時間，單位為ms	返回字開始時間。
`public long getEndTime()`	無	字結束時間，單位為ms	返回字結束時間。
`public String getText()`	無	字	返回識別的字。
`public String getPunctuation()`	無	標點	返回標點。

# 基礎轉換命令（萬能模板）
# -i，作用：輸入檔案路徑，常用值樣本：audio.wav
# -c:a，作用：音頻編碼器，常用值樣本：aac, libmp3lame, pcm_s16le
# -b:a，作用：位元速率（音質控制），常用值樣本：192k, 320k
# -ar，作用：採樣率，常用值樣本：44100 (CD), 48000, 16000
# -ac，作用：聲道數，常用值樣本：1(單聲道), 2(立體聲)
# -y，作用：覆蓋已存在檔案(無需值)
ffmpeg -i input_audio.ext -c:a 編碼器名 -b:a 位元速率 -ar 採樣率 -ac 聲道數 output.ext
# 例如：WAV → MP3（保持原始品質）
ffmpeg -i input.wav -c:a libmp3lame -q:a 0 output.mp3
# 例如：MP3 → WAV（16bit PCM標準格式）
ffmpeg -i input.mp3 -c:a pcm_s16le -ar 44100 -ac 2 output.wav
# 例如：M4A → AAC（提取/轉換蘋果音頻）
ffmpeg -i input.m4a -c:a copy output.aac  # 直接提取不重編碼
ffmpeg -i input.m4a -c:a aac -b:a 256k output.aac  # 重編碼提高品質
# 例如：FLAC無損 → Opus（高壓縮）
ffmpeg -i input.flac -c:a libopus -b:a 128k -vbr on output.opus

```
ffprobe -v error -show_entries format=format_name -show_entries stream=codec_name,sample_rate,channels -of default=noprint_wrappers=1 input.xxx
```

識別傳入麥克風的語音

識別本地語音檔案

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

前提條件

模型列表

快速開始

同步調用

流式調用：基於回調

識別傳入麥克風的語音

識別本地語音檔案

流式調用：基於Flowable

高並發調用

請求參數

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

通過parameter設定

通過parameters設定

關鍵介面

Recognition 類

回調介面（ ResultCallback ）

響應結果

即時識別結果（ RecognitionResult ）

單句資訊（ Sentence ）

字時間戳記資訊（ Word ）

錯誤碼

更多樣本

常見問題

功能特性

Q：在長時間靜默的情況下，如何保持與服務端長串連？

Q：如何將音頻格式轉換為滿足要求的格式？

Q： 是否支援查看每句話對應的時間範圍？

Q：如何識別本地檔案（錄音檔案）？

故障排查

Q：無法識別語音（無識別結果）是什麼原因？