语音转文字 (ASR)

极速语音识别、录音文件转文字与实时流式识别

极速语音转文字

适合实时语音输入场景，速度最快。

请求：

POST /v2/extend/asr/transcriptions

参数：

参数	类型	必填	说明
model	string	否	默认 volc.bigasr.auc_turbo，可选 whisper-1
audio_url	string	二选一	音频文件 URL
audio_data	string	二选一	base64 编码的音频数据
enable_itn	boolean	否	启用数字/单位标准化
enable_punc	boolean	否	启用标点
enable_ddc	boolean	否	启用顺滑（去除口语化重复）

示例：

curl https://tokenhub.piegateway.me/v2/extend/asr/transcriptions \
  -H "X-API-Key: <your-api-key>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "volc.bigasr.auc_turbo",
    "audio_url": "https://example.com/audio.mp3"
  }'

返回：

{
  "model": "volc.bigasr.auc_turbo",
  "text": "识别出的文字内容",
  "duration_ms": 5000
}

录音文件转文字（异步）

上传完整录音后异步转文字，适合长音频。

参数：

参数	类型	必填	说明
audio_url	string	是	音频文件 URL
model	string	否	模型名，默认 volc.bigasr.auc
format	string	否	音频格式，默认 mp3
language	string	否	语言代码
enable_itn	boolean	否	启用数字/单位标准化
enable_punc	boolean	否	启用标点
enable_speaker_info	boolean	否	启用说话人识别
show_utterances	boolean	否	返回分句详情

提交任务：

POST /v2/extend/asr/tasks

示例：

curl https://tokenhub.piegateway.me/v2/extend/asr/tasks \
  -H "X-API-Key: <your-api-key>" \
  -H "Content-Type: application/json" \
  -d '{
    "audio_url": "https://example.com/long-audio.mp3"
  }'

查询结果：

GET /v2/extend/asr/tasks/{taskId}

示例：

curl https://tokenhub.piegateway.me/v2/extend/asr/tasks/<taskId> \
  -H "X-API-Key: <your-api-key>"

实时流式语音识别（WebSocket）

适用于实时对话、语音输入等低延迟场景。通过 WebSocket 持续推送音频片段，服务端返回实时识别结果。

连接地址：

GET /ws/v2/extend/asr/stream?model=volc.bigasr.sauc

认证方式： 仅支持 HMAC-SHA256 签名认证，参数通过 query params 传递：

wss://tokenhub.piegateway.me/ws/v2/extend/asr/stream?model=volc.bigasr.sauc&X-App-Id=<app_id>&X-Timestamp=<timestamp>&X-Nonce=<nonce>&Authorization=HMAC-SHA256 <signature>

通信协议：

连接成功后，客户端持续发送音频二进制数据（PCM 16kHz 16bit 单声道）
服务端实时返回 JSON 格式的识别结果
发送完毕后，客户端发送文本消息 {"is_last": true} 表示结束

可选 query 参数：

参数	类型	必填	说明
audio_url	string	是	音频文件 URL
model	string	否	模型名，默认 volc.bigasr.auc
format	string	否	音频格式，默认 mp3
language	string	否	语言代码
enable_itn	boolean	否	启用数字/单位标准化
enable_punc	boolean	否	启用标点
enable_speaker_info	boolean	否	启用说话人识别
show_utterances	boolean	否	返回分句详情

返回消息格式：

{
  "text": "当前识别结果",
  "is_final": false,
  "utterances": [{"text": "分句1", "definite": true}]
}