语音识别、文本转语音、智能问答接口完整说明
语音处理平台提供完整的语音处理解决方案,包含以下核心功能:
http://localhost:8000上传音频文件进行语音识别,支持多种音频格式。
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| file | File | 是 | 音频文件 (WAV, MP3, PCM等格式) |
通过 WebSocket 连接进行实时音频流识别,支持低延迟语音识别。
ws://localhost:8000/asr/stream
| 方向 | 格式 | 说明 |
|---|---|---|
| 发送 | 音频字节流 | PCM 格式,16kHz,16bit,单声道 |
| 接收 | JSON | 识别结果文本 |
将文本转换为高质量语音,支持多种语音参数调节。
| 参数名 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| text | string | 是 | - | 要转换的文本内容 |
| gender | string | 否 | "female" | 性别选择 ("female" 或 "male") |
| pitch | integer | 否 | 3 | 音调调节 (1-10) |
| speed | integer | 否 | 3 | 语速调节 (1-10) |
audio/wav基于大语言模型的智能问答服务,提供准确、专业的回答。
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| text | string | 是 | 问题文本内容 |
| 错误码 | 错误信息 | 解决方案 |
|---|---|---|
| 400 | TTS请求失败 | 检查TTS服务是否可用 |
| 500 | 问答服务出错 | 检查LLM服务连接 |
| WebSocket | 连接错误 | 检查ASR服务状态 |