API 接口说明文档

📋 接口概述

语音处理平台提供完整的语音处理解决方案，包含以下核心功能：

🎤 ASR 语音识别
支持音频文件识别和实时流识别

🔊 TTS 文本转语音
高质量语音合成，支持多种参数调节

🤖 智能问答
基于大语言模型的智能对话

📝 重要说明：

所有接口都支持跨域访问 (CORS)
服务地址：http://localhost:8000
音频格式要求：PCM, 16kHz, 16bit, 单声道
支持现代浏览器和移动端访问

🎤 ASR 音频文件识别

上传音频文件进行语音识别，支持多种音频格式。

POST /asr/file

请求参数

参数名	类型	必填	说明
file	File	是	音频文件 (WAV, MP3, PCM等格式)

请求示例

curl -X POST "http://localhost:8000/asr/file" \
     -H "Content-Type: multipart/form-data" \
     -F "file=@audio.wav"
                

响应格式

成功响应 (200):

{
    "text": "识别结果文本内容"
}
                    

错误响应 (400):

{
    "error": "错误描述信息"
}
                    

🎤 ASR 实时音频识别

通过 WebSocket 连接进行实时音频流识别，支持低延迟语音识别。

WebSocket /asr/stream

🔗 WebSocket 连接： ws://localhost:8000/asr/stream

数据格式

方向	格式	说明
发送	音频字节流	PCM 格式，16kHz，16bit，单声道
接收	JSON	识别结果文本

JavaScript 示例

const ws = new WebSocket('ws://localhost:8000/asr/stream');

ws.onopen = function(event) {
    console.log('WebSocket 连接已建立');
    // 开始发送音频数据
    startAudioStream();
};

ws.onmessage = function(event) {
    const result = JSON.parse(event.data);
    console.log('识别结果:', result.text);
};

ws.onclose = function(event) {
    console.log('WebSocket 连接已关闭');
};
                

💡 使用提示：

需要现代浏览器支持 Web Audio API
建议使用 4096 字节的音频块大小
连接断开时会自动重连

🔊 TTS 文本转语音

将文本转换为高质量语音，支持多种语音参数调节。

POST /tts

请求参数

参数名	类型	必填	默认值	说明
text	string	是	-	要转换的文本内容
gender	string	否	"female"	性别选择 ("female" 或 "male")
pitch	integer	否	3	音调调节 (1-10)
speed	integer	否	3	语速调节 (1-10)

请求示例

curl -X POST "http://localhost:8000/tts" \
     -H "Content-Type: application/json" \
     -d '{
         "text": "你好，这是一个TTS测试。",
         "gender": "female",
         "pitch": 3,
         "speed": 3
     }' \
     --output output.wav
                

响应格式

成功响应 (200):

Content-Type: audio/wav
响应体：音频二进制数据

错误响应 (400):

{
    "error": "TTS请求失败: 400"
}
                    

🤖 智能问答

基于大语言模型的智能问答服务，提供准确、专业的回答。

POST /chat

请求参数

参数名	类型	必填	说明
text	string	是	问题文本内容

请求示例

curl -X POST "http://localhost:8000/chat" \
     -H "Content-Type: application/json" \
     -d '{
         "text": "什么是人工智能？"
     }'
                

响应格式

成功响应 (200):

{
    "answer": "人工智能（AI）是计算机科学的一个分支，旨在创建能够执行通常需要人类智能的任务的系统..."
}
                    

错误响应 (500):

{
    "error": "问答服务出错: 网络连接失败"
}
                    

🎯 模型信息：

模型：deepseek-v3-250324
最大令牌数：200
温度：0.3 (较低，回答更确定性)
角色：专业客服助手

⚠️ 错误码说明

HTTP 状态码

200 OK
请求成功

400 Bad Request
请求参数错误

404 Not Found
接口不存在

500 Internal Server Error
服务器内部错误

常见错误

错误码	错误信息	解决方案
400	TTS请求失败	检查TTS服务是否可用
500	问答服务出错	检查LLM服务连接
WebSocket	连接错误	检查ASR服务状态

🔧 语音处理平台 API 文档

📋 接口概述

🎤 ASR 音频文件识别

请求参数

请求示例

响应格式

🎤 ASR 实时音频识别

数据格式

JavaScript 示例

🔊 TTS 文本转语音

请求参数

请求示例

响应格式

🤖 智能问答

请求参数

请求示例

响应格式

⚠️ 错误码说明

HTTP 状态码

常见错误