ASR 供应商配置教程
本页汇总各 ASR 供应商的注册、开通与密钥获取方法,并说明如何在说点啥中完成对应配置。
开始前
- 进入应用
设置 → 语音识别设置,在「ASR 服务商」中选择目标供应商 - 云端供应商通常需要填写
API Key/Access Token等凭证 - 本地模型需先下载/导入模型文件(首次加载可能需要几秒)
安全提示
API Key / Access Token 属于敏感信息,请勿截图公开或分享给他人;如怀疑泄露,请立即在对应平台控制台删除并重新创建。
供应商一览
| 供应商 | 类型 | 流式支持 | 适合场景 |
|---|---|---|---|
| Volcengine 火山引擎 | 云端 | ✅ | 追求低延迟与流式实时出字 |
| SiliconFlow 硅基流动 | 云端 | ❌ | 新手开箱即用 / 低成本 |
| DashScope 阿里云百炼(Qwen) | 云端 | ✅ | 性价比与识别效果均衡 |
| Soniox | 云端 | ✅ | 海外服务、流式稳定性较好 |
| Gemini | 云端 | ❌ | 小用量体验 / 文件识别 |
| ElevenLabs | 云端 | ✅/❌ | 识别精度高,按模型区分流式 |
| OpenAI(兼容接口) | 云端 | ❌ | 使用 OpenAI/兼容端点的文件识别 |
| Zhipu 智谱 GLM | 云端 | ❌ | 低成本、简单接入 |
| 本地模型(SenseVoice / Paraformer / FunASR Nano / TeleSpeech) | 本地 | 部分 ✅ | 隐私优先、离线可用 |
火山引擎(Volcengine)
火山引擎(豆包语音)中文识别能力较强,API 功能完善,支持流式与非流式。
1. 创建应用并开通服务
- 进入控制台创建应用:火山引擎控制台
- 在「接入能力」中勾选:
流式语音识别大模型录音文件识别大模型极速版

2. 获取 APP ID 与 Access Token
- 进入服务详情页:火山引擎语音服务
- 在「服务接口认证信息」中复制
APP ID与Access Token

3. 在说点啥中配置
- 打开
设置 → 语音识别设置 - 选择 Volcengine(火山引擎)
- 将
APP ID填入X-Api-App-Key - 将
Access Token填入X-Api-Access-Key - 如需流式识别,开启「使用流式识别(WebSocket)」

提示
若创建应用时已同时开通流式与录音文件识别,二者使用同一套密钥,无需重复获取。
硅基流动(SiliconFlow)
硅基流动提供内置免费 ASR(无需 Key)以及可选的付费模型。
快速使用(无需 API Key)
- 在
设置 → 语音识别设置中选择 SiliconFlow - 保持「免费 ASR」相关开关为开启
- 在可用的免费模型(如
FunAudioLLM/SenseVoiceSmall、TeleAI/TeleSpeechASR)之间切换即可
使用自有 API Key(可选)
- 注册并登录:硅基流动官网
- 在控制台进入「API 密钥」,创建并复制 Key
- 粘贴到说点啥对应的 SiliconFlow 配置项中
![]()
阿里云百炼(DashScope / Qwen)
识别精度不错、性价比高;支持非流式,流式部分支持。
1. 创建并复制 API Key
- 进入控制台 API Key 页面:阿里云百炼控制台
- 创建并复制 API Key

2. 在说点啥中配置
- 打开
设置 → 语音识别设置,选择 DashScope(阿里云百炼) - 填入 API Key 并保存
Soniox
Soniox 支持流式与非流式;流式稳定性较好。
获取 API Key
- 登录控制台:Soniox Console
- 在项目侧边栏进入
API keys - 创建并复制 API KEY

Gemini
Gemini 适合小用量体验,通常以文件识别为主。
- 进入 API Keys 页面:Google AI Studio
- 创建并复制 Key
- 填入说点啥对应的 Gemini 配置项

ElevenLabs
ElevenLabs 的 scribe_v1 仅支持非流式,scribe_v2 仅支持流式。
获取 API Key
- 进入 API Keys 页面:ElevenLabs API Keys
- 点击 Create Key
- 为 Key 开启
Speech to Text权限


OpenAI(兼容接口)
OpenAI 渠道支持使用 OpenAI 格式的 ASR 端点(也可填写兼容 OpenAI Audio Transcriptions 的第三方端点)。
- 在
设置 → 语音识别设置选择 OpenAI - 填写:
ASR 端点(如https://api.openai.com/v1/audio/transcriptions或兼容端点)API Key(Bearer)模型名称(如gpt-4o-mini-transcribe/whisper-1)

智谱 GLM
智谱 GLM 渠道简单易用、价格较低,通常为非流式。
- 进入控制台获取 API Key:智谱 BigModel 控制台
- 将 Key 填入说点啥对应的智谱配置项
本地模型配置指南
本地模型适合隐私优先与离线使用。不同模型在速度、效果、是否流式上各有取舍。
模型选择建议
- SenseVoice:非流式;速度快、均衡;支持语言设置
- FunASR Nano:非流式;速度较慢但效果好
- Paraformer:支持流式;效果次优
- TeleSpeech:非流式;方言支持稍好
在应用内下载(推荐)
- 选择本地模型供应商(如 SenseVoice / Paraformer)
- 在模型管理页选择版本并点击下载
- 如已授予通知权限,可在通知栏查看下载与解压进度

通过本地文件导入(可选)
如果你偏好通过本地文件添加模型,可先下载 ZIP,再在模型管理页选择“从本地导入”。
模型直链
以下为 BiBi-Keyboard 模型 ZIP 直链;如遇到 404/下载慢,请前往 模型库(Releases: models) 或使用 GitHub 镜像站下载。
SenseVoice(非流)
- small-int8(约 153MB):sherpa-onnx-sense-voice-zh-en-ja-ko-yue-int8-2024-07-17.zip
- small-fp32(约 980MB):sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.zip
Paraformer(流式)
- 三语言(中/粤/英,约 974MB):sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en.zip
- 双语言(中/英,约 973MB):sherpa-onnx-streaming-paraformer-bilingual-zh-en.zip
TeleSpeech(非流)
- int8(约 180MB):sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04.zip
- fp32(约 715MB):sherpa-onnx-telespeech-ctc-zh-2024-06-04.zip
FunASR Nano(非流)
- int8(约 690MB):sherpa-onnx-funasr-nano-int8-2025-12-30.zip