Skip to content
Star

ASR 供应商配置教程

本页汇总各 ASR 供应商的注册、开通与密钥获取方法,并说明如何在说点啥中完成对应配置。

开始前

  • 进入应用 设置 → 语音识别设置,在「ASR 服务商」中选择目标供应商
  • 云端供应商通常需要填写 API Key / Access Token 等凭证
  • 本地模型需先下载/导入模型文件(首次加载可能需要几秒)

安全提示

API Key / Access Token 属于敏感信息,请勿截图公开或分享给他人;如怀疑泄露,请立即在对应平台控制台删除并重新创建。

供应商一览

供应商类型流式支持适合场景
Volcengine
火山引擎
云端追求低延迟与流式实时出字
SiliconFlow
硅基流动
云端新手开箱即用 / 低成本
DashScope
阿里云百炼(Qwen)
云端性价比与识别效果均衡
Soniox云端海外服务、流式稳定性较好
Gemini云端小用量体验 / 文件识别
ElevenLabs云端✅/❌识别精度高,按模型区分流式
OpenAI(兼容接口)云端使用 OpenAI/兼容端点的文件识别
Zhipu
智谱 GLM
云端低成本、简单接入
本地模型(SenseVoice / Paraformer / FunASR Nano / TeleSpeech)本地部分 ✅隐私优先、离线可用

火山引擎(Volcengine)

火山引擎(豆包语音)中文识别能力较强,API 功能完善,支持流式非流式

1. 创建应用并开通服务

  1. 进入控制台创建应用:火山引擎控制台
  2. 在「接入能力」中勾选:
    • 流式语音识别大模型
    • 录音文件识别大模型极速版

创建应用并勾选能力

2. 获取 APP ID 与 Access Token

  1. 进入服务详情页:火山引擎语音服务
  2. 在「服务接口认证信息」中复制 APP IDAccess Token

获取 APP ID 与 Access Token

3. 在说点啥中配置

  1. 打开 设置 → 语音识别设置
  2. 选择 Volcengine(火山引擎)
  3. APP ID 填入 X-Api-App-Key
  4. Access Token 填入 X-Api-Access-Key
  5. 如需流式识别,开启「使用流式识别(WebSocket)」

在应用内填写凭证

提示

若创建应用时已同时开通流式与录音文件识别,二者使用同一套密钥,无需重复获取。

硅基流动(SiliconFlow)

硅基流动提供内置免费 ASR(无需 Key)以及可选的付费模型。

快速使用(无需 API Key)

  1. 设置 → 语音识别设置 中选择 SiliconFlow
  2. 保持「免费 ASR」相关开关为开启
  3. 在可用的免费模型(如 FunAudioLLM/SenseVoiceSmallTeleAI/TeleSpeechASR)之间切换即可

使用自有 API Key(可选)

  1. 注册并登录:硅基流动官网
  2. 在控制台进入「API 密钥」,创建并复制 Key
  3. 粘贴到说点啥对应的 SiliconFlow 配置项中

在控制台获取 API Key

阿里云百炼(DashScope / Qwen)

识别精度不错、性价比高;支持非流式,流式部分支持。

1. 创建并复制 API Key

  1. 进入控制台 API Key 页面:阿里云百炼控制台
  2. 创建并复制 API Key

创建 DashScope API Key

2. 在说点啥中配置

  1. 打开 设置 → 语音识别设置,选择 DashScope(阿里云百炼)
  2. 填入 API Key 并保存

Soniox

Soniox 支持流式与非流式;流式稳定性较好。

获取 API Key

  1. 登录控制台:Soniox Console
  2. 在项目侧边栏进入 API keys
  3. 创建并复制 API KEY

进入 API keys

Gemini

Gemini 适合小用量体验,通常以文件识别为主。

  1. 进入 API Keys 页面:Google AI Studio
  2. 创建并复制 Key
  3. 填入说点啥对应的 Gemini 配置项

创建 Gemini Key

ElevenLabs

ElevenLabs 的 scribe_v1 仅支持非流式,scribe_v2 仅支持流式。

获取 API Key

  1. 进入 API Keys 页面:ElevenLabs API Keys
  2. 点击 Create Key
  3. 为 Key 开启 Speech to Text 权限

创建 Key开启 Speech to Text 权限

OpenAI(兼容接口)

OpenAI 渠道支持使用 OpenAI 格式的 ASR 端点(也可填写兼容 OpenAI Audio Transcriptions 的第三方端点)。

  1. 设置 → 语音识别设置 选择 OpenAI
  2. 填写:
    • ASR 端点(如 https://api.openai.com/v1/audio/transcriptions 或兼容端点)
    • API Key(Bearer)
    • 模型名称(如 gpt-4o-mini-transcribe / whisper-1

OpenAI 配置示例

智谱 GLM

智谱 GLM 渠道简单易用、价格较低,通常为非流式。

  1. 进入控制台获取 API Key:智谱 BigModel 控制台
  2. 将 Key 填入说点啥对应的智谱配置项

本地模型配置指南

本地模型适合隐私优先与离线使用。不同模型在速度、效果、是否流式上各有取舍。

模型选择建议

  • SenseVoice:非流式;速度快、均衡;支持语言设置
  • FunASR Nano:非流式;速度较慢但效果好
  • Paraformer:支持流式;效果次优
  • TeleSpeech:非流式;方言支持稍好

在应用内下载(推荐)

  1. 选择本地模型供应商(如 SenseVoice / Paraformer)
  2. 在模型管理页选择版本并点击下载
  3. 如已授予通知权限,可在通知栏查看下载与解压进度

模型管理页下载与进度

通过本地文件导入(可选)

如果你偏好通过本地文件添加模型,可先下载 ZIP,再在模型管理页选择“从本地导入”。

模型直链

以下为 BiBi-Keyboard 模型 ZIP 直链;如遇到 404/下载慢,请前往 模型库(Releases: models) 或使用 GitHub 镜像站下载。

SenseVoice(非流)

Paraformer(流式)

TeleSpeech(非流)

FunASR Nano(非流)

通用标点模型(可选)

Released under the Apache 2.0 License.