Skip to content
Star

语音输入基础

说点啥的核心功能是高质量语音识别,支持多种 ASR 引擎和识别模式,让您在任何应用中都能轻松使用语音输入。

工作原理

语音输入流程分为三个阶段:

  1. 录音阶段:应用录制您的语音,并根据设置自动检测静音或手动停止
  2. 识别阶段:语音数据发送给 ASR 引擎(云端或本地),转换为文字
  3. 输出阶段:识别结果经过可选的 AI 后处理后,提交到当前编辑器

支持的 ASR 供应商

说点啥支持 12 个 ASR 供应商,分为云端和本地两大类:

云端识别引擎

供应商流式模式时长限制(非流式)特点
Volcengine
火山引擎
1 小时新用户通常赠送 20 小时免费额度,支持双向流式
SiliconFlow
硅基流动
20 分钟内置免费 ASR 服务(SenseVoiceSmall / TeleSpeechASR),支持 Qwen3-Omni 多模态转写(需自有 Key)
ElevenLabs20 分钟高精度英文识别,支持文件与流式
OpenAI20 分钟默认 gpt-4o-mini-transcribe,可填写任意兼容 OpenAI Audio Transcriptions 的模型
DashScope
阿里云百炼
3 分钟qwen3-asr-flash,支持流式与非流式
Gemini
Google
4 小时基于文件的多模态语音理解
Soniox1 小时支持多语言提示,流式与文件双模式
Zhipu
智谱
20 分钟GLM-ASR,支持上下文提示参数

本地识别引擎(离线)

供应商流式模式时长限制(非流式)特点
SenseVoice伪流式 ¹5 分钟基于 sherpa-onnx,支持多语言离线识别
Telespeech伪流式 ¹5 分钟基于 sherpa-onnx,中文和方言优化
Paraformer无限制 ²纯流式本地识别
Zipformer无限制 ²纯流式本地识别

注释说明

¹ 伪流式:基于 VAD 分句提供部分结果预览,但非真正的实时流式识别

² 流式模式下无时长限制,可持续录音识别 表格中的“时长限制(非流式)”指的是应用内单段录音的上限,用于控制分段录音行为,并不代表各家收费套餐或免费额度的上限。 目前:火山引擎通常会为新用户赠送约 20 小时的免费识别时长;硅基流动提供内置免费 ASR 服务且没有总时长额度限制,其他供应商的配额/计费请以各自控制台为准。

更多关于各供应商支持的模型、推荐配置和最新配额,可参考整理的 提供商与模型指南

云端 vs 本地识别

云端识别优势

  • 高精度:使用大型云端模型,识别准确率更高
  • 多语言支持:支持中英混合、方言、多国语言识别
  • 免维护:无需下载模型,自动获取最新模型更新

本地识别优势

  • 完全离线:无需网络连接,保护隐私
  • 低延迟:本地处理,无网络传输延迟
  • 无流量消耗:适合流量受限环境
  • 无额度限制:无需担心 API 配额和费用

流式 vs 非流式模式

流式识别

工作原理:边录音边上传,实时返回识别结果

优势

  • ✅ 实时反馈,可见即时识别结果
  • ✅ 无时长限制,支持长时间录音
  • ✅ 延迟更低,说话即转文字

支持的引擎

  • 云端:Volcengine、Soniox、DashScope、ElevenLabs
  • 本地:Paraformer、Zipformer

非流式识别(文件上传)

工作原理:录音结束后上传完整音频文件进行识别

优势

  • ✅ 处理精度更高(引擎可全局分析音频)
  • ✅ 实现简单,稳定性好
  • ✅ 支持更多供应商

限制

  • ⚠️ 有时长限制(见上表)
  • ⚠️ 需等待录音结束才开始识别

配置建议

  • 支持双模式的供应商可在 设置 → 语音识别设置 → [供应商设置] 中切换模式
  • 流式模式适合长时间录音和实时反馈需求
  • 文件模式适合追求高精度的短语音识别

分段录音功能

对于非流式引擎,当录音超过应用内为该供应商设置的单段时长上限时,说点啥会自动进行分段录音

工作机制

  1. 自动分割:接近时长限制时,自动切分当前段并开始下一段录音
  2. 后台上传:切分的音频段在后台上传识别,不影响继续录音
  3. 无缝体验:界面保持录音状态,用户无感知中断
  4. 结果合并:所有段的识别结果自动拼接为完整文本

各供应商时长限制(应用内单段上限)

供应商单段限制说明
Volcengine1 小时官方单次最长约 2 小时,这里预留安全边距,仅在应用内限制为 1 小时
SiliconFlow20 分钟应用内默认单段上限为 20 分钟,用于控制分段录音,与收费/免费额度无关
ElevenLabs20 分钟应用内默认单段上限为 20 分钟,防止超长音频导致失败
OpenAI20 分钟应用内默认单段上限为 20 分钟,可根据实际需求调整模型与用量
DashScope3 分钟默认采用 qwen3-asr-flash,应用内单段上限为 3 分钟
Gemini4 小时官方单次最长约 9.5 小时,这里预留安全边距,仅在应用内限制为 4 小时
Soniox1 小时未查到严格官方上限,应用内默认限制为 1 小时
SenseVoice5 分钟本地模型性能限制,避免超长推理占用过多内存与时间
Telespeech5 分钟本地模型性能限制,避免超长推理占用过多内存与时间

注意

  • 流式引擎(Paraformer、Zipformer 等)无时长限制
  • 分段录音仅在非流式模式下生效
  • 每段识别可能产生独立的 API 调用费用

快速配置详细介绍

1. 使用免费服务(推荐新用户)

无需配置,开箱即用:

  1. 打开应用,默认使用 SiliconFlow 免费服务
  2. 可在 设置 → 语音识别设置 → SiliconFlow 中在免费可用的两个模型(FunAudioLLM/SenseVoiceSmallTeleAI/TeleSpeechASR)之间切换

2. 配置云端供应商

以 Volcengine 为例:

  1. 前往 火山引擎控制台 注册账号
  2. 创建应用,获取 App KeyAccess Key
  3. 在说点啥 设置 → 语音识别设置 → 供应商 中选择 Volcengine
  4. 填入凭证并保存

3. 自动配置本地模型

  1. 自动从 模型库 下载 SenseVoice Small 模型
  2. 解压到手机存储的 Android/data/com.brycewg.asrkb/files/sensevoice/ 目录
  3. 自动在 设置 → 语音识别设置 → 供应商 中选择 SenseVoice

提示

本地模型首次加载可能需要几秒钟,可启用“预加载模型”选项(SenseVoice / TeleSpeech / Paraformer / Zipformer 均可配置),在键盘或悬浮球首次显示时提前加载模型,从而减小首次识别时的等待时间。

相关功能

Released under the Apache 2.0 License.