语音输入基础
说点啥的核心功能是高质量语音识别,支持多种 ASR 引擎和识别模式,让您在任何应用中都能轻松使用语音输入。
工作原理
语音输入流程分为三个阶段:
- 录音阶段:应用录制您的语音,并根据设置自动检测静音或手动停止
- 识别阶段:语音数据发送给 ASR 引擎(云端或本地),转换为文字
- 输出阶段:识别结果经过可选的 AI 后处理后,提交到当前编辑器
支持的 ASR 供应商
说点啥支持 12 个 ASR 供应商,分为云端和本地两大类:
云端识别引擎
| 供应商 | 流式模式 | 时长限制(非流式) | 特点 |
|---|---|---|---|
| Volcengine 火山引擎 | ✅ | 1 小时 | 新用户通常赠送 20 小时免费额度,支持双向流式 |
| SiliconFlow 硅基流动 | ❌ | 20 分钟 | 内置免费 ASR 服务(SenseVoiceSmall / TeleSpeechASR),支持 Qwen3-Omni 多模态转写(需自有 Key) |
| ElevenLabs | ✅ | 20 分钟 | 高精度英文识别,支持文件与流式 |
| OpenAI | ❌ | 20 分钟 | 默认 gpt-4o-mini-transcribe,可填写任意兼容 OpenAI Audio Transcriptions 的模型 |
| DashScope 阿里云百炼 | ✅ | 3 分钟 | qwen3-asr-flash,支持流式与非流式 |
| Gemini | ❌ | 4 小时 | 基于文件的多模态语音理解 |
| Soniox | ✅ | 1 小时 | 支持多语言提示,流式与文件双模式 |
| Zhipu 智谱 | ❌ | 20 分钟 | GLM-ASR,支持上下文提示参数 |
本地识别引擎(离线)
| 供应商 | 流式模式 | 时长限制(非流式) | 特点 |
|---|---|---|---|
| SenseVoice | 伪流式 ¹ | 5 分钟 | 基于 sherpa-onnx,支持多语言离线识别 |
| Telespeech | 伪流式 ¹ | 5 分钟 | 基于 sherpa-onnx,中文和方言优化 |
| Paraformer | ✅ | 无限制 ² | 纯流式本地识别 |
| Zipformer | ✅ | 无限制 ² | 纯流式本地识别 |
注释说明
¹ 伪流式:基于 VAD 分句提供部分结果预览,但非真正的实时流式识别
² 流式模式下无时长限制,可持续录音识别 表格中的“时长限制(非流式)”指的是应用内单段录音的上限,用于控制分段录音行为,并不代表各家收费套餐或免费额度的上限。 目前:火山引擎通常会为新用户赠送约 20 小时的免费识别时长;硅基流动提供内置免费 ASR 服务且没有总时长额度限制,其他供应商的配额/计费请以各自控制台为准。
更多关于各供应商支持的模型、推荐配置和最新配额,可参考整理的 提供商与模型指南。
云端 vs 本地识别
云端识别优势
- 高精度:使用大型云端模型,识别准确率更高
- 多语言支持:支持中英混合、方言、多国语言识别
- 免维护:无需下载模型,自动获取最新模型更新
本地识别优势
- 完全离线:无需网络连接,保护隐私
- 低延迟:本地处理,无网络传输延迟
- 无流量消耗:适合流量受限环境
- 无额度限制:无需担心 API 配额和费用
流式 vs 非流式模式
流式识别
工作原理:边录音边上传,实时返回识别结果
优势:
- ✅ 实时反馈,可见即时识别结果
- ✅ 无时长限制,支持长时间录音
- ✅ 延迟更低,说话即转文字
支持的引擎:
- 云端:Volcengine、Soniox、DashScope、ElevenLabs
- 本地:Paraformer、Zipformer
非流式识别(文件上传)
工作原理:录音结束后上传完整音频文件进行识别
优势:
- ✅ 处理精度更高(引擎可全局分析音频)
- ✅ 实现简单,稳定性好
- ✅ 支持更多供应商
限制:
- ⚠️ 有时长限制(见上表)
- ⚠️ 需等待录音结束才开始识别
配置建议
- 支持双模式的供应商可在
设置 → 语音识别设置 → [供应商设置]中切换模式 - 流式模式适合长时间录音和实时反馈需求
- 文件模式适合追求高精度的短语音识别
分段录音功能
对于非流式引擎,当录音超过应用内为该供应商设置的单段时长上限时,说点啥会自动进行分段录音:
工作机制
- 自动分割:接近时长限制时,自动切分当前段并开始下一段录音
- 后台上传:切分的音频段在后台上传识别,不影响继续录音
- 无缝体验:界面保持录音状态,用户无感知中断
- 结果合并:所有段的识别结果自动拼接为完整文本
各供应商时长限制(应用内单段上限)
| 供应商 | 单段限制 | 说明 |
|---|---|---|
| Volcengine | 1 小时 | 官方单次最长约 2 小时,这里预留安全边距,仅在应用内限制为 1 小时 |
| SiliconFlow | 20 分钟 | 应用内默认单段上限为 20 分钟,用于控制分段录音,与收费/免费额度无关 |
| ElevenLabs | 20 分钟 | 应用内默认单段上限为 20 分钟,防止超长音频导致失败 |
| OpenAI | 20 分钟 | 应用内默认单段上限为 20 分钟,可根据实际需求调整模型与用量 |
| DashScope | 3 分钟 | 默认采用 qwen3-asr-flash,应用内单段上限为 3 分钟 |
| Gemini | 4 小时 | 官方单次最长约 9.5 小时,这里预留安全边距,仅在应用内限制为 4 小时 |
| Soniox | 1 小时 | 未查到严格官方上限,应用内默认限制为 1 小时 |
| SenseVoice | 5 分钟 | 本地模型性能限制,避免超长推理占用过多内存与时间 |
| Telespeech | 5 分钟 | 本地模型性能限制,避免超长推理占用过多内存与时间 |
注意
- 流式引擎(Paraformer、Zipformer 等)无时长限制
- 分段录音仅在非流式模式下生效
- 每段识别可能产生独立的 API 调用费用
快速配置详细介绍
1. 使用免费服务(推荐新用户)
无需配置,开箱即用:
- 打开应用,默认使用 SiliconFlow 免费服务
- 可在
设置 → 语音识别设置 → SiliconFlow中在免费可用的两个模型(FunAudioLLM/SenseVoiceSmall、TeleAI/TeleSpeechASR)之间切换
2. 配置云端供应商
以 Volcengine 为例:
- 前往 火山引擎控制台 注册账号
- 创建应用,获取
App Key和Access Key - 在说点啥
设置 → 语音识别设置 → 供应商中选择 Volcengine - 填入凭证并保存
3. 自动配置本地模型
- 自动从 模型库 下载 SenseVoice Small 模型
- 解压到手机存储的
Android/data/com.brycewg.asrkb/files/sensevoice/目录 - 自动在
设置 → 语音识别设置 → 供应商中选择 SenseVoice
提示
本地模型首次加载可能需要几秒钟,可启用“预加载模型”选项(SenseVoice / TeleSpeech / Paraformer / Zipformer 均可配置),在键盘或悬浮球首次显示时提前加载模型,从而减小首次识别时的等待时间。
