AI 后处理
AI 后处理功能使用大型语言模型(LLM)对 ASR 识别结果进行智能优化,包括去除语气词、修正错别字、调整标点、改写润色等,让语音输入更加流畅自然。
功能说明
工作流程
语音录音 → ASR 识别 → [AI 后处理] → 提交文本适用场景
推荐使用场景
- 口语转书面:会议记录、报告撰写
- 长文本输入:减少后期修改工作量
- 专业内容:需要规范表达的场景
- 多语言:结合翻译 Prompt 实现语音跨语言输入
不建议场景
- 聊天对话(保持口语化更自然)
- 极短文本(如单个词语、数字)
- 对延迟敏感的场景
支持的 LLM 供应商
说点啥支持 11 个 LLM 供应商,所有供应商均使用 OpenAI 兼容的 API 格式:
| 供应商 | 默认模型 | 特点 | 注册链接 |
|---|---|---|---|
| SF_FREE 硅基流动免费服务 | Qwen/Qwen3-8B | 🆓 免费无需配置 | 立即使用 |
| DEEPSEEK 深度求索 | deepseek-chat | 💰 性价比高,支持推理模式 | 注册 |
| ZHIPU 智谱 | glm-4.6 | 🇨🇳 国产模型,支持推理 | 注册 |
| MOONSHOT 月之暗面 | kimi-k2-0905-preview | 🧠 长上下文,支持推理 | 注册 |
| VOLCENGINE 火山引擎 | doubao-seed-1-6-flash | 🇨🇳 豆包模型,支持推理 | 注册 |
| OPENAI | gpt-4o-mini | 🌍 ChatGPT 同款 | 注册 |
| GEMINI | gemini-2.0-flash | 🚀 快速响应,支持推理 | 注册 |
| GROQ | llama-3.3-70b-versatile | ⚡ 超快推理速度 | 注册 |
| CEREBRAS | llama-3.3-70b | ⚡ 超快推理 | 注册 |
| OHMYGPT | gpt-4o-mini | 🔀 多供应商中继平台 | 注册 |
| CUSTOM 自定义 | 用户指定 | 🛠️ 任何 OpenAI 兼容 API | - |
推理模式(Reasoning Mode)
部分供应商支持"推理模式"切换(Thinking/Reasoning),模型会先进行深度思考再输出结果,适合复杂的文本处理任务。推理模式通常会增加处理时间和 Token 消耗。
Prompt 预设系统
说点啥内置 5 个常用 Prompt 预设,并支持自定义:
内置预设
| 预设名称 | 用途 | 效果 |
|---|---|---|
| 通用后处理 | 日常语音输入 | 去除语气词、修正口误、保持原意 |
| 基础文本润色 | 书面化改写 | 修正语法、添加标点、流畅表达 |
| 翻译为英文 | 跨语言输入 | 将识别文本翻译为英文 |
| 提取关键要点 | 会议记录 | 提取核心信息为无序列表 |
| 提取待办事项 | 任务管理 | 识别任务项并生成 checklist |
自定义 Prompt
您可以在 设置 → AI 后处理 → Prompt 预设 中:
- 点击"添加预设"创建新 Prompt
- 编写 Prompt 内容(建议包含角色、任务、规则、输出要求)
- 保存并在 AI 编辑面板中快速应用
配置选项
基础配置
| 配置项 | 类型 | 默认值 | 说明 |
|---|---|---|---|
postProcessEnabled | Boolean | false | AI 后处理总开关 |
llmVendor | LlmVendor | SF_FREE | 当前选择的 LLM 供应商 |
llmEndpoint | String | 供应商默认 | API 端点(内置供应商自动设置) |
llmApiKey | String | "" | API 密钥(免费服务无需填写) |
llmModel | String | 供应商默认 | 使用的模型名称 |
llmTemperature | Float | 0.2 | 温度参数(0-2,越低越稳定) |
高级配置
| 配置项 | 类型 | 默认值 | 说明 |
|---|---|---|---|
postprocSkipUnderChars | Int | 0 | 少于该字数时跳过 AI 处理(0=不跳过) |
activePromptId | String | "" | 当前活动的 Prompt 预设 ID |
promptPresetsJson | String | "" | Prompt 预设列表 JSON |
Temperature 参数说明
- 0 - 0.3:输出高度一致,适合精确处理
- 0.4 - 0.7:平衡创造性与稳定性
- 0.8 - 2.0:输出更有创造性,但可能不稳定
快速配置指南
使用免费服务(推荐)
说点啥默认配置了 SiliconFlow 免费服务,无需 API Key 即可使用:
- 进入
设置 → AI 后处理 - 开启"启用 AI 后处理"开关
- 确认供应商为 SF_FREE(默认)
- 选择 Prompt 预设(推荐"通用后处理")
- 在说点啥键盘上点击魔法棒按钮启用 AI 后处理模式
- 完成!现在语音输入会自动进行 AI 优化
免费服务说明
- 有一定免费额度(具体见 SiliconFlow 官网)
- 可选模型:Qwen/Qwen3-8B、THUDM/GLM-4-9B 等
- 如需其他模型,可注册 SiliconFlow 账号领取 14 元赠金并使用自己的 API Key
配置付费供应商
以 DeepSeek 为例:
- 访问 DeepSeek 平台注册账号
- 创建 API Key 并充值
- 在说点啥
设置 → AI 后处理中:- 选择供应商:DEEPSEEK
- 填入 API Key
- 选择模型(如 deepseek-chat)
- 调整 Temperature(建议 0.2)
- 保存并测试
配置自定义供应商
对于任何 OpenAI 兼容的 API:
- 在
设置 → AI 后处理中选择供应商:CUSTOM - 填写完整配置:
- 端点:如
https://your-api.com/v1 - API Key:您的密钥
- 模型:如
gpt-3.5-turbo - Temperature:建议 0.2
- 端点:如
- 保存并测试
自定义端点要求
- 必须兼容 OpenAI Chat Completions API 格式
- 端点路径通常为
/v1/chat/completions(会自动拼接)
供应商推理模式支持
部分供应商支持推理模式,通过不同方式控制:
| 供应商 | 推理控制方式 | 支持模型 | 说明 |
|---|---|---|---|
| DEEPSEEK | 模型选择 | deepseek-reasoner | 选择 reasoner 模型启用推理 |
| MOONSHOT | 模型选择 | kimi-k2-thinking | 选择 thinking 模型启用推理 |
| SF_FREE | 参数开关 | Qwen3 系列、DeepSeek-V3.1 等 | 在设置中开启"推理模式"开关 |
| GEMINI | 参数开关 | gemini-2.5-flash 及以上 | reasoning_effort 参数 |
| GROQ | 参数开关 | qwen3-32b、gpt-oss 系列 | reasoning_effort 参数 |
| CEREBRAS | 参数开关 | gpt-oss-120b | reasoning_effort 参数 |
| VOLCENGINE | 参数开关 | doubao-seed 系列、deepseek | thinking.type 参数 |
| ZHIPU | 参数开关 | glm-4.6、glm-4.5 系列 | thinking.type 参数 |
| OHMYGPT | 参数开关 | gemini-2.5、claude、gpt-5 系列 | reasoning_effort 参数 |
推理模式适用场景
- ✅ 复杂文本改写(如专业术语转换)
- ✅ 需要逻辑推理的任务(如提取待办事项)
- ✅ 多步骤处理(如翻译+润色)
- ❌ 简单去除语气词(不需要推理,会增加延迟)
使用技巧
AI 后处理有三种触发方式:
| 触发方式 | 说明 | 适用场景 |
|---|---|---|
| 自动处理 | 每次语音输入后自动执行 | 日常使用,输出即最终结果 |
| AI 编辑 | 手动选择文本,点击键盘左侧的铅笔图标进入编辑面板。点击魔法棒按钮选择应用的提示词 | 需要反复调整或多次尝试 |
| 跳过短文本 | 设置最小字数阈值 | 避免处理无意义的短语音 |
故障排查
AI 后处理不生效
检查清单:
- ✅ 总开关已启用(
postProcessEnabled = true) - ✅ 输入文本长度 ≥
postprocSkipUnderChars - ✅ 供应商配置正确(API Key 有效)
- ✅ 网络连接正常
- ✅ API 额度未耗尽
输出结果不符合预期
可能原因:
- Prompt 不够明确 → 添加详细示例
- Temperature 过高 → 降低到 0.2
- 模型选择不当 → 尝试更强大的模型
- 输入文本过长 → 检查是否超出模型上下文限制
处理速度慢
优化方案:
- 切换到更快的供应商(Groq、Cerebras)
- 使用更小的模型(如 Qwen3-8B 而非 Qwen3-235B)
- 关闭推理模式
- 简化 Prompt 内容
