Skip to content
Star

AI 后处理

AI 后处理功能使用大型语言模型(LLM)对 ASR 识别结果进行智能优化,包括去除语气词、修正错别字、调整标点、改写润色等,让语音输入更加流畅自然。

功能说明

工作流程

语音录音 → ASR 识别 → [AI 后处理] → 提交文本

适用场景

推荐使用场景

  • 口语转书面:会议记录、报告撰写
  • 长文本输入:减少后期修改工作量
  • 专业内容:需要规范表达的场景
  • 多语言:结合翻译 Prompt 实现语音跨语言输入

不建议场景

  • 聊天对话(保持口语化更自然)
  • 极短文本(如单个词语、数字)
  • 对延迟敏感的场景

支持的 LLM 供应商

说点啥支持 11 个 LLM 供应商,所有供应商均使用 OpenAI 兼容的 API 格式:

供应商默认模型特点注册链接
SF_FREE
硅基流动免费服务
Qwen/Qwen3-8B🆓 免费无需配置立即使用
DEEPSEEK
深度求索
deepseek-chat💰 性价比高,支持推理模式注册
ZHIPU
智谱
glm-4.6🇨🇳 国产模型,支持推理注册
MOONSHOT
月之暗面
kimi-k2-0905-preview🧠 长上下文,支持推理注册
VOLCENGINE
火山引擎
doubao-seed-1-6-flash🇨🇳 豆包模型,支持推理注册
OPENAIgpt-4o-mini🌍 ChatGPT 同款注册
GEMINI
Google
gemini-2.0-flash🚀 快速响应,支持推理注册
GROQllama-3.3-70b-versatile⚡ 超快推理速度注册
CEREBRASllama-3.3-70b⚡ 超快推理注册
OHMYGPTgpt-4o-mini🔀 多供应商中继平台注册
CUSTOM
自定义
用户指定🛠️ 任何 OpenAI 兼容 API-

推理模式(Reasoning Mode)

部分供应商支持"推理模式"切换(Thinking/Reasoning),模型会先进行深度思考再输出结果,适合复杂的文本处理任务。推理模式通常会增加处理时间和 Token 消耗。

Prompt 预设系统

说点啥内置 5 个常用 Prompt 预设,并支持自定义:

内置预设

预设名称用途效果
通用后处理日常语音输入去除语气词、修正口误、保持原意
基础文本润色书面化改写修正语法、添加标点、流畅表达
翻译为英文跨语言输入将识别文本翻译为英文
提取关键要点会议记录提取核心信息为无序列表
提取待办事项任务管理识别任务项并生成 checklist

自定义 Prompt

您可以在 设置 → AI 后处理 → Prompt 预设 中:

  1. 点击"添加预设"创建新 Prompt
  2. 编写 Prompt 内容(建议包含角色、任务、规则、输出要求)
  3. 保存并在 AI 编辑面板中快速应用

配置选项

基础配置

配置项类型默认值说明
postProcessEnabledBooleanfalseAI 后处理总开关
llmVendorLlmVendorSF_FREE当前选择的 LLM 供应商
llmEndpointString供应商默认API 端点(内置供应商自动设置)
llmApiKeyString""API 密钥(免费服务无需填写)
llmModelString供应商默认使用的模型名称
llmTemperatureFloat0.2温度参数(0-2,越低越稳定)

高级配置

配置项类型默认值说明
postprocSkipUnderCharsInt0少于该字数时跳过 AI 处理(0=不跳过)
activePromptIdString""当前活动的 Prompt 预设 ID
promptPresetsJsonString""Prompt 预设列表 JSON

Temperature 参数说明

  • 0 - 0.3:输出高度一致,适合精确处理
  • 0.4 - 0.7:平衡创造性与稳定性
  • 0.8 - 2.0:输出更有创造性,但可能不稳定

快速配置指南

使用免费服务(推荐)

说点啥默认配置了 SiliconFlow 免费服务,无需 API Key 即可使用:

  1. 进入 设置 → AI 后处理
  2. 开启"启用 AI 后处理"开关
  3. 确认供应商为 SF_FREE(默认)
  4. 选择 Prompt 预设(推荐"通用后处理")
  5. 在说点啥键盘上点击魔法棒按钮启用 AI 后处理模式
  6. 完成!现在语音输入会自动进行 AI 优化

免费服务说明

  • 有一定免费额度(具体见 SiliconFlow 官网)
  • 可选模型:Qwen/Qwen3-8B、THUDM/GLM-4-9B 等
  • 如需其他模型,可注册 SiliconFlow 账号领取 14 元赠金并使用自己的 API Key

配置付费供应商

以 DeepSeek 为例:

  1. 访问 DeepSeek 平台注册账号
  2. 创建 API Key 并充值
  3. 在说点啥 设置 → AI 后处理 中:
    • 选择供应商:DEEPSEEK
    • 填入 API Key
    • 选择模型(如 deepseek-chat)
    • 调整 Temperature(建议 0.2)
  4. 保存并测试

配置自定义供应商

对于任何 OpenAI 兼容的 API:

  1. 设置 → AI 后处理 中选择供应商:CUSTOM
  2. 填写完整配置:
    • 端点:如 https://your-api.com/v1
    • API Key:您的密钥
    • 模型:如 gpt-3.5-turbo
    • Temperature:建议 0.2
  3. 保存并测试

自定义端点要求

  • 必须兼容 OpenAI Chat Completions API 格式
  • 端点路径通常为 /v1/chat/completions(会自动拼接)

供应商推理模式支持

部分供应商支持推理模式,通过不同方式控制:

供应商推理控制方式支持模型说明
DEEPSEEK模型选择deepseek-reasoner选择 reasoner 模型启用推理
MOONSHOT模型选择kimi-k2-thinking选择 thinking 模型启用推理
SF_FREE参数开关Qwen3 系列、DeepSeek-V3.1 等在设置中开启"推理模式"开关
GEMINI参数开关gemini-2.5-flash 及以上reasoning_effort 参数
GROQ参数开关qwen3-32b、gpt-oss 系列reasoning_effort 参数
CEREBRAS参数开关gpt-oss-120breasoning_effort 参数
VOLCENGINE参数开关doubao-seed 系列、deepseekthinking.type 参数
ZHIPU参数开关glm-4.6、glm-4.5 系列thinking.type 参数
OHMYGPT参数开关gemini-2.5、claude、gpt-5 系列reasoning_effort 参数

推理模式适用场景

  • ✅ 复杂文本改写(如专业术语转换)
  • ✅ 需要逻辑推理的任务(如提取待办事项)
  • ✅ 多步骤处理(如翻译+润色)
  • ❌ 简单去除语气词(不需要推理,会增加延迟)

使用技巧

AI 后处理有三种触发方式:

触发方式说明适用场景
自动处理每次语音输入后自动执行日常使用,输出即最终结果
AI 编辑手动选择文本,点击键盘左侧的铅笔图标进入编辑面板。点击魔法棒按钮选择应用的提示词需要反复调整或多次尝试
跳过短文本设置最小字数阈值避免处理无意义的短语音

故障排查

AI 后处理不生效

检查清单

  1. ✅ 总开关已启用(postProcessEnabled = true
  2. ✅ 输入文本长度 ≥ postprocSkipUnderChars
  3. ✅ 供应商配置正确(API Key 有效)
  4. ✅ 网络连接正常
  5. ✅ API 额度未耗尽

输出结果不符合预期

可能原因

  • Prompt 不够明确 → 添加详细示例
  • Temperature 过高 → 降低到 0.2
  • 模型选择不当 → 尝试更强大的模型
  • 输入文本过长 → 检查是否超出模型上下文限制

处理速度慢

优化方案

  1. 切换到更快的供应商(Groq、Cerebras)
  2. 使用更小的模型(如 Qwen3-8B 而非 Qwen3-235B)
  3. 关闭推理模式
  4. 简化 Prompt 内容

相关功能

Released under the Apache 2.0 License.