Spokenly丨另一款丝滑的 AI 语音输入工具

Spokenly丨另一款丝滑的 AI 语音输入工具
https://spokenly.app/

诸位，现在非常兴奋地给大家介绍 Spokenly，从昨晚到今天，大部分时间我都在探索使用和优化转录后的 AI 提示词，体验上乘。目前免费，作者提到后期可能为 GPT-4o 这种云端转录模型分付费层级。我现在已经将 VoiceInk 替换为 Spokenly，并留待观察。

Spokenly 输出输入极其丝滑，UI 舒服。你可以在不同软件 Hover 状态栏的时选择不同指令，它明显地区分了转录和 AI 处理两个阶段，所以你可以随时使用转录或者转录加 AI 处理语音。这很好地解决了 AI 语音输入在电脑端反应较慢的问题，当你说一些短内容直接用转录时，它输出非常快，如同微信输入法这些工具。当你突然觉得自己说得过多，不想直接转入，需要 AI 处理时，你可以通过 Hover 状态栏使用你需要优化的选项。这非常快，目前我非常长的提示词，它处理和转录相当，甚至更快。

谈到转录模型，它接入了非常多在线和本地，以及可以实时查看转录文本的模型。比如我目前使用的顶级多语言模型 ElevenLabs Scribe，还有 GPT-4o mini Transcribe 和实时转录的顶级 Nova-3（可惜只能英文识别）。它的模型直接选择使用，也可以接入 API，极其方便。目前我使用的 Scribe + Gemini 2.0 Flash 的转录和处理。Spokenly AI 提示词也可以设定每个应用独立的提示词和快捷键搭配，甚至自定义读写快捷键。当然这里有个缺点，它不能全局使用某个提示词（加快捷键解决），以及某个提示词不能应用于多个应用，但后面版本更新很快。

另外，它还有个指令功能，可以说开局全靠一张嘴。不过前面我也说过「AI 语音输入法」它最好使用状态是分阶段和分任务，即它作为语义的输出输入极佳。它可以通过指令打开网页、软件以及快捷指令，你可以在语音中加入特殊识别词触发，这就很有未来感。比如你使用语音打开 Gemini AI 处理网页。

我发现 Spokenly 的作者非常有侵略性，构建人机交互，以及将 Spokenly 2.0 视为脑机接口版本。AI 语音语义传输确实是进入脑机接口前的替代方案。作者在 Reddit 这篇帖子吸引了很多用户，他们基本尝试过各种语音方案 WisprFlow/ SuperWhisper/ MacWhisper 以及 VoiceInk 这些新语音工具，MacWhisper 作者也有回复。关于这类工具建议看看这个帖子。

今天我花了大部分时间去优化我的语音处理提示词，使用 Gemini Canvas 和 Grok 协助优化了无数版本，目前这个版本是最顶级和满意的。提示词很长，很多板块，我看重的比如说关于文本格式和规范，中文双引折扩号、中西文间距规范，以及「的、地、得」用法。更重要的是它解决了目前大多语音提示词总是会执行命令的错误，比如这些工具的默认提示词，我这里主要引入了「指令钝化」以及「极致忠诚」原则，再加一些 Few-shot 示例，基本不会再执行任何指令文本。当然可能偶尔会有些幻觉，足矣。（放评论区）

还是那句话，语音输入法大家必须用起来，训练起来。训练自己的思维习惯、说话节奏和表达，这太重要了。从双拼到现在，扎实地进步。

这篇文章前期一次成文，后面作修改和校准处理以及结尾补充。这两个过程我都太享受了，之前我的创作过程写长文初稿很难受，其实我不喜欢打字。我喜欢去修改和「偶遇」，所以迷恋于每个字词句和文本的处理。这是有害的，它让你的思维有损、不连贯，甚至极大概率走向其他。

现在两个流程都打通了，前期的语义输出和我表达结合，后期修改处理和增删邂逅，这才是写作的好状态啊。

我这个提示词基本上是以创作者习惯来优化的，它完全遵照语义原文，你们可以仔细研究下。因为我很看重我的思考和原初表述，哪怕是字和词的前后结构。

相关链接：
AI 语音输入法丨如何 X10 倍提升我的思维传输效率

#ai #tools

spokenly.app

Spokenly – Whisper-Powered Mac Dictation App | Best Voice to Text for macOS

Transform your spoken words into text on macOS with a simple click. Advanced AI text processing with local models. No data storing, no sign-ups, just pure dictation.