Spokenly丨另一款丝滑的 AI 语音输入工具
https://spokenly.app/

诸位,现在非常兴奋地给大家介绍 Spokenly,从昨晚到今天,大部分时间我都在探索使用和优化转录后的 AI 提示词,体验上乘。目前免费,作者提到后期可能为 GPT-4o 这种云端转录模型分付费层级。我现在已经将 VoiceInk 替换为 Spokenly,并留待观察。

Spokenly 输出输入极其丝滑,UI 舒服。你可以在不同软件 Hover 状态栏的时选择不同指令,它明显地区分了转录和 AI 处理两个阶段,所以你可以随时使用转录或者转录加 AI 处理语音。这很好地解决了 AI 语音输入在电脑端反应较慢的问题,当你说一些短内容直接用转录时,它输出非常快,如同微信输入法这些工具。当你突然觉得自己说得过多,不想直接转入,需要 AI 处理时,你可以通过 Hover 状态栏使用你需要优化的选项。这非常快,目前我非常长的提示词,它处理和转录相当,甚至更快。

谈到转录模型,它接入了非常多在线和本地,以及可以实时查看转录文本的模型。比如我目前使用的顶级多语言模型 ElevenLabs Scribe,还有 GPT-4o mini Transcribe 和实时转录的顶级 Nova-3(可惜只能英文识别)。它的模型直接选择使用,也可以接入 API,极其方便。目前我使用的 Scribe + Gemini 2.0 Flash 的转录和处理。Spokenly AI 提示词也可以设定每个应用独立的提示词和快捷键搭配,甚至自定义读写快捷键。当然这里有个缺点,它不能全局使用某个提示词(加快捷键解决),以及某个提示词不能应用于多个应用,但后面版本更新很快。

另外,它还有个指令功能,可以说开局全靠一张嘴。不过前面我也说过「AI 语音输入法」它最好使用状态是分阶段和分任务,即它作为语义的输出输入极佳。它可以通过指令打开网页、软件以及快捷指令,你可以在语音中加入特殊识别词触发,这就很有未来感。比如你使用语音打开 Gemini AI 处理网页。

我发现 Spokenly 的作者非常有侵略性,构建人机交互,以及将 Spokenly 2.0 视为脑机接口版本。AI 语音语义传输确实是进入脑机接口前的替代方案。作者在 Reddit 这篇帖子吸引了很多用户,他们基本尝试过各种语音方案 WisprFlow/ SuperWhisper/ MacWhisper 以及 VoiceInk 这些新语音工具,MacWhisper 作者也有回复。关于这类工具建议看看这个帖子。

今天我花了大部分时间去优化我的语音处理提示词,使用 Gemini Canvas 和 Grok 协助优化了无数版本,目前这个版本是最顶级和满意的。提示词很长,很多板块,我看重的比如说关于文本格式和规范,中文双引折扩号、中西文间距规范,以及「的、地、得」用法。更重要的是它解决了目前大多语音提示词总是会执行命令的错误,比如这些工具的默认提示词,我这里主要引入了「指令钝化」以及「极致忠诚」原则,再加一些 Few-shot 示例,基本不会再执行任何指令文本。当然可能偶尔会有些幻觉,足矣。(放评论区)

还是那句话,语音输入法大家必须用起来,训练起来。训练自己的思维习惯、说话节奏和表达,这太重要了。从双拼到现在,扎实地进步。

这篇文章前期一次成文,后面作修改和校准处理以及结尾补充。这两个过程我都太享受了,之前我的创作过程写长文初稿很难受,其实我不喜欢打字。我喜欢去修改和「偶遇」,所以迷恋于每个字词句和文本的处理。这是有害的,它让你的思维有损、不连贯,甚至极大概率走向其他。

现在两个流程都打通了,前期的语义输出和我表达结合,后期修改处理和增删邂逅,这才是写作的好状态啊。

我这个提示词基本上是以创作者习惯来优化的,它完全遵照语义原文,你们可以仔细研究下。因为我很看重我的思考和原初表述,哪怕是字和词的前后结构。

相关链接:
AI 语音输入法丨如何 X10 倍提升我的思维传输效率

#ai #tools
 
 
Back to Top