• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

动动嘴就能干活,这 7 款 AI 工具成了我离不开的效率搭子|AI 有用功

商业

08-07 19:20

语音,是一个「甲之蜜糖,乙之砒霜」的媒介。被微信 60 秒语音轰炸过的朋友,最懂个中滋味。

你说语音输出快,我嫌听起来不方便。你觉得语音更有感情,我认为文字更一目了然。立场相对,对语音的态度也就不同。

好在,已经重塑了很多产品的 AI,终于也在语音工具上雕花了。或许会让你觉得,语音也没那么讨厌。

APPSO 选取了几款语音转文字的工具,根据 4 个不同的场景,分享具体的使用体验,不存在纯粹的推荐,过程中有种草也有踩雷。

除了处理他人的语音,我们也可以用这些工具,记录脑洞,提高效率,甚至在以前意想不到的场景,打开新世界的大门。

如果你觉得有什么好用的产品,也欢迎在评论区分享!

捕捉脑洞的灵感搭子

——闪念贝壳、Voicenotes

接收语音固然让人暴躁,输出语音却比打字来得迅速。也就是说,捕捉一闪而过的脑洞,语音是一种时间成本较低的方式。

但这里存在一个问题,语音记录的信息粗糙、不直观、不方便检索,说完之后,我们还要再进行整理。

app「闪念贝壳」(目前只有 iOS 版),考虑到了存在已久的痛点。

▲ 设计特别,开屏致敬了《星球大战》的千年隼号

你不用担心停顿、口语化或者逻辑混乱,直接开口说你的想法,AI 可以帮你自动整理内容,并添加标签,方便管理和查找。

生成文字之后,你还能通过预置的提示词,将内容一键改写成代办事项、小红书文案等各种风格,或者再和 AI 聊聊,完善你的想法。

我口述了编辑的工作日常,要求整理成待办事项,说话的时候是想到哪就说到哪,但 AI 能够按时间线整理。

当我以更随意的状态,输出一些小说、电影的评价,对比了录音可以发现,AI 帮我省去了一些「哎」「嗯」之类的语气词,无意义的「然后」也会被消除,说错的一个词重新说一遍之后,会保留下来正确的版本。

AI 干完了整理的活,然后我们就可以和它再聊聊,读后感最适合和什么都懂一点的 AI 交流。

不过,AI 转录后的文案可能出现错误,可以让 AI 重新整理,或者点击页面之后人工微调。

基础功能也没被忽略,闪念贝壳同时保留录音和文字,并可以导出录音,我们纠错也就更加方便。

有些遗憾的是,免费用户体验的「点数」有限,且录音无法超过 1 分钟,付费(19 元每月、149 元每年、198 元终身),才能不限制录音时间,继续使用 AI 功能。

海外的语音笔记应用 Voicenotes,和闪念贝壳的定位和功能比较像:保留录音、添加标签、人工改正转录错误、AI 改写文风、与 AI 交流想法,但界面设计更加极简。

▲ 「独家富人大象馆」,实为「杜莎夫人蜡像馆」

Voicenotes 国内可用,app 语言为英文,支持在设置里将我们的输入和转写语言改成简体中文。

同样,Voicenotes 需要订阅(68 元每月或者 328 元终身),才能实现 1 分钟以上的录音,用上 GPT-4o、Claude Opus 等更好的大模型。

用一句话吩咐的生活秘书

——Miley

脑洞、工作事项之外,我们的生活里还存在更日常、更轻量、一句话就能说完的场景,这时候可以试试 Miley AI,一款主打「记录+智能体」的个人记忆 AI,目前只有 iOS 版。

它很适合用来在不方便打字的路上随手一记,吃了什么,花了多少钱,有什么突然的灵感,或者接下来要做某件事情,让人类 NPC 的一天井井有条。

最有意思的地方在于,Miley 可以根据你输入的内容,智能分析各种类型的事项。

你提到开心的事情,AI 可以识别出你的情绪,并用对应的表情标记。你说午餐花了多少钱,AI 会帮你记账。你怕错过点外卖的时间,AI 可以设置横幅提醒。

甚至你想设立一个每日运动的小目标,也可以通过授权苹果健康数据,监督每天有没有完成。比如,告诉 AI 每天都要散步 2000 步,周末 citywalk 实现 17800 步,这一项便可以打上勾。

水灵灵地随口一说,我们就有了记账本、运动打卡、提醒事项……

AI 的好处便在这里,碎片化的内容,整理起来不像以前那么花时间了,甚至像我这样不喜欢做计划的懒人也愿意试试,如此日积月累,形成微型日记,内心还会产生成就感。

不过对于免费用户来说,语音识别和智能体分析额度有限,尤其智能体分析,很容易触顶,这时候就需要「钞能力」,每月 28 元或者每年 188 元订阅。

▲ 「选题会」这个词,AI 识别有错有对

更影响使用体验的是,语音识别的准确性不够高,虽然支持修改,但会影响我们使用的初衷——AI 应该省事,而非多事。

改变输出习惯的创作工具

——墨问便签

说到创作,我们的脑海中会浮现这样的场景:正襟危坐在电脑前,在键盘上敲敲打打,眼睛快粘在屏幕上……

更随意、更生活化的语音,是否能被用于更长篇幅的创作?如果你想知道自己能不能出口成章,墨问便签是个不错的开始。

墨问便签是一款微信小程序,它的 AI 语音功能,单条最长支持录制 10 分钟,目前免费。

▲ 长按底部「+」号召唤出语音功能

其中一个设计很有意思,墨问便签支持实时输出,你边说边能看到转录的文字,而不是只能看到录音时间。

但这个功能也可能是打扰我们输出的干扰项,虽然会不断地自我修正,但转录文字的准确性还有待提高。

输出完毕,按下停止键,AI 会对文字润色一番,包括分段、修改错别字、去掉因为嘴瓢重复的词等等,但 AI 也不能修改所有的错误,之后我们还可以进行手动修改。

最终,我们就整理好了一条保留语音的笔记,可以仅自己可见,也可以公开。

墨问便签将自己定位为「创作者工具」,打开小程序,先显现出来的是它的 slogan:记录即创作。

平时看着电脑屏幕发呆还不觉得有什么,但对着手机讲满 10 分钟,还是挺有挑战性的,不仅口干舌燥,还有搜索枯肠、无话可说的无力感。

提供轻量化体验的小程序,或许真能让思考成为一种习惯。

重度语音处理的效率助手

——飞书妙记、讯飞听见、通义听悟

以上的语音场景,大多数不是硬性需求,可以抱着玩的心态上手体验。

平时工作遇到必须要用语音的时候,飞书妙记是我的首选。无他,习惯了,「先进团队,先用飞书」,企业账号真香。

几十分钟甚至几个小时的线下发布会、采访,我都是掏出手机,用飞书 app 里的「飞书妙记」录音,然后在飞书网页端处理音频,导出带有时间戳的文字记录。

这样一来,哪里的文字记录可能有问题,就可以精准定位到音频的对应位置,自己边听边修正。

飞书妙记也支持上传本地的音视频文件,如果网不好,可以用手机自带的录音工具记录,再交给飞书妙记处理。越基础的需求,越解决得好,使用体验就越丝滑。

飞书之前,我常用的是讯飞听见,飞书有的导入音频、区分说话人、倍速播放、搜索关键词等功能,它也有。

不过,讯飞听见虽然录音免费,但核心服务收费:将音频转成文字导出,需要购买录音转写包(连续包月 18 元)或者畅享包(连续包月 79 元)。

讯飞听见现在还有 AI 的加成,支持章节速览和问一问。我让聊天机器人「小谛」总结关于「冥想」的 40 分钟采访,重点抓得挺有条理,对于写文章有些帮助。但 AI 功能也并非免费,包含在录音转写包和畅享包里。

如果说飞书妙记用于线下、基于手机,那么通义听悟就补全了线上的场景。

通义听悟有网页、浏览器插件、微信小程序,更加「即用即走」,每天登录自动领取 10 小时的转写时长,基本相当于免费使用。

通义听悟也支持本地音视频的转文字,可以区分发言人、提供翻译,但我用得更多的,是实时语音转文字的功能。

在网页端,将标签页分享给通义听悟,我们开会、看视频、追发布会,就能拥有一个实时记录、提供字幕的搭子。

如果涉及外语,通义听悟还支持实时双语字幕,先选择音视频语言,再选择翻译语言,然后开启实时记录即可。

▲ 上为通义听悟,下为基于 CC 字幕的双语翻译

但通义听悟的翻译速度有延迟,翻译结果也会根据原文的变化而变动,这很正常,英语句子较长、定语较多,一句话说完才能知道意思,哪怕有字幕,有时候仍然一头雾水。

▲ 通义听悟实时调整翻译结果

所以在我的实际体验中,对于实时字幕,通义听悟在中文发布会的表现比英文发布会要好,像雷军这样略微不标准的普通话,很适合交给通义听悟处理。

结束共享之后,通义听悟可以提供转写原文,并智能总结内容和提取重点,很适合作为写稿材料。

讯飞听见有「小谛」,通义听悟也有「小悟」,你可以基于文字记录,向它提出相关的问题,点击回答中的时间戳,还可以定位到原文内容。

但还是会出现语音识别的老问题:说不对名字。Kimi 变成了「km」,秘塔变成了「蜜塔」,靠用户自己分辨和修正。

语音转文字,等待 AI 重做一遍

语音转文字,某种程度上是一项刚需。

聊天消息的转写,采访、会议、发布会的跟进,脑洞、生活碎片的记录,我们都可以用到它。

本质上,这些更强调 AI 存在感的新兴语音转文字产品,其实都在主打更智能、深入的内容处理,包括文字转写润色、按标签和类型整理内容、通过对话的方式查找和拓展内容等。

与此同时,仍有很多不尽如人意的地方。

  • 语音转文字的准确率仍然需要提高,保留录音和支持手动编辑又勉强弥补了这个问题。
  • 功能有创意,但不够完善,甚至成为阻碍记录的干扰项。
  • 收费门槛很低,少量尝鲜后就需要订阅了,但这也不能怪开发者,谁都想站着赚钱。

独立开发者们在语音转文字的赛道竞争,前景如何也并不明朗。

锤子手机 2017 年推出的闪念胶囊,是很多人心中的「白月光」。

长按 Home 键,或者耳机线控的中间按键,就能开始语音输入,记录你一闪而过的想法,文字和录音都会保存下来,你还能再编辑文本。

记录下的「胶囊」,可以拖拽到便签、插入微信输入框、变成待办事项……

这样基于系统的功能,唤起和使用步骤更少,也更符合我们的直觉,不把记录搞复杂化,才能真正地提高效率。

所以,虽然现在产品井喷,未来可能还是由操作系统厂商一锤定音,出现 Apple Intelligence 这样的、系统级的收编和降维打击。

之前看到一句调侃,国内的主流操作系统不是 iOS 也不是 Android,而是微信。

这话有些道理,像我一位做播客的同事,习惯在路上记录灵感,试过很多语音转文字的工具,最终大道至简,给文件传输助手发语音,再转文字。

高端的食材,往往只需要最简单的烹饪方式。想法本身的奔涌最为可贵,有些时候,不需要什么辅助的 AI 功能,我们只是想要快速把事情记录下来,能够一键完成终极目标的、最习以为常的方式,往往才是效率最高的手段。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中