浏览

设置

深色模式

2025年AI语音助手：什么改变了，什么还让人沮丧

2025年12月14日 AI科研

语音AI在2022年到2025年间显著改善——但改善是不均匀的。某些类别取得了巨大飞跃；其他类别仍然顽固地受限。

什么改善了：自然对话

OpenAI的GPT-4o语音模式和Claude的语音功能（在可用的地方）将语音交互从一系列不连续的命令转变为类似真实对话的体验。延迟已降至接近实时。能够在对方说话中途打断并收到连贯响应（而不是AI在确认打断之前先说完预设句子）的能力，与以前的语音助手有质的不同。情感语调——速度、音调和温暖度的变化——改善了长时间交互的体验。

什么没有改善：专有名词和命令的准确性

语音助手在专有名词方面仍然困难，尤其是非英语名字、技术术语和地名。”在Hauptmarkt的Weizenbräu预订一张桌子”仍然需要重复。唤醒词可靠性仍然不完美——Siri和Google助手偶尔还是会从它们不应该听到的音频中被唤醒。

2025年的实际使用场景

听写：AI语音转文字（Whisper API，在多个应用中可用）现在即使在嘈杂环境中也足够准确可用于专业场景。几个笔记应用（Otter.ai、Notion AI、Obsidian插件）集成了语音转录。免提电话通话仍然是内置语音助手最可靠的使用场景。智能家居控制大幅改善，但仍然依赖设备兼容性。

语言学习

用于语言学习的AI语音对话是最被低估的应用之一。用德语与Claude或ChatGPT的语音模式交谈，提供了Duolingo等应用中没有的即时发音反馈和对话练习。AI可以实时纠正你的错误并解释。

版权声明：

作者：

链接：https://www.sunqi.org/ai-yuyin-zhushou-2025.html

文章版权归作者所有，未经允许请勿转载。