自2023年以来,所有主要AI系统已变为多模态——能够处理不仅仅是文本,还有图像、音频、视频和文档。以下是这实际上能做什么,以及局限性仍在哪里。
图像理解
现代视觉-语言模型(GPT-4o、Claude 3.5 Sonnet及以上、Gemini)可以:用自然语言描述和分析图像、回答关于图像内容的问题、读取图像中的文本(相当于OCR)、解释图表、图形和图表、比较多个图像,以及识别对象、人物、场景和上下文。实际应用:截图分析(描述UI问题,从截图读取错误消息)、文档处理(从扫描的发票、合同、表格中提取数据)、医学图像解释(胸部X光片、病理切片——在某些基准测试中,性能接近专科放射科医生的准确度)、辅助功能(为视障用户描述图像)。限制:Claude无法通过面部识别特定个人(有意的安全决策);非常细粒度的计数(复杂场景中有多少对象)可能不准确;手写识别随书写质量差异很大;图像中非常小的文字(低于约8pt等效)可能无法读取。
文档理解
除了基本图像理解,多模态模型在文档理解方面表现出色——将PDF、扫描文档或表单图像视为整体阅读和推理的对象,而不仅仅是像素描述。用例:从发票中提取结构化数据、将扫描文档转换为结构化数据、比较合同版本、回答关于多页财务报告的问题。比纯文本方法的关键优势:维护布局上下文——模型从视觉布局理解数字是在”Total”行而不是”Subtotal”行中,而不仅仅是文本本身。文档智能的当前最佳模型:GPT-4o、Claude(使用视觉API)和AWS Textract、Azure Form Recogniser等专业文档AI产品提供结构化数据提取。
音频和语音
语音转文字(转录):OpenAI的Whisper(开源,非常准确)和Google的Speech-to-Text是将语音音频转换为文本的领先模型。整合到LLM工作流中:转录音频,然后用LLM处理转录。实时语音:GPT-4o的语音模式和Gemini Live的类似功能实时处理音频并用语音回应——对话AI电话通话模式。延迟挑战:实时语音需要500毫秒以下的响应延迟才能感觉自然;在LLM质量下实现这一点需要专业基础设施。
视频理解
视频理解是截至2025到2026年的前沿:Gemini 1.5 Pro和Gemini 2可以在其上下文窗口中原生处理多小时视频,回答关于特定时间戳内容的问题,总结视频内容,并识别关键时刻。GPT-4o处理短视频片段。正在出现的用例:访谈分析(观看录制的会议并总结行动项目)、视频内容审核、体育分析(跟踪比赛模式)和教育内容(回答关于讲座视频的问题)。限制:视频处理昂贵(每秒视频的令牌数量大),这限制了大多数应用的实际上下文长度。对于大多数用例,全分辨率实时视频理解仍在可负担的商业范围之外。




