多模态AI——处理文本和图像(以及越来越多的音频和视频)的模型——已经从研究新奇移动到生产能力。以下是2026年实际上可能的内容以及局限性。
当前模型能看到什么
截至2026年的前沿模型(Claude 3.5+、GPT-4o、Gemini Pro)可以以相当的能力处理图像。它们真正擅长的:准确详细地描述图像中的内容;阅读图像中的文字(OCR——包括手写,尽管准确性不同);理解图表、图形和图表;识别物体、人(一般而言——识别特定个人既受限又受政策限制)和场景;回答关于图像内容的问题;以及理解空间关系(”红色汽车的左边是什么?”)。文档理解:模型可以处理文档的照片(合同、表格、收据、手写笔记)并从中提取信息。这是最实际有用的多模态应用之一——将费用收据的照片提供给模型并准确提取日期、金额和商家是一个规模化生产用例。视觉推理:模型可以回答需要将视觉信息与世界知识结合的问题——”这种蘑菇可能可以食用吗?”或”这个电路图有什么问题?”这些对于常见情况运行得相当好,但对于高风险决策不应该在没有专家验证的情况下信任。
2026年的新内容:视频和实时
视频理解:Gemini 1.5+和GPT-4o支持视频输入,允许分析视频内容。实际应用:总结视频内容、识别视频中的关键时刻、回答视频中发生的事情的问题。当前限制:视频处理比图像处理更慢、成本更高;非常长的视频(超过30分钟)达到上下文长度和成本限制。实时视觉:计算机使用工具(Anthropic的计算机使用、OpenAI Operator)让AI模型实时看到和与计算机屏幕交互。这代表了一个质的转变——从分析静态图像到积极观察和响应实时视觉流。这些工具在2026年处于早期阶段,但代表了在视觉环境中运行的代理AI系统将是什么样子的基础。音频:GPT-4o本地支持音频输入和输出(不仅仅是语音到文本管道到文本模型);Gemini Ultra具有本地音频理解。这使得实时对话具有自然声音而没有明显延迟——与以前的语音界面在质量上不同。
多模态模型无法做好的事情
精确的空间测量:”这个物体有多少厘米?”——模型在从图像中进行精确空间测量方面非常差。阅读非常小的文字:原始图像中大约12px以下的文字通常无法阅读或被误读。区分视觉上相似的物体:两种相似的鸟类、相似的药片、相似的电路元件——当视觉辨别需要专业知识时,准确性显著下降。计数:计算图像中大量物体(>20个)是不可靠的。检测细微的图像操纵(深度伪造):当前模型不是精密合成媒体的可靠检测器。从二维图像理解三维结构:关于三维结构的空间推理是有限的。实际含义:多模态能力对于常见视觉任务非常有用,但对于任何需要精确且错误代价高昂的应用,需要人工审查。



