2026年的多模态AI：模型实际上能看到和做什么

2026年6月19日 AI科研

多模态AI——处理文本和图像（以及越来越多的音频和视频）的模型——已经从研究新奇移动到生产能力。以下是2026年实际上可能的内容以及局限性。

当前模型能看到什么

截至2026年的前沿模型（Claude 3.5+、GPT-4o、Gemini Pro）可以以相当的能力处理图像。它们真正擅长的：准确详细地描述图像中的内容；阅读图像中的文字（OCR——包括手写，尽管准确性不同）；理解图表、图形和图表；识别物体、人（一般而言——识别特定个人既受限又受政策限制）和场景；回答关于图像内容的问题；以及理解空间关系（”红色汽车的左边是什么？”）。文档理解：模型可以处理文档的照片（合同、表格、收据、手写笔记）并从中提取信息。这是最实际有用的多模态应用之一——将费用收据的照片提供给模型并准确提取日期、金额和商家是一个规模化生产用例。视觉推理：模型可以回答需要将视觉信息与世界知识结合的问题——”这种蘑菇可能可以食用吗？”或”这个电路图有什么问题？”这些对于常见情况运行得相当好，但对于高风险决策不应该在没有专家验证的情况下信任。

2026年的新内容：视频和实时

视频理解：Gemini 1.5+和GPT-4o支持视频输入，允许分析视频内容。实际应用：总结视频内容、识别视频中的关键时刻、回答视频中发生的事情的问题。当前限制：视频处理比图像处理更慢、成本更高；非常长的视频（超过30分钟）达到上下文长度和成本限制。实时视觉：计算机使用工具（Anthropic的计算机使用、OpenAI Operator）让AI模型实时看到和与计算机屏幕交互。这代表了一个质的转变——从分析静态图像到积极观察和响应实时视觉流。这些工具在2026年处于早期阶段，但代表了在视觉环境中运行的代理AI系统将是什么样子的基础。音频：GPT-4o本地支持音频输入和输出（不仅仅是语音到文本管道到文本模型）；Gemini Ultra具有本地音频理解。这使得实时对话具有自然声音而没有明显延迟——与以前的语音界面在质量上不同。

多模态模型无法做好的事情

精确的空间测量：”这个物体有多少厘米？”——模型在从图像中进行精确空间测量方面非常差。阅读非常小的文字：原始图像中大约12px以下的文字通常无法阅读或被误读。区分视觉上相似的物体：两种相似的鸟类、相似的药片、相似的电路元件——当视觉辨别需要专业知识时，准确性显著下降。计数：计算图像中大量物体（>20个）是不可靠的。检测细微的图像操纵（深度伪造）：当前模型不是精密合成媒体的可靠检测器。从二维图像理解三维结构：关于三维结构的空间推理是有限的。实际含义：多模态能力对于常见视觉任务非常有用，但对于任何需要精确且错误代价高昂的应用，需要人工审查。

作者：

链接：https://www.sunqi.org/duomotai-ai-2026-zhinan.html

文章版权归作者所有，未经允许请勿转载。

2026年的多模态AI：模型实际上能看到和做什么

当前模型能看到什么

2026年的新内容：视频和实时

多模态模型无法做好的事情

探索站点内容