自监督学习与对比学习:BERT、CLIP与表示学习的无标注数据革命

自监督学习与对比学习:BERT、CLIP与表示学习的无标注数据革命

深度学习的早期发展严重依赖大规模人工标注数据集(如ImageNet的140万张手工标注图片),标注成本是AI大规模应用的主要障碍之一。自监督学习(Self-Supervised Learning,SSL)通过从数据本身构造监督信号(而非人工标注),使模型能够从海量未标注数据中学习高质量特征表示,成为现代AI的基础技术范式之一。

BERT:掩码语言建模的预训练

BERT(Bidirectional Encoder Representations from Transformers,Google,2018)是NLP领域自监督学习的奠基性工作。核心预训练任务是掩码语言建模(Masked Language Modeling,MLM):随机遮盖输入序列中15%的词元,让模型预测被遮盖的词。这一简单的预训练任务使BERT在大量未标注文本(Wikipedia和BooksCorpus,共约33亿词)上学习了丰富的语言表示,之后只需少量标注数据的微调即可在多个下游任务上取得SOTA。

BERT的成功证明了”预训练-微调”(Pre-train + Fine-tune)范式的有效性,直接推动了后续GPT系列、T5等大型预训练语言模型的爆炸性发展。

CLIP:图文对比学习

CLIP(Contrastive Language-Image Pre-training,OpenAI,2021)通过对比学习将图像和文本映射到同一语义空间:训练时,CLIP同时接受(图像,文字描述)对,最大化匹配对的向量相似度,最小化不匹配对的相似度。训练数据是从互联网收集的4亿个图像-文字对,完全无需人工标注。

CLIP的图文对齐能力使其成为视觉理解的基础预训练组件,几乎所有主流的文生图模型(Stable Diffusion、DALL-E 3、Midjourney)都使用CLIP或其改进版本作为文本条件编码器,将提示词转化为图像生成的引导信号。

对比学习在视觉领域:SimCLR与MoCo

视觉领域的对比学习通过构造”正样本对”(同一图像的不同增强版本)和”负样本”(不同图像),让模型学习在变换下保持不变的视觉特征表示。SimCLR(Google,2020)和MoCo(Facebook,2020)是两个最具代表性的视觉对比学习框架,在ImageNet线性分类评估上接近有监督训练的性能,显示了自监督学习在视觉领域的巨大潜力。

DINOv2(Meta,2023)将自监督视觉表示学习推进到新水准,在多个下游任务上(图像分类、目标检测、语义分割)超越了监督预训练的ViT模型,是目前最强的纯自监督视觉特征提取器之一,已被应用于机器人视觉、医学影像分析等领域。

上一篇 Reinforcement Learning: From Board Games to Real Robots — AlphaGo, AlphaStar, and Robot Manipulation
下一篇 Self-Supervised and Contrastive Learning: BERT, CLIP, and the Unlabeled Data Revolution in Representation Learning