自监督学习与对比学习：BERT、CLIP与表示学习的无标注数据革命

2025年4月4日 AI科研

深度学习的早期发展严重依赖大规模人工标注数据集（如ImageNet的140万张手工标注图片），标注成本是AI大规模应用的主要障碍之一。自监督学习（Self-Supervised Learning，SSL）通过从数据本身构造监督信号（而非人工标注），使模型能够从海量未标注数据中学习高质量特征表示，成为现代AI的基础技术范式之一。

BERT：掩码语言建模的预训练

BERT（Bidirectional Encoder Representations from Transformers，Google，2018）是NLP领域自监督学习的奠基性工作。核心预训练任务是掩码语言建模（Masked Language Modeling，MLM）：随机遮盖输入序列中15%的词元，让模型预测被遮盖的词。这一简单的预训练任务使BERT在大量未标注文本（Wikipedia和BooksCorpus，共约33亿词）上学习了丰富的语言表示，之后只需少量标注数据的微调即可在多个下游任务上取得SOTA。

BERT的成功证明了”预训练-微调”（Pre-train + Fine-tune）范式的有效性，直接推动了后续GPT系列、T5等大型预训练语言模型的爆炸性发展。

CLIP：图文对比学习

CLIP（Contrastive Language-Image Pre-training，OpenAI，2021）通过对比学习将图像和文本映射到同一语义空间：训练时，CLIP同时接受（图像，文字描述）对，最大化匹配对的向量相似度，最小化不匹配对的相似度。训练数据是从互联网收集的4亿个图像-文字对，完全无需人工标注。

CLIP的图文对齐能力使其成为视觉理解的基础预训练组件，几乎所有主流的文生图模型（Stable Diffusion、DALL-E 3、Midjourney）都使用CLIP或其改进版本作为文本条件编码器，将提示词转化为图像生成的引导信号。

对比学习在视觉领域：SimCLR与MoCo

视觉领域的对比学习通过构造”正样本对”（同一图像的不同增强版本）和”负样本”（不同图像），让模型学习在变换下保持不变的视觉特征表示。SimCLR（Google，2020）和MoCo（Facebook，2020）是两个最具代表性的视觉对比学习框架，在ImageNet线性分类评估上接近有监督训练的性能，显示了自监督学习在视觉领域的巨大潜力。

DINOv2（Meta，2023）将自监督视觉表示学习推进到新水准，在多个下游任务上（图像分类、目标检测、语义分割）超越了监督预训练的ViT模型，是目前最强的纯自监督视觉特征提取器之一，已被应用于机器人视觉、医学影像分析等领域。

作者：

链接：https://www.sunqi.org/zishijian-xuexi-duibi-xuexi-bert-siamese-network-applications.html

文章版权归作者所有，未经允许请勿转载。