大型语言模型(LLM),如GPT-4、Claude和Gemini,是神经网络——但实际上理解这意味着什么,以及是什么使它们与早期机器学习系统区别开来,需要理解一种叫做Transformer的特定架构和产生这些模型的训练过程。
Transformer架构
所有现代LLM都基于Transformer架构,由Vaswani等人(Google Brain)在2017年的论文《Attention Is All You Need》中引入。核心机制:自注意力。自注意力允许模型在生成预测时权衡序列中不同词(令牌)彼此相对的重要性。当处理句子”我存钱的银行在河边的银行旁边”时,自注意力通过关注周围的上下文,允许模型理解”银行”的两种用法有不同的含义。从技术角度来说:每个令牌被表示为一个向量(嵌入);注意力机制为每个令牌计算查询、键和值向量;令牌之间的注意力分数计算为它们查询和键向量的点积,经过缩放和softmax;每个令牌的输出是值向量的加权和,其中权重是注意力分数。这允许模型捕获长程依赖——由许多其他词分隔的词之间的关系——这是循环神经网络(RNN)难以做到的。层:Transformer模型堆叠多个注意力层,每个层学习关注输入的不同方面。像GPT-4这样的大型模型有96层;Claude 3 Opus有类似的深度。注意力层之间是转换表示的前馈网络。这些注意力层和前馈网络的参数(权重)是在训练期间”学习”的内容——现代大型模型有数千亿参数。
训练
预训练:初始训练阶段,模型在大量文本语料库(维基百科、书籍、网络文本、代码和其他来源——以万亿令牌计量)上学习。目标:下一个令牌预测。给定文本”猫坐在___上”,预测接下来是什么。模型调整其参数(通过反向传播)以最小化这些预测中的错误。将这个过程应用于数以万亿计的示例,迫使模型发展出语言、事实、推理和世界知识的内部表示。这是计算上最昂贵的阶段——预训练GPT-3消耗了约3.14×10²³ FLOPS,花费约460万美元。微调和RLHF:预训练后,原始LLM不能作为助手使用——它们会完成它们看到的任何模式,包括有害或误导性的模式。两个额外的训练阶段:监督微调(SFT):模型在理想行为示例(由人类编写的问题→答案对)上训练。来自人类反馈的强化学习(RLHF):奖励模型在人类偏好上训练(人类标注者从最好到最差对多个模型输出进行排名);然后LLM被训练以使用RL最大化奖励模型的分数。这就是使模型”有帮助”和”对齐”而不是原始文本预测器的原因。宪法AI(Anthropic):一种替代对齐技术——模型被给予一套原则(”宪法”),并通过自我批评进行训练:它生成输出,根据宪法对其进行批评,并修订。减少对人类标注者在批评步骤的依赖。
LLM能做什么和不能做什么
规模带来的涌现能力:没有明确训练但在模型达到足够规模时出现的能力——算术、翻译、代码生成、逻辑推理、少样本学习(从提示中的几个示例学习新任务)。这些”涌现能力”是LLM研究中最令人惊讶的发现之一。上下文窗口:模型一次可以处理的最大令牌数量。GPT-3有2,048;GPT-4 Turbo有128,000;Claude有200,000。更大的上下文窗口可以处理更长的文档、整个代码库或扩展的对话。根本限制:LLM的核心是统计模式匹配器——它们预测给定上下文后可能跟随的文本。没有外部工具,它们无法访问训练数据之外的信息;没有显式记忆机制,它们在对话之间没有持久记忆;当被问及训练分布之外的事实时,它们可能产生幻觉(生成听起来合理但不正确的信息)。推理和模式匹配之间的区别仍然是活跃的研究领域——当前证据表明LLM确实执行某种形式的推理,但这种推理的性质和可靠性还没有完全理解。




