大型语言模型实际上如何工作：技术入门

2026年6月19日 AI科研

大型语言模型（LLM），如GPT-4、Claude和Gemini，是神经网络——但实际上理解这意味着什么，以及是什么使它们与早期机器学习系统区别开来，需要理解一种叫做Transformer的特定架构和产生这些模型的训练过程。

Transformer架构

所有现代LLM都基于Transformer架构，由Vaswani等人（Google Brain）在2017年的论文《Attention Is All You Need》中引入。核心机制：自注意力。自注意力允许模型在生成预测时权衡序列中不同词（令牌）彼此相对的重要性。当处理句子”我存钱的银行在河边的银行旁边”时，自注意力通过关注周围的上下文，允许模型理解”银行”的两种用法有不同的含义。从技术角度来说：每个令牌被表示为一个向量（嵌入）；注意力机制为每个令牌计算查询、键和值向量；令牌之间的注意力分数计算为它们查询和键向量的点积，经过缩放和softmax；每个令牌的输出是值向量的加权和，其中权重是注意力分数。这允许模型捕获长程依赖——由许多其他词分隔的词之间的关系——这是循环神经网络（RNN）难以做到的。层：Transformer模型堆叠多个注意力层，每个层学习关注输入的不同方面。像GPT-4这样的大型模型有96层；Claude 3 Opus有类似的深度。注意力层之间是转换表示的前馈网络。这些注意力层和前馈网络的参数（权重）是在训练期间”学习”的内容——现代大型模型有数千亿参数。

训练

预训练：初始训练阶段，模型在大量文本语料库（维基百科、书籍、网络文本、代码和其他来源——以万亿令牌计量）上学习。目标：下一个令牌预测。给定文本”猫坐在___上”，预测接下来是什么。模型调整其参数（通过反向传播）以最小化这些预测中的错误。将这个过程应用于数以万亿计的示例，迫使模型发展出语言、事实、推理和世界知识的内部表示。这是计算上最昂贵的阶段——预训练GPT-3消耗了约3.14×10²³ FLOPS，花费约460万美元。微调和RLHF：预训练后，原始LLM不能作为助手使用——它们会完成它们看到的任何模式，包括有害或误导性的模式。两个额外的训练阶段：监督微调（SFT）：模型在理想行为示例（由人类编写的问题→答案对）上训练。来自人类反馈的强化学习（RLHF）：奖励模型在人类偏好上训练（人类标注者从最好到最差对多个模型输出进行排名）；然后LLM被训练以使用RL最大化奖励模型的分数。这就是使模型”有帮助”和”对齐”而不是原始文本预测器的原因。宪法AI（Anthropic）：一种替代对齐技术——模型被给予一套原则（”宪法”），并通过自我批评进行训练：它生成输出，根据宪法对其进行批评，并修订。减少对人类标注者在批评步骤的依赖。

LLM能做什么和不能做什么

规模带来的涌现能力：没有明确训练但在模型达到足够规模时出现的能力——算术、翻译、代码生成、逻辑推理、少样本学习（从提示中的几个示例学习新任务）。这些”涌现能力”是LLM研究中最令人惊讶的发现之一。上下文窗口：模型一次可以处理的最大令牌数量。GPT-3有2,048；GPT-4 Turbo有128,000；Claude有200,000。更大的上下文窗口可以处理更长的文档、整个代码库或扩展的对话。根本限制：LLM的核心是统计模式匹配器——它们预测给定上下文后可能跟随的文本。没有外部工具，它们无法访问训练数据之外的信息；没有显式记忆机制，它们在对话之间没有持久记忆；当被问及训练分布之外的事实时，它们可能产生幻觉（生成听起来合理但不正确的信息）。推理和模式匹配之间的区别仍然是活跃的研究领域——当前证据表明LLM确实执行某种形式的推理，但这种推理的性质和可靠性还没有完全理解。

作者：

链接：https://www.sunqi.org/llm-ruhe-gongzuo-jishu-jiexi.html

文章版权归作者所有，未经允许请勿转载。

大型语言模型实际上如何工作：技术入门

Transformer架构

训练

LLM能做什么和不能做什么

探索站点内容