AI安全(AI Safety)是确保人工智能系统在各种情况下表现符合预期、不造成意外伤害的研究领域。随着LLM能力快速提升,这一领域从学术边缘走向行业核心——OpenAI、Anthropic、DeepMind均设立了专门的安全研究团队,且这些公司的创始人和核心研究人员很多都有AI安全研究背景。
## 核心对齐技术
**RLHF(人类反馈强化学习)**:当前主流的LLM对齐方法。流程:预训练模型 → 人类标注员对模型输出进行偏好排序 → 训练奖励模型(Reward Model) → 用PPO等强化学习算法优化语言模型,使其输出获得更高奖励。ChatGPT、Claude、Gemini均使用RLHF或其变体进行对齐训练。RLHF的局限:依赖人类标注质量;可能导致模型过度迎合(Sycophancy);奖励黑客(Reward Hacking)问题。
**Constitutional AI(宪法AI,Anthropic)**:Anthropic提出的RLHF替代/补充方案。核心思路:用一组明确的原则(”宪法”)代替部分人类标注,让模型自我评判输出是否符合原则,生成修订版本,然后用这些AI自我批评数据进行训练。优势:减少对大规模人类标注的依赖,原则透明可解释。Claude系列模型使用Constitutional AI训练。
**DPO(直接偏好优化)**:2023年提出的RLHF简化方案,无需单独训练奖励模型,直接通过偏好对数据优化语言模型,训练更稳定、实现更简单,已被广泛采用。
## 可解释性研究
**机械可解释性(Mechanistic Interpretability)**:通过分析神经网络内部结构(特征、电路、注意力头的功能)理解模型”为什么”做出某个决策。Anthropic的可解释性团队在这一方向有重要进展,包括在Claude模型内部识别出对应特定概念的激活特征。
**幻觉问题**:LLM自信地生成错误信息是当前最突出的安全问题之一。缓解方法包括RAG(用真实文档接地)、自我一致性检查(多次采样取共识)、校准训练(让模型的置信度与准确率匹配)。
参见[AI智能体入门](https://sunqi.org/ai-agent-introduction-zh/);[Anthropic安全研究](https://www.anthropic.com/research);[AI安全学习资源(80000 Hours)](https://80000hours.org/problem-profiles/ai-safety/)。




