微调vs提示:何时训练,何时提示

微调和提示是调整语言模型行为以适应特定任务的两种不同方式。在它们之间的决定是构建AI驱动产品中最重要的架构选择之一——而且经常基于直觉而非分析做出。正确的选择取决于你实际上在解决什么问题。

提示能达到什么

提示(在输入中提供指令、示例和上下文)是几乎所有任务正确的起点。一个精心设计的提示可以实现:语气和风格的改变(”以正式的英国专业人士身份回应”);任务指令(”将这段文字分类为积极、消极或中立”);少样本学习(提供3到5个输入/输出对示例,几乎立即教导模型格式和模式);角色和约束应用(”你是X公司的客户服务代理;不要讨论竞争对手”);知识注入(提供模型没有的上下文——数据库摘录、政策文件、用户的账户历史)。提示的优势:零设置成本,即时迭代(你在几秒钟内改变提示,而不是几天),没有降低模型通用能力的风险,所有改进自动转移到新模型版本。提示失败的时候:需要模型真正缺乏的知识的任务(训练截止后的事件——提示无法修复;检索增强生成可以);尽管有指令模型仍然持续无法产生非常具体输出格式的任务;跨数千个轮次的一致角色维护至关重要且单独提示会漂移的任务;延迟重要且长系统提示在输入令牌数上增加太多的任务。

微调实际上何时有帮助

微调在一组精心策划的输入/输出对数据集上调整模型权重——模型的内部参数改变。微调提供真正价值的情况:格式和结构一致性:如果你需要非常具体模式的JSON输出,而模型尽管有详细提示仍持续产生变体,对示例进行微调比提示工程更可靠;风格和声音:对特定写作风格(品牌内容、法律文件格式、领域特定技术风格)进行微调可以实现提示难以达到的一致性;效率:经过微调的较小模型(如Haiku 4.5)可以在特定任务上媲美大得多的模型(Sonnet、Opus)——规模化时显著的成本和延迟节省;减少提示长度:如果你的系统提示是5,000个指令和示例令牌,微调可以将该知识编码到权重中,允许更短的提示;任务特定的推理模式:对于领域特定任务(医疗编码、法律文件分类、专业代码生成),其中模式与模型的一般训练分布根本上不同。微调无法修复什么:事实知识差距(对事实进行微调不能可靠地添加知识——它通常会引发幻觉);一般推理退化(对狭窄任务进行微调会降低相邻任务的性能——对齐代价);安全问题(对任务进行微调不会改善安全对齐;如果安全性是关注点,将系统提示与微调模型一起使用)。实际建议:从提示开始;在你的特定任务上测量性能;只有当提示达到你无法通过提示工程克服的上限时才进行微调。大多数立即跳到微调的生产AI应用,如果将相同的工程时间投入到更好的提示和检索中,会表现更好。

上一篇 Fine-Tuning vs Prompting: When to Train and When to Prompt
下一篇 Riga: Art Nouveau Architecture and Baltic Old Town