本地运行开源大模型:研究人员从Llama和Mistral那里实际得到什么

开源大语言模型,包括Llama 3、Mistral、Qwen、Gemma,可以在你的本地计算机上运行,无需网络连接,也不需要API费用。对于处理敏感数据、在网络不稳定地区工作或希望自定义模型的研究人员,本地AI是一个真实的选项。但权衡也是真实的。

研究人员使用本地AI的原因

数据隐私:保密的患者数据、专有数据集、发表前的发现不能在伦理上发送到商业API服务。本地模型在你的机器上处理一切,数据不会离开。成本:一旦设置好,每次查询的边际成本为零,对于密集的文档批量处理很重要。自定义:在特定领域的论文上微调模型,以提高在你特定领域的性能。

硬件要求

所需硬件取决于模型大小。70亿参数模型(Mistral 7B、Llama 3 8B)可以在16GB内存的机器上用纯CPU推理运行,速度较慢(每秒1到3个词元)。130亿参数模型需要8到12GB显存的GPU才能有合理的速度。700亿参数模型(Llama 3 70B)需要40多GB显存,通常是A100或H100 GPU,只能通过HPC集群获得。

从Ollama开始

Ollama(ollama.com)是运行本地模型最简单的方式。在Mac或Linux上安装,然后运行:`ollama pull llama3`和`ollama run llama3`。你现在有了一个本地聊天机器人。Ollama还公开了一个与OpenAI兼容的API,意味着Cursor和其他支持自定义API端点的工具可以路由到你的本地模型而不是OpenAI。

现实的性能比较

消费级笔记本上的Llama 3 8B:在摘要总结上表现良好,在文档问答上可以接受,在复杂推理上表现差。HPC上的Llama 3 70B:在大多数任务上接近GPT-3.5质量,在复杂写作和推理上明显落后于GPT-4和Claude Sonnet。对于需要细致判断的研究任务,与前沿模型的差距是真实的。

本地模型的最佳使用场景

文档分类(按类别标记大型数据集)、从结构化报告中提取数据、批量总结专有文档、不需要细致判断的预处理任务。不推荐:复杂综合、论证评估、质量重要的写作辅助。

上一篇 Running Open Source LLMs Locally: What Researchers Actually Get from Llama and Mistral
下一篇 Going to the Dentist in Germany: What GKV Covers and What It Doesn't