本地运行开源大模型：研究人员从Llama和Mistral那里实际得到什么

2025年3月28日 AI科研

开源大语言模型，包括Llama 3、Mistral、Qwen、Gemma，可以在你的本地计算机上运行，无需网络连接，也不需要API费用。对于处理敏感数据、在网络不稳定地区工作或希望自定义模型的研究人员，本地AI是一个真实的选项。但权衡也是真实的。

研究人员使用本地AI的原因

数据隐私：保密的患者数据、专有数据集、发表前的发现不能在伦理上发送到商业API服务。本地模型在你的机器上处理一切，数据不会离开。成本：一旦设置好，每次查询的边际成本为零，对于密集的文档批量处理很重要。自定义：在特定领域的论文上微调模型，以提高在你特定领域的性能。

硬件要求

所需硬件取决于模型大小。70亿参数模型（Mistral 7B、Llama 3 8B）可以在16GB内存的机器上用纯CPU推理运行，速度较慢（每秒1到3个词元）。130亿参数模型需要8到12GB显存的GPU才能有合理的速度。700亿参数模型（Llama 3 70B）需要40多GB显存，通常是A100或H100 GPU，只能通过HPC集群获得。

从Ollama开始

Ollama（ollama.com）是运行本地模型最简单的方式。在Mac或Linux上安装，然后运行：`ollama pull llama3`和`ollama run llama3`。你现在有了一个本地聊天机器人。Ollama还公开了一个与OpenAI兼容的API，意味着Cursor和其他支持自定义API端点的工具可以路由到你的本地模型而不是OpenAI。