本地LLM部署指南:用Ollama在自己电脑上运行大语言模型

本地LLM(Local LLM)指在个人电脑或本地服务器上运行开源大语言模型,无需将数据发送到云端。这一方案在隐私保护、成本控制和离线使用方面具有明显优势。随着Llama 3、Mistral、Gemma、Qwen等高质量开源模型的出现,以及量化技术(GGUF格式)的成熟,4-bit量化的7B模型在普通笔记本电脑上即可流畅运行。

## Ollama:最低门槛的本地LLM工具

**Ollama**(ollama.com)是目前最受欢迎的本地LLM运行工具,支持macOS(Apple Silicon和Intel)、Linux和Windows。安装极简:下载安装包 → 一行命令运行模型。

“`bash
# 安装后直接拉取并运行模型
ollama run llama3.2
ollama run qwen2.5:7b
ollama run deepseek-r1:8b
“`

Ollama自动管理模型下载、版本和GPU/CPU资源分配,并提供本地REST API(默认`http://localhost:11434`),与OpenAI API格式兼容,可直接替换Cloud API用于本地开发调试。

## 硬件要求与模型选择

**Apple Silicon(M系列Mac)**:Metal GPU加速,统一内存架构使16GB内存可流畅运行13B模型,32GB内存可运行34B模型。这是当前个人本地LLM的最佳平台之一。

**NVIDIA GPU**:VRAM是瓶颈。8GB VRAM可运行4bit量化的7B模型;16GB VRAM可运行13B;24GB可运行34B;两张24GB可运行70B(如RTX 3090/4090 SLI)。

**纯CPU运行**:可行但慢,16GB内存可运行7B模型(速度约5-15 tokens/秒,感知上接近人类阅读速度但不够流畅)。llama.cpp是最优化的CPU推理后端。

**模型推荐**:
– 通用任务:Llama 3.2(Meta)、Qwen2.5(阿里)
– 代码:DeepSeek-Coder-V2、Codestral(Mistral)
– 中文:Qwen2.5、Yi(零一万物)
– 推理:DeepSeek-R1 distill系列

## 与开发工具集成

Ollama的OpenAI兼容API可以直接接入:Cursor/Continue(VS Code AI编程插件)、Open WebUI(本地ChatGPT界面)、LangChain/LlamaIndex(AI应用框架)。这使得在本地构建完整的RAG应用、AI智能体成为可能,无需任何云服务依赖。

参见[RAG知识库检索](https://sunqi.org/rag-knowledge-retrieval-zh/);[AI工作流自动化](https://sunqi.org/ai-workflow-automation-zh/);[Ollama官网](https://ollama.com/)。

上一篇 Translating Research Papers with AI: Getting It Right for Academic Use
下一篇 用AI翻译研究论文:在学术使用中做到准确