本地LLM部署指南：用Ollama在自己电脑上运行大语言模型

2025年8月5日 AI智能体 sunqi.org

本地LLM（Local LLM）指在个人电脑或本地服务器上运行开源大语言模型，无需将数据发送到云端。这一方案在隐私保护、成本控制和离线使用方面具有明显优势。随着Llama 3、Mistral、Gemma、Qwen等高质量开源模型的出现，以及量化技术（GGUF格式）的成熟，4-bit量化的7B模型在普通笔记本电脑上即可流畅运行。

## Ollama：最低门槛的本地LLM工具

**Ollama**（ollama.com）是目前最受欢迎的本地LLM运行工具，支持macOS（Apple Silicon和Intel）、Linux和Windows。安装极简：下载安装包 → 一行命令运行模型。

“`bash
# 安装后直接拉取并运行模型
ollama run llama3.2
ollama run qwen2.5:7b
ollama run deepseek-r1:8b
“`

Ollama自动管理模型下载、版本和GPU/CPU资源分配，并提供本地REST API（默认`http://localhost:11434`），与OpenAI API格式兼容，可直接替换Cloud API用于本地开发调试。

## 硬件要求与模型选择

**Apple Silicon（M系列Mac）**：Metal GPU加速，统一内存架构使16GB内存可流畅运行13B模型，32GB内存可运行34B模型。这是当前个人本地LLM的最佳平台之一。

**NVIDIA GPU**：VRAM是瓶颈。8GB VRAM可运行4bit量化的7B模型；16GB VRAM可运行13B；24GB可运行34B；两张24GB可运行70B（如RTX 3090/4090 SLI）。

**纯CPU运行**：可行但慢，16GB内存可运行7B模型（速度约5-15 tokens/秒，感知上接近人类阅读速度但不够流畅）。llama.cpp是最优化的CPU推理后端。

**模型推荐**：
– 通用任务：Llama 3.2（Meta）、Qwen2.5（阿里）
– 代码：DeepSeek-Coder-V2、Codestral（Mistral）
– 中文：Qwen2.5、Yi（零一万物）
– 推理：DeepSeek-R1 distill系列

## 与开发工具集成

Ollama的OpenAI兼容API可以直接接入：Cursor/Continue（VS Code AI编程插件）、Open WebUI（本地ChatGPT界面）、LangChain/LlamaIndex（AI应用框架）。这使得在本地构建完整的RAG应用、AI智能体成为可能，无需任何云服务依赖。

参见[RAG知识库检索](https://sunqi.org/rag-knowledge-retrieval-zh/)；[AI工作流自动化](https://sunqi.org/ai-workflow-automation-zh/)；[Ollama官网](https://ollama.com/)。

作者：sunqi.org

链接：https://www.sunqi.org/local-llm-deployment-zh.html

文章版权归作者所有，未经允许请勿转载。

本地LLM部署指南：用Ollama在自己电脑上运行大语言模型

探索站点内容