【值得收藏】从零开始部署本地大模型：Ollama/vLLM/LMDeploy三大框架保姆级教程，小白也能秒变AI部署专家_ollama适合哪些人群使用-CSDN博客

安宇雨 - 随手采集
2026-03-19 13:39:35
随手采集
0000-未整理-等待研究

打破云端依赖！零成本玩转本地大模型：三大推理框架+保姆级部署指南（Ollama/vLLM/LMDeploy）

导语：大模型浪潮席卷而来，你是选择把敏感数据交给"天边"的云服务，还是把"超强大脑"请进自家服务器？数据安全与专属智能的诉求，让大模型本地化部署成为刚需！本文手把手教你如何轻松下载、部署并调用开源大语言模型，覆盖Ollama、vLLM、LMDeploy三大热门推理框架，小白也能秒变AI部署专家！

一、大模型怎么用？API还是本地？关键看两点！

面对众多的开源大模型，选择何种使用方式取决于你的核心需求：

1. API方式：方便快捷的"云大脑"

• 适用场景：
对数据安全性要求不高，任务需求（如通用问答、摘要、翻译等）可由ChatGPT、文心一言、通义千问等通用大模型满足即可。
• 优点：
开箱即用，无需操心服务器、部署和维护，成本低（通常是按量计费）。
• 缺点：
数据需传输至厂商服务器，存在隐私泄漏风险；定制化能力弱；网络依赖性强；可能存在使用限制或费用陷阱。

2. 本地部署：安全可控的"专属智囊"

• 适用场景：
数据涉及核心商业机密、用户隐私或行业敏感信息（如金融、医疗、政务内部文档）；任务需要高度定制化或使用特定领域微调模型；通用模型能力无法完美解决你的问题；要求极低的响应延迟。
• 优点：
数据完全不出内部环境，安全可控；可自由选择、微调任何开源模型，满足特定需求；无网络瓶颈，响应速度快；一次投入，长期使用更经济（尤其高频使用场景）。
• 缺点：
需要一定的硬件投入（GPU算力）和技术门槛（部署、运维）；需自行管理模型更新与优化。

结论：安全第一，定制为王！涉及敏感数据或特殊需求，本地部署是最佳选择。

二、本地部署的"发动机"：三大热门推理框架选哪个？

想把开源大模型跑起来？你需要一个高效的"推理引擎"！目前社区最活跃、最值得关注的三个框架是：

1. Ollama：小白友好，开箱即用的"模型管理大师"

• 核心优势：极简安装、统一命令管理模型（拉取、运行、更新）、内置OpenAI兼容API。
• 适合人群：个人开发者、研究者、小团队快速体验和测试多种模型。

2. vLLM：性能狂飙，高吞吐场景的"吞吐王"

• 核心优势：采用PagedAttention等黑科技实现高吞吐、低延迟推理，尤其擅长长文本生成和大并发请求。
• 适合人群：需要服务高并发请求（如API服务）、处理超长文本、追求极限性能的企业或开发者团队。

3. LMDeploy (大模型部署)：All-in-One的国产"瑞士军刀"

• 核心优势：提供从量化压缩（AWQ、KV Cache INT8）到服务部署（turbomind推理引擎）、再到推理加速（高性能算子、FlashAttention）的全套工具链。
• 适合人群：部署中文大模型（尤其是InternLM系列）的首选，需要端到端部署解决方案的团队。

部署方案对比与选型建议：

特性

Ollama

vLLM

LMDeploy

核心优势

极简易用, 模型管理

极致吞吐性能

全链路优化 (量化/加速/部署)

易用性

⭐⭐⭐⭐⭐ (极易)

⭐⭐⭐⭐ (较易)

⭐⭐⭐ (中等)

性能/效率

⭐⭐⭐ (适中)

⭐⭐⭐⭐⭐ (极高)

⭐⭐⭐⭐⭐ (极高，侧重优化)

模型生态

广泛

对InternLM等中文模型支持佳

适合场景

快速体验, 原型验证

高并发API, 长文本生成

极致优化, 模型压缩, 中文部署

场景化选型指南：
• 个人开发者：首选 Ollama（本地隐私）
• 企业 API 服务：vLLM（高并发）或 LMDeploy（资源受限场景）
• 国产信创环境：LMDeploy + 昇腾 NPU（兼容性最佳）

三、开源大模型从哪里来？国内外下载指南

本地部署的基础是模型文件！主要来源：

1. 国外源：Hugging Face Hub (Model Zoo)

• 地位：全球最大、最活跃的开源AI模型社区。
• 如何获取：通过 git lfs 或者 huggingface_hub Python 库下载模型。
• 痛点：国内访问经常不稳定或速度极慢，通常需要科学上网。

2. 国内源：魔搭社区 (ModelScope)

• 地位：由阿里达摩院推出，国内重要的开源模型集散地。
• 如何获取：通过官网浏览模型，使用其提供的 modelscope Python 库下载模型。
• 优势：国内高速访问，无墙阻。大力支持中文模型生态。

结论：墙内用户，认准"魔搭社区"ModelScope！墙外畅行，首选Hugging Face Hub。

四、实战！三大框架本地部署保姆级教程

核心步骤预览：

1. 安装框架
1. 下载模型（本体+量化版）
1. 启动模型服务
1. 使用OpenAI风格的API进行调用

4.1 Ollama - 极简部署的王者

1. 安装Ollama

# Linux/macOScurl -fsSL https://ollama.com/install.sh | sh# Windows下载安装程序 https://ollama.com/download 并运行

2. 下载量化模型

ollama run qwen3:4b# 注意： 本文在window环境部署qwen3:4b模型，Linux环境先执行 ollama serve 开启ollama服务

3. 启动模型并调用 (OpenAI风格)

# 单轮对话from openai import OpenAIclient = OpenAI(    base_url="http://localhost:11434/v1",    api_key="oldwine",  # api_key任意设置即可)response = client.chat.completions.create(    model="qwen3:4b",    messages=[        {"role": "system", "content": "你是一个乐于助人的AI助手。"},        {"role": "user", "content": "用简短的话介绍一下你自己。"}    ])print(response)

测试效果：

# 多轮对话：from openai import OpenAI# 初始化客户端（根据使用的框架修改 base_url）client = OpenAI(    base_url="http://localhost:11434/v1",  # Ollama 默认端口 11434    api_key="oldwine"# 使用任意值)# 初始化对话历史messages = [    {"role": "system", "content": "你是一个乐于助人的AI助手。"}]# 多轮对话循环whileTrue:    user_input = input("你: ")    if user_input.lower() in ["退出", "exit", "quit"]:        break    # 添加用户输入到对话历史    messages.append({"role": "user", "content": user_input})    # 调用 API    response = client.chat.completions.create(        model="qwen3:4b",  # 根据部署模型修改        messages=messages    )    # 获取模型回复    assistant_reply = response.choices[0].message.content    print("助手:", assistant_reply)    # 添加模型回复到对话历史    messages.append({"role": "assistant", "content": assistant_reply})

测试效果：

4.2 VLLM - 性能王者的部署

1. 安装VLLM

# 创建虚拟环境conda create -n vllm python=3.12# 激活虚拟环境conda activate vllm# 安装 vllm （自动安装PyTorch与vLLM依赖环境）pip install vllm

2.下载模型(推荐使用ModelScope)

# 从 魔搭社区 下载模型到指定目录from modelscope import snapshot_downloadmodel_dir = snapshot_download('Qwen/Qwen3-4B',cache_dir="/root/autodl-tmp/model")

3. 启动模型服务

# 单卡启动（Qwen/Qwen3-4B） vllm serve --model /root/autodl-tmp/model/Qwen/Qwen3-4B --port 8000

4. 调用 (OpenAI风格)

# 单轮对话from openai import OpenAIclient = OpenAI(    base_url="http://localhost:8000/v1",    api_key="oldwine",  # api_key任意设置即可)response = client.chat.completions.create(    model="/root/autodl-tmp/model/Qwen/Qwen3-4B",    messages=[        {"role": "system", "content": "你是一个乐于助人的AI助手。"},        {"role": "user", "content": "用简短的话介绍一下你自己。"}    ])print(response)

多轮对话from openai import OpenAI# 初始化客户端（根据使用的框架修改 base_url）client = OpenAI( base_url="http://localhost:8000/v1", # vLLM 默认端口 11434 api_key="oldwine"# 使用任意值)# 初始化对话历史messages = [ {"role": "system", "content": "你是一个乐于助人的AI助手。"}]# 多轮对话循环while True: user_input = input("你: ") if user_input.lower() in ["退出", "exit", "quit"]: break # 添加用户输入到对话历史 messages.append({"role": "user", "content": user_input}) # 调用 API response = client.chat.completions.create( model="/root/autodl-tmp/model/Qwen/Qwen3-4B", # 根据部署模型修改（模型所在路径） messages=messages ) # 获取模型回复 assistant_reply = response.choices[0].message.content print("助手:", assistant_reply) # 添加模型回复到对话历史 messages.append({"role": "assistant", "content": assistant_reply})


##### 4.3 LMDeploy - 全栈优化的国产利器

###### 1\. 安装LMDeploy

创建一个conda虚拟环境，然后安装lmdeploypip install lmdeploy


###### 2\. 下载模型 (推荐使用ModelScope)

从魔搭社区下载模型到指定目录from modelscope import snapshot_downloadmodel_dir = snapshot_download('Qwen/Qwen3-4B',cache_dir="/root/autodl-tmp/model")


###### 3\. 启动模型服务

启动服务lmdeploy serve api_server /root/autodl-tmp/model/Qwen/Qwen3-4B --server-port 23333


###### 4\. 调用 (OpenAI风格)

单轮对话from openai import OpenAIclient = OpenAI( base_url="http://localhost:23333/v1", api_key="oldwine", # api_key任意设置即可，必须设置)response = client.chat.completions.create( model="/root/autodl-tmp/model/Qwen/Qwen3-4B", messages=[ {"role": "system", "content": "你是一个乐于助人的AI助手。"}, {"role": "user", "content": "用简短的话介绍一下你自己。"} ])print(response)

# 多轮对话from openai import OpenAI# 初始化客户端（根据使用的框架修改 base_url）client = OpenAI(    base_url="http://localhost:23333/v1",  # 默认端口 23333    api_key="empty"# 使用任意值)# 初始化对话历史messages = [    {"role": "system", "content": "你是一个乐于助人的AI助手。"}]# 多轮对话循环whileTrue:    user_input = input("你: ")    if user_input.lower() in ["退出", "exit", "quit"]:        break    # 添加用户输入到对话历史    messages.append({"role": "user", "content": user_input})    # 调用 API    response = client.chat.completions.create(        model="/root/autodl-tmp/model/Qwen/Qwen3-4B",  # 根据部署模型修改        messages=messages    )    # 获取模型回复    assistant_reply = response.choices[0].message.content    print("助手:", assistant_reply)    # 添加模型回复到对话历史    messages.append({"role": "assistant", "content": assistant_reply})