deepseek本地部署

DeepSeek硬件要求

模型版本	参数量	显存需求（FP16）	推荐 GPU（单卡）	多卡支持	量化支持	适用场景
DeepSeek-R1-1.5B	15亿	3GB	GTX 1650（4GB显存）	无需	支持	低资源设备部署（树莓派、旧款笔记本）、实时文本生成、嵌入式系统
DeepSeek-R1-7B	70亿	14GB	RTX 3070/4060（8GB显存）	可选	支持	中等复杂度任务（文本摘要、翻译）、轻量级多轮对话系统
DeepSeek-R1-8B	80亿	16GB	RTX 4070（12GB显存）	可选	支持	需更高精度的轻量级任务（代码生成、逻辑推理）
DeepSeek-R1-14B	140亿	32GB	RTX 4090/A5000（16GB显存）	推荐	支持	企业级复杂任务（合同分析、报告生成）、长文本理解与生成
DeepSeek-R1-32B	320亿	64GB	A100 40GB（24GB显存）	推荐	支持	高精度专业领域任务（医疗/法律咨询）、多模态任务预处理
DeepSeek-R1-70B	700亿	140GB	2x A100 80GB/4x RTX 4090（多卡并行）	必需	支持	科研机构/大型企业（金融预测、大规模数据分析）、高复杂度生成任务
DeepSeek-671B	6710亿	512GB+（单卡显存需求极高，通常需要多节点分布式训练）	8x A100/H100（服务器集群）	必需	支持	国家级/超大规模 AI 研究（气候建模、基因组分析）、通用人工智能（AGI）探索

Ollama是什么

Ollama 是一个用于本地运行和管理大型语言模型（LLM）的工具。它可以让用户在本地设备上运行、微调和管理各种开源的 LLM，如 Llama、Mistral、Gemma 等，而无需依赖云端服务。

安装Ollama

访问官网

https://ollama.com 下载

安装

点安装包，无脑下一步。

Ollama常用命令

ollama serve # 启动ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型，会先自动下载模型
ollama pull # 从注册仓库中拉取模型
ollama push # 将模型推送到注册仓库
ollama list # 列出已下载模型
ollama ps # 列出正在运行的模型
ollama cp # 复制模型
ollama rm # 删除模型