LangChain+RAG+Agent本地部署DeepSeek-R1商用级聪明库，完美实现低代码可视化流程编排-品牌名称

摘要：DeepSeek-R1模型凭借其在数学推理、代码生成和自然语言推理Reasoning等领域的卓越性能，引起广泛已关注，从AI界火出圈了。很少有一种技术既能充当幕后扛旗的无名英雄，又能兼具网红明星的气质。而DeepSeek做到了这一点。作为提升生产力的利器，DeepSeek正吸引着众多个人开发者与企业用户的兴趣，他们纷纷寻求在本地环境中部署DeepSeek-R1模型，以充分利用其强大的AI能力,LangChain+RAG+Agent本地部署DeepSeek-R1商用级聪明库，完美实现低代码可视化流程编排

DeepSeek-R1模型凭借其在数学推理、代码生成和天然语言推理Reasoning等领域的卓越性能，引起广泛已关注，从AI界火出圈了。

很少有一种技术既能充当幕后扛旗的无名英雄，又能兼具网红明星的气质。

而DeepSeek做到了这一点。

作为提升生产力的利器，DeepSeek正吸引着众多个人开发者与企业用户的兴趣，他们纷纷寻求在本地环境中部署DeepSeek-R1模型，以充分利用其强大的AI能力。

随着大语言模型和RAG技术的快速进步，AI 智慧库体系正在全面渗透各行各业。

目前，我们已经在多个领域见证了其成功应用，包括跨境电商平台的智能客服、教育机构的特点化进修助手、医疗机构的诊断支持体系，以及餐饮行业的智能点餐服务等实际落地案例。

下面博主将详细介绍怎样利用一张RTX 4090显卡在本地部署基于DeepSeek-R1（深度思索模型）和RAG技术的智慧库体系（Knowledge Base System）。

该体系可广泛应用于智能客服、企业内部智慧管理、学术研究及教育等多个领域，为企业智能化转型提供新动能，助力企业实现提质增效。

首先体验一下部署效果（图片来自MaxKB），一睹为快。

汽车跨境电商智能AI客服

生物医药AI客服

微信客服

钉钉机器人

配置飞书机器人

深圳信用中心 AI 助手

华莱士智能AI客服助手

高校教学管理AI小助手

高校教学管理AI小助手-微信公众号

低代码可视化业务流程编排

创建函数脚本

后端应用监控

在数字化转型的浪潮下，个人和企业内部的信息管理面临着很大的挑战。传统的信息管理体系往往存在数据分散、检索效率低下、缺乏智-能化支持等难题。尤其是在面对海量非结构化数据时，企业难以快速提取有价格的信息，导致决策效率低下。

在专有领域，AI大模型LLM无法进修到所有的专业智慧细节，因此在面向专业领域智慧的提问时，无法给出可靠准确的回答，甚至会“胡言乱语”，这种现象称之为LLM的“幻觉”。

为此，实现AI大模型商用级智慧库主要有两种技巧：

第一种：通过专业智慧的再训练或模型微调来增强模型能力，但这种技巧需要大量标注数据和计算资源，成本高昂，对个人用户来说不太可行；

第二种：在向大模型提问时提供相关背景智慧，使模型能够基于这些上下文信息生成更准确的回答。这种智慧库构建技巧的核心就是RAG（Retrieval-Augmented Generation，检索增强生成）技术。

RAG将信息检索与生成模型相结合，其核心流程是：

在生成回答前，先从外部智慧库中检索相关信息，让模型能够引用训练数据之外的专业智慧，使其在生成响应之前能够引用训练数据来源之外的权威智慧库，再将检索结局与用户输入结合，指导生成模型输出更可靠的回答。

这种技巧允许大型语言模型在不重新训练的情况下访问特定领域或组织的内部智慧库，从而保持其输出的相关性、准确性和实用性。

检索增强生成（RAG）把信息检索技术和大模型结合起来，将检索出来的文档和提示词一起提供给大模型服务，从而生成更可靠的答案，有效地缓解大模型推理的“幻觉” 难题。

作为商用级的智慧库，不仅仅需要通过RAG和其它基础组件满足用户难题分类、敏感词检索等各类复杂场景需求，还能够内置强大的职业流引擎和函数库，支持业务流程编排，甚至是通过低代码实现可视化自定义职业流，从而指导大模型的职业经过，满足复杂业务场景下的需求，而这些则交由Agent智能体解决。

如果把AI大模型LLM比作学生的大脑，把RAG比作教材教辅，那么，就可以把Agent比作眼、耳、鼻、舌、身，协助LLM完成“应试教育”之外的“素质教育”。为了过五关斩六将，应对各种，学霸则需要LangChain这样的工程化框架，统筹以上各项能力的发挥。

实际上，LangChain提供了Models、Prompts、Indexes、Memory、Chains、Agents六大核心抽象，在降低体系实现复杂度的同时，提升体系整体的扩展性。它的能力边界只取决于LLM的智力水平和LangChain能提供的工具集的丰盛程度。

一、整体框架

1、技术架构

• 硬件：一张RTX 4090显卡（24GB显存）

• 大语言模型：DeepSeek-R1-Distill-Qwen-32B（Qwen 320亿参数Q4量化版DeepSeek-R1蒸馏模型）

• 模型推理框架：vLLM

• 向量模型：text2vec-base-chinese

• Agent智能体框架：LangChain

• 向量数据库：PostgreSQL / PG Vector

• 前端：Vue.js、LogicFlow

• 后端：Python、Django

2、RAG 原理

二、本地部署DeepSeek

1、GPU显卡内存估算

怎样准确计算大模型所需的显存大致，是许多开发者经常遇到的难题。掌握GPU内存的估算技巧，并据此合理配置硬件资源以支持模型运行，是确保大模型成功部署和扩展的关键。这一能力也是衡量开发者对大模型生产环境部署和可扩展性领会程度的重要指标。

要估算服务大型语言模型所需的 GPU 内存，可以使用下面内容公式：

• M是所需的 GPU 显卡内存（单位：GB千兆字节）。

• P是模型中的参数数量，表示模型的大致。例如，这里使用的 Lla 90B模型有 900 亿个参数，则该值将为 90。

• 4B表示每个参数使用 4 个字节。每个参数通常需要 4 个字节的内存。这是由于浮点精度通常占用 4 个字节（32 位）。然而，如果使用半精度（16 位），则计算将相应调整。

• Q是加载模型的位数（例如，16 位或 32 位）。根据以 16 位还是 32 位精度加载模型，此值将会发生变化。16 位精度在许多大模型部署中很常见，由于它可以减少内存使用量，同时保持足够的准确性。

• 1.2 乘数增加了 20% 的开销，以解决推理期间使用的额外内存难题。这不仅仅一个安全缓冲区；它对于覆盖模型执行期间激活和其他中间结局所需的内存至关重要。

估算GPU显存大致

举例：以满血版DeepSeek-R1（671B参数、加载 16 位精度）为例，计算其推理所需的显存：

这个计算告诉我们，需要大约1610.4 GB 的 GPU 显存来为 16 位模式下具有 6710 亿个参数的满血版 DeepSeek-R1 大模型提供推理服务。

因此，单个具有 80 GB 显存的 NVIDIA A100 GPU 或者 H00 GPU 不足以满足此模型的需求，需要至少20张具有 80 GB 内存的 A100 GPU 才能有效处理内存负载。

除了这些之后，仅加载 CUDA 内核就会消耗 1-2GB 的内存。实际上，无法仅使用参数填满整个 GPU 显存作为估算依据。

如果是训练大模型，则需要更多的 GPU 显存，由于优化器情形、梯度和前向激活每个参数都需要额外的内存。

2、选择模型

目前DeepSeek-R1系列模型在Huggingface[1]上共计开源了8种。

DeepSeek-R1系列模型

完整系列一览（按参数规模排序）：

• DeepSeek-R1 （671B）

• DeepSeek-R1-Zero （671B）

• DeepSeek-R1-Distill-Lla -70B

• DeepSeek-R1-Distill-Qwen-32B

• DeepSeek-R1-Distill-Qwen-14B

• DeepSeek-R1-Distill-Lla -8B

• DeepSeek-R1-Distill-Qwen-7B

• DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1系列的两大明星产品：

DeepSeek-R1-Zero：AI界的”极限探索者”

• 超强算力：6710亿参数（采用MoE架构，每个token可调动370亿参数）

• 创造训练：采用纯强化进修的端到端训练方式

• 突破性能：实现自我验证、长链推理等前沿能力

• 实战表现：在AIME 2024基准测试中取得71%的亮眼成绩

DeepSeek-R1：AI界的”全能冠军”

• 强大算力：同样拥有6710亿参数的超强实力

• 特殊训练：创造性采用多阶段混合训练技巧

• 双重加持：结合监督微调冷启动与强化进修优化

• 卓越成就：在AIME 2024测试中达到79.8%的惊人准确率

值得一提的是，DeepSeek团队通过智慧蒸馏技术，成功将这些顶级模型的能力传承给更轻量级的版本。

这种创造方式不仅大幅降低了模型应用门槛，还提升了小型模型的推理能力，这正是DeepSeek在AI领域备受瞩目的重要缘故其中一个。

DeepSeek-R1 蒸馏模型的几款小尺寸模型，是使用 DeepSeek-R1 生成的包含<think>...</think>标记的思索链数据进行微调后的蒸馏版本，继承了 R1的推理能力。

毕竟博主囊中羞涩，为了完成这篇文章，选择 bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF[2] 的DeepSeek-R1-Distill-Qwen-32B大模型的4bit量化模型，根据上面的估算公式，仅使用1张具有 24 GB 内存的 4090 GPU 就可以运行完成这篇文章小编将所需的推理任务。

Qwen2.5-32B 一个通用的预训练语言模型，而DeepSeek-R1-Distill-Qwen-32B是基于Qwen2.5-32B使用DeepSeek-R1生成的包含<think>...</think>标记的思索链数据进行微调后的蒸馏版本，因此继承了R1的推理能力。

这些微调数据包含难题拆解、中间推导等推理经过，通过强化进修让DeepSeek-R1-Distill-Qwen-32B对齐了R1生成推理步骤的行为模式。通过这种蒸馏机制，小型模型既能保持计算效率，又获得了接近大模型的复杂推理能力，这在资源受限场景下具有重要应用价格。

3、选择模型推理服务器和推理框架

在选择模型后，本地部署面临的第二个难题便是怎样选择推理服务器和推理框架

LangChain+RAG+Agent本地部署DeepSeek-R1商用级 聪明库，完美实现低代码可视化流程编排