当前位置：智能工控 > 信号处理 > 基于VLLM本地部署DeepSeek模型

基于VLLM本地部署DeepSeek模型

基于VLLM本地部署DeepSeek模型

什么是`VLLM`

如果是在企业里有一定规模的话一般都有VLLM来部署大模型，它是一个高效的大语言模型框架。它具有高效的推理和部署服务系统；

高效的内存管理：通过PagedAttention算法，vLLM实现了对KV缓存的高效管理，减少了内存浪费，优化了模型的运行效率。

易用性：vLLM与HuggingFace模型无缝集成，支持多种流行的大型语言模型，简化了模型部署和推理的过程。兼容openAl的API服务器。

分布式推理：框架支持在多GPU环境中进行分布式推理，通过模型并行策略和高效的数据通信，提升了处理大型模型的能力。

开源共享：VLLM由于其开源的属性，拥有活跃的社区支持，这也便于开发者贡献和改进，共同推动技术发展。

高吞吐量：VLLM支持异步处理和连续批处理请求，显著提高了模型推理的吞吐量，加速了文本生成和处理速度。

本例演示环境说明

操作系统：Ubuntu24.0
GPU：NAVIDIAA10显卡``24GB显存
CPU：16Core VLLM: 0.7.x
Python：3.10
NVIDIA驱动：12.4 CUDA：12.4

注：vllm只支持Linux环境，而且必须要有GPU资源。

安装`annoconda`

1、创建一个目录名为miniconda3

2、下载miniconda3的linux版的脚本到新建的目录中。

3、然后执行这个脚本，至此，miniconda3工具就已经安装完毕了。

bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 PREFIX=/root/miniconda3

4、执行source /root/.bashrc使miniconda3生效；

5、更换conda的源 vim /root/miniconda3/.condarc

6、针对vLLM创建一个环境：conda create --name vLLM python=3.10 -y

安装`NVIDIA`的驱动

1、安装依赖包

apt install -y build-essential dkms

2、去nvidia官网下载驱动，下载好以后上传到服务器。

3、在服务器上执行安装nvidia显卡驱动 dpkg -i nvidia-driver-local-repo-ubuntu2024-xxxxx.deb

4、安装cuda驱动 apt install -y cuda-drivers

5、安装cuda toolkit工具包，官网有安装说明；

安装完以后设置环境变量，这样在任何地方都可以执行了。不用每次执行都要切换到特定的地方。

6、pytorch的下载和安装。pip install torch-2.4.0+cu124-cp310-linux_x86_64.whl

7、pip install vLLM

模型的下载

https://www.hf-mirror.com下载

转载请注明出处: https://www.cntworld.cn
智能工控 » 基于VLLM本地部署DeepSeek模型

发表回复取消回复

要发表评论，您必须先登录。

提供最优质的资源集合

立即查看了解详情

文章加载时间：0.004 秒