基于VLLM本地部署DeepSeek模型
什么是VLLM
如果是在企业里有一定规模的话一般都有VLLM
来部署大模型,它是一个高效的大语言模型框架。它具有高效的推理和部署服务系统;
高效的内存管理:通过PagedAttention算法,vLLM实现了对KV缓存的高效管理,减少了内存浪费,优化了模型的运行效率。
易用性:vLLM与HuggingFace模型无缝集成,支持多种流行的大型语言模型,简化了模型部署和推理的过程。兼容openAl的API服务器。
分布式推理:框架支持在多GPU环境中进行分布式推理,通过模型并行策略和高效的数据通信,提升了处理大型模型的能力。
开源共享:VLLM由于其开源的属性,拥有活跃的社区支持,这也便于开发者贡献和改进,共同推动技术发展。
高吞吐量:VLLM支持异步处理和连续批处理请求,显著提高了模型推理的吞吐量,加速了文本生成和处理速度。
本例演示环境说明
操作系统:
Ubuntu24.0
GPU:NAVIDIAA10显卡``24GB
显存
CPU:16Core VLLM: 0.7.x
Python:3.10
NVIDIA驱动:12.4 CUDA:12.4
注:vllm
只支持Linux环境,而且必须要有GPU
资源。
安装annoconda
1、创建一个目录名为miniconda3
2、下载miniconda3
的linux
版的脚本到新建的目录中。
3、然后执行这个脚本,至此,miniconda3
工具就已经安装完毕了。
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 PREFIX=/root/miniconda3
4、执行source /root/.bashrc
使miniconda3
生效;
5、更换conda
的源 vim /root/miniconda3/.condarc
6、针对vLLM
创建一个环境:conda create --name vLLM python=3.10 -y
安装NVIDIA
的驱动
1、安装依赖包
apt install -y build-essential dkms
2、去nvidia
官网下载驱动,下载好以后上传到服务器。
3、在服务器上执行安装nvidia
显卡驱动 dpkg -i nvidia-driver-local-repo-ubuntu2024-xxxxx.deb
4、安装cuda
驱动 apt install -y cuda-drivers
5、安装cuda toolkit
工具包,官网有安装说明;
安装完以后设置环境变量,这样在任何地方都可以执行了。不用每次执行都要切换到特定的地方。
6、pytorch
的下载和安装。pip install torch-2.4.0+cu124-cp310-linux_x86_64.whl
7、pip install vLLM
模型的下载