Nvidia GPU相关
- 1、Linux 下GPU驱动安装
- 2、docker 容器GPU驱动(nvidia-container-toolkit)
- 一、 安装nvidia-container-toolkit
- 二、验证 GPU 支持
1、Linux 下GPU驱动安装
安装Nvidia显卡驱动、CUDA、cuDNN
参考:链接
2、docker 容器GPU驱动(nvidia-container-toolkit)
一、 安装nvidia-container-toolkit
Nvidia Container Toolkit,该工具使Docker 的容器能与主机的Nvidia显卡进行interact.
当运行 docker run -it --name xxx --gpus all … 时(主要是带有 --gpu all)出现以下报错,大概率是表明Docker无法成功分配或访问GPU资源。
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
-
安装和确认 NVIDIA 驱动
确保你的宿主机安装了支持你的NVIDIA GPU的驱动。可以通过运行 nvidia-smi 来检查驱动是否已安装和GPU是否被识别。nvidia-smi
-
安装NVIDIA Container Toolkit
NVIDIA Container Toolkit(包括nvidia-docker)是必需的,以便Docker可以管理和使用GPU。可以按照NVIDIA官方文档的指示进行安装。
官方文档链接:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#prerequisiteshttps://github.com/NVIDIA/nvidia-container-toolkit
例如centos上安装:
国内网络限速问题:直接代理,或者下面手动安装
1.更换国内Linux软件源:参考:链接
2、
手动下载nvidia-container-toolkit.repo 镜像源,复制到yum.repos.d镜像目录下
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
上面命令手动下:nvidia-container-toolkit.repo 文件
然后:cp nvidia-container-toolkit.repo /etc/yum.repos.d/nvidia-container-toolkit.repo
接着:
清理YUM缓存:
yum clean all
生成新的缓存:
yum makecache
验证YUM源配置
yum updatesudo yum-config-manager --enable nvidia-container-toolkit-experimental
sudo yum install -y nvidia-container-toolkit
3.第二步不行的话,去GitHub 下载release包安装,很麻烦有很多依赖。
二、验证 GPU 支持
通过以下命令验证 Docker 是否可以访问 GPU:
参考:链接1、 链接2
$ sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi
$ sudo docker run --rm -e NVIDIA_VISIBLE_DEVICES=all nvidia/cuda:11.0-base nvidia-smi
$ sudo docker run --rm hello-world