登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
博客
发1篇日志+1圆
记录
发1条记录+2圆币
发帖说明
VIP申请
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
VIP申请
VIP网盘
网盘
联系我们
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
科技
›
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator ...
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑
[ 复制链接 ]
当贵
2025-6-9 19:50:50
openeuler24.03 lts sp1 安装Nvidia驱动踩坑
网上找到的文档步骤(不要操作,仅展示问题所在)
跟随文档安装时
yum install gcc make kernel-devel
yum install vulkan-loader
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run
复制代码
结果报错,提示unable to find kernel source tree
问题排查
kernel版本原因,导致安装驱动时报错
使用下面命令查看当前内核版本
uname -r
复制代码
直接使用yum install gcc make kernel-devel的话,可能安装的版本不一致
可以使用如下命令查看yum安装的版本
yum list | grep kernel-devel
复制代码
解决问题
安装正确版本,即符合系统当前内核版本的kernel-devel
yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
复制代码
不要忘记
yum install vulkan-loader -y
复制代码
安装cuda,并添加path
考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议
这里安装驱动和toolkit,其他取消勾选
等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果
nvcc -V命令问题排查
使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
vi ~/.bashrc
复制代码
在文件末尾添加
# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
复制代码
应用修改
source ~/.bashrc
复制代码
此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功
安装gpu-operator
注意,由于我尝试了多次,所以NFD是启用的状态,正常安装时,最后的set nfd.enabled=false应该删除,可以使用下面命令查看NFD是否启用,结果为true就是启用的状态
kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'
复制代码
确认无误,我这里使用的运行时为containerd,保险起见,加上了官方文档的参数
helm install gpu-operator -n gpu-operator --create-namespace \
nvidia/gpu-operator $HELM_OPTIONS \
--version=v24.9.2 \
--set toolkit.env[0].name=CONTAINERD_CONFIG \
--set toolkit.env[0].value=/etc/containerd/config.toml \
--set toolkit.env[1].name=CONTAINERD_SOCKET \
--set toolkit.env[1].value=/run/containerd/containerd.sock \
--set toolkit.env[2].name=CONTAINERD_RUNTIME_CLASS \
--set toolkit.env[2].value=nvidia \
--set toolkit.env[3].name=CONTAINERD_SET_AS_DEFAULT \
--set-string toolkit.env[3].value=true \
--set driver.enabled=false \
--set nfd.enabled=false
复制代码
等待命令执行完毕,查看pods是否成功创建
kubectl get pods -n gpu-operator
复制代码
pods一般需要3~5分钟,最后完成的状态有running和completed,具体耗时和拉取镜像的速度等因素有关
验证gpu-operator是否安装成功
跑一个简单的示例
[code]cat
openeuler24
lts
sp1
安装
Nvidia
相关帖子
NVIDIA系统级性能分析工具Nsight Systems入门详解
【App Service Linux】在Linux App Service中安装 tcpdump 并抓取网络包
CentOS 8 安装Docker 报错requires container-selinux >= 2:2.x
安装redis扩展之phpredis
Kali安装NVIDIA显卡驱动导致无法进入GUI(上)
NVIDIA Kernel级性能分析工具Nsight Compute入门详解
Windows本地安装LLaMA-Factory
Vim在Windows的安装与基本使用
在鸡哥14x上安装Linux:Fedora 42 上手体验
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
NVIDIA系统级性能分析工具Nsight Systems入门详解
0
801
訾懵
2025-08-22
业界
【App Service Linux】在Linux App Service中安装 tcpdump 并抓取网络包
0
372
锄淫鲷
2025-08-27
业界
CentOS 8 安装Docker 报错requires container-selinux >= 2:2.x
0
357
恃液
2025-08-28
业界
安装redis扩展之phpredis
0
609
炳裘垦
2025-08-29
安全
Kali安装NVIDIA显卡驱动导致无法进入GUI(上)
0
1063
凤患更
2025-08-29
业界
NVIDIA Kernel级性能分析工具Nsight Compute入门详解
0
108
任修
2025-09-03
科技
Windows本地安装LLaMA-Factory
0
779
周濡霈
2025-09-04
安全
Vim在Windows的安装与基本使用
0
375
福清婉
2025-09-07
业界
在鸡哥14x上安装Linux:Fedora 42 上手体验
0
874
闰咄阅
2025-09-08
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
业界
代码
签约作者
程序园优秀签约作者
发帖
当贵
2025-6-9 19:50:50
关注
0
粉丝关注
16
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
黎瑞芝
9990
杭环
9988
4
凶契帽
9988
5
氛疵
9988
6
猷咎
9986
7
里豳朝
9986
8
肿圬后
9986
9
蝓俟佐
9984
10
虽裘侪
9984
查看更多