登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
科技
›
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator ...
openeuler24.03 lts sp1 安装Nvidia驱动及gpu-operator踩坑
[ 复制链接 ]
当贵
2025-6-9 19:50:50
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
openeuler24.03 lts sp1 安装Nvidia驱动踩坑
网上找到的文档步骤(不要操作,仅展示问题所在)
跟随文档安装时
yum install gcc make kernel-devel
yum install vulkan-loader
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run
复制代码
结果报错,提示unable to find kernel source tree
问题排查
kernel版本原因,导致安装驱动时报错
使用下面命令查看当前内核版本
uname -r
复制代码
直接使用yum install gcc make kernel-devel的话,可能安装的版本不一致
可以使用如下命令查看yum安装的版本
yum list | grep kernel-devel
复制代码
解决问题
安装正确版本,即符合系统当前内核版本的kernel-devel
yum install "kernel-devel-uname-r == $(uname -r)" gcc make -y
复制代码
不要忘记
yum install vulkan-loader -y
复制代码
安装cuda,并添加path
考虑了一下,觉得cuda也要用,干脆用cuda直接把驱动和toolkit都装了
同意协议
这里安装驱动和toolkit,其他取消勾选
等待安装完成,然后使用nvidia-smi确认安装结果,正常输出结果
nvcc -V命令问题排查
使用nvcc -V时提示未找到命令,还需要添加到path中
首先检查一下/usr/local/中有没有cuda目录
接下来就是添加了,修改文件
vi ~/.bashrc
复制代码
在文件末尾添加
# cuda
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
复制代码
应用修改
source ~/.bashrc
复制代码
此时再使用nvcc -V,可以看到正常输出的结果,驱动和cuda均安装成功
安装gpu-operator
注意,由于我尝试了多次,所以NFD是启用的状态,正常安装时,最后的set nfd.enabled=false应该删除,可以使用下面命令查看NFD是否启用,结果为true就是启用的状态
kubectl get nodes -o json | jq '.items[].metadata.labels | keys | any(startswith("feature.node.kubernetes.io"))'
复制代码
确认无误,我这里使用的运行时为containerd,保险起见,加上了官方文档的参数
helm install gpu-operator -n gpu-operator --create-namespace \
nvidia/gpu-operator $HELM_OPTIONS \
--version=v24.9.2 \
--set toolkit.env[0].name=CONTAINERD_CONFIG \
--set toolkit.env[0].value=/etc/containerd/config.toml \
--set toolkit.env[1].name=CONTAINERD_SOCKET \
--set toolkit.env[1].value=/run/containerd/containerd.sock \
--set toolkit.env[2].name=CONTAINERD_RUNTIME_CLASS \
--set toolkit.env[2].value=nvidia \
--set toolkit.env[3].name=CONTAINERD_SET_AS_DEFAULT \
--set-string toolkit.env[3].value=true \
--set driver.enabled=false \
--set nfd.enabled=false
复制代码
等待命令执行完毕,查看pods是否成功创建
kubectl get pods -n gpu-operator
复制代码
pods一般需要3~5分钟,最后完成的状态有running和completed,具体耗时和拉取镜像的速度等因素有关
验证gpu-operator是否安装成功
跑一个简单的示例
[code]cat
openeuler24
lts
sp1
安装
Nvidia
相关帖子
Avalonia框架安装
Ubuntu-22.04.5下载安装及在虚拟机中安装Ubuntu系统
腾讯云服务器手动安装 Docker 记录:好记性不如烂笔头
麒麟系统离线安装docker和docker-compose
最新PyCharm 安装详细图文教程:小白也能轻松搞定
Windows更新致WSA安装故障?多版本下载、使用指南及问题解决全揭秘
Miniconda 安装与环境配置全流程图解(2025 最新版)
安装odoo18依赖报错command 'x86_64-linux-gnu-gcc'
Steam安装
AlmaLinux下mysql 8安装与数据迁移
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Avalonia框架安装
1
1008
炳裘垦
2025-11-18
安全
Ubuntu-22.04.5下载安装及在虚拟机中安装Ubuntu系统
2
35
求几少
2025-11-20
业界
腾讯云服务器手动安装 Docker 记录:好记性不如烂笔头
1
664
押疙
2025-11-21
业界
麒麟系统离线安装docker和docker-compose
1
57
后雪闵
2025-11-27
安全
最新PyCharm 安装详细图文教程:小白也能轻松搞定
0
650
恃液
2025-11-28
安全
Windows更新致WSA安装故障?多版本下载、使用指南及问题解决全揭秘
2
809
段干叶农
2025-11-29
安全
Miniconda 安装与环境配置全流程图解(2025 最新版)
0
16
章绮云
2025-11-30
安全
安装odoo18依赖报错command 'x86_64-linux-gnu-gcc'
0
823
涣爹卮
2025-12-03
安全
Steam安装
0
24
汇干环
2025-12-04
安全
AlmaLinux下mysql 8安装与数据迁移
0
295
菅舛
2025-12-07
回复
(3)
渭茱瀑
2025-10-23 01:17:06
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
用心讨论,共获提升!
讲怔
2025-11-26 15:17:58
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢发布原创作品,程序园因你更精彩
诞楮
昨天 06:55
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢分享,试用一下
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
业界
签约作者
程序园优秀签约作者
发帖
当贵
昨天 06:55
关注
0
粉丝关注
20
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845355
3934307807
991122
4
xiangqian
638210
5
宋子
9987
6
闰咄阅
9991
7
刎唇
9993
8
俞瑛瑶
9998
9
蓬森莉
9952
10
匝抽
9986
查看更多