实验室新到了一台 A100 四卡机,记录一下装机和运维过程。
好像成了实验室的网管(

配置:

CPU : Intel Xeon Gold 6248R 3GHz 96核
内存 1T
8T HDD

预装 ubuntu 18.04

10.20

在 tuna 下载 debian 11.5 netinst 镜像
https://mirrors.tuna.tsinghua.edu.cn/debian-cd/11.5.0/amd64/iso-cd/
用 balenaEtcher 烧到 u盘

折腾了大半天,主要问题来源于校园网
实验室里有线网只有校园网,但 debian netinst 版本没有 GUI,没法搞校园网验证
命令行版本的校园网验证一直有问题
无线网卡没有,即使有也需要装驱动之类的

所以尝试搞 debian 的离线版,带有 GUI
但推测是由于没有显卡驱动的原因,GNOME 桌面环境起不来,表现是 系统初始化之后完全黑屏, ctrl+alt+F1 也切不到命令行
rescue 模式可以切进命令行,但没啥卵用
grub 看不懂也不会写
总之卡住了

cinnamon 救我狗命
抛弃 GNOME 装了 cinnamon ,终于有了 GUI,搞校园网登录
有了网问题基本就解决了

总之还是要思考一下怎么路由校园网

10.21

今日新坑: apt-getapt 并不完全一样

请使用 apt-get purge 而非 apt purge

新建账号:sudo useradd -m [username]

安装 nvidia driver :
在 nvidia 官网 https://www.nvidia.com/en-us/drivers/unix/
下载了 515.76 版本 production branch 的 driver

禁用原来的开源驱动 nouveau:
编辑 /etc/modprobe.d/blacklist-nouveau.conf 写入如下内容

blacklist nouveau
options nouveau modeset=0

运行 update-initramfs -u

为了防止 GUI 占用显卡驱动,将登录方式换为命令行 systemctl set-default multi-user.target

然后 reboot

之前装过 debian 官方的 apt 驱动,但版本太低
使用 sudo apt-get purge nvidia. 卸载所有 nvidia 相关组件

运行安装下载的 nvidia 驱动

使用 nvidia-smi 测试驱动安装情况

安装 spack:
首先创建一个 spack 账户:sudo useradd -m spack
把默认 shell 修改为 bash : chsh -s /bin/bash
clone spack 的 github 仓库,并 checkout 到一个 release
然后用 root 把整个 spack 拷到 /opt

debian 执行 /etc/update-motd.d 目录下所有可执行文件更新 /var/run/motd.dynamic
https://wiki.debian.org/motd

sudo usermod -a -G [group] [user] 用户加入组

ssh

ssh 配置文件位于 /etc/ssh/ssd_config
公钥登录需要保证用户 .ssh 目录权限 700
.ssh 目录下:
authorized_keysconfig, id_rsa 权限 600

学校 DNS :
166.111.8.8

标签: none

添加新评论