集群信息说明
操作系统
集群的操作系统为 rocky8.8-477.10.1.el8_8.x86_64
TIP
Rocky Linux 是一个社区驱动的企业级 Linux 发行版,由 Rocky Enterprise Software Foundation(RESF)维护。 它的定位是作为 CentOS 的继任者,完全免费、开源,提供长期的稳定支持,适合用于服务器、集群和高性能计算(HPC)环境。
集群节点和队列信息
节点查看命令
使用 sinfo
命令查看
bash
[skl_lcy@login01 ~]# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug up 30:00 1 drain* login89
debug up 30:00 1 down* mag01
cn-long up 14-00:00:0 20 down* c03b60n01,c04b01n[01-03],c04b60n01,c07b01n[01-02],c07b60n[01-02],c08b01n[01-08],c08b60n01,c09b60n[01-02]
cn-long up 14-00:00:0 1 mix c03b01n01
cn-long up 14-00:00:0 7 alloc c03b01n[07-08],c09b01n[01-05]
cn-long up 14-00:00:0 22 idle c01b01n[01-07],c02b01n[01-07],c02b60n[01-03],c03b01n[02-06]
cn-short up 14-00:00:0 13 down* c04b01n[01-03],c07b01n[01-02],c08b01n[01-08]
cn-short up 14-00:00:0 1 mix c03b01n01
cn-short up 14-00:00:0 7 alloc c03b01n[07-08],c09b01n[01-05]
cn-short up 14-00:00:0 19 idle c01b01n[01-07],c02b01n[01-07],c03b01n[02-06]
fat2way up 14-00:00:0 3 idle c09b70n[01-03]
gpu_l40 up 14-00:00:0 1 down* c06b44n01
gpu_l40 up 14-00:00:0 2 idle c03b40n[01-02]
gpu_l48 up 14-00:00:0 2 idle c01b80n[01-02]
gpu_a800 up 14-00:00:0 1 idle c10b81n01
gpu_h100* up 14-00:00:0 2 idle c02b82n01,c08b82n01
节点状态说明
状态 | 含义说明 |
---|---|
idle | 表示该节点可用 |
alloc | 表示该节点已分配,有任务正在运行 |
down* | 表示该节点不可用,可能是宕机或管理员设为不可调度 |
drain | 表示节点被管理员维护或配置问题,不能调度任务 |
mix | 表示节点部分核心正在运行任务,部分核心仍然空闲 |
分区介绍
分区名 | 类型 | CPU | GPU | 节点数 | 可用核数 | 内存(G) | 每核/每卡(GPU)(G) |
---|---|---|---|---|---|---|---|
cn-short | CPU节点 | Gold 6530 | 50 | 64 | 512 | 8G | |
cn-long | CPU节点 | Gold 6530 | 40 | 64 | 512 | 8G | |
fat2way | 胖节点 | Platinum 8462Y+ | 3 | 64 | 1024 | 16G | |
gpu_l40 | GPU节点 | Platinum 8480+ | L40 | 3 | 112 | 1024 | 48G显存*4 |
gpu_l48 | GPU节点 | Platinum 8480+ | L40S | 2 | 112 | 1024 | 48G显存*8 |
gpu_a800 | GPU节点 | Platinum 8358 | A800 | 1 | 64 | 1024 | 80G显存*8 |
gpu_h100 | GPU节点 | Platinum 8480+ | H100 | 2 | 112 | 1024 | 80G显存*8 |
集群存储信息表
使用 df -h
命令查看
bash
[root@login01 ~]# df -h
文件系统 容量 已用 可用 已用% 挂载点
devtmpfs 126G 0 126G 0% /dev
tmpfs 126G 0 126G 0% /dev/shm
tmpfs 126G 91M 126G 1% /run
tmpfs 126G 0 126G 0% /sys/fs/cgroup
11.250.1.21:/bootstrap/cn/rocky8.8-cuda12.6 352G 247G 105G 71% /
tmpfs 126G 700M 125G 1% /ram
tmpfs 26G 0 26G 0% /run/user/0
12.7.201.11@o2ib:12.7.201.12@o2ib:/appsnew 145T 9.1T 128T 7% /appsnew
12.7.201.11@o2ib:12.7.201.12@o2ib:/chfs01 865T 255G 822T 1% /lustre2
12.4.201.1@o2ib:12.4.201.2@o2ib:/chfs 1.7P 17T 1.6P 2% /lustre1
/dev/mapper/fjc-home 600G 4.3G 596G 1% /ram/tmp
tmpfs 26G 4.0K 26G 1% /run/user/1072
tmpfs 26G 4.0K 26G 1% /run/user/1147
tmpfs 26G 4.0K 26G 1% /run/user/1129
tmpfs 26G 4.0K 26G 1% /run/user/1127
tmpfs 26G 4.0K 26G 1% /run/user/1146
系统盘:根目录
/
来自 NFS 挂载(352G),是 Rocky8.8 + CUDA12.6 的 OS 镜像。内存盘:多个
tmpfs
挂载点,用于共享内存和用户 session 临时数据。Lustre 存储:
文件目录 | 读写速度 | 容量 | 用户配额 | 冗余 | 备注 |
---|---|---|---|---|---|
/lustre1 | >15GB/s | 1.7P | 12T | raid6 | 用来做计算 |
/lustre2 | >8GB/s | 865TB | 28T | raid6 | 用来备份 |
公共软件目录:
/appsnew
145TB,存放编译好的应用和库。本地临时盘:
/ram/tmp
(600G),适合跑中间文件和临时计算任务。
集群登陆节点信息表
登录节点介绍
节点信息 | 内存 | CPU (Intel) | 核心/线程 | gpu | 功能 | 其他 |
---|---|---|---|---|---|---|
login01 | 256G | Gold 5320 | 52C / 104T | 无 | 作业提交 | |
login02 | 256G | Gold 5320 | 52C / 104T | 无 | 作业提交 | |
login03 | 1024G | Platinum 8462Y+ | 64C / 128T | L40S(48G) | 作业提交 | GPU 编译 |
login04 | 688G | Platinum 8480+ | 86 vCPU | 无 | 作业提交 | 虚拟化节点 |
login05 | 1024G | Platinum 8480+ | 112C / 112T | L40×4(192G) | 图形界面 | GPU加速 |
login06 | 512G | Gold 6530 | 64C / 64T | 无 | 图形界面 | CPU并行 |
login07 | 512G | Gold 6530 | 64C / 64T | 无 | 图形界面 | CPU并行 |
mag01 | 48G | E5-2670v2 | 20C / 40T | 无 | 管理 |
TIP
- login03 含GPU卡,可以在上面编译测试含GPU的程序
- login05-07 为图形化交互专用登录节点
查看内存
使用 free
命令查看内存
bash
[skl_lcy@login01 ~]# free
total used free shared buff/cache available
Mem: 263545920 4538264 243366564 1122612 15641092 256027228
Swap: 0 0 0
查看CPU
使用 lscpu
命令查看CPU
bash
[skl_lcy@login01 ~]# lscpu
架构: x86_64
CPU 运行模式: 32-bit, 64-bit
字节序: Little Endian
CPU: 104
在线 CPU 列表: 0-103
每个核的线程数: 2
每个座的核数: 26
座: 2
NUMA 节点: 2
厂商 ID: GenuineIntel
CPU 系列: 6
型号: 106
型号名称: Intel(R) Xeon(R) Gold 5320 CPU @ 2.20GHz
步进: 6
CPU MHz: 3400.000
CPU 最大 MHz: 3400.0000
CPU 最小 MHz: 800.0000
BogoMIPS: 4400.00
虚拟化: VT-x
L1d 缓存: 48K
L1i 缓存: 32K
L2 缓存: 1280K
L3 缓存: 39936K
NUMA 节点0 CPU: 0-25,52-77
NUMA 节点1 CPU: 26-51,78-103
标记: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb cat_l3 invpcid_single ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local split_lock_detect wbnoinvd dtherm ida arat pln pts avx512vbmi umip pku ospke avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg tme avx512_vpopcntdq la57 rdpid fsrm md_clear pconfig flush_l1d arch_capabilities
查看GPU
login03 可使用 nvidia-smi
命令查看GPU卡信息
bash
[skl_lcy@login03 ~]# nvidia-smi
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 565.57.01 Driver Version: 565.57.01 CUDA Version: 12.7 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA L40S Off | 00000000:3D:00.0 Off | 0 |
| N/A 27C P8 32W / 350W | 1MiB / 46068MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+