Skip to content

集群信息说明

操作系统

集群的操作系统为 rocky8.8-477.10.1.el8_8.x86_64

TIP

Rocky Linux 是一个社区驱动的企业级 Linux 发行版,由 Rocky Enterprise Software Foundation(RESF)维护。 它的定位是作为 CentOS 的继任者,完全免费、开源,提供长期的稳定支持,适合用于服务器、集群和高性能计算(HPC)环境。

集群节点和队列信息

节点查看命令

使用 sinfo 命令查看

bash
[skl_lcy@login01 ~]# sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug        up      30:00      1 drain* login89
debug        up      30:00      1  down* mag01
cn-long      up 14-00:00:0     20  down* c03b60n01,c04b01n[01-03],c04b60n01,c07b01n[01-02],c07b60n[01-02],c08b01n[01-08],c08b60n01,c09b60n[01-02]
cn-long      up 14-00:00:0      1    mix c03b01n01
cn-long      up 14-00:00:0      7  alloc c03b01n[07-08],c09b01n[01-05]
cn-long      up 14-00:00:0     22   idle c01b01n[01-07],c02b01n[01-07],c02b60n[01-03],c03b01n[02-06]
cn-short     up 14-00:00:0     13  down* c04b01n[01-03],c07b01n[01-02],c08b01n[01-08]
cn-short     up 14-00:00:0      1    mix c03b01n01
cn-short     up 14-00:00:0      7  alloc c03b01n[07-08],c09b01n[01-05]
cn-short     up 14-00:00:0     19   idle c01b01n[01-07],c02b01n[01-07],c03b01n[02-06]
fat2way      up 14-00:00:0      3   idle c09b70n[01-03]
gpu_l40      up 14-00:00:0      1  down* c06b44n01
gpu_l40      up 14-00:00:0      2   idle c03b40n[01-02]
gpu_l48      up 14-00:00:0      2   idle c01b80n[01-02]
gpu_a800     up 14-00:00:0      1   idle c10b81n01
gpu_h100*    up 14-00:00:0      2   idle c02b82n01,c08b82n01

节点状态说明

状态含义说明
idle表示该节点可用
alloc表示该节点已分配,有任务正在运行
down*表示该节点不可用,可能是宕机或管理员设为不可调度
drain表示节点被管理员维护或配置问题,不能调度任务
mix表示节点部分核心正在运行任务,部分核心仍然空闲

分区介绍

分区名类型CPUGPU节点数可用核数内存(G)每核/每卡(GPU)(G)
cn-shortCPU节点Gold 653050645128G
cn-longCPU节点Gold 653040645128G
fat2way胖节点Platinum 8462Y+364102416G
gpu_l40GPU节点Platinum 8480+L403112102448G显存*4
gpu_l48GPU节点Platinum 8480+L40S2112102448G显存*8
gpu_a800GPU节点Platinum 8358A800164102480G显存*8
gpu_h100GPU节点Platinum 8480+H1002112102480G显存*8

集群存储信息表

使用 df -h 命令查看

bash
[root@login01 ~]# df -h
文件系统                                     容量  已用  可用 已用% 挂载点
devtmpfs                                     126G     0  126G    0% /dev
tmpfs                                        126G     0  126G    0% /dev/shm
tmpfs                                        126G   91M  126G    1% /run
tmpfs                                        126G     0  126G    0% /sys/fs/cgroup
11.250.1.21:/bootstrap/cn/rocky8.8-cuda12.6  352G  247G  105G   71% /
tmpfs                                        126G  700M  125G    1% /ram
tmpfs                                         26G     0   26G    0% /run/user/0
12.7.201.11@o2ib:12.7.201.12@o2ib:/appsnew   145T  9.1T  128T    7% /appsnew
12.7.201.11@o2ib:12.7.201.12@o2ib:/chfs01    865T  255G  822T    1% /lustre2
12.4.201.1@o2ib:12.4.201.2@o2ib:/chfs        1.7P   17T  1.6P    2% /lustre1
/dev/mapper/fjc-home                         600G  4.3G  596G    1% /ram/tmp
tmpfs                                         26G  4.0K   26G    1% /run/user/1072
tmpfs                                         26G  4.0K   26G    1% /run/user/1147
tmpfs                                         26G  4.0K   26G    1% /run/user/1129
tmpfs                                         26G  4.0K   26G    1% /run/user/1127
tmpfs                                         26G  4.0K   26G    1% /run/user/1146
  • 系统盘:根目录 / 来自 NFS 挂载(352G),是 Rocky8.8 + CUDA12.6 的 OS 镜像。

  • 内存盘:多个 tmpfs 挂载点,用于共享内存和用户 session 临时数据。

  • Lustre 存储

文件目录读写速度容量用户配额冗余备注
/lustre1 >15GB/s1.7P12Traid6用来做计算
/lustre2 >8GB/s865TB28Traid6用来备份
  • 公共软件目录/appsnew 145TB,存放编译好的应用和库。

  • 本地临时盘/ram/tmp (600G),适合跑中间文件和临时计算任务。

集群登陆节点信息表

登录节点介绍

节点信息内存CPU (Intel)核心/线程gpu功能其他
login01256GGold 532052C / 104T作业提交
login02256GGold 532052C / 104T作业提交
login031024GPlatinum 8462Y+64C / 128TL40S(48G)作业提交GPU 编译
login04688GPlatinum 8480+86 vCPU作业提交虚拟化节点
login051024GPlatinum 8480+112C / 112TL40×4(192G)图形界面GPU加速
login06512GGold 653064C / 64T图形界面CPU并行
login07512GGold 653064C / 64T图形界面CPU并行
mag0148GE5-2670v220C / 40T管理

TIP

  • login03 含GPU卡,可以在上面编译测试含GPU的程序
  • login05-07 为图形化交互专用登录节点

查看内存

使用 free 命令查看内存

bash
[skl_lcy@login01 ~]# free
              total        used        free      shared  buff/cache   available
Mem:      263545920     4538264   243366564     1122612    15641092   256027228
Swap:             0           0           0

查看CPU

使用 lscpu 命令查看CPU

bash
[skl_lcy@login01 ~]# lscpu
架构:           x86_64
CPU 运行模式:   32-bit, 64-bit
字节序:         Little Endian
CPU:            104
在线 CPU 列表:  0-103
每个核的线程数:  2
每个座的核数:    26
座:             2
NUMA 节点:      2
厂商 ID:        GenuineIntel
CPU 系列:       6
型号:           106
型号名称:       Intel(R) Xeon(R) Gold 5320 CPU @ 2.20GHz
步进:           6
CPU MHz:        3400.000
CPU 最大 MHz:   3400.0000
CPU 最小 MHz:   800.0000
BogoMIPS:       4400.00
虚拟化:         VT-x
L1d 缓存:       48K
L1i 缓存:       32K
L2 缓存:        1280K
L3 缓存:        39936K
NUMA 节点0 CPU: 0-25,52-77
NUMA 节点1 CPU: 26-51,78-103
标记:           fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb cat_l3 invpcid_single ssbd mba ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb intel_pt avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local split_lock_detect wbnoinvd dtherm ida arat pln pts avx512vbmi umip pku ospke avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg tme avx512_vpopcntdq la57 rdpid fsrm md_clear pconfig flush_l1d arch_capabilities

查看GPU

login03 可使用 nvidia-smi 命令查看GPU卡信息

bash
[skl_lcy@login03 ~]# nvidia-smi   
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 565.57.01              Driver Version: 565.57.01      CUDA Version: 12.7     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA L40S                    Off |   00000000:3D:00.0 Off |                    0 |
| N/A   27C    P8             32W /  350W |       1MiB /  46068MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

由北京大学智慧药物平台提供支持