浙江大学作为国际知名学府 ,其计算机学院以培养求实创新 、与时俱进的具有国际视野的知名计算机人才为使命 ,先后培养出一大批工程院院士 。学院拥有计算机辅 助设计与图形学(CAD&CG)国家重点实验室 、国家列车智能化工程技术研究中心及 10个省部级重点实验室 /工程技术研究中心 ,高精尖的基础设施配备保障了学院的学 科建设。 超级计算机集群系统是由多台 高性能计算服务器以及完整生态的管理软件梅成的一个并行或分布式系统 。整个计算机集群系统运行一系列共同的应用程序,处理大批 量复杂计算 ,同时为用户和应用程序提供单一的系统映射 。集群系统聚集了多个服 务器的计算能力 ,能够大幅提高性能 ,还可以随时根据需要扩充规模 ,同时又不必 付出大型计算机的高额成本 ,往往被用来实现负载均衡 、进行高效的科研或真他应 用需求的并行计算 ,以综合成本获得在性能 、可靠性 、灵活性万面的较高的收益 。 集群管理软件为整个集群提供了 统一筐理窗口,包括硬件、操作系统和用户界面 。专业 、简易的集群筐理软件可以对集群进行系统的管理 、配置 、维护 ,方便用户的曰常使用和维护筐理 。
在浙江大学的科研水平逐步 向前迈进的同时,学院对计算能力的需求也与日俱蹭,浙江大学为满足学院对计算力的需求,采购了大量 的计算服务器。但是庞大的计算服务器储备不代表能够实现巨大的计算能力,如何充分利用现育设备,高放匹配科研计算需求并进行 计算资源合理的分配,成为院系在设备配置上的重大考虑因素。 为了实现学院内不同研究万向的计算力需求,浙江大学针对服务器资源整合提出了几个核心需求:
操作便捷性:学院内使用人员的技术水平不等,部分入精通于编程计算,部分人擅怅于应用分析,因此集群管理软件需要能回时 支持圄形化界面和命令行操作,满足不同人对集群的需求;
广泛兼窑性:学院内已杳计算服务器资源复杂,使用人员研究方向多样,部署的集群管理软件需要支持 X86 平台的 CPU 服务 器,GPU 服务器,同时支持 HPC 计算,入工智能框架部署,Hadoop 平台管理;
平台安全性:计算集群承载了学院的研究重任 ,不能因为服务器的崩溃而导致研究的停止,因此部署的集群管理软件要保证集群 的健康稳定运行;
权限合理性:整套计算集群面向学院内教摆平日学生开放,需要提供明确的角色权限划分 ,并根据权限的高低调整计算集群的分配 相计算任务的优先级;
管理高效’性 :由于服务器资源庞大,使用人员众多,给运维入员带来较大的困扰。部署的集群管理软件需要提供丰富的展示数 据,可直观查看集群内的可用资源,网络负载,便件服务器的健康状态等信息。
AMAX 中国一直从事高性能计算解决万案 ,在国内部署过大量计算集群系统,深知科研院校对合理利用计算资源的迫切需求 。综合考虑浙江大学对计算集群平台的需求,AMAX 提供了Bright Cluste Manager ( 简称BCM ) 的产昂万案。
BCM功能特点:
提供直观的图形操作界面,用户可自由切换图形界面与命令行操作,提供多用户、跨地区多集群管理界面
能支持普通X86服务器和IBM Power System ,支持基于Linux操作系统的CPU/GPU集群,支持容器级别的操作设置,提供Docker容器的可视化管理,提供Kubernetes环境功能,支持Hadoop , Spark环境部署管理;
可实现双活管理节点设置,避免因管理节点故障导致集群瘫痪的风险;
无缝对接领先的任务调度器 ,如Slurm、LSF、PBS pro、Open grid scheduler 、open LAVA、Univa grid engine等,并且 所选任务调度器自动安装和配置 ;
实时集群健康度检查,用户可直观看到异常现象并收到异常通知 ,标准监控参数涵盖CPU,内存,硬盘 ,网络,机器温度,凤 扇转速等,可监控机器内多个GPU/Phi 协处理器的运行状态,参数包括温度 ,内存使用状况,运行负载等;
提供便捷的用户信息管理,完善的任务提交策略,可根据用户权限实现提交任务的优先级分配。
硬件层 :可支持 Linux 系统环境的服务器系统,含 X86 服务器 ,Power&务器,还可以支持 CPU 、GPU 、FPGA 、ASIC 等 专用计算加速芯片的异构平台集群 ;
环境层 :提供分布式文件系统及分布式应用框架的接口,提供高性能计算,并行计算和计算数学库 ,例如 MPI, Open MP, CuDNN 等;
调度层 :提供 Slurm 、LSF、 PBS、PBS Pro、Open grid scheduler、open LAVA 、Univa grid engine 等任务调度器 ;
平台层:以统一平台的方式对外提供高性能计算的相关功能 ,包括UI界面方式和服务模式 。既有基于浏览器的人机接口 ,也可提 供基于 Web Service 的云服务接口;
应用层 :提供 HPC 管理,Hadoop, Spark 平台管理,Kubernetes 平台管理等功能 ,实现高性能计算,人工智能研究,大数 据研究的功能。
AMAX 为浙江大学部署了Bright Cluster Manager 后,实现了服务器资源的再做整合并将现有的服务器资源使用率上升了多个百分 点。对于浙江大学的教授和学生而言,实现了在一个平台内进行 HPC, Al, Big Data 的独立方向研究,也为 HPC 往 Al 方向发展, 利用Al 加速 HPC 研究创造了有利条件。 浙江大学在集群系辑部署使用后表示: “高校的科研项目经费有限,但对设备的性能要求却不能低。AMAX 的集群解决方案既为学院提高了整体的计算能力,还节省了大量的成本,后期维护首理也很方便,是高校科研非常理想的好助手。”