浙江大学计算机学院正进行计算机辅助设计、计算机图形学的基础理论、算法及其 相关的应用研究。以紧密跟踪国际学术前沿为目标,期望通过大力开展原始性创新 研究及应用集成开发研究,打造具有国际影响的计算机辅助设计与图形学研究基 地、高层次人才的培养基地、学术交流的基地和高技术辐射基地。
此次项目,浙江大学计算机学院欲搭建人工智能实验平台,涵盖学习图像分类、目标 检测、图像分割和生成、自然语言处理、视频分类等,以培养学生自主开发的实操 能力为教学核心。
浙江大学计算机学院需要搭建一套人工智能实验平台,用于学校的本科生实操及在校人 工智能导师科研项目,该实验室提出了以下几点核心需求:
- 对于整套集群需要有管理员监控以及管理
- 整套平台易于操作,便于导师教学
- 学生可以在实操过程中合理利用资源训练
- 导师能够对资源合理分配并监控
- 在大量的教学和训练场景外,还需支持导师的复杂科研场景
针对项目需求,AMAX采用可支持10块GPU的新型4U机架式服务器 G4010-X2 作为计算节点并采用 G202-X2 及 G4024-X2 作 为集群的存储管理节点,搭配分布式存储软件以及万兆以太网作为本套集群的计算网络,满足低延时计算需求。新型机架式服务器 G4010-X2 技术成熟稳定,易于维护,满足多方面的应用需求。
另外,在外部网络上采用万兆以太网络作为IPMI网络,用户可以进行主动监测,以确保组件状态不超出所设阈值。 IPMI的预告故障 能力也有助于 IT 的周期管理,通过检查系统事件日志 (SEL),可以更轻松的预先判定故障组件。
- 采用双路2nd Gen Intel® Xeon® Scalable系列处理器
- 4U机架式服务器宽
- Up to 24 DIMM DDR4
- 搭载10片FHFL GPU
- 支持24块2.5寸和6块3.5寸硬盘
- 2000W (2+2)冗余电源
- 丰富的I/O扩展性
浙江大学计算机学院对于服务器、存储、交换机等硬件设备要求较高,但除了高性能服务器集群,平台层也是整个系统的核心(操作 系统、GPU驱动、CUDA、CuDNN、Tersonflow、Caffe、PyTorch等)。
AI MAX 机器学习平台是一款基于 Docker+Kubernetes 的人工智能容器云平台,能够实现异构资源的高效管理、调度和监控,为从 模型开发、训练到部署的完整流程提供了高效工具。
主要特点:
·资源配额:支持对用户和分区设置资源的配额,包括CPU、GPU、Mem,用户使用的资源总和不能超过配额,分区任务消耗 的资源总和不能超过配额 ,超出资源任务可自行排队等待
·数据访问控制:用户的数据存储空间相互隔离,每个用户只能访问各自空间中的数据,无法越界访问未授权的数据
·分区管理:将集群资源在逻辑上划分为不同的分组,不同的分组设置不同的资源数量,满足不同项目组的资源使用和隔离需求
·镜像:
- 提供镜像制作满足不同背景和层次的用户对镜像制作的要求
- 可搜索下载镜像放入私有或公有仓库
- 镜像定制根据已有镜像基础添加python包
- 镜像预测:对系统所有镜像的运行环境如操作系统、python环境、python packages进行扫描并打标签,启动任务时自动匹 配并选择正确的镜像
·管理员权限:
- 用户权限:可创建用户组指定权限,可创建用户并设置归属某用户组该用户享有该用户组权限
- 资源管理:创建逻辑资源分区,分配物理机资源;指定用户归属指定逻辑资源分区
- 任务训练:查看和管理交互式开发、任务训练、可视化进程、模型部署
- 数据存储:对于公共数据的增删改查
- 监控中心:监控中心提供了多维度和多层次的监控信息,使系统使用透明、可追踪。管理员用户在左侧菜单栏中选择监控中心, 即可查看集群、节点和分区的资源使用情况
浙江大学计算机学院在得到 AMAX 物理集群的支撑后,深度学习实验平台已运用到实际学习中。通过 AI Max 的模型训练、超参数 调节、模型可视化、日志查看等一系列高效工具,大大提升了用户的工作效率,使其可以专心致力于核心的算法设计。通过资源 配额、任务调度和容错,使模型训练任务高效可靠;分布式任务也大大提升了大规模网络模型的训练性能。