
AI Max是一款基于Kubernetes+Docker+GPU架构,定位于机器学习的上层应用,免去客户编写代码的麻烦,快速开始深度学习任务。通过容器化技术,封装了人工智能所需的系统环境和底层操作,可以有效降低企业进入人工智能领域的门槛,解决开发环境难部署和高成本投入等问题,满足各行各业对大数据、人工智能模型搭建等需求。
基础设施以硬件服务器为载体,支持主流 X86 服务器,配置 NVIDIA GPU 实现高性能加速计算,采用主流分布式存储设备,支持 TCP/IP,InfiniBand 高速网络互联。
平台层是整个系统的核心,包含操作系统、GPU 驱动、CUDA、CuDNN、机器学习框架、资源调度和完整的机器学习所需的处理流程,实现资源操作自动化,并向用户提供应用交付服务。
表盘式工作界面,首页看到所有资源,已分类资源、剩余资源、所有节点信息、任务信息等,菜单界面平滑直观,功能化繁为简,任务训练、交互式开发、可视化、模型部署、数据存储等、任务镜像等一目了然。
管理员对用户和用户组的CPU、GPU、内存和存储配额进行设定,限定资源数量。系统具备角色及授权,用户的数据存储空间相互隔离,每个用户只能访问各自空间的数据,无法越界访问未授权的数据。
平台内置TensorFlow、Pytorch、Mxnet、OpenVINO、oneAPI等镜像,还可连接NGC、Docker HUB等获取镜像,提供console等方式自由订制镜像,满足不同背景和层次的用户对镜像制作的要求。
平台通过NFS实现统一的网络文件存储系统,支持基于GlusterFS和NFS的多个卷同时共存和使用,支持数据上传、下载、删除、压缩、解压、复制、移动和内容浏览等,NAS存储还支持本地数据缓存。
用户在平台上点击、勾选相应内容即可提交任务,可选择单机版或分布式任务,单机版最小可支持1/8GPU,分布式任务支持容器之间SR-IOV高速虚拟网卡通信,同时具备超参数调节、模型可视化、日志查看等一系列环节和工具。
监控系统CPU、GPU、Mem使用率,节点状态,分区资源消耗和任务运行情况,通过单一界面管理平台,从分区、用户、集群、任务类型等各个层次和维度展示当前GPU的空闲和占用状态,支持按种类查看GPU卡的使用。