人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。2017年国务院关于印发《新一代人工智能发展规划》的通知指出,国家对人工智能人才的迫切需求需要实施国家全民智能教育计划,建立人工智能相关课程和相关专业,逐步推广编程。 教育鼓励社会力量参与开发和推广。“计划”明确指出,到2030年中国将成为一个创新型国家和世界科技强国。
滁州学院为响应国家对人工智能人才需求的号召,特创办人工智能专业,面向全国招生以培养更多AI人才。教学内容涵盖:AI教学、实验,学习图像分类、目标检测、图像分割和生成、自然语言处理,无监督学习和强化学习,视频分类等;同时学习机器学习框架的使用和原理,学习使用自动工具;以培养学生自主开发实操能力为教学核心。鉴于以上需求滁州学院认为在目前各大高校对人工教学需求日益渐长的形式,人工智能平台成为了AI课程中必不可少的教学工具。
滁州学院为搭建人工智能平台,现需一台GPU服务器,用于AI教学、实验,学习图像分类、目标检测、图像分割和生成、自然语言处理,无监督学习和强化学习,视频分类等;同时学习机器学习框架的使用和原理,学习使用自动工具。 滁州学院核心需要汇总:
1.日常基于庞大深度学习框架自主开发用户较多
2.GPU服务器要尽可能提高资源利用率,被多个用户共享,多个用户的环境和数据之间相互隔离,互相不冲突。
3.由于GPU驱动、CUDA、CuDNN版本更新快,各用户会涉及到不同的深度学习框架(TensorFlow、Caffe、PyTorch ),需要整合多框架共存。
4.需要统一管理分配资源和监控资源使用状态
分析该用户涉及人工智能领域以及相关需求,AMAX做出了以下计算解决方案:
-GPU选择10* NVIDIA V100 Tensor Core GPU,强大的单精度计算性能及充足的显存,契合客户多人使用庞大框架自主开发所需资源;
-服务器采用高密度的G4010-X2,多PCIE插槽提供了强大的扩展性满足所需GPU数量;
-CPU采用新一代Intel® Xeon® Gold 6240 可扩展系列处理器,支持Intel Omni-Path 架构、光纤互连传输速度可达 100Gb/s,具备高可靠性和高效的计算性能。
-电源采用2000W(2+2)白金级高效冗余电源,可保证数据安全和避免物理宕机。
综合客户需求,软件采用AI MAX:
AIMAX 机器学习平台是一款基于Docker+Kubernetes的人工智能容器云平台,能够实现异构资源的高效管理、调度和监控,提供了从模型开发、训练到部署的完整流程和工具。
主要特点:
1.资源配额:支持对用户和分区设置资源的配额,包括CPU、GPU、Mem,用户使用的资源总和不能超过配额,分区任务消耗的资源总和不能超过配额 ,超出资源任务可自行排队等待(满足用户:GPU服务器要尽可能提高资源利用率,被多个用户共享)
2.数据访问控制:用户的数据存储空间相互隔离,每个用户只能访问各自空间中的数据,无法越界访问未授权的数据(满足用户:多个用户的环境和数据之间相互隔离,互相不冲突。)
3.分区管理:将集群资源在逻辑上划分为不同的分组,不同的分组设置不同的资源数量,满足不同项目组的资源使用和隔离需求
4.镜像:
提供镜像制作满足不同背景和层次的用户对镜像制作的要求;
可搜索下载镜像放入私有或公有仓库;
镜像定制根据已有镜像基础添加python包;
镜像预测:对系统所有镜像的运行环境如操作系统、python环境、python packages进行扫描并打标签,启动任务时自动匹配并选择正确的镜像(满足用户:整合多个不同学习框架)
5.管理员权限:
用户权限:可创建用户组指定权限,可创建用户并设置归属某用户组该用户享有该用户组权限。
资源管理:创建逻辑资源分区,分配物理机资源;指定用户归属指定逻辑资源分区。
任务训练:查看和管理交互式开发、任务训练、可视化进程、模型部署。
数据存储:对于公共数据的增删改查。
监控中心:监控中心提供了多维度和多层次的监控信息,使系统使用透明、可追踪。管理员用户在左侧菜单栏中选择监控中心,即可查看集群、节点和分区的资源使用情况。 (满足用户:统一管理分配资源和监控资源使用状态)
现如今各高校相继响应国务院印发的《新一代人工智能发展规划》,开创人工智能专业课程,学院创办该课程需要高性能的GPU服务器以满足学生良好的实操环境,更需要一款机器学习平台软件提供高效的教学环境。因此采用AIMAX,该软件解决了三大问题:充分利用GPU资源并实现多个用户共享;提供众多深度学习框架共存,解决cuda、cudnn版本众多更新快的兼容问题;分布式训练解决多机多卡训练,可视化训练,模型部署,模型测试和优化。
核心价值:帮助客户公平、高效、透明的使用和管理计算资源; 封装人工智能环境的复杂性、使用户聚焦在核心业务和算法; 提供完整的流程和工具链,赋能数据存储、模型训练、部署推理的整个过程。