深度学习一体机融合传统硬件与深度学习软件,AI Max作为统一的资源调度管理平台,融合NVIDIA GPU与第二代英特尔®至强®的强大计算资源,打造软硬件一体的深度学习平台,实现细粒度的权限管控,安全高效的数据管理,全面细致的监控管理,简化并降低开发人员开展深度学习研究的复杂度和门槛。

应用领域:

一体机内置多种深度学习框架,利用容器技术封装大量底层操作,降低深度学习从业人员技术门槛、最小化计算资源,助力轻量级AI业务快速上线。
智能制造
随着物联网的发展,制造企业从收集的大量生产数据,从复杂系统提取众多参数,通过一体机进行细致化的分析、计算、建模、训练等,可应用于异常检测等场景。
医疗
人工智能对于疾病诊断,尤其是图像识别对于癌症识别、检测已取得较大进步。针对需要图像识别辅助诊断的领域,借助一体机,极大提高了人工智能诊断的准确率及时效性。
教学实践
针对教学领域的人工智能热潮,一体机直面计算环境部署困难的问题,利用容器技术封装大量底层操作,实现开箱即用,降低人工智能教学门槛,适用于各类教育实践环节。

客户价值

一键式训练平台
深度学习一体机内融合AI Max深度学习平台,出厂前完成软硬一体化调试,实现开箱即用。内置TensorFlow、PyTorch、MxNet、Caffe等多种镜像,版本完整。
定制化服务
硬件配置高度定制,基于第二代英特尔至强可扩展处理器,结合用户算力需求弹性调整,充分兼容多种异构计算设备。软件提供多个标准API接口,方便用户二次开发。
智能调度与监控
一体机可监控CPU、Memory、GPU等主要硬件的资源使用情况,最大化提高资源使用效率,用户通过远程控制台监控一体机的运行和健康状态。
降低AI使用门槛
封装大量底层环境,一键部署环境,快速开始深度学习任务,为用户提供简明的操作界面,降低业务门槛,使AI业务快速上线。

产品优势

灵活扩展
一体机可根据用户需求进行定制化设计,可支持单机环境深度学习全流程设计,也可根据用户算力需求扩展为单柜或多柜的分布式训练方案,适应多种用户使用场景。
灵活镜像订制
一体机预装多种主流深度学习框架,同时允许用户通过Docker Exec连接并配置镜像环境,自由订制用户所需镜像,也可对分享订制后的镜像。
模型开发调试丰富
支持VNC与SSH方式连接到容器,进行模型代码编写、运行和调试,提高开发效率,针对已经做好环境配置并成功运行任务的容器,可持久化保存为镜像,将运行环境保存和共享。
高效数据存储
采用软件定义存储,通过分布式存储系统构建分布式存储资源池,满足块、文件、对象等多种存储协议,满足业务平台的存储需求,可实现统一管理,实现简化运维。

 

核心组件
任务训练 — 赋智人工智能平台(AI Max)

 

核心特性:
基础资源调度
按照资源使用情况动态调整资源,保证任务最优分布;支持任务排队机制,任务运行完毕自动释放资源,队列中任务自动运行。
镜像订制
提供丰富的Caffe,TensorFlow,PyTorch、MxNet等主流框架;允许用户本地环境推送镜像到AI Max内建立镜像仓库;允许用户通过Docker Exec连接并配置镜像环境。
分布式训练
可充分利用物理资源,提高模型训练效率;使用RDMA协议进行网络通信和数据读写,极大提高网络带宽,保证分布式训练要求的高带宽。
数据存储管理
基于Gluster的分布式存储架构,存储容量大、容易横向扩展。
交互式开发
系统内置Jupyter,JupyterLab,PyCharm,Terminal等多种交互式开发方式。

数据存储 — 分布式存储系统

采用分布式架构,解决存储系统的灵活扩展、高性能(IOPS+吞吐)支撑。并且实现了硬件解耦,灵活配置。满足存储架构的未来发展需要。

核心特性:
极简:数据全生命周期管理智能化
拟物化管理界面,通过大屏展示,存储集群状态一览无余,性能指标、运维管理精细化至每块磁盘。磁盘智能亚健康检测,降低用户运维管理成本,通过AI,提前预估用户核心业务存储风险,防范于未然。
高可靠:数据冗余保护机制+多重主动防御能力
分布式对称架构,无单点故障,解决传统存储性能瓶颈问题,横向扩展,性能线性提示,解决企业用户“数据孤岛”难题。支持多级纠删冗余策略,支持4+2、8+2等,提高存储利用率,降低企业用户实际使用容量成本。
分布式训练
可充分利用物理资源,提高模型训练效率;使用RDMA协议进行网络通信和数据读写,极大提高网络带宽,保证分布式训练要求的高带宽。
高性能:分布式、智能合并等机制提高IOPS和吞吐
EDS针对企业用户的业务模型进行收集和分析,优化IO链路,降低用户数据方位的时延,提高带宽吞吐访问量,同时降低故障修复时海量小文集的修复流量对用户业务系统的阻塞。通过分布式纠删码,针对存储冗余策略进行了深度定制和优化,自动感知业务故障,针对性切换存储策略,容错性增强,底层存储更加稳定。

推荐配置

物理组件

管理节点

型号

XP-22301G

图片

描述

2U服务器,冗余电源,性能稳定,配置文件高效管理,一体机健康状态与网络流量监控,任务提交与调度,高可用。

物理组件

GPU计算节点

型号

XP-48201G

XP-44301G

图片

描述

4U 8GPU/4GPU服务器,单节点可支持8/4张GPU卡片, 支持多种主流计算框架与分布式训练,利用容器技术实现秒级部署。

物理组件

存储节点

型号

XP-42301ST

XP-22302ST

图片

描述

4U28盘位通用存储服务器或2U16盘位通用存储服务器,分布式存储系统,支持N+M冗余模式,节点间/节点内、磁盘间/磁盘内多维度数据保护机制,支持视频加速算法,克服硬件单点故障。

网络节点

机型/数量

IB交换机

超高速以太网交换机

图片

描述

计算与存储节点使用IB交换机互联,可实现低延迟,高带宽的专用网络。

采用千兆网络作为管理网络及IPMI网络。

成功案例

西安电子科技大学
西安电子科技大学是以信息与电子学科为主,工、理、管、文多学科协调发展的全国重点大学,直属教育部,是国家“优势学科创新平台”项目和“211工程”项目重点建设高校之一。
解决方案:
部署深度学习一体机提供34816CUDA、112 TFLOPS单精度计算性能,承载高密度电子信息深度学习计算。
客户价值:
低成本、高性能,可上架提供高计算力,加速电子信息智能化发展,高可靠性和高适用性。

数坤科技
数坤科技由顶尖人工智能科学家和资深医疗专家团队联合创建,依托自主原创的AI神经网络,全球首推涵盖心脏、神经、肿瘤的多病种AI影像诊断平台,提供包括心脏病、脑卒中、癌症等危重疾病的智能诊疗方案。
解决方案:
部署深度学习一体机为医疗影像诊断平台、医疗智慧云平台、临床科研平台等提供强大算力支撑。