方案背景
在过去20年时间里,HPC一直是增长较快的IT市场之一,其增长速度有时超过了在线游戏、平板的年增长率,有专家预测,HPC服务器市场将在2021年增长到148亿美元,整个HPC生态系统的市场会在2025年超过500亿美元。
深度学习是人工智能领域的一个重要学科。从人类发明计算机开始,就一直尝试让计算机具有学习的能力,特别是从20世纪80年代以来,深度学习在算法、理论和应用等方面都获得巨大成功。2006 年以来,“深度学习”开始成为一个新的科研热点,目前已经深入到很多行业,在很多应用领域获得成功,相关的研究工作也得到了大力推广。
HPC应用往往基于第一性原理的探索,在面对大量的数据库数据和样本数据时,对于数据的处理显得有些捉襟见肘,同时对于大量的仿真结果与大量计算结果数值的分析,也需要更多的时间完成,但AI是基于大量数据结合算法诞生的技术,擅长对于大量样本数据的提取,同时对于大量仿真结果与计算结果的加速分析,用AI的方式处理HPC任务时,不仅可以有效处理样本数据,对于得到的大量计算结果,可以利用AI的迭代细化的底层模型,完成大量结果的快速分析计算,实现降本增效。同时HPC的大量结果数据又可以为AI提供原始数据,为模型的预测提供更好的支持,二者相辅相成。
深度学习是人工智能领域的一个重要学科。从人类发明计算机开始,就一直尝试让计算机具有学习的能力,特别是从20世纪80年代以来,深度学习在算法、理论和应用等方面都获得巨大成功。2006 年以来,“深度学习”开始成为一个新的科研热点,目前已经深入到很多行业,在很多应用领域获得成功,相关的研究工作也得到了大力推广。
HPC应用往往基于第一性原理的探索,在面对大量的数据库数据和样本数据时,对于数据的处理显得有些捉襟见肘,同时对于大量的仿真结果与大量计算结果数值的分析,也需要更多的时间完成,但AI是基于大量数据结合算法诞生的技术,擅长对于大量样本数据的提取,同时对于大量仿真结果与计算结果的加速分析,用AI的方式处理HPC任务时,不仅可以有效处理样本数据,对于得到的大量计算结果,可以利用AI的迭代细化的底层模型,完成大量结果的快速分析计算,实现降本增效。同时HPC的大量结果数据又可以为AI提供原始数据,为模型的预测提供更好的支持,二者相辅相成。
应用领域
用户价值
统一资源管理
管理整个系统的资源与用户,实现计算资源的集中管理、统一分配,如 CPU、GPU、内存、存储等资源的集中管理、分配,用户端的资源相互隔离,以作业方式动态分配计算资源以及计算资源回收等。
智算融合平台
智算融合一体机融合基础硬件与PlatforMax智算融合平台,帮助用户建立一个HPC+AI的融合平台,HPC与AI应用灵活切换,无需迁移平台,一体机出厂前完成软硬件一体化调试,实现开箱即用。
算力灵活配置
一体机计算能力可根据需求灵活调配,基于最新®至强®可扩展处理器、Milan/Genoa平台、及英伟达最新加速卡,结合用户算力需求弹性调整,充分兼容多种异构计算设备,实现算力自由。
降低业务门槛
一体机基于容器技术,封装大量HPC与AI底层环境,内置主流机器学习及常见HPC应用各个版本镜像,一键下载使用,为用户提供简明的操作界面,快速开始AI或HPC任务,降低业务门槛,使业务快速上线。
产品特点
算力灵活扩展
一体机计算能力可根据用户需求灵活调配,可支持单机环境深度学习全流程设计或HPC单机计算,也可根据用户算力需求扩展为单柜或多柜的分布式AI或HPC任务,适应不用应用场景及用户对于计算的需求。
智能管理监控
一体机可实时监控管理集群资源使用情况和硬件状态,包括任务监控、GPU使用看板、节点健康等,并提供用户、集群、分区、节点维度的详细使用报表,大幅提高资源使用效率,用户通过远程控制台监控一体机的运行和健康状态。
AI+HPC作业管理
用户可以在线提交配置调试任务、HPC、交互式开发任务、AI任务,完成从配置、脚本、代码验证到AI及HPC的运行,同时展示AI和HPC作业的任务名称、节点、分区、项目、状态、以及对任务的操作。
高效数据存储
采用软件定义存储,通过分布式存储系统构建统一存储资源池,支持块、文件、对象等多种存储协议,满足业务平台的存储需求,可实现统一管理,实现简化运维。分布式存储支持IB高速网络和RDMA,数据读写效率高。
任务作业 — 智算融合平台
数据存储 — 分布式存储系统
推荐机型