2018年以来,通过与人工智能、VR、5G、区块链、边缘智能等新兴技术的交汇融合,大数据技术不断变革创新,迎来 了快速发展。
同时,伴随新型智慧城市和数字城市建设热潮,各地与大数据相关的园区加速落地,大数据产业持续增长。根据中国 大数据管理市场专题研究及投资评估报告数据显示,2020年中国大数据产业规模达6388亿元,同比增长18.6%,近两 年也保持15%以上的年均增速,到2023年产业规模预计将超过10000亿元。
虽然当下大数据产业政策体系逐步完善,产业基础日益巩固,产业链初步形成,生态体系持续优化,但技术创新才是 推动大数据产业发展的最大内在动力,而我国目前技术创新对于大数据产业的引领作用仍有待提升。
北京师范大学大数据项目组一直以来都从事着大数据方向的专题研究,为实现大数据技术的进一步创新,其需导入更 大量数据以进一步优化数据模型,但目前的后端算力基础设施已无法支撑进一步扩展的数据量。
并且,由于项目组仍沿用着较早期建设的非标准化机房,机房整体空间、散热、降噪能力均有限,关键芯片降频及噪 音等问题也是设施扩展中难以避免的重点难题。
大数据分析挖掘便是从可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量管理等方面,对杂乱无章的数 据,进行萃取、提炼和分析的过程。
其中,数据挖掘算法即通过创建数据挖掘模型,对数据进行试探、计算和数据分析,从而挖掘出有用信息并产出分析 结论,是大数据分析的理论核心。为帮助北京师范大学大数据项目组实现数据挖掘算法模型的进一步优化,同时考虑 到非标准化机房的限制条件,超集信息为其提供了基于ServMAX® GO202-X3服务器的整柜液冷解决方案。
通过双路3rd Gen Intel® Xeon® Scalable系列处理器及32 x DIMM DDR4支持,GO202-X3最高可达80核心及8 TB 3200MHz RDIMM/LRDIMM,可有效满足大数据处理的workload。
同时,自Spark 3.0开始,通过Plugin的方式可以修改SparkSQL,DataFrame的后端执行引擎,由此超集信息为客户 提供了一套Spark-RAPIDS的Plugin,增强了Spark对GPU的使用能力,通过GO202-X3搭载的两片Ampere架构液冷 GPU,提供了高达560 TFLOPS的混合计算性能,构建了CPU+GPU的高效处理流。
并且,通过风-液换热单元(CDU)构建的整柜液冷解决方案,大幅降低噪音同时,其稳定的换热能力有效规避了服务 器内关键芯片的降频风险,在客户的非标准化机房内实现了算力的高效扩展
1. 支持2颗Ice Lake(单颗最高270W)处理器和2张Ampere GPU,同时提供4张PCIe扩展卡+OCP网卡,支持8T内存
2. 环温25 ℃,常温运行噪音不超过59dB,远低于传统风冷服务器,可实现静音液冷数据快速构建
3. CPU和GPU皆使用自研金属焊接密封冷板,提升气密等级,延长冷板寿命和刚度,避免密封圈老化导致的漏液
4. 液冷部件之间使用业界领先的无滴漏连接器进行快速连接,兼顾运行可靠性与维护便捷性
5. 管路使用耐压性、耐热性、耐腐蚀性更强的聚四氟乙烯定制波纹管,保证了液冷结构的稳定性
6. 可实现单机液冷模式、整柜液冷模式(2-8台GO202-X3)及多柜液冷模式(数据中心级)间的快速切换
超集信息针对客户实际场景需求,通过基于ServMAX® GO202-X3的整柜液冷解决方案,不仅完成了非标准化机房下的 算力高效扩展,基于Spark-RAPIDS的解决方案更加速了ETL、数据清洗等数据准备工作,同时和后期的模型训练Job无 缝对接,形成整个从raw data到result的pipeline。