南方科技大学某院系系,主要涉及生物医学信息、医学影像技术、基因芯片、纳米技术、新材料等技术的学术研究和创新。生物信息学领域:使用HPC对生物基因数据进行测序、拼接、比对等处理,提供基因组信息以及相关数据系统,解决生物、医药和工业领域的重大问题。
DNA测序是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。利用DNA测序技术,可以对孕妇进行无创伤的产前先天遗传缺陷检测,也可以通过检测肿瘤基因特征片段提早预防癌症,还可以通过基因技术来寻找理想的药物治疗方案等。
虽然DNA测序将基因组学与IT技术相结合,颠覆了传统生物学技术,引领生命科学未来发展潮流,但相比其他行业,DNA测序所需要的计算、内存以及数据存储量都非常大,因此高性能计算机必不可少。南方科技大学认为对于人类DNA组进行测序和数据分析所带来的价值不可估量,准备涉足于生物信息学领域的DNA测序,鉴于DNA测序对于算力的需求,现需要打造高性能计算平台以支撑DNA测序研究。
为能够充分利用研究所机柜空间,以及DNA测序所需计算性能现将需求汇总:
1.客户使用的重复序列检测和多序列对比软件,主要运用CPU计算性能,所需的计算是CPU密集型的,对CPU的核心数和主频要求较高
2.强大内存:在序列对比或者拼接阶段,需要一次性将海量数据载入到内存中并且加以处理,如果内存不够或者性能不优,很可能无法进行对比或者下一步的计算等工作
3.软件计算时会生成大量的临时文件,需要强大的I/O提高程序执行性能
4.由于客户机房散热环境及空间欠缺,故需要高密度稳定散热的服务器
- 采用AMAX全新推出的2U 2节点高性能服务器M204-X2,整机由计算模块、机箱、电源等组成。高密度2U 计算模块内可提供4个标准PCIe3.0插槽,2 个 M.2和2个U.2硬盘。
- CPU采用新一代Intel® Xeon ®Platinum 9242可扩展系列处理器
- 内存采用32GB 频率高达2933MHz,大幅提高内存带宽,满足苛刻的计算要求。
- 硬盘采用高IOPS的 SSD以满足对大量临时小文件的I/O性能。
- 考虑到9200系列处理器的高功耗,M204-X2在散热上采用了创新性设计,使用先进的高流速空气冷却技术为CPU、内存和电压调节稳定器(VR)进行冷却;2U风冷方案中,TDP最高可达350W。
序列相似性比较:BLAST、FASTA将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性。
序列同源性分析:CLUSTAL将研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。
RepeatMasker:专门用于基因组重复序列识别注释,并分类统计的软件,几乎用于所有物种。是研究基因组、非编码RNA、转座子和着丝粒领等相关领域的必备软件。
伴随着科技的发展,传统生物学技术已得到颠覆。当IT技术与基因组学相结合,便引领了生命科学未来发展的崭新潮流,而其对高性能计算的需求也随之提升。
在AMAX的帮助下,南方科技大学通过算力升级,有效实现了向新型基因组学的迈进。