自然语言处理NLP是通过计算机对语言的形、音、义等信息进行处理,即进行字、词、句、篇章的输入、输出、识别、 分析、理解、生成等操作和加工,其目的在于用计算机代替人工来处理大规模自然语言信息。为使人机间信息交流成 为可能,NLP是目前人工智能界、计算机科学界和语言学界所共同关注的重要技术。
苏州大学作为教育部与江苏省人民政府共建的国家一流学科建设高校,凭借强大科研力量进行着NLP领域的机器翻译、 文本分类、文本校对、信息抽取、语音合成、语音识别等前沿技术研究。期间,科研组发现大型数据出现存取受限及 读写缓慢等问题,由此亟需通过存储优化,以加速整体科研进程。
NLP包含多种系统(机器翻译系统、自然语言理解系统、信息自动检索系统、文本信息挖掘系统、语音自动识别系 统、文字自动识别系统等),会涉及十分庞大及多样化的文本数据。
NLP文本聚类和文本生成对文本信息的迭代将产生大量数据,由此存储的后期扩展性十分重要。
在NLP智能人机对话技术研究中,对于语音数据的实时读取十分重要,这要求存储系统需具备高效的传输性能。
为帮助苏州大学NLP科研组解决目前所面临的存储难题,超集信息联合西部数据,为其提供了MatrixStore分布式存储 解决方案。
MatrixStore分布式存储通过虚拟化技术、分布式存储技术以及集群技术将海量的通用X86架构服务器虚拟成一个容量 大、性能高、扩展性强的共享硬盘,为NLP提供高并发数据读写访问,同时搭载西部数据创新的OptiNAND技术的闪存 增强型硬盘系列产品,从架构上彻底消除了传统存储的瓶颈,能够满足高带宽、高并发的海量数据存储需求。
在经济高效地存储大规模数据方面,硬盘(HDDs) 将继续发挥核心作用。因此整个存储系统搭配了由西部数据提供的大 容量Ultrastar系列产品,实现了更高的数据密度,从而助力数据中心扩展和效率提升。目前,西部数据拥有高达22TB 的数据中心HDD,并且采用创新的OptiNAND技术,成为了数据密度领域的下一次飞跃。这种更高容量的密度能让数据 中心能够更大限度利用其存储空间,特别是在空间和功率受限的环境中。
西部数据在其数据中心20TB及22TB容量的HDD中均采用了OptiNAND技术,这一重塑的存储架构将两项基本技术结合 在一起,提供了一种能够实现创新的解决方案,为满足未来的容量、性能和可靠性需求奠定基础。
为帮助苏州大学NLP科研组解决目前所面临的存储难题,超集信息联合西部数据,为其提供了MatrixStore分布式存储 解决方案。
MatrixStore分布式存储通过虚拟化技术、分布式存储技术以及集群技术将海量的通用X86架构服务器虚拟成一个容量 大、性能高、扩展性强的共享硬盘,为NLP提供高并发数据读写访问,同时搭载西部数据创新的OptiNAND技术的闪存 增强型硬盘系列产品,从架构上彻底消除了传统存储的瓶颈,能够满足高带宽、高并发的海量数据存储需求。
更高容量
可以把ePMR硬盘的容量做得更大。OptiNAND与三阶寻轨定位系统(TSA)技术相结合可以帮助增加磁道数量,即磁道 密度(TPI),实现更高的面密度,以使磁碟上存储更多数据。
性能的增强
通过优化固件缩短时延,主要是减少相邻磁道干扰(ATI)刷新次数,并减少写缓存启用模式下对写缓存刷写的需求,从 而提高内部磁盘效率。
可靠性的提升
在发生紧急断电事件时,相比将数据刷新到 DRAM的上一代HDDs,OptiNAND可以安全地刷新和保留近 50 倍的客户 数据。
更值得一提的是在OptiNAND技术支持下的 ArmorCache™功能(仅限22TB),在启用写入缓存 (WCE) 的模式下为您的 数据提供企业断电保护,同时在禁用写入缓存 (WCD) 的模式下提高性能。
苏州大学前期项目规划中未考虑存储扩展需求,局限的性能无法满足数据持续增长下的性能需求。在西部数据Ultrastar 大容量系列产品及超集信息MatrixStore分布式存储解决方案帮助下,以更佳的可靠性、安全性和性能,有效解决了目 前所面临的存储瓶颈,实现了大于2GB/s的高带宽吞吐,同时丰富的横向扩展能力带来了更加灵活的存储扩容。并且, 当硬盘节点发生故障时,可在短时间内完成恢复,整个存储平台的容量及性能均得到了有效提升。