摘要
近年来,信息技术的迅猛发展和普及应用所带来的数据爆炸性增长,对现有的数据处理技术提出了新的挑战。大数据的规模之大,使得现有的串行计算方法难以在可接受的时间内快速完成其处理和计算。为了提高处理效率,需要利用高性能计算技术,使用分而治之的并行计算模型来支撑大数据处理。而GPU由于其强大的并行计算能力、高吞吐率以及高性价比,已经成为高性能计算领域的主流加速器。 但是,目前基于GPU的高性能计算技术对GPU的计算能力的利用不够充分,难以应对大数据环境下的并行计算。另外,在一些实际应用场景中,需要用户熟悉GPU程序开发细节,使得高性能计算系统的易用性受到影响。 因此,本文中选取大数据环境下基于GPU的高性能计算的两个方面进行研究: (1)对基于GPU的高性能计算技术中的并行计算模型进行研究与改进: MapReduce是一种适用于大数据处理的分布式计算模型,但其计算能力受到硬件设备的限制。因此,以MapReduce模型为基础,借助GPU的强大硬件并行能力,设计并实现了一种基于MapReduce的GPU并行计算模型——GSMR模型。实验显示,GSMR与同类模型相比达到良好的加速比,并具有可扩展性。 (2)对GPU高性能计算技术的具体应用进行研究,涉及两项问题: 研究大数据环境下传统网络转发设备进行IP报文处理时所面临的吞吐率不足问题,提出一种基于GPU的并行报文分类方法,并对不同类型报文分类算法的并行化及优化方法进行分析。实验显示该方法能够有效提高报文处理速度,提高网络设备吞吐率。 另外,针对科学计算用户,研究如何提供GPU高性能计算的虚拟化服务。对此提出一种基于RPC的GPU虚拟化方法,通过函数级调用的方式,使得用户可以无需关心GPU编程细节。实验显示,该方法相对于本地计算而言大大提高了运算速度,增强了GPU高性能计算的易用性。