摘要:
OpcnCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、CPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMI)和NVIDIA CPU上都取得了3. 7-136. 1倍、平均56. 7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%-346.7%、平均143. 1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。
下载地址