CUDA学习之第四章：全局内存（四）

网安菜13

于 2023-07-29 15:06:12 发布

阅读量176

点赞数

CC 4.0 BY-SA版权

分类专栏： cuda学习文章标签：学习 gpu算力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_49833809/article/details/131993344

cuda学习专栏收录该内容

6 篇文章

订阅专栏

文章探讨了核函数在处理矩阵转置时的内存带宽利用，强调了行读列写与列读行写对性能的影响。禁用一级缓存时两者性能接近，启用时列读行写更优。展开转置和对角转置是优化策略，而使用瘦块能进一步增加并行性。此外，文章还提及了统一内存对矩阵加法的简化作用，但在某些情况下手动分配内存可能更高效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4.4 核函数可达到的带宽

4.4.1 内存带宽

理论带宽是指能达到的绝对最大带宽，有效带宽是核函数实际达到的带宽，计算方法是：
有效带宽（GB/s） = （读字节数+写字节数）× 10^-9 / 执行时间

4.4.2 矩阵转置问题

对于二维矩阵存在一维数组时，转置代码如下：

for(int iy=0;iy<ny;i++)
	for(int ix=0;ix<nx;i++)
		out[ix*ny+iy]=in[iy*nx+ix];

其中nx和ny时列数和行数。
显然对于读取的时候，是合并访问的，而写入时交叉访问的。
本节剩余部分讲述两种方案，行读列写和列读行写。（上面的代码显然是行读列写的）。

如果禁用一级缓存二者性能一样，如果启用的话列读行写会好，对于读来说一级缓存中可能会保留下几次的数据，而非在全局内存上读取，对于写来说都一样，因为没有一级缓存缓存写操作。

我的理解是关键是线程束是基本操作单元，比如16*16的块来说：

如果是行读的话，一个线程束会先读取行的前32个（第一行和第二行），这种读取是直接全部访问全局内存的，因为这是一个基本操作，所以算是第一次读取，不会去问缓存，在读之后的32个时（第三行和第四行），前面的缓存是没有给到这块的，还需要接着读全局内存。（缓存在第二块的第一行和第二行中）
如果是列读的话，一个线程束读取列的前32个（第一列和第二列），这种情况他的缓存是第一块和第二块全部的数据，之后再读都会命中，相比于读8次全局内存的行读取来说，虽然他快，但是八次的话也会比这种只读了一次后面全都命中缓存的情况慢。

4.4.2.1 为转置核函数设置性能的上限和下限

创建两个拷贝矩阵的核函数来考虑上下限，第一个是行读行写，这个是上限，全是合并访问。第二个是列读列写，是下限，全是交叉访问。
文中给出了其结果，上限是理论带宽的70%，下限是30%。

4.4.2.2 朴素转置：读取行与读取列

就是跟之前的代码类似，换成核函数里即可，是最朴素的方法。
发现结果是列读行写快，原因与前面提到的一样。禁用一级缓存后列读行写就变慢了不少。

4.4.2.3 展开转置：读取行与读取列

所谓展开就是一个线程合并处理原来的多个块内同位置的线程：比如展开因子为4，那么对应的就是第一个线程会处理第一块到第四块中的所有的第一个线程。（当然别忘记对应调整网格大小）
这时候启用一级缓存会发现列读行写会比朴素的快了一点。

4.4.2.4 对角转置：读取行与读取列

SM中的块由于使用时间不同，旧的块用完会被换成新的，时间久了他们就不太连续了。
（谭升博客中讲得理解博主觉得很对，此处的对角转置只不过是一种人为定义的打乱方式，而非硬件决定的，目的是为了使读取更加随机一点，防止全在一个分区内。）
本节新提出了一个坐标方法叫对角坐标系，可以与直角坐标转换

4.4.2.5 使用瘦块增加并行性

就是不用方方正正的块如16*16的，同样的并行程度改为8*32，就会好很多。

4.5 使用统一内存的矩阵加法

统一内存单纯是为了增加可读性和易维护性的，就是一种对复杂分配方式的一种封装，所以最好还是手动分配比较好。

博客等级

码龄5年

20
原创

178
点赞

219
收藏

88
粉丝

关注

私信

热门文章

分类专栏

上一篇：: CUDA学习之第四章：全局内存（三）

下一篇：: CUDA学习之第五章共享内存和常量内存（一）

最新评论

Zama文章之 TFHE深度解析-第一部分-密文形式
CSDN-Ada助手: 非常感谢您的分享，对于TFHE的深度解析让我受益匪浅。希望您能继续坚持创作，分享更多关于TFHE的知识，也期待您能在下一篇博客中加入更多实际案例分析，让读者更好地理解和应用TFHE。祝您创作顺利，期待您的下一篇精彩文章！
Zama文章之同态加密概论
CSDN-Ada助手: 恭喜您撰写了第11篇博客，标题为“Zama文章之同态加密概论”，内容涉及同态加密的概念及应用，非常有深度和价值。希望您能继续保持创作的热情和动力，为我们带来更多深入的技术解析和思考。建议您可以考虑从实际案例出发，结合具体的行业应用场景，为大家呈现更加生动和具体的内容。期待您的下一篇博客！
CUDA学习之第五章共享内存和常量内存（二）
CSDN-Ada助手: 恭喜你写了第10篇博客！标题中提到的共享内存和常量内存，是CUDA学习中非常重要的内容。你的文章给出了第五章的进一步解析，让读者更深入地理解了这两个概念。我觉得你的写作风格很清晰，能够将复杂的概念讲解得易于理解。不过，我想提个建议，希望你能在下一篇博客中加入一些实际的案例或者示例代码，这样读者可以更直观地体验到共享内存和常量内存的优势和应用场景。期待你的更多精彩文章！
CUDA学习之第五章共享内存和常量内存（一）
CSDN-Ada助手: 恭喜您撰写了第9篇博客！标题中提到的共享内存和常量内存是CUDA学习中非常重要的主题之一。通过深入研究和分享这些内容，您不仅加深了自己对CUDA的理解，也帮助了其他人更好地掌握这些概念。下一步，我建议您可以继续探索共享内存和常量内存的更高级用法和优化技巧，比如如何合理分配共享内存和常量内存的大小，以及如何在多个线程块之间共享数据等。此外，您还可以考虑分享一些实际案例，展示共享内存和常量内存在加速GPU计算中的实际效果。再次祝贺您的持续创作，期待您的下一篇博客！
CUDA学习之第四章：全局内存（一）
CSDN-Ada助手: 恭喜您完成第五篇博客！标题看起来很有吸引力，我很期待阅读您关于CUDA学习的系列文章。从全局内存的角度来探索CUDA，这个主题听起来非常有趣。在您的下一篇博客中，或许您可以进一步探讨全局内存的使用技巧，以及与其他内存类型的比较和优化方法。我相信您的深入研究和谦虚态度会使这个系列的文章更加出色。加油！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。