并行计算
文章平均质量分 94
疯狂的码泰君
代码不是信仰,又有什么可以成为信仰呢!哦,还有鲁能泰山!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
理解GPU架构:基础与关键概念
本文概述了GPU的基础架构及其在AI与高性能计算中的核心作用。CPU与GPU的关键区别在于CPU擅长顺序处理,而GPU专为大规模并行计算设计。GPU拥有复杂的内存层次结构(SRAM缓存、DRAM显存和HBM高性能内存),优化数据传输对性能至关重要。Streaming Multiprocessors(SMs)是GPU的基本处理单元,包含多个核心,按warp(32/64核心组)执行指令。为优化性能,需减少内存传输、提高并行度,并使工作负载尺寸匹配warp大小。理解这些机制有助于充分发挥GPU在AI、渲染等任务中原创 2025-08-15 11:01:37 · 711 阅读 · 0 评论 -
快速掌握 Triton:Python 化的高性能 GPU 编程语言
Triton是OpenAI开源的高性能Python化GPU编程语言,它让开发者能快速编写接近CUDA性能的GPU内核代码。本文介绍了Triton的基本用法和核心优势: Triton通过@triton.jit装饰器定义GPU内核,使用类似NumPy的编程方式,自动处理内存合并、共享内存管理等优化,只需25行代码就能实现与cuBLAS相当的性能。 文章通过向量加法示例展示了Triton编程模型:使用SPMD(单程序多数据)模式,通过程序ID和块大小计算偏移量,利用mask处理边界条件,实现高效的向量化内存访问。原创 2025-08-15 10:57:45 · 935 阅读 · 0 评论 -
从Triton入门:一步步教程
Triton是一个开源的GPU编程语言和编译器,旨在简化AI和深度学习中的高性能GPU代码编写。本教程介绍Triton的核心功能、安装方法及使用场景。Triton通过Python抽象GPU编程复杂度,自动优化内存访问和线程调度,性能接近专家级CUDA代码,同时提高开发效率。安装部分详细说明Linux(官方支持)、Windows(通过WSL2)和macOS(实验性支持)的配置方法。Triton特别适合需要定制GPU内核的AI研究者,填补了高级框架与底层CUDA之间的空白,是AI加速领域的重要工具。原创 2025-08-15 10:52:47 · 627 阅读 · 0 评论 -
CUDA 入门教程(GPT优化版)
CUDA编程学习路径与核心概念摘要 本学习路径系统介绍了CUDA编程的入门与进阶方法: 环境搭建:安装CUDA Toolkit,配置VS或VS Code开发环境 核心概念:掌握线程层级(thread→block→grid)、主机-设备协作流程(内存分配→数据传输→kernel调用→结果回传) 实战练习:从向量加法等基础运算逐步过渡到共享内存优化、Tensor Core应用 性能调优:使用Nsight工具分析性能,采用分阶段优化策略 高级应用:PyTorch扩展、CUTLASS库等优化方案 关键编程抽象包括:原创 2025-08-14 10:12:23 · 1029 阅读 · 0 评论 -
Parallel Computing - 一文讲懂并行计算
在本章中,我们将回顾一些有关并行计算的概念。但更加强调 GPU。原创 2024-03-02 10:58:57 · 2771 阅读 · 0 评论
分享