
大模型推理引擎
文章平均质量分 91
MindShare AGI
点亮智慧,照亮未来! (Illuminating Intelligence, Lighting the Future)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
详细分析大语言模型attention的计算复杂度,从数学角度分析
下面以**单层多头自注意力(Multi-Head Self-Attention, MHA)**为基准,分别给出时间/空间复杂度、精确到常数的 FLOPs 估算、训练与推理(含 KV Cache)阶段的差异,以及若干改进/近似注意力的复杂度对比与直觉化解释。原创 2025-08-22 09:41:18 · 568 阅读 · 0 评论 -
pytorch 生成Triton代码之后流程详解
性能(Specialization):JIT 允许 Inductor 和 Triton 生成为运行时具体张量形状量身定制的、高度优化的代码。这是 AOT(Ahead-of-Time,提前编译)很难做到的。灵活性(Dynamism):它完美地契合了 PyTorch 的动态特性。你不需要提前声明所有可能的输入形状,系统会在运行时按需、自动地处理。原创 2025-08-12 12:39:00 · 498 阅读 · 0 评论 -
TorchInductor 本质详解
TorchInductor是PyTorch 2.0的核心编译后端,负责将Dynamo捕获的计算图转换为高性能代码。它通过降维技术将PyTorch操作转换为循环级中间表示,实现算子融合和内存优化,大幅减少内核启动开销和内存带宽瓶颈。TorchInductor采用四步编译流程:图降维、调度融合、内存规划和代码生成,支持Triton(GPU)和C++/OpenMP(CPU)。其Pythonic特性支持即时编译和缓存,结合Triton的强大能力,成为PyTorch 2.0高性能的关键组件,与Dynamo共同提升模型原创 2025-08-12 12:37:08 · 777 阅读 · 0 评论 -
pytorch Dynamo本质详解
PyTorch Dynamo是PyTorch 2.0的核心创新,解决了动态图灵活性与静态图性能难以兼得的问题。它通过Python字节码拦截技术,将PyTorch操作安全捕获为计算图,同时利用"图中断"机制处理不支持的Python特性,确保程序正确性。作为编译栈前端,Dynamo与TorchInductor后端配合,实现算子融合等深度优化,显著提升性能。其核心优势在于保持Python原生灵活性的同时,通过编译技术达到接近静态图的执行效率,仅需一行torch.compile()即可获得加速。原创 2025-08-12 12:34:27 · 809 阅读 · 0 评论 -
cudagraph 本质详解
CUDA Graph通过将传统CUDA Stream的动态命令流模式转变为静态工作图模式,从根本上解决了CPU开销过大的问题。其核心思想是分离定义与执行:在捕获阶段记录整个工作流(核函数、内存拷贝等)形成有向无环图(cudaGraph_t),实例化时进行全局优化生成可执行图(cudaGraphExec_t),后续只需轻量级的cudaGraphLaunch()即可重复执行整个工作流。相比传统方式,CUDA Graph显著降低了CPU开销,支持全局优化,特别适合重复性、结构固定的计算任务(如AI推理)。这种&q原创 2025-08-08 18:05:17 · 780 阅读 · 0 评论