RuntimeError: GET was unable to find an engine to execute this computation

原创于 2025-07-11 13:44:55 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #大模型 #pytorch #RuntimeError #bug

简介：在复现 VLM-R1 多模态模型并尝试迁移 GRPO 算法时，我遇到了一个典型的 PyTorch 报错：“GET was unable to find an engine to execute this computation”。本文深入分析了其成因，并分享了 cuDNN 环境配置的实用经验。

💡 背景介绍

在复现 VLM-R1 多模态项目，并尝试将其中的 GRPO 算法应用到自己的任务中时，我严格按照官方文档配置了推荐的 Conda 环境。然而，在运行训练脚本 run_grpo_rec.sh 时却遭遇了一个难以定位的报错：

RuntimeError: GET was unable to find an engine to execute this computation

这个报错没有太多直观信息，因此记录下本次定位与解决的过程，希望对同样复现该项目或使用类似技术栈的你有所帮助。

📋 报错信息分析

完整堆栈如下：

Traceback (most recent call last):
  ...
  File "/data1/vincia/miniconda3/lib/python3.12/site-packages/deepspeed/runtime/zero/stage3.py", line 2259, in backward
    self.loss_scaler.backward(loss.float(), retain_graph=retain_graph)
  File "/data1/vincia/miniconda3/lib/python3.12/site-packages/deepspeed/runtime/fp16/loss_scaler.py", line 63, in backward
    scaled_loss.backward(retain_graph=retain_graph)
  File "/data1/vincia/miniconda3/lib/python3.12/site-packages/torch/_tensor.py", line 522, in backward
    torch.autograd.backward(
  File "/data1/vincia/miniconda3/lib/python3.12/site-packages/torch/autograd/__init__.py", line 266, in backward
    Variable._execution_engine.run_backward( # Calls into the C++ engine to run the backward pass
RuntimeError: GET was unable to find an engine to execute this computation

这个报错是在 loss.backward() 的过程中出现的，由 PyTorch 后端执行引擎抛出，提示找不到可用的计算引擎来完成反向传播操作。

🔍 初步分析：PyTorch 与 CUDA/cuDNN 兼容性问题

通过调研与阅读 GitHub issue，我发现这类问题多半与 PyTorch、CUDA 和 cuDNN 的不匹配有关。尤其是在使用 PyTorch 2.x、torch.compile() 或 Deepspeed、FlashAttention、GRPO 等底层优化组件时，PyTorch 默认会尝试调用底层 GET（Graph Execution Tracing）引擎进行优化加速，但该引擎依赖底层的 CUDA runtime 与 cuDNN 支持库。

常见的触发场景包括：

安装了 nvidia-cudnn-cu12 但系统中实际 CUDA 是 11.x；
使用 pip install torch 或 conda install pytorch 时未明确指定 CUDA 版本；
系统中多个 CUDA 版本并存，且未正确设置默认路径；
PyTorch 编译支持的新特性（如 memory-efficient attention、torch.compile）在环境中未激活/不兼容。

✅ 解决方案：正确配置 CUDA 与 cuDNN 环境变量

✅ 通过环境变量显式指定使用的 CUDA 版本

在 .bashrc 或当前终端中添加如下环境变量（请将 12.1 替换为你实际安装的版本）：

export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

✅ 原理说明

这些环境变量的作用如下：

PATH：指定可执行文件查找路径，确保运行的 nvcc 等命令来自指定 CUDA 版本；
LD_LIBRARY_PATH：指定动态链接库查找路径，确保 PyTorch 在运行时加载的是正确的 libcudart.so、libcudnn.so 等底层库文件。

如果系统中存在多个 CUDA 安装目录，未设置这些路径可能导致 PyTorch 加载到错误版本的库，从而出现执行引擎无法初始化的问题。

🔧 项目相关环境（供参考）

Python 版本：3.12
PyTorch：2.2.0
CUDA：12.1
cuDNN：8.9
加速组件：Deepspeed, FlashAttention-2, GRPO（VLM-R1 中间件）

📌 总结

这次的 Debug 经历说明了在复现多模态大模型项目时，软硬件环境的一致性至关重要。尤其是像 VLM-R1 这样高度依赖底层加速库的项目，稍有版本不匹配就可能导致底层执行报错。

👣 如果你也遇到类似的问题，不妨按以下思路排查：

检查 PyTorch 与 CUDA/cuDNN 的兼容版本；
设置正确的环境变量；
使用 Conda 管理单一环境，避免 pip/apt 与系统环境冲突；
考虑降级 PyTorch 或避免使用 torch.compile 等前沿功能做对比实验。

📬 如果你也在复现类似的视觉语言模型（VLM）项目，或者对 GRPO / Deepspeed 的优化原理感兴趣，欢迎留言交流！