论文来源:ICLR-2021
论文链接:https://arxiv.org/abs/2009.08366(看时间,应该是2020发在了arxiv上,2021被ICLR录用)
⭐主要贡献:
可以说是在CodeBERT的基础上引入了结构信息和两个新的预训练任务。
- 1.提出了GraphCodeBERT,是第一个利用了代码语义结构信息来学习代码特征表示的预训练模型。(通过data flow来获得语义结构信息而不是AST)
- 2.除了MLM预训练任务,还引入了2个新的能够从source code和data flow中学习代码表示的跟代码结构相关的预训练任务。
- 3.GraphCodeBERT在4个下游任务上达到了SOTA的性能,同时证明了代码结构信息的引入和2个新的预训练任务的引入能够改善模型的性能。
- 注: 4个下游任务如下:
1.code search
2.clone detection
3.code translation
4.code refinement
参考下面2篇文章