浅谈基于深度学习的漏洞检测

Thoughtworks思特沃克中国

于 2023-04-06 10:44:50 发布

阅读量997

点赞数

CC 4.0 BY-SA版权

分类专栏：新兴技术技术雷达文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/toafu/article/details/129984358

本文探讨了深度学习在源代码静态漏洞检测中的应用，包括如何将源代码向量化，如词嵌入、AST转图和代码度量方法，并介绍了LSTM、CNN和GNN等神经网络在特征学习中的作用。尽管该领域仍处于初级阶段，但有着广阔的研究和应用前景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

这几天爆火的ChatGPT到处刷屏，又是写诗又是刷leetcode，加上之前打败柯洁和李世乭的AlphaGo，以及在TI上打败人类职业DOTA选手的OpenAI Five，让我们不禁反思，会主动不通过图灵测试的人工智能什么时候会诞生？

2018年华中科大的邹德清教授课题组第一次提出了使用深度学习进行漏洞检测，算是敲开了基于深度学习的漏洞检测领域的大门，自此各种新的方法被全世界的研究者们提了出来。

那么我们最关心的问题也随之被提了出来：深度学习是怎么识别并检测漏洞的？

安全领域中深度学习的现状

软件安全关乎到未来软件行业市场发展，依据目前的挑战和机遇，应制定多层次、多维度、多方位的信息安全策略，提高信息安全保障水平。因此，在严峻的安全形势下，研究安全自主可控的软件安全漏洞检测技术是大势所趋。

深度学习在图像处理、视频实体识别、自然语言处理等领域中已经取得了长足的发展和突出的成果，这自然驱使着安全研究员们将神经网络引入到安全领域中。

区别于相对成熟的CV、NLP等领域，面向源代码的漏洞检测目前没有与之非常契合的神经网络进行特征抽取或表征学习。那么退而求其次，能不能寻找一种合适的源代码表征方式使得现有的、成熟的神经网络来找找漏洞呢？

答案是可以的。

——注：本篇只讨论面向源代码的静态漏洞检测。

基于深度学习的漏洞检测方法论

其他领域中的特征表征方式

利用深度学习的关键步骤之一是需要神经网络能够学习到所输入源代码的特征。在图像识别中，作为输入数据的图像可以以灰度的形式被神经网络所接受。

以手写字识别为例。

该图像为28*28像素的灰度图，每个像素点上的灰度即为我们要输入到神经网络中对应神经元的值，称为activation。这些灰度值通过flatten和concat成为包含784个属性值的向量后，在神经网络中逐层计算传递，最终会激活输出层对应的神经元从而达到识别手写字的目的。

或者以NLP中情感识别为例。

考虑句子

“I am so annoyed”，

将其进行分词变为

“I”, “am”, “so”, “annoyed”,

然后将文本或单词映射到实数向量(embedding)。如词袋(BOW)，通过预定义的字典统计句子中的词汇，0表示该词汇不存在于字典中，1表示存在于字典中。如预定义的字典中包括

”happy”, “sad”, “annoyed”, “pissed”, “very”, “little”, “so”,

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。