Proj CMI Paper Reading: An Analysis of C/C++ Datasets for Machine Learning-Assisted Software Vulnerability Detection

Abstract

任务:1. 评估7个c/C++数据集对机器学习辅助漏洞检测的实用性 2. 一个名为wild c的新数据集
效果:

  1. wild c包含超过 1030 万个单独的开源 C/C++ 文件,可以合理地认为是典型 C/C++ 代码的代表,所有文件长度和token使用频率的差异与wild c不同
  2. 没有一个数据集包含完整的 C/C++ vocab,所有数据集都包含重复,使数据集容易受到数据泄漏的影响
posted @ 2022-07-28 20:48  雪溯  阅读(29)  评论(0编辑  收藏  举报