Proj CMI Paper Reading: An Analysis of C/C++ Datasets for Machine Learning-Assisted Software Vulnerability Detection
Abstract
任务:1. 评估7个c/C++数据集对机器学习辅助漏洞检测的实用性 2. 一个名为wild c的新数据集
效果:
- wild c包含超过 1030 万个单独的开源 C/C++ 文件,可以合理地认为是典型 C/C++ 代码的代表,所有文件长度和token使用频率的差异与wild c不同
- 没有一个数据集包含完整的 C/C++ vocab,所有数据集都包含重复,使数据集容易受到数据泄漏的影响