Smart Contracts的数据集范式:Vulnerability Detection in Smart Contracts with Deep Learning
参考文献:
VSCL: Automating Vulnerability Detection in Smart Contracts with Deep Learning
数据集范式:
1. smart contract collection
传统数据爬取方法,略
2. Label
参考已有方法利用Oyente, Mythril 和Vandal进行数据集标注,many existing approaches[13], [24], [16] use them as the benchmark。
3. determination and datasets
标注结果选择问题:
1) 各检测工具无法达成一致,各工具对相同代码的标记差异较大
2)各工具对漏洞的定义不一致
三个检测工具的结构如下图所示:其中重叠部分较少
解决方法:构建2个数据集 Majority dataset 和 Union dataset
Majority dataset:至少2个工具检测出漏洞,该合约才会被标记(上图ABCD部分为标记数据)
Union dataset:只要1个工具检测出,就被标记