Proj THUDBFuzz Paper Reading: CodeAlchemist: Semantics-Aware Code Generation to Find Vulnerabilities in JS Engines
Abstract
目标: 生成语法语义有效的JS code snippets
工具: CodeAlchemist
算法: semantics-aware assembly
效果: 在JS引擎中找到了很多bugs
1. Intro
P1: js引擎使用广泛
P2: js安全重要
P3: 成功的JS Fuzzing engines:
- LangFuzz
- 方法: 将样本JS文件解析后切分为多个code fragments,然后再重组形成新的test cases。
- 效果:从2011年到成文时至少发现了2.3k个bugs
- jsfunfuzz
- 方法: 从手写的语法文件中生成语义有效的js语句
- 效果: 从2006年到成文时至少发现了2.8k个bugs
P4: 目前js fuzzer存在的缺点:生成的样例语义有效性低
P5: jsfunfuzz缺点:写语法文件本身过于费时
目前jsfunfuzz处理方法:允许一部分语法无效的code snippets出现,将js code snippets放在trycatch block中执行
该解决方案仍然存在着其实没有提升语法有效率的缺点,还可能会改语义,导致一些bugs无法出现。比如CVE-2017-11799
P6: 学习概率文法模型,比如Skyfire和TreeFuzz,仍然存在难以处理复杂的js类型系统,会生成语义无效样例的情况
P7: 本文:提出semantics-aware assembly,关键是把JS种子切分为多个code bricks,每个code bricks上标着若干称为assembly constraints的用于指示当前code brick在什么条件下能与其他code brick结合。
具体的,这些条件会指明每个codebrick中定义和使用了哪些变量(用数据流分析确定的),还会动态确定这些变量的类型。
assembly constraints就是与langfuzz的最大不同。
尽管还是存在语义无效的可能性,codealchemist还是大大增加了语义有效率。
P8:
无需人力实现语法文件,可以从现有种子直接学习。
P9:
实验:
对象:4个引擎:ChakraCore, V8, JavaScriptCore, SpiderMonkey
效果:
- 其中一个上面超过jsfunfuzz 4.7x
- 19 bugs, 11 security bugs