CodeQL学习笔记(4)-CodeQL for Java(程序元素)
最近在学习CodeQL,对于CodeQL就不介绍了,目前网上一搜一大把。本系列是学习CodeQL的个人学习笔记,根据个人知识库笔记修改整理而来的,分享出来共同学习。个人觉得QL的语法比较反人类,至少与目前主流的这些OOP语言相比,还是有一定难度的。与现在网上的大多数所谓CodeQL教程不同,本系列基于官方文档和情景实例,包含大量的个人理解、思考和延伸,直入主题,只切要害,几乎没有废话,并且坚持用从每一个实例中学习总结归纳,再到实例中验证。希望能给各位一点不一样的见解和思路。当然,也正是如此必定会包含一定的错误,希望各位大佬能在评论区留言指正。
CodeQL for Java
在了解一些理论性很强的内容之前,我们需要对整个知识体系有一个宏观的概念和一定的理解,后面学习的内容才会不容易迷茫,才不会不知道自己在干什么、学什么、目的是什么、有什么用。下面根据我的理解把CodeQL的逻辑和操作过程简单的描绘出来。
简单来说,我们的程序代码是由逐层嵌套而成的,例如各个package包、类、方法、表达式、变量等,这些都被称作为代码元素。而CodeQL借助了树的概念,创建了自己的一套“抽象语法树AST”概念。在这个概念体系中,它把源代码的每一个代码元素部分全部打散,按照源代码中的嵌套结构逐层形成一个树,顶层节点通常是整个代码文件(即CompilationUnit),然后按照嵌套结构逐层展开,从package到class,从class到method,逐层深入,生成了一棵自顶向下的分层结构的树,而每一个子节点就表示package、class、method、variable等代码元素,这些子节点的代码元素类型体现为整个节点的节点类型。
而对于打散源代码后生成的AST来说,使用Java原本的一些元素定义已经不再合适,因此CodeQL提供了一套类库来表示各种节点的节点类型,即对应java源码的各种元素类型。我们使用这些codeql类库去查询AST中的对应节点的对应信息。
下面给出某个Java demo的AST语法树结构
在学习完一定的内容之后发现CodeQL最难的地方是在QL for java的类库,要去根据相应的源码写出逐步匹配的过程,而在这个过程中的QL类库又非常多,较为杂乱,需要去记Java中每一种类型的数据元素对应的QL类库,这是一个相当痛苦的过程,并且这些类库也有自己的继承、包含关系,要想掌握难度很大。
基本结构
这一部分不要求对每一个方法、每一个用法都了解,只是简单的看一下整个的流程。下面用一个简单的例子跑通全流程来整体理解,只要看一个思路就可以。导入官方数据库进行测试,vscode -- shift+command+p:Quick Query
from MethodAccess ma
where
ma.getMethod().hasName("equals") and
ma.getArgument(0).(StringLiteral).getValue() = ""
select ma, "This comparison to empty string is inefficient, use isEmpty() instead."
语句 | 目的 | 细节 |
---|---|---|
import java |
导入CodeQL支持的标准库 | 每一条查询开头都会导入至少一条 |
from MethodCall ma |
定义一个变量 | 使用MethodCall 变量来查找表达式 |
where ma.getMethod().hasName("equals") and ma.getArgument(0).(StringLiteral).getValue() = "" |
约束变量,设定条件进行查找 | ma.getMethod().hasName("equals") 限制ma去查找叫做equals的方法。 ma.getArgument(0).(StringLiteral).getValue() = "" 表示参数必须是空值。 |
select ma, "This comparison to empty string is inefficient, use isEmpty() instead." |
按照格式输出查找结果select <program element>, "<alert message>" |
输出存在问题的地方 |
整个的这段代码的目的是查找java中
haha.equals("")
的部分,因为这个用法不推荐使用,更建议用haha.isEmpty()
来代替
写codeql的思维是一种迭代过程,通过比较初级的语句去定位查询到一个比较大的目标,然后根据查询出来的结果再去写一些限制条件来缩减范围,达到更精确地定位到目标的效果。
例如在上面这个例子中,事实上只有当String类型的变量去调用.equals方法才会出现问题,而我们查询出来的结果当中包含着各种类型的变量,我们需要把除了String类型的变量进行排除筛选,因此需要修改代码新增一条匹配规则:
ma.getQualifier().getType() instanceof TypeString and
目的是让找到的目标是String类型
CodeQL库
最重要的是以下五类,下面也只介绍这五类中分别最重要的内容:
- 表示程序元素(例如类和方法)的类
- 表示 AST 节点(例如语句和表达式)的类
- 表示元数据(例如注释和评论)的类
- 计算度量的类(例如圈复杂度和耦合)
- 浏览程序调用图的类
1. 程序元素
// CodeQL提供的类库
Element
├── Package 对应java中的包package
├── CompilationUnit 对应java中的编译单元,通常指一个Java源文件
├── Type 对应Java中的类型
├── Method 对应Java中的方法
├── Constructor 对应Java中的构造函数
└── Variable 对应Java中的变量
这些类库用来表示Java中对应的代码元素,但是各个类库之间在继承关系上有一定重合(例如某两个库继承自同一个父类),但是在逻辑表达上不重合,例如Method和Constructor拥有公共父类Callable。
下面重点讲一下其中的Type类库。
Type
PrimitiveType和Reftype是Type的子类
- PrimitiveType:基础类型,包含java中的boolean, byte, char, double, float, int, long, short,此外在QL中也可以表示java中的void和null
- RefType:引用类型(非基础类型)
- Class:Java类
- Interface:Java接口
- EnumType:枚举
- Array:Java数组
- TopLevelType/TopLevelClass:编译单元顶层声明的类型/类,Type中包含Class;Type可以是类、接口、枚举、注解
- NestedType/NestedClass:嵌套在另一种类型中的类型/类
- NestedClass分为LocalClass和AnonymousCLass,分别表示声明在方法或构造函数中的类和匿名类
看下面几个例子
import java
from Variable v, PrimitiveType pt
where v.getType() = pt and
pt.hasName("int")
select v
Variable v表示取出所有的变量,PrimitiveType pt表示定义一个基础类型,v.getType() = pt表示把所有变量各自的类型是什么赋给pt,然后从中选出int类型
import java
from TopLevelType tl
where tl.getName() != tl.getCompilationUnit().getName()
select tl
tl.getName() 获取的是类型 tl 的名称。tl.getCompilationUnit().getName()获取包含该类型的编译单元(通常是 Java 文件)的名称。
import java
from NestedClass nc
where nc.getASupertype() instanceof TypeObject
select nc
从 NestedClass 中选择一个实例,取名为 nc,即表示查询将专注于嵌套类,然后判断 nc 的某个父类型是否是 TypeObject 类型的实例
Generics(泛型)
泛型类型定义
在 Java 中,泛型类型(GenericType)可以是泛型接口(GenericInterface)或泛型类(GenericClass)
GenericType
├── GenericInterface 泛型接口
└── GenericClass 泛型类
对于如下java源码
public interface Map<K, V> {
int size();
// ...
}
在这个例子中,K和V是类型参数,是通过TypeVariable类来表示的。所以要想匹配K和V就要用from TypeVariable tv来匹配
泛型类型实例化
当给泛型类型提供具体的类型参数时(比如 Map<String, File>),我们称之为“参数化类型”(ParameterizedType)。这个 ParameterizedType 是一个具体的实例,与原始的泛型类型(GenericType)不同。
要从参数化类型回到对应的泛型类型,可以使用 getSourceDeclaration 谓词。例如,我们可以写一个查询来查找所有 java.util.Map 的参数化实例:
import java
from GenericInterface map, ParameterizedType pt
where map.hasQualifiedName("java.util", "Map") and
pt.getSourceDeclaration() = map
select pt
- hasQualifiedName方法用于找到java.util.Map的所有实例
- getSourceDeclaration 在这里具体的效果是帮助我们从参数化类型(ParameterizedType)、通配符类型(WildcardTypeAccess)或原始类型(RawType)获取它们对应的泛型类型(GenericType)。也就是说,如果我们有一个具体的泛型实例,比如 Map<String, File>,使用 getSourceDeclaration 可以回到它的泛型类型声明 Map<K, V>。
泛型的类型边界
再例如下列java源码
class StringToNumMap<N extends Number> implements Map<String, N> {
// ...
}
这里N的类型被限制为Number或Number的子类,称N为“有边界的类型函数”,Number是上限。codeql中可以用getATypeBound谓词查询类型参数的边界。
下列codeql代码能查找到所有类型边界为Number的类型变量
import java
from TypeVariable tv, TypeBound tb
where tb = tv.getATypeBound() and
tb.getType().hasQualifiedName("java.lang", "Number")
select tv
TypeVariable tv对应java中Map<K,V>中的K和V。getATypeBound()用于获取tv的类型边界
getType()用于返回边界的具体类型
hasQualifiedName用于判断返回类型是否属于java.lang.Number。
整体思路就是:先找到<>中的variable变量,然后通过它们获取到TypeBound边界,然后判断这个边界是否是Number
泛型的原始类型RawType
再看下面这段java源码
Map m1 = new HashMap();
Map<String, String> m2 = new HashMap<String, String>();
用下列ql语句:
import java
from Variable v, RawType rt
where rt = v.getType() and
rt.getSourceDeclaration().hasQualifiedName("java.util", "Map")
select v
整体思路:拿到所有变量,取出其中类型为原始类型Raw的,然后拿他的通用类型(getSourceDeclaration方法),再判断是否叫做java.util.Map。
v是匹配变量m1和m2,然后通过getType()获取到变量类型(实例),分别对应为Map和Map<String, String>,(在当前这个具体的例子中要筛选类型为Raw原始类型的,因此后面一个被排除,因为他是ParameterizedType参数化类型),再通过getSourceDeclaration()方法获取到这些变量类型的类型源Map和Map<K, V>,最后通过hasQualifiedName方法判断是否是Map方法
上述这段代码只匹配原始类型m1,而不会匹配m2
通配符类型
Map<? extends Number, ? super Float> m;
? extends Number 表示一个上限为 Number 的通配符,而 ? super Float 表示一个下限为 Float 的通配符
在 CodeQL 中,用 WildcardTypeAccess类来表示通配符类型,可以用getUpperBound和 getLowerBound来分别获取上限和下限。
变量
- Field表示一个 Java 字段。
- LocalVariableDecl表示局部变量。
- Parameter表示方法或者构造函数的参数。