CodeQL学习笔记(4)-CodeQL for Java(程序元素)

最近在学习CodeQL,对于CodeQL就不介绍了,目前网上一搜一大把。本系列是学习CodeQL的个人学习笔记,根据个人知识库笔记修改整理而来的,分享出来共同学习。个人觉得QL的语法比较反人类,至少与目前主流的这些OOP语言相比,还是有一定难度的。与现在网上的大多数所谓CodeQL教程不同,本系列基于官方文档情景实例,包含大量的个人理解、思考和延伸,直入主题,只切要害,几乎没有废话,并且坚持用从每一个实例中学习总结归纳,再到实例中验证。希望能给各位一点不一样的见解和思路。当然,也正是如此必定会包含一定的错误,希望各位大佬能在评论区留言指正。

CodeQL学习笔记(1)

CodeQL学习笔记(2)

CodeQL学习笔记(3)


CodeQL for Java

在了解一些理论性很强的内容之前,我们需要对整个知识体系有一个宏观的概念和一定的理解,后面学习的内容才会不容易迷茫,才不会不知道自己在干什么、学什么、目的是什么、有什么用。下面根据我的理解把CodeQL的逻辑和操作过程简单的描绘出来。

简单来说,我们的程序代码是由逐层嵌套而成的,例如各个package包、类、方法、表达式、变量等,这些都被称作为代码元素。而CodeQL借助了树的概念,创建了自己的一套“抽象语法树AST”概念。在这个概念体系中,它把源代码的每一个代码元素部分全部打散,按照源代码中的嵌套结构逐层形成一个树,顶层节点通常是整个代码文件(即CompilationUnit),然后按照嵌套结构逐层展开,从package到class,从class到method,逐层深入,生成了一棵自顶向下的分层结构的树,而每一个子节点就表示package、class、method、variable等代码元素,这些子节点的代码元素类型体现为整个节点的节点类型。

而对于打散源代码后生成的AST来说,使用Java原本的一些元素定义已经不再合适,因此CodeQL提供了一套类库来表示各种节点的节点类型,即对应java源码的各种元素类型。我们使用这些codeql类库去查询AST中的对应节点的对应信息。

下面给出某个Java demo的AST语法树结构

image-20241104145920869

在学习完一定的内容之后发现CodeQL最难的地方是在QL for java的类库,要去根据相应的源码写出逐步匹配的过程,而在这个过程中的QL类库又非常多,较为杂乱,需要去记Java中每一种类型的数据元素对应的QL类库,这是一个相当痛苦的过程,并且这些类库也有自己的继承、包含关系,要想掌握难度很大。

基本结构

这一部分不要求对每一个方法、每一个用法都了解,只是简单的看一下整个的流程。下面用一个简单的例子跑通全流程来整体理解,只要看一个思路就可以。导入官方数据库进行测试,vscode -- shift+command+p:Quick Query

from MethodAccess ma
where
    ma.getMethod().hasName("equals") and
    ma.getArgument(0).(StringLiteral).getValue() = ""
select ma, "This comparison to empty string is inefficient, use isEmpty() instead."
语句 目的 细节
import java 导入CodeQL支持的标准库 每一条查询开头都会导入至少一条
from MethodCall ma 定义一个变量 使用MethodCall 变量来查找表达式
where ma.getMethod().hasName("equals") and ma.getArgument(0).(StringLiteral).getValue() = "" 约束变量,设定条件进行查找 ma.getMethod().hasName("equals")限制ma去查找叫做equals的方法。 ma.getArgument(0).(StringLiteral).getValue() = ""表示参数必须是空值。
select ma, "This comparison to empty string is inefficient, use isEmpty() instead." 按照格式输出查找结果select <program element>, "<alert message>" 输出存在问题的地方

整个的这段代码的目的是查找java中haha.equals("")的部分,因为这个用法不推荐使用,更建议用haha.isEmpty()来代替

写codeql的思维是一种迭代过程,通过比较初级的语句去定位查询到一个比较大的目标,然后根据查询出来的结果再去写一些限制条件来缩减范围,达到更精确地定位到目标的效果。

例如在上面这个例子中,事实上只有当String类型的变量去调用.equals方法才会出现问题,而我们查询出来的结果当中包含着各种类型的变量,我们需要把除了String类型的变量进行排除筛选,因此需要修改代码新增一条匹配规则:

ma.getQualifier().getType() instanceof TypeString and

目的是让找到的目标是String类型

CodeQL库

最重要的是以下五类,下面也只介绍这五类中分别最重要的内容:

  1. 表示程序元素(例如类和方法)的类
  2. 表示 AST 节点(例如语句和表达式)的类
  3. 表示元数据(例如注释和评论)的类
  4. 计算度量的类(例如圈复杂度和耦合)
  5. 浏览程序调用图的类

1. 程序元素

// CodeQL提供的类库
Element
├── Package                    对应java中的包package
├── CompilationUnit            对应java中的编译单元,通常指一个Java源文件
├── Type                       对应Java中的类型
├── Method                     对应Java中的方法
├── Constructor                对应Java中的构造函数
└── Variable                   对应Java中的变量

这些类库用来表示Java中对应的代码元素,但是各个类库之间在继承关系上有一定重合(例如某两个库继承自同一个父类),但是在逻辑表达上不重合,例如Method和Constructor拥有公共父类Callable。

下面重点讲一下其中的Type类库。

Type

PrimitiveType和Reftype是Type的子类

  • PrimitiveType:基础类型,包含java中的boolean, byte, char, double, float, int, long, short,此外在QL中也可以表示java中的void和null
  • RefType:引用类型(非基础类型)
    • Class:Java类
    • Interface:Java接口
    • EnumType:枚举
    • Array:Java数组
    • TopLevelType/TopLevelClass:编译单元顶层声明的类型/类,Type中包含Class;Type可以是类、接口、枚举、注解
    • NestedType/NestedClass:嵌套在另一种类型中的类型/类
      • NestedClass分为LocalClass和AnonymousCLass,分别表示声明在方法或构造函数中的类和匿名类

看下面几个例子

import java

from Variable v, PrimitiveType pt
where v.getType() = pt and
    pt.hasName("int")
select v

Variable v表示取出所有的变量,PrimitiveType pt表示定义一个基础类型,v.getType() = pt表示把所有变量各自的类型是什么赋给pt,然后从中选出int类型

import java

from TopLevelType tl
where tl.getName() != tl.getCompilationUnit().getName()
select tl

tl.getName() 获取的是类型 tl 的名称。tl.getCompilationUnit().getName()获取包含该类型的编译单元(通常是 Java 文件)的名称。

import java

from NestedClass nc
where nc.getASupertype() instanceof TypeObject
select nc

从 NestedClass 中选择一个实例,取名为 nc,即表示查询将专注于嵌套类,然后判断 nc 的某个父类型是否是 TypeObject 类型的实例

Generics(泛型)

泛型类型定义

在 Java 中,泛型类型(GenericType)可以是泛型接口(GenericInterface)或泛型类(GenericClass)

GenericType
├── GenericInterface     泛型接口
└── GenericClass         泛型类

对于如下java源码

public interface Map<K, V> {
    int size();
    // ...
}

在这个例子中,K和V是类型参数,是通过TypeVariable类来表示的。所以要想匹配K和V就要用from TypeVariable tv来匹配

泛型类型实例化

当给泛型类型提供具体的类型参数时(比如 Map<String, File>),我们称之为“参数化类型”(ParameterizedType)。这个 ParameterizedType 是一个具体的实例,与原始的泛型类型(GenericType)不同。

要从参数化类型回到对应的泛型类型,可以使用 getSourceDeclaration 谓词。例如,我们可以写一个查询来查找所有 java.util.Map 的参数化实例:

import java

from GenericInterface map, ParameterizedType pt
where map.hasQualifiedName("java.util", "Map") and
    pt.getSourceDeclaration() = map
select pt
  1. hasQualifiedName方法用于找到java.util.Map的所有实例
  2. getSourceDeclaration 在这里具体的效果是帮助我们从参数化类型(ParameterizedType)、通配符类型(WildcardTypeAccess)或原始类型(RawType)获取它们对应的泛型类型(GenericType)。也就是说,如果我们有一个具体的泛型实例,比如 Map<String, File>,使用 getSourceDeclaration 可以回到它的泛型类型声明 Map<K, V>。
泛型的类型边界

再例如下列java源码

class StringToNumMap<N extends Number> implements Map<String, N> {
    // ...
}

这里N的类型被限制为Number或Number的子类,称N为“有边界的类型函数”,Number是上限。codeql中可以用getATypeBound谓词查询类型参数的边界。

下列codeql代码能查找到所有类型边界为Number的类型变量

import java

from TypeVariable tv, TypeBound tb
where tb = tv.getATypeBound() and
    tb.getType().hasQualifiedName("java.lang", "Number")
select tv
  1. TypeVariable tv对应java中Map<K,V>中的K和V。getATypeBound()用于获取tv的类型边界

  2. getType()用于返回边界的具体类型

  3. hasQualifiedName用于判断返回类型是否属于java.lang.Number。

整体思路就是:先找到<>中的variable变量,然后通过它们获取到TypeBound边界,然后判断这个边界是否是Number

泛型的原始类型RawType

再看下面这段java源码

Map m1 = new HashMap();
Map<String, String> m2 = new HashMap<String, String>();

用下列ql语句:

import java

from Variable v, RawType rt
where rt = v.getType() and
    rt.getSourceDeclaration().hasQualifiedName("java.util", "Map")
select v

整体思路:拿到所有变量,取出其中类型为原始类型Raw的,然后拿他的通用类型(getSourceDeclaration方法),再判断是否叫做java.util.Map。

v是匹配变量m1和m2,然后通过getType()获取到变量类型(实例),分别对应为Map和Map<String, String>,(在当前这个具体的例子中要筛选类型为Raw原始类型的,因此后面一个被排除,因为他是ParameterizedType参数化类型),再通过getSourceDeclaration()方法获取到这些变量类型的类型源Map和Map<K, V>,最后通过hasQualifiedName方法判断是否是Map方法

上述这段代码只匹配原始类型m1,而不会匹配m2

通配符类型
Map<? extends Number, ? super Float> m;

? extends Number 表示一个上限为 Number 的通配符,而 ? super Float 表示一个下限为 Float 的通配符

在 CodeQL 中,用 WildcardTypeAccess类来表示通配符类型,可以用getUpperBound和 getLowerBound来分别获取上限和下限。

变量

  • Field表示一个 Java 字段。
  • LocalVariableDecl表示局部变量。
  • Parameter表示方法或者构造函数的参数。
posted @ 2024-11-06 15:57  xzajyjs  阅读(10)  评论(0编辑  收藏  举报