南京大学静态软件分析（static program analyzes）-- Pointer Analysis Context Sensitive 学习笔记

一、Introduction（Example）

首先用一个例子直观地说明上下文不敏感分析的问题所在

以上例子中，程序在实际执行时，i的值是1；而使用之前的PTA算法中，由于id函数的返回值n可能流向x和y，而o1和o2都可能流向n，导致i的分析结果为{1,2}（常量分析的NAC），因此产生误报。

久其本质，是因为上下文不敏感时，不同的callsite调用同一个方法时，会将它们聚合起来，导致误报。

上下文敏感是如何解决过度传递导致的误报问题的？

在上下文敏感分析中，在PTA中是对传入的参数进行区别。每出现一个新的上下文调用点，就clone一个相应的变量并标记（行数:变量名）。

二、Introduction（Theory）

C.I.(Context Insensitive)

是什么原因导致了上下文不敏感分析的低精度？

在动态执行时，对同一个函数的不同调用，往往有着不同的调用上下文（calling contexts），如上一小节的例子中两次对id的调用。
不同的调用上下文会被混合并传播，进而形成假的数据流。如上一小节的例子中指针x和y指向两个目标。

C.S.(Context Sensitive)

上下文敏感分析通过区分不同调用上下文的数据流，对调用上下文建模。

The oldest and best-known context sensitivity strategy is call-site sensitivity (call-string), Which represents each context of a
method as a chain of call sites, i.e.,

a call site of the method,
a call site of the caller,
a call site of caller of caller, etc.

(abstract call stacks in dynamic execution)

举个例子，在这一段代码中，对id调用的上下文就是两行call-site，记为[1]和[2]：

进而，我们可以通过对同一函数的不同调用添加标号进行区分，而得到更精确的PFG。

Cloning-Based Context Sensitivity

The most straightforward approach to implement context sensitivity.

Context-Sensitive Heap

面向对象程序（如Java）会频繁修改堆对象，称为heap-intensive（堆密集）。

如果不采用上下文敏感的堆抽象，在处理New语句时，不同上下文创建的对象无法区分（因为每个New语句只对应一个抽象）。堆抽象指对创建对象的抽象。此外，为了进一步提高精度，还需要对堆抽象（对象）添加上下文。

以下面代码举一个例子，

不做标记时，第八行new出来的对象无法区分，只能同一记作

通过对heap进行上下文敏感标记后，可以分别记为和

此外，需要注意的是，上下文敏感和堆敏感要同时使用，才能保证精度，如果仅仅采用堆敏感而不采用上下文敏感，则无法提高精度，

三、Context Sensitive Pointer Analysis: Rules

Domains and Notations

Domain中，methods/variables/objects都升级为带有上下文标识的。

引入C表示所有的上下文组成的集合
c表示具体的某个上下文

值得一提的是，fields不需要带有上下文标记，因为field总是依赖于某一个object。只要object被标记进而通过上下文可被区分了，fields自然也可以被区分。

Rules

Rule: New

Rule: Assign

Rule: Store

Rule: Load

Rule: Call

相比上下文不敏感的PTA分析，对象被增加了上下文标识，

同时，上下文敏感分析增加了一个select函数，它的作用是为object添加上下文标识，例如：

为参数添加上下文标识：

为返回值添加上下文标识：

可以看到，上下文的信息是在处理调用时添加的。

四、Context Sensitive Pointer Analysis: Algorithms

Idea

和context-insensitive pointer analysis相比，除了PFG做了相应改进之外，算法的总体思路没有改变。

具体来说，带有上下文信息的Node和Edge的构成带有上下文信息的PFG：

An Example

C.S. Pointer Analysis: Algorithm

完整算法如下：

可以看到，上下文敏感(C.S.)是在上下文不敏感(C.I.)指针分析算法的基础上，增加了上下环境c，以及上下文环境选择（select）的过程，我们下面来分析它。

在接下来的内容中我们更关注和上下文相关的部分，而不会详细地关注所有细节。

值得一提的差异是，RM和CG两个集合在本节所述的上下文敏感算法中都是带有上下文信息的。举个例子，在C.S.的分析中，caller和callee都带有上下文信息（代表callee的上下文标记，c:2-> $c^t:…$ 表示第二行的caller调用了带有标记的callee）：

AddReachable和AddEdge过程和C.I.是类似的，区别仅在于增加了上下文c，

重点关注一下select过程，在ProcessCall中，在进行指针传递之前，需要先决定目标上下文c^t，

我们先概括性地Select的作用，对于Select的具体实现，会在后面的章节继续学习：

ProcessCall接收两个参数，意义是：带有上下文标记的x新增一个带有上下文标记指向目标o。
m代表目标方法。
Select接收参数（这里虽然有3个参数，但并非每种实现方式都需要用到所有的3个参数）
- c：x的上下文标记
- l：调用点本身（call site），在例子中以行号标识调用点
- c':o_i：receiver object
Select返回callee的context c^t

这里要注意的是，C.I.可以视为C.S. 的一种特殊情况，无论传递给Select的参数是什么，总是返回同样的上下文。即：Select(*,*,*) = []