GID: Graph-based Intrusion Detection on Massive Process Traces for Enterprise Security Systems
1. Anomaly Detection In intrusion detection
0x1:入侵检测中的主要建模思路
笔者基于有限的项目经验总结认为,在一般的情况下,要保证在多机器集群中追求入侵检测的AUC(recall和precision的平衡),可以从几个方面切入思考:
1. Misuse Detection 误用检测
这是最经常使用的,也是效果非常不错的一种入侵检测思路,误用这个词已经非常达意了,就是“明显不符合逻辑的行为”。
举一个st2-045漏洞利用的例子,黑客漏洞利用成功后向目标应用注入恶意指令,在目标应用所在机器上可以捕获到如下event log:
被攻击url: ip.ip.ip.ip:31086/debuug/mmg post_data:cmd=cat /root/.bash_history 命令行cmd_line:cat /root/.bash_history 父进程路径pfile_path": "/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.121-0.b13.el6_8.x86_64/jre/bin/java
在正常情况下,java进程启动的子进程会在一个相对固定的 set 中,但是这里监控到了java进程启动了一个 cat 进程,并且 cat 的对象是 /root/.bash_history,这是一个相对较为罕见的行为,因此可以基于专家经验将其定义为“误用”。
误用检测很容易通过 Expert Acknowledge专家经验建立,非常适合在项目启动的初期开展。
通过大量部署误用检测,可以帮助开发者建立一个基础Baseline水位,即作为纵深检测体系的最外面一环。
同时也可以快速积累大量的标注样本,在安全领域标注样本缺乏是一个比较普遍的问题,有了标注样本后,后续可以更好的开展有监督机器学习项目。
2. Environment Independent Abnormal Detection:环境独立异常检测
威胁检测的一个重要挑战是:检测目标是针对单个机器但是一批机器集群?针对单台机器建立的先验假设,是否可以无缝移植到海量机器集群中?针对某个环境下建立的先验假设,移植到另一个环境中是否可以继续生效?
一种解决这个问题的思路是:找到在所有机器上入侵异常的通用行为或者特征模型,这类特征模式和具体所处环境无关,它只关注被检测的目标。
典型地例如:
1)Malware病毒检测; 2)Webshell检测; 3)SQL注入检测; 4)远程代码执行;
这类异常的特点是:异常模式和具体所处机器环境无关,异常模型本身是可以自解释的。
3. 基于概率统计模型的异常分布检测 - Environment Dependent
使用例如高斯分布、贝叶斯推断等方法对目标机器的历史行为进行建模。然后基于“概率异常统计思路”进行异常发现。
需要注意的是,这种思路的建模是针对单台机器独立建模的,也即对每一台机器都建立独立的概率统计模型。
4. Graph-Based Sequence Detection 基于图的序列异常检测 - Environment Dependent
基于“实体-关系”序列的二步图,进行abnormal sequence detection,这是本文要重点讨论的topic。
它的核心思想是,针对每一台机器建立自己独立的行为基线。
通过实体-关系图模型对原始日志进行压缩抽象,得到entity-graph,然后对历史训练数据中entity-entity的出现频率进行统计,归一化后得到实体概率转移矩阵,这个过程得到的就是这台机器历史的行为模式,基于这个历史行为模式,可以对新的未知path sequence进行异常度概率计算和预测。
Relevant Link:
https://arxiv.org/pdf/1608.02639.pdf
2. GID主要思想
0x1:多源异构日志可以抽象为实体关系图模型
数据采集中,异构日志的情况是常态。
虽然我们知道一台主机上的异构日志都来自于同一台机器,所以理论上多条异构日志之间肯定是遵循时序依赖关系的,即一个远程代码执行漏洞的触发会触发的系统行为日志大致为:网络->进程->进程文件操作->网络外连...
但是因为采集机制的关系,你很难能够获得“全局内核视角”(即操作系统运行中每一步的状态日志)。所以也就很难清楚地看出异构日志的传递和依赖关系。
在大多数时候,我们只能获得有限类型(例如进程启动、网络外联、进程写文件行为)的系统行为日志,即只能获得当前系统的一个有限视角切面。同时即使在有限视角切面中,也只能获得有限的字段维度(attribute),因为数据采集是资源密集型的事情。
这带来一个问题,我们基于这些有限视角日志的有限字段,能否还原出完整的系统行为轨迹呢?答案是:一定程度上是可以的!
使用图 G =(V,E,T)对异构日志进行抽象,从异构日志中抽象出核心公共部分,即实体;通过有向边定义实体和实体之间的传递和依赖关系。可以达到“去糟存精”的作用。
例如进程事件日志中的实体是process和process,进程写文件日志中的实体是process和file,我们可以从这两份日志中抽取出核心公共部分,即 {process、file},通过实体抽取和实体关系定义可以得到一个Graph。
同时通过 T 将原始日志中的重复事件压缩为一个统计值,达到信息压缩的目的。
笔者认为实体关系图模型一个优点就是可以屏蔽多源异构日志之间的差异,找到其中的公共核心部分,从而更好地突显其中的逻辑时序规律,更好地支持后续的时序建模。
0x2:基于有向信息流动图视角对系统行为序列建模
操作系统的行为可以用信息流的方式进行抽象,例如:
/bin/vim ->open-> /etc/passwd:代表vim打开了一个密码文件,信息从密码文件流向vim进程
/bin/java ->fork-> /bin/curl:代表了java进程启动了curl进程,信息从java进程流向curl进程
引入信息流框架可以给Graph赋予有向图的概念。
0x3:基于Random Walk算法迭代得到历史数据的Entity Transformation Matrix
基于ramdom walk循环迭代,针对历史训练数据计算得到实体概率转移矩阵(entiry transmission matrix),该转移矩阵描述了历史数据中实体间的时序依赖关系。可以理解为一种行为模式抽象。
0x4:基于历史数据的Entity Transformation Matrix实时计算最新Event Sequence的异常概率(转移概率累加和)
这个过程类似于HMM中,计算观测序列出现的概率,即predict过程。
0x5:基于权重传递实现半监督标签传播、以及异常检测
基于同构无向图,我们可以实现两种检测角度:
1. 以黑找黑 - 聚类
基于ramdom walk的递归计算,实体节点的权重会在整个图中传播,因此我们可以通过其他渠道的情报对某些实体节点进行打标,对打标实体节点赋予更高的权重,在训练迭代过程中,权重会传播给与其递归相连的其他实体节点。
背后隐含的假设就是:如果一个实体节点是恶意的(例如某台被攻陷的主机),与其相关的其他实体节点(例如文件、外连URL)也有很大可能是恶意的。
这部分思想的理解可以参考pagerank的概念。
2. 不符合历史模式的就是异常
将历史数据作为训练样本,得到实体-关系状态概率转移矩阵,以及作为历史行为的模式抽象,对未来的新的event sequence进行概率似然检测,和HMM中的概率计算问题是类似的。
3. GID图定义
0x1:实体定义和抽取
注意,GID里抽取的实体来源于“行为日志”,我们知道,agent monitor log有分为:1)静态meta日志;2)动态行为日志。
静态meta日志只是某一种事件的快照(例如进程快照),而动态行为日志本身就包含了两个实体的某种时序关系(例如进程写文件事件)。
我们在GID图中提取的原始日志对象,只针对动态行为日志。
1. File Entity
进程写文件;
进程打开文件;
进程文件发起网络外连;
磁盘文件启动(md5-proc);
2. Process Entity
父进程启动子进程;
3. INETSockets Entity
进程发起网络外连;
0x2:System Event定义
我们将实体间的交互定义为 system event,system event 定义为:e(nb, nd, t)
nb:source entity
nd:destination entity
t:happen times(frequency)
对于真实运行中系统来说,system event的产品频率是非常高的,例如 Exim 进程,它是一个mail transfer agent,所以,Exim 会非常频繁地访问 /etc/hosts 文件。
0x3:Event Sequence定义
system events通常是以链的形式连续产生的:
process A first opens file F -> reads F -> sends the content of F to process B
形式化定义为:S{e1,e2, . . . ,eℓ−1,eℓ}。
项集之间满足时序关系,即:ei .t < ei+1.t
1. 序列起止时间
在计算机系统中,有很多原生的“会话概念”,例如网络五元组session会话,进程sid会话。
但是在异构混合日志体系中,我们可以根据会话发生的时间区间,将包含相同实体的system event归并到同一个会话中。
2. An example of compact graph model
the red path corresponds to an abnormal event sequence
0x4:实体-关系状态转移概率图
GID中,实体-关系状态概率转移图是一种无向同构图,它基于历史行为日志统计计算得到,本质上代表了对应某台机器的历史行为模式。
我们可以用矩阵形式表示该实体-关系状态转移概率图,理论上图中每个实体都有机会转移到任意的其他实体上,但是实际情况中,因为很多客观原因(例如日志缺失、采集点缺失、业务环境倾向特定进程模式),矩阵中有大量的0值项,如果直接进行ramdom walk会造成dead point问题,我们需要引入“随机概率转移”,这本质上是一种正则化的处理。
Relevant Link:
https://arxiv.org/pdf/1608.02639.pdf
4. event sequence序列异常度计算
0x1:基于专家经验异常Path Pettern识别
在GID中,除了直接基于历史数据基线的无监督异常发现之外,还融合专家先验知识,即可以理解为“规则匹配”。
1. path pattern generation component
可以基于专家经验预先定义一批 path pattern,path pattern 是 path sequence 的概括抽象,例如我们可以定义信息泄露pattern。
information leak path pattern:{F, P, I}:进程读取文件后通过INETSocket网络外连发出
2. candidate path searching component
根据abnormal score得到top-k的suspicious path sequence后,和之前生成的path pattern进行t-test测试比对,这一步可以理解为基于规则进行相似性搜索。
只有达到90%以上置信区间的suspicious path才会被认为是intrusion attack path sequence。
0x3:基于Ramdom Walk进行Abnormal Path Sequence识别
GID使用了和pagerank类似的核心思想,即针对graph path进行ramdom walk,区别在于,GID的目标不是最后的node节点的权重,而是ramdom walk迭代收敛后的transmission matrix,基于这个transmission matrix可以生成sender/receiver score。
有兴趣的读者朋友可以参阅pagerank的blog,对比其中的思想。
我们接下来逐个模块分解讨论如何完成整个abnormal path sequence识别过程:
1. initial N ∗ N square transition matrix
我们基于原始日志,将其压缩抽象为graph之后,就得到了<entity,entity>二元关系对的频率集合,也即得到ramdom walk中的初始概率转移矩阵。
其中,T (vi , vj ) 代表了对应<entity,entity>在历史训练数据中的发生频率。N 代表历史数据中entity总数量。
2. sender score和receiver score迭代计算
sender/receiver score是一个循环迭代的计算过程,这一点我们在pagerank算法的讨论中已经讨论过。
循环迭代公式如下:
一个节点的receiver socre由其他节点发往该节点的sender score累加组成。如果一个节点发往的目标节点是重要节点,则该sender节点的重要性也一定较高;
一个节点的sender score可以由该节点相关的目标节点的receiver score累加得到,即该节点的重要性平均分发给其他receiver节点。如果一个节点重要性很高,则其相关的目标节点重要性也会连带地较高;
上面两个准则描述看起来就是“太极阴阳”的不断循环迭代的过程。
权重score的计算起源于自己,又传递于别人,最终又反馈给自己。
当不断循环迭代达到收敛状态时,这时候的概率转移矩阵 A,就包含了我们需要的各个entity节点的sender/receiver score,这个值从矩阵的行向量和列向量可以提取得到。
3. 引入随机转移概率(心灵转移)
和在pagerank里遇到Spider Traps url、以及Dead Ends url的问题一样。GID graph中也无法保证不可约性和非周期性,这是就需要引入随机转移概率。
其中,R 是一个 N ∗ N 矩阵,每个元素取值为 1/N。
4. 基于sender/receiver计算abnormal score
综合来说,一个path sequence是否abnormal,和两个因素有关系:
1. sequence中涉及的entity:出现稀有entity的sequence,abnormal的可能性更大一些 2. sequence中entity之间的关系(即方向)是否稀有:因为在一些入侵中,黑客会使用系统原生的系统程序作为载体(例如wget/curl),所以但从entity稀有性不足以判断一个path sequence是否异常,但是结合entity interaction就可以由更强的表达能力。
sender score度量了从该实体发出的信息量。
例如 /etc/passwd 有很高的 sender score,因为/bin/sshd在每次接受登录请求时都需要打开/etc/passwd并获取其内容,以判断当前请求ssh登录的账号是否为有效账号。
但是相对的,/etc/passwd 有较低的 receiver score,因为只有在管理员添加账号的时候才会向该文件写入信息,或者是在黑客入侵时尝试写入后门账号。
另一个子,/var/log/install.log 有较高的 receiver score,但是有较低的 sender score。
假设path sequence为:p = (v1, . . . , vr+1),sender/receiver score计算公式如下:
,式中,NS(p)的计算公式如下:
,可以看到它是将该path sequence上的所有entity对应的sender/receiver socre乘上对应的转移概率的累加和。
式中,x(vi) * A(vi,vi+1) ∗ y(vi+1) 度量了对应的关系边的正常程度(即发生的概率),即当前 vi -> vi+1 这个信息传递流发生的似然概率。
这个公式非常符合逻辑,例如下图
红线对应的path sequence,因为其在历史正常的业务日志中发生频率是非常小的(接近0),所以其最终path sequence的概率累加和是非常小的,1 减去这个值后,得到的abnormal score肯定是非常高的。
5. path sequence abnormal score归一化
和在大多数ML项目遇到的一样,GID遇到的一个很明显的问题是,量纲不一致问题。
长路径的sequence理论上会比短路径的sequence得到更大的abnormal score,为了抑制这个量纲不一致问题,需要进行归一化。
1)Box-Cox power transformation
这里使用Box-Cox power transformation进行归一化,但是读者朋友要注意的,我们的核心目的是归一化,Box-Cox只是一种数学手段,并不是唯一的手段,你起正态标准化也是可以的,只是效果可能会不同。
设 Q(r) 为原始的abnormal score计算结果集。r 为 path长度。归一化公式如下:
,式中,λ是正则化参数。
2)正则化参数 λ 极大似然估计
我们对T (Q, λ)的目标期望值是正态分布,即T (Q, λ) ∼ N(µ, σ2 ),据此写出似然概率公式:
转换为对数似然概率:
之后采取极大似然估计得到正则化参数的最优估计。
6. Suspicious Path Validation
原paper中,作者提出将计算abnormal score得到的top-k的path sequence,和candidate path(由专家经验预先指定的valid paths pattern生成)进行t-test 比对,从中挑选出高置信区间的sequence path。
这种做法的本质上,从suspicious path中挑选出符合专家先验的path pattern,本质上还是经验规则驱动的检测。
笔者对这种做法存在一定的疑问,认为在实际项目中,可以完全抛开专家经验,完全基于历史训练数据进行无监督异常发现。
Relevant Link:
https://www.jianshu.com/p/a0bac114705b
5. 数据分布探查
Relevant Link: