Webshell通信异常的机器学习检测初探
0. 前言
本文我们来尝试探讨下,如果和http通信角度来对webshell的通信行为进行检测。首先要明确的一点是,通信检测是一种被动的异常行为检测,只有当某shell被黑客访问过后,才会在日志数据层面表现出一定的特征,进而被我们捕获到。
接下来的章节,我们逐个讨论对原始日志进行特征工程的思路,并在最后一个章节讨论具体应用的算法模型。
1. URL来访者行为特征
对于每个网站的url来说,都会有大量的访问者,而针对每个来访者IP我们都可以进行行为模式画像。
0x1:访问了多少不同的服务器网站IP - 全网视角
0x2:访问了多少不同的服务器网站Port - 全网视角
0x3:访问了该网站下的多少不同的URL - 网站视角
很多时候,网站的http日志中会包含大量的扫描器流量。这些扫描器IP往往只对网站进行了比较浅的探测。
但是在很多时候,黑客在访问webshell的时候,会倾向于访问更多的url。这些url可能是在踩点的时候留下的,也可能是在渗透的时候留下的。
0x4:Cookies特征
在正常的http访问中,因为http访问是无状态的协议,服务器也不会自动维护客户的上下文信息,于是采用session来保存上下文信息。session是存储在服务器端的,为了降低服务器存储的成本于是当有http请求时,服务器会返回一个cookie来记录sessionID并保存在浏览器本地,下一次访问时request中会携带cookie。cookie的内容主要包括:名字,值,过期时间,路径和域。路径与域一起构成cookie的作用范围。
在大多数情况下,一句话webshell所产生的cookie有的为空;
而大马因为有登录密码验证机制,需要通过cookies维持会话。
可以提取这一特征用来区分一句话webShell和非一句话webshell。
0x5:单个访问网页User-agent的差异性
正常来说,网站的用户在访问网页时所使用的客户端应该是主流的客户端,从统计上看,UA的种类不应该由太多。
另一方面,从异常统计的角度来说,访问一个网页URL的UA的频数分布应该大致是符合一个正态分布的,但是如果是一个webshell url,则UA的分布会呈现出一定的统计异常。
2. 网站IP来访者行为特征
0x1:来访者IP对该网络IP的访问中包含的文件资源类型(file_ext)
正常来说,一个访问者对一个网站进行访问,会访问到大量的资源文件,例如css、js、png、jpg等。
而对于一句话以及大马来说,在大多数情况下是不需要资源文件的访问的。这些IP的访问会话中,大部分只有php/asp/jsp的资源访问记录。
0x2:来访者IP的属性
该IP是否曾经被打标为黑客/肉鸡/ADSL等属性特征。
3. URL被访问的行为模式特征
0x1:孤立点URL - 页面间关系
这里实质是基于网页URL出入度的文件关联检测。
一个网页文件的入度衡量的是访客是否从其他页面跳转到该页面,即reference来自同一个host下的其他URL。
同理,一个网页文件的出度衡量的是访客是否会从该页面跳转到其他页面,即该URL在其他URL的reference里出现。
正常网站页面会互相链接,因此会有一定的出入度,而Webshell通常与其他网站页面没有超链接,也就是一个孤立的页面,通常出入度为0。
而http-header中的Referer字段就表示从哪里跳转过来的,从而就可以得出文件的出/入度。
我们需要对每个网站host进行分组,对组内的URL进行有向图构建。
在有向图的基础上,统计单个网页URL在整个网页图结构中的出入度统计。
0x2:被访问频次统计特征
webshell通常只有被入侵者和恶意扫描着的少量ip访问。被访问频次相比于正常的网页来说少很多。
需要说明的是,单凭访问频率特征,只能找出异常文件,无法确定一定是Webshell,一些正常页面的访问频率也会较低,比如后台管理页面或者网站建设初期技术人员留下的测试页面访问频率也较低。
0x3:被访问时间的统计分布
webshell和正常业务相比,浏览的时间是有差异的,黑客通常会选择在正常流量稀少的时间进行访问。因此抽出时间特征作为一个维度。按照时间大类特征,可以展开几下几种小类特征,
1. 一天中哪个时间段(hour_0-23) 2. 一周中星期几(week_monday…) 3. 一年中哪个星期 4. 一年中哪个季度,工作日、周末
0x4:提交数据(POST/GET)中key的出现频率
大多数情况下,网站里用户提交的数据都是基于key-value的键值对的形式。
对于一个网站host中的URL来说,其URL下包含的key-value键值对的个数应该是符合一个正态分布的。
我们可以对host+url进行聚类,统计出key-value键值对个数,然后以host为分组进行假设检验异常统计,发现可疑的URL。
Relevant Link:
https://www.s0nnet.com/archives/fshell-feature-1
4. URL Meta特征
0x1:网页路径层数
黑客在成功入侵一个网站,植入webshell网页,通常需要这些后门软件具有隐蔽性,因此网页路径会比较深,网页藏匿的比较深,不易被正常浏览者发现。
0x2:有无referer
在流量中,如果网页没有跳转过来的上一页网页,那么referer参数将为空。
一般的小马和一句话webshell鲜有跳转关系,大马登陆的首页也和上一页网页没有跳转关系,因此选此特征作为一种辅助判断。
4. HTTP通信载荷NLP文本特征
0x1:通信payload载荷
主要是post_data和get参数这2份载荷特征。这部分可以用CNN或者ngram的方式来进行特征工程。
0x2:User-agent
UA本身包含了很多有趣的规律,我们可以对UA进行聚类,统计该UA在全网的活跃程度。
0x3:流量中GET/POST的信息熵
一般请求都会向服务器提交数据,webshell也不例外。但是,如果提交的数据经过加密或者编码处理了,其熵就会变大。
对于正常的web业务系统来说,如果向某一URI提交数据的熵明显偏大于其他页面,那么该URI对应的源码文件就比较可疑了。而一般做了加密通信的webshell提交数据的熵值会偏大,所以就可以检测出来。例如如下对比:
1. 正常页面: "pid=12673&aut=false&type=low" 2. Webshell: wen=@eval/**/($_POST[z9]/**/($_POST[z0]));&z0=NDEwNDAyO0Bpbmlfc2V0KCJkaXNwbGF5X2Vycm9ycyIsIjAiKTtAc2V0X3RpbWVfbGltaXQoMCk7QHNldF9tYWdpY19xdW90ZXNfcnVudGltZSgwKTtlY2hvKCItPnwiKTs7JEQ9ZGlybmFtZSgkX1NFUlZFUlsiU0NSSVBUX0ZJTEVOQU1FIl0pO2lmKCREPT0iIikkRD1kaXJuYW1lKCRfU0VSVkVSWyJQQVRIX1RSQU5TTEFURUQiXSk7JFI9InskRH18IjtpZihzdWJzdHIoJEQsMCwxKSE9Ii8iKXtmb3JlYWNoKHJhbmdlKCJBIiwiWiIpIGFzICRMKWlmKGlzX2RpcigieyRMfToiKSkkUi49InskTH06Ijt9JFIuPSJ8IjskdT0oZnVuY3Rpb25fZXhpc3RzKCdwb3NpeF9nZXRlZ2lkJykpP0Bwb3NpeF9nZXRwd3VpZChAcG9zaXhfZ2V0ZXVpZCgpKTonJzskdXNyPSgkdSk/JHVbJ25hbWUnXTpAZ2V0X2N1cnJlbnRfdXNlcigpOyRSLj1waHBfdW5hbWUoKTskUi49Iih7JHVzcn0pIjtwcmludCAkUjs7ZWNobygifDwtIik7ZGllKCk7&z9=BaSE64_dEcOdE
Relevant Link:
http://www.ebwill.com/2017/10/10/detect-webshell-thinking/ http://www.freebuf.com/articles/web/181169.html