APT时代-窃密型WebShell检测方法的思考

1.前言

近年来网站被植入后门等隐蔽性攻击呈逐年增长态势，国家互联网应急中心发布的《2013年我国互联网网络安全态势综述》称2013年国家互联网应急中心共监测发现我国境内6.1万个网站通过境外被植入后门，较2012年增长62.1%。黑客在利用WEB应用漏洞攻击成功后，通常会利用植入Webshell后门实现对应用系统篡改、对操作系统控制以及对数据库中敏感数据的窃取。攻击者通过浏览器或者控制端与被控制的WEB应用系统之间通过开启的合法端口交换数据,隐蔽性很高，传统防火墙无法进行拦截，并且一般在系统日志中无操作记录。

针对Webshell后门的检测方法一般是静态特征属性的检测方式，此类方式一般可查杀常见的破坏型后门，但在巨大的经济利益诱惑下，以窃取网站内敏感信息为目的的窃密型后门越来越多。此类后门往往采用特殊的变型方式与业务相融合，传统方法难以检测，本文针对窃密型后门进行了研究分析，通过研究多种窃密型后门的特点及原理，提出了一种全新的检测方法，丰富了窃密型脚本后门的检测手段，并就相关核心问题进行了分析和阐述。

2.Webshell后门

随着信息化的不断发展，信息系统所承载的不仅仅是新闻发布、内容展示等传统功能，同时还承担了信息查询、订单处理、事务管理等业务，其中往往涉及一些需要保密的信息，窃密型web应用脚本后门应运而生，其以窃密为主要目的，获取系统保密信息，危害极大。

“Web”的含义是需要服务器开放web服务，“shell”的含义是取得对服务器某种程度上的操作权限,常常被称为匿名用户（入侵者）通过网站端口对网站服务器的某种程度的操作权限。由于Webshell大多是以动态脚本的形式出现，也有人称之为网站后门工具或者WEB应用脚本后门。但由于此类后门往往与系统契合度较高，利用了系统部分功能模块以实现以假乱真、长期潜伏的目的。该类后门往往不具备文件操作、命令执行等常见木马功能，多数只具备查询数据库功能，可直接调用系统自身的存储过程来连接数据库，与系统契合度高。

3.Webshell后门检测

目前针对Webshell的特征检测一般是通过特征比对及文件属性异常的静态检测和基于访问情况、行为模式特征的动态检测方式进行查杀，由于窃密型Webshell通常会伪装成正常的WEB脚本文件，静态特征检测及动态行为检测都无法有效的针对此类后门进行检测。

4.传统及现有的检测方法

4.1静态检测

静态特征检测是指对脚本文件中所使用的关键词、高危函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等多个维度的特征进行检测，即先建立一个恶意字符串特征库，例如：“组专用大马|提权|木马|PHP\s?反弹提权cmd执行”，“WScript.Shell、Shell.Application、Eval()、Excute()、Set Server、Run()、Exec()、ShellExcute()”，同时对WEB文件修改时间，文件权限以及文件所有者等进行确认。通常情况下WEB文件不会包含上述特征或者特征异常，通过与特征库的比对检索出高危脚本文件。

该检测方法的优点：可快速检测，快速定位；

缺点：容易误报，无法对加密或者经过特殊处理的Webshell文件进行检测。尤其是针对窃密型Webshell无法做到准确的检测，因为窃密型Webshell通常具有和正常的WEB脚本文件具有相似的特征。

4.2动态检测

动态特征检测通过Webshell运行时使用的系统命令或者网络流量及状态的异常来判断动作的威胁程度，Webshell通常会被加密从而避免静态特征的检测，当Webshell运行时就必须向系统发送系统命令来达到控制系统或者操作数据库的目的，通过检测系统调用来监测甚至拦截系统命令被执行，从行为模式上深度检测脚本文件的安全性。

优点：可用于网站集群，对新型变种脚本有一定的检测能力。

缺点：针对特定用途的后门较难检测,实施难度较大。

4.3日志分析

使用Webshell一般不会在系统日志中留下记录，但是会在网站的web日志中留下Webshell页面的访问数据和数据提交记录。日志分析检测技术通过大量的日志文件建立请求模型从而检测出异常文件，称之为：HTTP异常请求模型检测。例如：一个平时是GET的请求突然有了POST请求并且返回代码为200、某个页面的访问者IP、访问时间具有规律性等。

优点：采用了一定数据分析的方式，网站的访问量达到一定量级时这种检测方法的结果具有较大参考价值。

缺点：存在一定误报，对于大量的访问日志，检测工具的处理能力和效率会比较低。

4.4统计学

在Webshell后门检测中被使用较为广泛的一种方法是统计学方法，NeoPi是国外流行的一个基于统计学的Webshell后门检测工具，它使用五种计学方法在脚本文件中搜索潜在的被混淆或被编码的恶意代码。

NeoPi使用以下五种检测方法：

1、信息熵(Entropy):通过使用ASCII码表来衡量文件的不确定性；

2、最长单词(LongestWord):最长的字符串也许潜在的被编码或被混淆；

3、重合指数(Indexof Coincidence):低重合指数预示文件代码潜在的被加密或被混效过；

4、特征(Signature):在文件中搜索已知的恶意代码字符串片段；

5、压缩(Compression):对比文件的压缩比。

采用这种检测方法也存在明显的弱点，NeoPi的检测重心在于识别混淆代码，它常常在识别模糊代码或者混淆编排的木马方面表现良好。未经模糊处理的代码对于NeoPi的检测机制较为透明。如果代码整合于系统中的其它脚本之上，这种“正常”的文件极可能无法被NeoPi识别出来。

5.传统检测方法的缺陷

现有技术是针对普通的脚本后门、以控制服务器为目的、通常包含较为明显的静态特征或者行为模式，不能对窃密型后门进行有效检测。

由于业务系统更新频繁，WEB脚本文件相关的属性经常发生变化所以偏重于文件属性检测的方法往往会产生更多的误报，基于动态行为检测的方法往往技术难度较大，难以实现，而且对系统造成的性能影响较大，甚至可能对系统稳定性造成影响，基于日志的检测方法，一方面，由于业务功能较多且复杂，部分功能可能很少会被用到，其日志访问可能会命中某些检测规则从而造成更多的误报，另一方面，大量的日志记录处理起来会对服务器性能产生负担、而且由于日志量巨大检测过程消耗时间长，检测速度较慢。而窃密型Webshell后门往往会模拟正常的数据库操作、不具有较为明显静态特殊属性、被访问的次数比较少无法形成较为明显的访问特征，通过日志分析也很难发现。

6.窃密型Webshell后门检测方法设计

6.1检测方法

6.1.1基于数据库操作审计的检测方式

针对窃密型Webshell必须具有操作数据库的能力，可以引申出一种新的检测方法，通过分析正常WEB脚本文件和窃密型Webshell对数据库操作的差异进行分析是本检测方法所重点研究的方向。

正常情况下WEB站点进行数据操作的过程应该是重复性且较为复杂的查询过程，这种查询通常精确度非常高，查询过程不会出现类似于“select * from”这种查询语句。正常的WEB脚本在进行数据库操作的过程中也不会出现跨越数据库查询的情况，一旦出现这种现象基本可以判断为非正常的WEB脚本操作过程。

就以上思路设计如下的检测方案：

审计数据操作记录。通过审计数据库操作记录可以单独的为每一个WEB站点甚至WEB站点中的每一个脚步文件建立查询请求模型，通过几天甚至数月的自我学习过程来学习并维护一份查询请求数据库。该数据库的内容包含了每次查询操作的详细信息、请求归类和分析结果。并且建立动态查询请求规则，Agent一旦检测到违反该规则的查询请求后会向Server端传递相关信息，Server端再结合其它的扫描过程综合判断发起请求的文件是否为Webshell，并最终决定是否向管理员报警。

6.1.2建立机器学习日志分析系统

由于数据库操作记录日志量非常大，使用人工的方法难以进行精确筛选和审计。所以需要建立一套机器自学习的日志审计系统。该日志审计系统主要基于查询模型白名单学习与数学统计模型这两方面进行设计。

查询模型白名单学习系统：

在一个网站系统中，由于系统业务逻辑相对固定，执行的数据库查询语句可以归类并且是可预测的，基于这些事实可以建立一套自学习系统，在无人值守的状态下进行无监督的机器学习。在对日志进行泛化处理之后，根据特征(包括时间，查询语句，参数等)建立N维的特征向量。使用k-均值聚类算法对日志进行初步分组。其中对参数的处理使用局部加权线性回归算法预测参数类型。对聚类后的数据进行抽样，使用贝叶斯决策树进行抽样结果的机器决策。

数学统计模型系统：

由于窃密型web应

用脚本后门只服务于入侵者，所执行的查询语句也是超出业务系统正常使用逻辑的，在一个有一定访问量级的业务系统中，窃密使用的查询语句是执行量最少的。对

业务系统数据库的日志进行参数归一化处理后，正常应用中的查询语句与窃密使用的语句从数量上来看一定有数量级的差距。可以建立查询语句的统计模型，也可以

对窃密型Webshell行为进行审计。

6.2检测系统设计

该方法有两种实现过程：

一种是直接在数据库服务器上增加日志审计客户端，可以实时的审计数据库操作记录。

优点是审计全面并且处于攻击后方被人为破坏几率较小；

缺点是数据库在开启较多的日志记录的情况下会造成严重的性能负担。

另外一种实现是方法是在WEB服务器上部署代理型Agent，代理型Agent可以代理所有的数据库操作过程，精确的检索出异常操作，并且较审计型检测速度快。代理型Agent可以经过优化后与中间件进行深度结合能够追踪到发起数据查询请求的具体脚本文件。

优点是检测速度快，精准度高，可以查询到发起查询操作的具体的脚本文件；

缺点是：位于前端WEB服务器上被破坏的可能性较大。学习过程时间稍长。

7.总结

只依靠一种检测方法也是很难以进行全面检测的。在真实的环境中进行部署检测系统时需要同步的部署传统检测方法的系统，来达到互补和增强检测结果可行度的目的。