Status and Development Analysis of Machine Learning Applied to Intrusion Detection
席海龙 XI Hai-long;刘海燕 LIU Hai-yan;张钰 ZHANG Yu
(陆军装甲兵学院信息通信系,北京 100072)
(Department of Information and Communication,Army Armored Force Academy,Beijing 100072,China)
摘要:近年来随着机器学习技术的发展,将其应用于入侵检测领域的研究不断涌现,以应对日趋庞大的数据和复杂多变的攻击种类。该文基于机器学习对入侵检测领域内最新文献的研究,从分类算法、检测效果和验证结果等方面概述了其研究进展,分析了其应用于网络安全目前存在的几点问题,并指出了该技术后续的发展趋势和应用趋势,以期为网络安全的发展提供一些新思路。
Abstract: With the development of machine learning technology in recent years, it has been applied to the field of intrusion detection to cope with increasingly large data and complex and changeable types of attacks. Based on the research of the latest literature in the field of intrusion detection by machine learning, this paper summarizes its research progress in classification algorithm, detection effect and verification results, analyzes some problems existing in its application to network security, and points out the development trend and application trend of this technology in the future, in order to provide some new ideas for development of network security.
关键词:机器学习;入侵检测;深度学习
Key words: machine learning;intrusion detection;deep learning
中图分类号:TP393.0 文献标识码:A 文章编号:1006-4311(2018)34-0269-04
0 引言
面对当前日趋复杂的网络环境,入侵检测技术作为一项主动性防御技术在网络安全中起着愈加重要的作用。然而传统网络入侵检测技术在面对新时期复杂多样的攻击形式和海量数据的网络环境时显得乏力不足,存在误报率和漏报率较高等诸多问题[1]。
为弥补传统入侵检测技术自适应性差、漏报率、误报率过高等不足,业界引入了机器学习方法,如贝叶斯,支持向量机,逻辑回归等算法,并取得了不错成绩。同时,在面对入侵数据日趋复杂,数据特征维度高,非线性特性强等特点,传统机器学习易出现“维度爆炸”问题[2]。随着计算机硬件技术的发展,深度学习算法在多媒体处理方面带来突破性的成果,网络空间安全领域的研究者也在尝试将深度学习算法应用于恶意软件检测和入侵检测等领域,相对于传统的机器学习算法,深度学习提高了检测效率,降低了误报率,能够自动化智能化识别攻击特征,有助于发现潜在安全威胁。
1 机器学习算法与入侵检测
1.1 决策树
决策树算法是通过对大量样本的类别训练,最终得到一棵处理未知数据能力足够强,即泛化能力足够强的决策树。它通常包含一个根结点,若干个内部结点和叶结点;叶结点对应于算法判定结果,其它每个结点对应于一种属性测试;每个结点根据自身的样本集合通过属性测试分配到不同的子结点中,根结点包含所有样本。决策树学习的关键在于如何选择出最优化的属性划分方法,通常划分的依据有信息增益、信息熵、基尼指数等[3]。
当采用信息增益作为样本属性划分的度量时,假定样本集C中第i类样本所占比例为■,则C的信息熵定义为:
■(1)
■值越小,划分后的可靠性越高。当采用有N个可能取值(■)的离散属性a对C进行划分时,产生N个分支结点,其中第n个分支结点包含了C中所有属性a上取值为an的样本,记为Cn。则信息增益可表示为:
■ (2)
一般情况下,信息增益越大,说明依据属性a划分的结果可靠性越高,即应选择属性:
■ (3)
应用于入侵检测的决策树,每一条从根结点到子结点的路径都对应于一条既定的检测规则,叶节点数据是对分类的预测结果。决策树对检测数据的分类剔除了正常行为数据,只对异常数据做简单对比,同时对于离散型偏多的异常数据还可以省去数据的离散处理过程,泛化能力强,学习速度快,结果简单易懂是其最大优点;但是这种处理方式对于训练数据集依赖性过强,如果数据集中存在大量相似数据,易出现过拟合现象。文献[4]结合数据挖掘的思想,采用C4.5算法实现了对KDD99数据集的分类,在规则提取时结合数据结构中的算法查找思想,加快了规则库的匹配方法,但是采用的数据样本量较小,不能证明在面对海量数据时具有足够适用性;蒲元芳等人[5]提出了基于不同网络协议构建不同决策树,使检测模型能更具针对性地并行处理网络数据,宋明秋等人在文献[6]中也针对具体网络协议构建决策树算法,解决传统检测算法资源消耗大、丢包率高的问题,实验表明这两种算法对数据分类具有更高的准确率;池静等人针对ID3算法未充分考虑父节点已使用属性集对子节点划分的影响与子节点之间的互信息熵对分裂节点的影响问题,提出了一种基于混合互信息的决策树检测算法[7],在去除父节点已使用信息对于子节点划分影响的同时,设定了属性数量阈值,一定程度上减小了ID3算法的缺陷,提高了分类精度,但这种调整也增加了算法复杂度,新建立的决策树模型对检测过程整体优化效果不明显。刘莘等[8]针对传统NB算法对属性独立性要求高和决策树易发生过拟合的问题,对C4.5算法做改进,将对数据的检测划分成为两个弱分类器,最后通过融合形成最终决策规则,这种在属性子集上构建局部朴素贝叶斯分类期的算法降低了数据独立性的要求,具有较高参考价值。
决策树在做剪枝处理时常用方法有预剪枝和后剪枝。预剪枝通过对结点划分前后的样本分类精确度的计算,决定是否对该结点进行划分,但这种基于“贪心”的判断算法禁止了某些分支的展开,给决策树带来的欠拟合的风险。较之于预剪枝,后剪枝算法是在从训练集生成一棵完整决策树后进行的修改,这样保留了更多的分支,因此欠拟合风险小,泛化性能往往由于预剪枝。但这种自底向上进行的结点测试,数据处理量大,用于训练的时间花销成为其最大缺点。
1.2 朴素贝叶斯分类器
贝叶斯定理是贝叶斯分类器最重要的依据,它根据事件发生的先验概率求其后验概率,用公式可表示为:
■ (4)
朴素贝叶斯分类器是基于贝叶斯理论的算法之一,是该算法族中最简单直观的一种。它对事件的所有属性做独立性假设,这一假设大大简化了系统的复杂性,并在部分应用中取得了良好效果。基于属性条件独立性假设,则样本x标记分类错误的后验概率■为:
■(5)
其中假设样本x有N中可能的类别标记,即■,d为属性数目,xi是x在第i个属性上的取值。由于P(x)对所有类别来说都相同则由式(6)可得朴素贝叶斯分类器表达式:
■(6)
较之于其它机器学习算法,贝叶斯网络可直接用有向无环图表达因果关系,不仅拥有较高的概率表达能力和不确定性表达能力,而且其超前的先验知识学习能力也表现突出[9]。在应用于入侵检测系统时,通过其在数据统计方面的优势,充分收集网络连接数据,用以填充固定贝叶斯网络各节点,再利用所有子节点包含于根节点的结构关系计算网络参数。文献[1]结合数据挖掘技术,采用贝叶斯分类器从离散化的数据中提取出用以描绘入侵检测模型的数据框架,区分不同网络行为,具有较好的实验结果;文献[10]基于互信息的结构学习算法,利用贝叶斯网络中各节点的依赖关系通过训练建立网络结构图对数据进行分类,这种相互关联的节点数据保证了最终的网络模型具有较高的耦合性,但是在验证环节缺乏有效的全新数据,泛化性能没有得到足够的保证。曾国斌等人[11]提出一种属性价值算法NBC,该方法利用未分类节点可能所属类别的最大后验概率MAP来确定网络模型中的最后节点,但是应用于实际实验检测时,由于过多的干扰因素和不同的特征节点样本不同,致使分类准确率不高。
1.3 支持向量机
支持向量机(Support Vector Machines,SVM)是一种二分类模型,其基本模型是在特征空间上定义了间隔最大的线性分类器,从而有别于感知机。它的学习策略就是实现间隔最大化,可形式化为求解一个凸二次规划的问题,也可等价于正则化的合页损失函数的最小化问题。线性支持向量机构建的模型由简单到复杂可分为线性可分支持向量机、线性支持向量机、非线性支持向量机等。
对于样本集■,■,划分线性超平面可通过线性方程:
■ (7)
其中■为法向量,b为位移。记超平面为(ω,b),则样本空间任意点到超平面距离为:
■ (8)
假设超平面 (ω,b)能正确将D分类,且令:
■ (9)
则距离超平面最近的几个点使式(9)等号成立,城其为“支持向量”,两个异类支持向量之间的距离之和
■ (10)
称之为“间隔”。
■
传统入侵检测系统在先验信息较少的情况下,对未知情况预测能力较差,而应用支持向量机的方法可以有效提高预测分类能力和检测性能。但是这种基于结构风险最小化的方法也存在一些不足之处,比如其初始化数据往往凭借经验获取,缺乏科学理论指导;SVM一般只能对数值数据进行处理,当需要区分不同入侵方式时需要多个SVM实现。
虽然SVM的学习方法在小样本下能够取得较好效果,但实际应用于大规模的入侵检测系统中时,会受时间和空间复杂度约束,其本质原因是由于输入特征空间具有高维、非线性的特征,而SVM分类器的时间和空间复杂度是其输入向量大小的指数函数。SVM算法的时间复杂度为 O(n3),空间复杂度为 O(n2),n为训练样本数,因此,SVM的计算成本高于其他分类方法。
2 网络安全新趋势
2.1 技术趋势
机器学习这一概念很早就已提出,其各算法均有发展,但近年来神经网络—深度学习这一分支发展最为迅速,今后更加智能化的网络也将更加依赖于这一技术深层次的纵向发展。
2.1.1 跨行业的技术借鉴
现有的深度学习研究大多用于图像处理,而图像所处理的是网格数据,但安全领域的数据主要是序列数据,即离散型数据。对于深度学习的生成型模型而言,离散型数据不利于梯度的传递,Wang W等人将流量的每个字节转换成像素[12],由此来把流量转换为图片,再将图片作为 CNN 的输入,进行训练与分类,得到的二分类和多分类准确率分别是100%和99.17%,由此可见,使用原始特征的效果要优于使用NSL-KDD和KDD99数据集中人工提取的特征的效果。
在整体神经网络的设计和优化方面,深度学习借鉴遗传算法取得了显著成效。例如根据Kolmogorov定理对BP神经元的权值和阈值的编码,在设定初始化值时,为避免局部最优问题而引进交叉概率、变异概率和初始化种群等概念,采用随机多组、模拟退火等方法进行最优化设计,采用交叉变异、染色体适应度比较等方法选取最优化组合。
2.1.2 行业内技术新旧融合
深度学习技术作为神经网络的一项更深层技术,在应用于入侵检测过程中也出现了重重阻碍。而在解决这些问题时,深度学习结合机器学习已有的算法可以有效弥补不足,取得良好成绩。Salama等人首次将DBN作为生成模型应用于入侵检测中的数据降维[13],使用SVM对降维之后的数据进行分类。他们的结果显示,DBN-SVM结构比单独的DBN或者SVM进行分类得到的准确率更高。同时,当采用SVM进行分类时,相比于主成分分析(principal component analysis,PCA)[14],卡方检验等降维方法,采用 DBN进行降维时的检测准确率最高。
2.2 应用趋势
2.2.1 应用于IOT的入侵检测技术
近年来物联网(Internet of Things)技术借助于人工智能的兴起而迅速发展,但是相对应的网络安全手段却发展缓慢,性能提效不明显。网络安全和信息化发展是一体之双翼,驱动之双轮,缺少任一方面都必将发展受限。更何况当今时代是以信息技术为支撑的网络环境下发展的,不同于其他学科,网络环境的安全与整个社会行业的发展息息相关[15]。 面对愈加复杂的网络安全隐患,传统IDS明显力不从心。一般将IOT分为感知层、网络层和应用层[15],其中广泛应用传感器、自动识别追踪、无线连接、分布式服务等技术,当它们面对不同类型的网络攻击时,传统IDS检测范围不能完全适应,因此发展面向IOT的有针对性的新型入侵检测技术是未来IDS发展的主要趋势之一。
2.2.2 应用于云计算的入侵检测技术
云计算自身开放的特性所采用的虚拟化技术使其所面临的安全威胁主要来自于DDOS攻击和非授权访问权限获取。目前NIDS(Network based Intrusion Detection System)是针对云计算的网络入侵检测系统的代表,但是针对虚拟机之间的逃逸流量和虚拟机迁移攻击该系统无法检测[16],因此下一步针对云计算的网络入侵检测会继续向全面高效、低误报率以及虚拟网络方向发展。
3 结束语
在传统入侵检测领域引入机器学习技术,不仅提高了检测速率,而且能有效应对当前日趋复杂的网络环境,是未来网络安全技术的主流趋势,而这其中又以深度学习技术为主。不同技术的相互借鉴发展、基础理念的创新都将带动网络安全技术的进步,为以信息技术为依托的各行各业发展提供安全发展的网络环境。
参考文献:
[1]高华.基于海量日志的入侵检测并行化算法研究[J].现代电子技术,2016,3919:71-75.
[2]华铭轩,张峰军.大数据环境下的入侵检测系统框架[J].通信技术,2015,4811:1300-1304.
[3]张棪,曹健.面向大数据分析的决策树算法[J].计算机科学,2016,43S1:374-379,383.
[4]张国权,李文立.基于混合互信息的决策树入侵检测[J].辽宁工程技术大学学报(自然科学版),2009,2802:273-276.
[5]蒲元芳,杜红乐.决策树在网络入侵检测中的研究与应用[J].电脑知识与技术,2010,607:1560-1563.
[6]宋明秋,傅韵,邓贵仕.基于决策树和协议分析的入侵检测研究[J].计算机应用研究,2007,12:171-173,176.
[7]池静,杨振宇,张婷.基于贝叶斯和决策树的入侵检测方法[J].工矿自动化,2013,3902,62-65.
[8]刘莘,张永平,万艳丽.决策树算法在入侵检测中的应用分析及改进[J].计算机工程与设计,2006(19):3641-3643.
[9]张月,柳炳祥,张峰.一种基于朴素贝叶斯网络的入侵检测分析方法[J].信息与电脑(理论版),2018,13:66-67,70.
[10]李健,陈为.基于异构条件的NIDS网络安全技术研究[J].计算机技术与发展,2017,2709:106-109,115.
[11]曾国斌,冉兆春.基于改进朴素贝叶斯算法入侵检测系统研究[J].电脑知识与技术,2017,1328:28-29.
[12]Wang Wei, Zhu Ming, Zeng Xuewen, et al. Malware traffic classification using convolutional neural network for representation learning[C]// Int Conf on Information Networking. NJ: IEEE, 2017: 712-717.
[13]Salama M A, Eid H F, Ramadan R A, et al. Hybrid intelligent intrusion detection scheme[M]//Soft computing in industrial applications. Springer.
[14]戚名钰,刘铭,傅彦铭.基于PCA的SVM网络入侵检测研究[J].信息网络安全,2015(02):15-18.
[15]武传坤.物联网安全关键技术与挑战[J].密码学报,2015,2(01):40-53.
[16]刘增锁.云计算环境下海量数据中入侵检测挖掘模型[J]. 计算机仿真,2015,32(06):289-291,393.
|