书签分享收藏举报版权申诉 / 7

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 能源化工 > 基于TFIDF算法的AAA服务异常检测机制研究.docx

基于TFIDF算法的AAA服务异常检测机制研究.docx

文档编号：11111303
上传时间：2023-05-29
格式：DOCX
页数：7
大小：20.64KB

《基于TFIDF算法的AAA服务异常检测机制研究.docx》由会员分享，可在线阅读，更多相关《基于TFIDF算法的AAA服务异常检测机制研究.docx（7页珍藏版）》请在冰点文库上搜索。

基于TFIDF算法的AAA服务异常检测机制研究.docx

基于TFIDF算法的AAA服务异常检测机制研究

基于TF―IDF算法的AAA服务异常检测机制研究

　　【摘要】首先基于某电信公司2014年度的AAA服务日志文件，统计了其认证结果的比例分布，归纳了导致服务状态异常的数据源行为类型，即恶意登录和唯N性授权攻击。

接着针对现有异常检测策略在效率和准确性上的不足，提出了一种基于参数替换的TF-IDF算法的服务状态异常检测机制，通过计算待筛选数据源与已确认的异常源集的关联度，高效地发现和确定其他异常源。

最后通过模拟实验，验证了该机制的有效性和高效性。

　　【关键词】AAA服务异常日志TF-IDF算法异常检测

　　doi：

10.3969/j.issn.1006-1010.2016.02.017中图分类号：

TP309.2文献标识码：

A文章编号：

1006-1010（2016）02-0083-05

　　引用格式：

黄晓丹，罗伟，李秀峰，等.基于TF-IDF算法的AAA服务异常检测机制研究[J].移动通信，2016，40

（2）：

83-87.

　　ResearchonAAAServiceAnomalyDetectionMechanism

　　BasedonTF-IDFAlgorithm

　　HUANGXiao-dan1，LUOWei2，3，LIXiu-feng1，LIXiao-bing1，LIUJian-jian1

　　（1.ShandongBranchofChinaTelecomCo.，Ltd.，Jinan250000，China;

　　2.CollegeofComputer，NationalUniversityofDefenseTechnology，Changsha410073，China;

　　3.ArmedPoliceCorpsofHainanProvince，Haikou570000，China）

　　[Abstract]BasedonAAAservicelogfilesofatelecommunicationscompanyin2014，theproportiondistributionofauthenticationresultswasaddressed，andthenthebehaviortypesofdatasourcesleadingtoabnormalservicestateweresummarized，i.e.maliciousloginandquantitylimitationattack.Accordingtotheflawsofexistinganomalydetectionmechanismsinefficiencyandaccuracy，ananomalydetectionmechanismbasedonTF-IDFalgorithmwithparameterreplacementwasproposed.Itcalculatesthecorrelationbetweenthedatasourcetobefilteredandtheabnormaldatasourcesettoefficientlydiscoverandconfirmotherabnormaldatasources.Finally，simulationexperimentsverifiedtheeffectivenessandefficiencyofthemechanism.

　　[Keywords]AAAServiceabnormallogTF-IDFalgorithmanomalydetection

　　1概述

　　1.1AAA服务概述

　　AAA服务以一体化模式为电信运营商提供认证（Authentication）、授权（Authorization）和计费（Accounting）的业务功能[1]。

对于电信运营商来说，AAA服务既是确认收费对象身份的基础，也是保证网络安全（防止非法用户接入）的重要手段。

在完成用户身份确认后，AAA服务根据用户与运营商签订的服务合同授予用户相应的权限，如可接入终端的数量、可用带宽等[2]。

　　作为网络接入的认证和授权系统，AAA系统的正常运行直接关系到运营商网络服务的正常提供。

而且，由于AAA系统多采用集中服务的模式（1个或多个省份部署1套AAA系统）工作，其故障会导致大量用户无法通过认证接入网络，进而导致大面积的网络服务故障。

因此，实现对AAA系统状态的有效监控，并在其发生故障、遭到攻击时迅速定位异常源，对保证运营商网络服务的可用性极为关键。

　　1.2现有异常检测策略

　　由于AAA系统组成设备和功能服务的不断扩展，由软硬件故障、恶意攻击等引发的系统异常也日益频繁。

由于各类设备之间的互相影响，单个设备的异常可能引发大量的异常日志，导致异常影响范围和异常源定位等越来越困难。

　　目前实际应用的AAA服务异常检测策略普遍基于IDS（IntrusionDetectionSystems）等入侵检测设备和AAA系统本身的日志信息设计。

其功能实现主要是通过抽样检测或逐一检测分析相关日志数据，统计相关数据源的行为动作（认证、下线等）特征，当某个数据源的行为统计偏离正常值时发出告警信息。

此类方法策略原理简单，易于部署和使用，但普遍没有考虑异常源之间的关联性[3-5]，检测效率较低，往往在攻击行为持续较长时间后，才能发现异常源，且难以发现以低强度、分布式的方式存在的异常源。

　　1.3TF-IDF算法概述

　　TF-IDF算法是信息检索服务中常用的一种算法，用于计算特征词汇与某个文档的关联度，式

（1）为其计算公式。

其中wi，j为词汇i与文件j的关联系数，tfi，j为词汇i在文件j中出现的次数，N为文件集中的文件总数，dfi为包含词汇i的文件总数[6]。

　　简单来说，词汇i在某个文件j中出现的频率越高，且包含i的文件数越少，词汇i相对于文件j的关联系数wi，j越高，即关联度越大[7]。

　　通过重新设定TF-IDF算法的参数的意义，其也常被用作其他领域关联度的评估[8-11]。

本文第3节所述异常源检测机制中，基于参数替换的TF-IDF算法计算未知异常源与已知异常源的关联度，发现并确认未知异常源，进而用于异常屏蔽等操作。

　　2数据集和分析

　　本文的研究和分析基于某电信公司2014年度的AAA服务日志文件（Log文件）。

Log文件的信息主要包括接入申请时间戳、用户ID、接入方式、MAC地址、接入端口和认证授权结果等。

本文主要关注时间戳、接入方式、MAC地址、接入端口等用于标识和确认某个数据源。

出于信息保密的考虑，不再对日志文件的数据格式等进行详细描述。

　　通过对Log文件中认证授权结果的统计分析，因用户非法（用户名含有非法字符、用户名/密码错误等）、唯N性授权失败（即第N+1台终端试图使用同时接入数最大为N的账号接入网络）导致的认证授权失败占据了相当的比例。

由图1可知，在未发生攻击行为的条件下，唯N性验证失败和用户非法的比例也高达30%左右，认证成功的比例仅为25%左右，这里简单地认为其为正常值，本文不再对该现象的原因进行分析。

　　图2显示了发生恶意登录攻击的某天的数据，该攻击者在8：

00-8：

29通过固定密码轮换账号的模式，在短时间内发起大量认证操作，试图获取使用了简单密码（如aabbcc）的用户的使用权限，造成大量用户非法类型的认证失败。

图3显示了发生唯N性授权攻击（即通过特定账号不停发起超过其允许同时登录数量的接入认证）的某天的数据，该攻击者在11：

00-11：

29通过20余个账号在短时间内发起了大量登录认证操作，试图通过在同一时间发起认证从而使大量设备通过同一账户接入网络，导致认证授权成功率大幅下降。

同样出于信息保密的考虑，图1至图3隐藏了真实的绝对数值。

　　3基于TF-IDF算法的异常源筛选机制

　　通过对AAA日志数据的分析统计，发现导致AAA服务异常的攻击行为（主要包括恶意登录和唯N性授权攻击）在时间（攻击持续时段）、空间（接入端口）上都表现出较强的聚集性，通过替换TF-IDF算法的相关参数使其适用于异常源检测，利用与确定的少数异常源的关联度迅速确定其他未知异常源，进而对其进行屏蔽操作。

　　3.1参数替换的TF-IDF算法

　　首先设定几个概念，便于对算法进行形式化描述：

（1）数据源DS<PortMAC>，其中Port为认证数据来源的接入端口，MAC为其物理地址。

（2）异常源集合Φ，包含已确定为异常数据来源的数据源。

　　（3）T窗口数据源集合Λ{DS<PortMAC>，t，T}，即以确定的异常源DS<PortMAC>进行某次攻击的时刻t为中心，在同一Port到达，并在时间窗口T内进行了认证操作的数据源的集合。

需要注意的是，如果DS<PortMAC>在多个时间点进行了攻击行为，则存在多个集合Λ1，Λ2，…，Λn且这些集合可能存在部分重合。

　　（4）待确认异常源集合Ψ，与异常源集合Φ的关联度大于设定的阈值，待进行行为检测以确认是否为异常源的数据源集合。

　　基于以上几个概念，经过参数替换用于异常源筛选的TF-IDF算法可用式

（2）表示，其中Cor（DS，Φ）表示待筛选数据源与异常源集合Φ的相关系数，为包含DS的T窗口数据源集合Λ的数量，N为在监测时段内认证操作的总次数，dfDS为监测时段内DS发起认证的次数。

　　×

（2）

　　与原始的TF-IDF算法类似，Cor（DS，Φ）的值越大，说明数据源DS与异常源集合Φ的相关性越强，其为异常源的可能性越大。

　　3.2异常源筛选流程

　　本节基于3.1节给出的算法完成对异常源筛选流程的设计和描述，主要包括以下6个步骤：

（1）周期性地发起对统计认证结果数据的检查。

（2）认证结果数据异常检测。

在某一时间窗口范围内，发现认证成功、用户非法、唯N性授权失败等的累加数量、所占总认证数的比例偏离同时段正常均值超过某一阈值，在没有已知原因（如线路割接、流量重分配等）的前提下，即认为发生了认证服务异常。

　　（3）基于数据统计的异常源集合Φ初步填充。

利用1.2节所述现有异常源检测系统，发现并确定少量较为明显的异常源，完成异常源集合Φ的初步填充。

　　（4）利用异常源集合Φ中的元素，基于式

（2）计算每个元素x与集合{Φ-x}的关联度，通过累加关联度然后取均值，获取用于关联度比较的阈值。

　　（5）基于关联度的异常源检测确认。

根据3.2节给出的TF-IDF算法和完成初步填充的异常源集合Φ，计算待筛选数据源DS与Φ的相关系数Cor（DS，Φ），若Cor（DS，Φ）大于预先设定的阈值，则将其加入待确认异常源集合Ψ。

　　（6）对于待确认异常源集合Ψ中的数据源进行行为审计检测，如确认其对AAA系统进行了攻击行为，则将其加入异常源集合Φ，重新计算关联度阈值，否则将其从待确认异常源集合Ψ中删除。

　　4仿真实验

　　为验证本文提出的异常检测机制的有效性（发现数量）和高效性（用时），在真实的日志文件中截取了7次攻击（其中前4次为恶意登录攻击，后3次为唯N性授权攻击）的日志数据进行仿真实验，具体的截取时段从攻击开始前30分钟开始到攻击结束后30分钟。

　　表1展示了本文提出的检测机制与现有机制在异常源发现数量和所用时间这两个参数上的对比。

显然，本文提出的检测机制在异常源发现数量和用时上明显优于现有检测机制。

　　需要说明的是，由于本文提出的检测机制的时间开销与待筛选数据源数量正相关，即使后3次攻击中异常源的数量较少，由于待检测数据源数量相近，后3次检测所用时间与异常源较多的前4次检测基本一致。

　　5结束语

　　针对现有检测机制在有效性和时效性方面存在的不足，从异常数据源之间的关联性入手，基于参数替换的TF-IDF算法提出了一种异常检测机制，通过日志分析计算待筛选数据源与已确认的异常源集的关联度，从而实现异常源的高效检测。

最后基于真实的AAA日志数据验证了该机制的有效性和高效性。

数据显示，本文提出的检测机制相对现有机制具有更高的有效性（发现异常源的数量较多）和时效性（所用时间平均缩短40%以上）。

　　参考文献：

　　[1]MittonD，JohnsMS，BarkleyS，etal.Authentication，authorizationandaccounting：

protocolevaluation[Z].2001.

　　[2]张多英，伍伟池，焦文华.基于数据挖掘的CDMA2000移动网络防盗用技术[J].电讯技术，2012，52

（2）：

234-240.

　　[3]KoutsabasisP，VlachogiannisE，DarzentasJS.Beyondspecifications：

towardsapracticalmethodologyforevaluatingwebaccessibility[J].JournalofUsabilityStudies，2010，5（4）：

157-171.

　　[4]VicenteLuqueCenteno，CarlosDelgadoKloos，JesúsAriasFisteus，etal.WebAccessibilityEvaluationTools：

ASurveyandSomeImprovements[J].ElectronicNotesinTheoreticalComputerScience（ENTCS），2006，157

（2）：

87-100.

　　[5]PaddisonC，EnglefieldP.Applyingheuristicstoaccessibilityinspections[J].InteractingwithComputers，2009，16（3）：

507-521.

　　[6]AnandRajaraman，JeffreyDavidUllman.MiningofMassiveDatasets[M].London：

CambridgeUniversityPress，2011：

1-17.

　　[7]ManningCD，RaghavanP，SchutzeH.IntroductiontoInformationRetrieval[M].London：

CambridgeUniversityPress，2008：

100-103.

　　[8]GaoH，YegneswaranV，ChenY，etal.AnEmpiricalReexaminationofGlobalDNSBehavior[J].ComputerCommunicationReview，2013，43（4）：

267-278.

　　[9]卢柯.入侵检测系统利用信息熵检测网络攻击的方法[J].西安交通大学学报，2013，47

（2）：

14-19.

　　[10]HaoS，FeamsterN，PandrangiR.MonitoringtheinitialDNSbehaviorofmaliciousdomains[A].Proceedingsofthe2011ACMSIGCOMMconferenceonInternetmeasurementconference[C].ACM，2011：

269-278.

　　[11]杨宏宇，常媛.基于K均值多重主成分分析的App-DDoS检测方法[J].通信学报，2014，35（5）：

16-24.