热门搜索 :
考研考公
您的当前位置:首页正文

改进的基于内容的文件类型识别算法

来源:伴沃教育
4246 2011,Vo1.32,No.12计算机工程与设计ComputerEngineering andDesign 改进的基于内容的文件类型识别算法 曹 鼎, 罗军勇 (解放军信息工程大学信息工程学院,河南郑州450002) 摘要:在现有基于内容的文件类型识别算法基础上,针对统计特征提取方面存在的问题,采用定长和变长窗口对文件二 进制内容进行划分,提取文件的统计特征,并提出将特征选择应用于文件类型识别,结合特征的广度和稳定度设计出一种 特征选择评估函数选择标志特征,从而建立文件类型模型,以此为标准识别文件类型。该算法不依靠特定文件类型的结构 和关键标识,适用范围更为广泛。实验结果表明,该算法能有效提高文件类型的识别查准率和查全率。 关键词:文件类型识别;元组频率分布;文件二进制内容;余弦相似度;文件类型模型;特征选择 中图法分类号:TP391.4 文献标识码:A 文章编号:1000—7024(2叭1)12—4246.05 Improved of content—based ifle type identiifcation algorithm CAO Ding,LUO Jun—yong (Institute of Information Engineering,PLA Information Engineering University,Zhengzhou 450002,China) Abstract:On the basis ofthe conte ̄一based ifle type identification algorithm,both ifxed and variable size window are adopted to extract statistic characteristic of ifles’binary conte ̄,which improves feature extraction in current algoritm.Feathure selection is introduced into file type identification and a novel evaluation function combing feature width and stability is used for feature selection,which are used to establi ̄models for different file types as standard to determine a tested file type.Our aim is not to use he structure and key twords ofany specific ifle types as this allows he tapproach to be applied to general ilfe types.Experiments show that the proposed approach improves he tprecision and recall of ifle type identification. Key words:file ype itdentiicatfion;gram frequency distribution;files’binary content;cosine similarity;file type models;feature selection 0引 言 文件是计算机组织和存储数据最常用的一种结构,广泛 机器学习等方面的理论应用于文件类型识别,取得了较好的 效果,但是针对描述文件的统计特征以及对特征的有效选取 等方面研究的较少。本文针对现有算法在文件类型统计特征 提取及特征选取等方面存在的问题,提出一种改进的基于内 容的文件类型识别算法,该算法分别采用定长和变长窗口划 分方法分析文件二进制内容,从而能够更贴切的反映文件类 型的统计特征,并结合特征的广度和稳定度设计出一种特征 选择评估函数,根据特征的评估值选择标志特征来建立文件 类型模型,将待识别文件与各模型用向量空间模型表示之后, 使用余弦相似度来识别文件类型,实验验证该算法能够显著 提高结构化文件类型的识别正确率。 应用于数据交换。一些恶意用户通过篡改文件类型特征以掩 盖文件实体的真实类型,达到诱骗用户访问、传播病毒、隐藏 违法信息等目的。快速准确的判断文件实体的真实类型,是 保护计算机信息安全的重要前提条件之一。 常用的文件类型识别方法是基于文件后缀名或文件头部 关键信息,由于这类信息易篡改,导致识别结果不可靠。 McDaniel和Heydari 首次提出基于内容的文件类型识别算法, 该算法提取字节值频率分布作为文件类型的“指纹”来识别文 件类型,这种算法不依靠特定的属性信息,不易受欺骗,但是 识别正确率不高。wen.JenLi 在此基础上提出基于n.gram模 型来分析文件二进制内容,并使用聚类算法用多个指纹代表 一1文件类型统计特征描述 1.1元组频率分布(gram frequency distribution,GFD) 在基于内容的文件类型识别算法中,大多使用字节值频 率分布或者考察相邻字节的变化情况来描述文件类型统计特 个文件类型,提高了识别正确率,但是对于相同文件类型中 统计值差异较大的文件,此方法的误报率仍然比较高。 还有很多文件类型识别算法[3-13]这些算法将模式匹配、 征,然而单个字节值的变化范围很小(0—255),每个字节值几乎 收稿日期:2011-01—221修订日期:2011-02—28。 作者简介:曹鼎(1984一),女,河南郑卅【人,硕士研究生,研究方向为文件类型识别技术、数据挖掘; 罗军勇(1964一),男,江西南昌人,教 授,硕士生导师,研究方向为数据挖掘、社会网络分析。E—mail:caoding8483@163.corn 曹鼎,罗军勇:改进的基于内容的文件类型识别算法 在所有文件类型中都会出现,不能贴切的描述出文件类型的 统计特征。为解决此问题,本文提出元组频率分布的概念,通 过考察连续若干个字节来对文件的统计特征进行描述。将文 件看作字节的集合,以大小为n的窗口对字节流进行划分,形 成字节片段序列,每个字节片段称为元组,大小为n。根据窗 口是否具有确定性可分为定长和变长两类元组。通过统计每 个元组的出现次数,形成一个元组频率分布GFD。 2011,Vo1.32,No.12 4247 2.1统计特征均值模型 均值模型是指将类内所有训练样本的GFD按相同元组 计算得到的平均值作为此类型的统计特征模型。对每个元组, 当将一个新的GFD加入模型时,按照下式来计算均值 ‰ )= 哗 式中: C ——新加入的GFD中元组 的值, 计算出的新模型中元组 的值。 型中元组 的值,PF^7_一已加入模型的文件个数,- (3) )——旧模 【 —— 1.2定长元组 所谓定长元组是指对字节流进行固定窗口大小的滑动窗 口操作,每次向前滑动一个字节所划分形成的元组。通常情 均值计算简单高效,但是对极端值很敏感,因此不是度量 况下,0xFF和OxO0表示填充或结束标志,因此在计算定长元 组的GFD时,可过滤掉以0xFF和0xO0开头的元组。 采用定长元组简单易行,但是由于元组长度固定,很难捕 获到不同长度的字节序列,很可能会牺牲一些有意义的字节 序列。因此,本文提出采用变长元组来描述文件特征。 1.3变长元组 所谓变长元组是指相邻两个“窗口标记”之问的字节序列 所形成的元组,长度不固定。“窗口标记”实际上是分割字节 序列的断点,形成变长元组的关键就是要找到断点。本文通 过考察一个字节值后一个位置上的字节值的不确定性来寻找 断点,以下将字节值为B的后一个位置上的字节称为字节B 的后继。如果某个字节后继的不确定性很大,则其作为断点 的可能性较大。本文采用“熵”来度量这种不确定性。在一个 文件d中,字节B后继的熵计算方法如下 月 (. )=一∑p( )logp( ) (1) 1 式中: ——文档d中字节B后继的集合, ——集合的大小, x?eX ̄ ——示在文档d中字节B的第k个后继, )——后继 的出现概率,其计算方法如下 p()c )=Count(x( ̄"))/∑Courtt(x: )(1≤七≤n,x ∈ )(2) =1 式中:Cl0 )——在文档d中字节Xk作为字节B的后继的出 现次数。 对cr类训练集中的n个文件,按照式(1)计算每个字节后继 的熵,并按相同字节值计算平均值。设定一个经验闽值T1,将 平均熵值高于”的字节作为“窗口标记”。 为快速统计变长元组频率分布,对每个元组使用不冲突 的MD5哈希函数运算,用得到的哈希值作为索引建立哈希链 表,通过哈希值来找到相应的元组。考虑到运算效率,设定一 个最大元组长度九,过滤掉长度大于 的元组。 采用变长元组可以减少有意义的字节序列被拆开的可能 性,从而能够更好的反映文件的真实特征。 2文件类型统计特征模型建立 文件类型统计特征模型是指能够反映某类型训练样本统 计特征中心趋势的模型。按照第3节介绍的计算步骤,每个 训练样本都可以表示为一个GFD,那么一个类型的统计特征 模型实际上就是类内所有训练样本GFD的中心。本文分别 采用均值和众数作为中心趋势的度量,相应的将模型分为均 值模型和众数模型两种。 数据中心的最好方法。 2.2统计特征众数模型 众数是一个数据集中出现频率最高的值,众数模型就是 将类内所有训练样本的GFD按相同元组计算得到的众数作 为此类型的统计特征模型。众数可能不止一个,当存在多个 众数时,求其平均值作为众数。 相对于均值来讲,众数可以不受少数极端值的影响,从而更 好的反映出数据集的中心趋势。实验表明,使用众数模型的识 别正确率高于均值模型。但是求众数会耗费更大的存储空间和 更高的计算复杂度,因此,可以根据实际需要来选择不同模型。 通过以上两种方式,可以建立G类的 维统计特征模型 ^ ): , ,…岛)。 3文件类型标志特征选择 标志特征的选择直接影响到文件类型识别的正确率。借 鉴文本分类中的特征选择方法及其相关改进“ ” ,本文综合元 组的广度和稳定度设计出特征选择评估函数,该函数用统计 特征模型中的元组作为初始特征空间,经过特征选择和评估 处理,选择出辨识力较强的特征子集,提高识别正确率。 与文本分类中的特征选择相似,标志特征需要具有很好的 类别区分能力;不同的是文本分类中,词在类内文档中出现频 率越高,越能代表此类文档所表示的内容,而文件类型识别中, 文件内容的不同会导致元组出现频率的变化,而真正能代表某 类型的元组出现频率不会随文件内容的变化而变化,在类内的 出现相对稳定。因此能够作为标志特征的元组应满足以下条件: (1)元组在类内文件中广泛存在,而在其他类文件中存在 较少; (2)元组在类内的每个文件中出现频率相对稳定; 同计算文件的GFD一样,这里的频率指元组出现次数, 不进行归一化处理。依据以上两点,对一个属于G类的文件 d,构造特征选择评估函数如下 )=诫 ×l0g‘碉1) (4) ATF(g ̄)=一IT Fu@(g,))- +TF. (g,)一[ 式中: 厂_G类统计模型中的第i个元组,N——G类训练样本 总数。DF(g )——G类训练样本中含有元组g的文档数,表现元 组出现的广度,DF一,( ——非 类训练样本中含有元组 的文 档数, 越大而DF_,( 越小,则说明该元组具有良好的类 别区分能力;ATF(g,)计算方法如式(5),其中矾( 和TF. )分 别表示元组 在文件d中出现的频率和在G类统计模型中的 4248 2011,Vo1.32,No.12 计算机工程与设计Computer Engineering and Design 表1查准率和查全率含义表 实际属于此类 系统判断为属于此类 系统判断为不属于此类 A C 实际不属于此类 B D 值,ATF(g,)表现元组出现的稳定度,△砜毋)越小,元组在该文 件类型中出现越稳定,评估值越大。 对 类统计模型中的所有元组用式(4)计算评估值,取值 最大 ,个元组作为G类的标志特征,形成标志特征空间 『), 记为:彤)=(f-,如,…, …, ,其中 表示 中第k个元组。.厂是经 验值,可以根据实际情况选择合适的值。 表2 BFA算法结果 D0C JPG PDF ZIP AVG 4待测文件类型识别 识别待测文件类型首先要将待识别文件和各类型的统计 P R F 48/87 48/50 0.7007 12/24 l2/50 0.3243 l 7/39 l7/50 0.3820 3o J5o 30,5O 0.6000 O.52l9 0.5350 O.5OI8 特征模型分别表示成向量形式,以 类为例,根据其标志特征 空间 ,待测文件 的向量形式记为: =< ,吐,…, ,…, ,其 中 为元组 在文件c/,中的频率, ∈ 。 类的统计模型向量记 为嘶= , ,…,如…, >,其中矗表示元组 在 类统计模型中的值。 本文采用余弦函数来计算待测文件与各类型之间的相似 度,如式(6)。取相似度最大的模型所代表的类型作为待测文 件的类型。 三 查准率和查全率反映了分类质量两个不同方面,两者必 须综合考虑,因此利用评估指标F测试值进行评估,F值越大, 分类性能越好。其数学公式表示如下:查准率:P= 率:R=— ,F值:F:]2 ̄ PxR。,查全 实验结果如表2-表5所示。 cos 丽,.mj d × 5.4结果分析 k= l㈤ (1)本文算法与BFA算法识别效果比对:两种算法都使用 同样的训练样本和测试样本,以F值为指标对效果进行比较 分析,如图1所示。可以看出,本文算法识别效果显著提高, 特别是使用变长元组时F值平均高出44%。关键原因在于本 文算法对文件二进制统计特征进行选择,剔除了无关特征和 噪声,选择出的特征子集能够更好的反映文件类型的特征,从 而提高识别正确率。 5 算法测试 5.1实验说明 实验中以文献[1]中的BFA方法为参照,分别将本文算法 和BFA算法、定长元组中的均值模型和众数模型、以及定长和 变长元组的对比实验。所有的算法均用Visualc++6.0实现。 (2)采用众数模型与均值模型的本文算法识别效果比对: 定长元组实验中,分别采用均值模型和众数模型作为类型统 计特征模型,以F值为指标对两者识别效果进行比较分析,如 表3、表4及图2所示。可以看出众数模型的F值平均高出 10%左右,识别效果较好。但是,众数的计算需要存储整个数 据集,而均值通过式(3)可以增量计算而不必存储所有的数据, 因而使用众数模型空间消耗较大。 (3)定长元组不同长度及标志特征数识别效果比对:本文 分别对1字节和2字节元组进行实验,从表3、表4及图1可以 看出,2字节元组的识别效果较好,原因在于多字节元组能够 体现字节之间的顺序信息,从而更贴切的表现出文件二进制 5.2实验数据 本文对.DOC、.JPG、.PDF和.ZIP等4种常用的文件类型进 行识别,每种类型训练样本200个,测试样本50个,文件大小 从3K到197M不等。训练样本共2.02G,测试样本共855M。 所有样本文件均从不同的计算机上随机选取,并且均为可靠 的文件。 5.3实验结果 实验中的参数设定如下:窗口标记闽值 设为0.9,元组最 大长度九设为1O,标志特征数量,为100。本文采用查准率(口re_ cision)和查全率(recal1)两个指标来进行评价。用二值列联表 来计算查准率和查全率的值,如表1所示。 的真实特征。至于更大的元组长度是否能够达到更好的识别 表3本文算法定长元组结果 元组长度为1字节,每种类型的左栏为均值度量,右栏为众数度量 D0C P R F JPG 45/47 45/50 PDF 21/30 21/5O 0.5250 ZIP 29/39 29/5O AVG 42/84 42/5O 47/61 47/50 0.8469 l8/45 l 8/5O 0.3789 15/16 15/5O 04545 .46/78 46/5O 06744 .0 7253 O 63o0 06850 .0.9278 0.6517 O.7187 0.6269 0.5998 0.6828 表4本文算法定长元组结果 元组长度为2字节,每种类型的左栏为均值度量,右栏为众数度量 DOC P R F 27/27 27/5O 0.7013 39/40 39/50 0.8667 48/70 48/50 0.8000 JPG 47/59 47/5O 0.8624 48/57 48/50 0.8972 PDF 49/50 48/50 0.9800 43/46 43/50 0.8958 ZIP 40/51 4o}5o 0.7921 AVG 0.8657 0.8300 0.8236 0.8840 0.8750 0.8753 曹鼎,罗军勇:改进的基于内容的文件类型识别算法 表5本文算法变长元组结果 均值度量 2011,Vo1.32,No.12 4249 0 O 0 0 O 0 0 O O 0 0 O 0 O O O 0 O l 9 8 7 6 5 4 3 2 1 O O 0 O O 0 0 1 9 8 7 6 5 4 DOC JPG PDF ZIP AVG P 49/52 47/52 5O,5O 43/46 0.9452 R 49/50 47/50 50,5O 43/50 O.945O F 0.9608 0.92l6 1 0.8958 0.9445 文件类型 —・目卜-BFA算法;—e一定长识别算法(n=1,均值模型); +定长识别算法(n=l,众数模型);+定长识别算法(n=2,均值模型) 十^。暑言0《口0焉u粤m∞ U 定长识别算法(n=2,众数模型);十变长识别算法 粤山 ∞ 鼬加∞如柏如 图1本文算法与BFA算法F值比对 加O 0 0 O O O O O 0 O 9 8 7 6 5 4 3 2 1 O DOC I】PG m PDF ZIP 文件类型 ■●均值模型;0 众数模型 (a)窗口大小为1 效果,需要进一步的实验验证。为验证标志特征数的选择对 识别效果的影响,本文对不同特征数进行实验,图3中显示的 20 50 100 l 50 200 250 300 350 400 450 500 Number of Grams 图3特征数与正确率的关系 j j 1  ;j DOC JPG PDF ZIP 文件类型 ■一定长元组:口变长元组 图4变长元组与定长元组识别效果比对 是其中几组有代表性的实验结果。从图中可以看出,当特征 数为256时正确率达到最高。当然这个结果并不是适用于所 有的数据集,本文中使用的样本数量和范围均比较有限,需要 大量的实验以得到效果更好的特征数。 (4)变长元组与定长元组识别效果比对:以F值为指标,取 定长元组中效果最好的一组结果(2字节元组,众数模型)与变 长元组进行比对,结果如图4所示。可以看出变长元组识别 效果较好,平均F值达到0.9以上,说明变长元组确实能够更 加贴切的捕捉文件二进制内容的特征,文件类型的识别正确 率显著提高。 6 结束语 本文基于文件的二进制内容,提出一种改进的文件类型 识别算法。针对现有基于内容的文件类型识别算法中特征提 取不准确和没有进行特征选择等方面的问题,提出采用定长 元组和变长元组来分析文件的二进制内容,设计出一种结合 元组广度和稳定度的特征选择评估函数,对特征空间进行降 维及优化,将待识别文件和各类模型向量化,通过计算余弦相 似度来对文件按类型进行分类。该算法复杂度小,且显著提 高了查准率和查全率,但是仍然存在着一些不足。下一步将 改进判定待测文件类型归属的方法,达到更好的分类效果O 参考文献: [I】McDaniel M,Heydari MH.Content based ifle type detection al- gorithms[C].Proceedings of the 36th Annual Hawaii Imema— tional Conference on System Sciences,2003. 4250 2011,Vo1.32,No.12 计算机工程与设计Computer Engineering and Design (上接第4226页) 本文只研究了文献中的中文引文,对其中的英文引文未 做处理,英文引文的研究以及中英文引文结合的情况是需要 进一步研究的问题。另外,本文方法验证了基于引文的论文 检索比基于概括性信息检索的有效性,两者的综合考虑也是 今后进一步需要研究的问题。 [7】 张华平.中国科学院中文分词工具(ICTCLAS)[EB/0L]_httD:// ictclas.ore,/,2010. [8] 邱均平,李江.链接分析与引文分析的比较[J].中国图书馆学报, 2008,34(1):60—64. 【9] 王俊英.基于科技文献的中文文本分类算法研究[D].秦皇岛: 燕山大学,2007:37—38. [1 0]George Tsatsaronis,Vicl ̄Panagiotopoulou.A generalized vee— tor space model for text retrieval based on semantic relatedness 参考文献: 【1】 Christopher D Manning,Prabhakar Raghavan,Hinrich Schutze. Introduction to information retrieval[M].England:Cambridge University Press,2008:2—4. 【CJ.Greece:Proceedings of the EACL Student Research Work— shop,2009:70—78. [2] 丁国栋,白硕,王斌.文本检索的统计语言建模方法综述[J】_计算 机研究与发展,2006,43(5):769 776. 【3】 Samir A Rahman,Basma Hassan,Reem Bahgat.A new email re— 【11】马晖男,吴江宁,潘东华.一种修正的向量空间模型在信息检索 中的应用fJ].哈尔滨工业大学学报,2008,40(4):666.669. [12]April Kontostathis。William M Pottenger.A framework or funder— trieval ranking approach[J].International Journal of Computer Science&Information Technology,2010.2(5):44—63. standing latent semantic indexing(LSI)performance[J].1nforma— tion Processing and Management,2006,42(1):3-6. [13]Sophocles J Orfanidis.SVD,PCA,KLT,CCA and all hatt[M]. New York:Rutgers University,2007:332—525. [4] 朱庆生,邹景华.基于本体论的论文检索[J】.计算机科学,2005,32 (5):172.176. [5】Li Xin—li,Lv Yue-e.Algorithms based on concept for thesis simi— lariy tretireval[J],Computer Engineering and Applications,2007, 43(21):177—179. 【6】 于江德,樊孝忠,尹继豪.基于条件随机场的中文科研论文信 [14】赵亚慧.基于潜在语义分析的文本检索算法研究[D】.延吉:延 边大学,2009:25—28. [15]Tang Liang,Duan Jian—guo,Xu Hong-bo,et a1.Mutual informa— tion maximization based feature selection algorithm in text clas— 息抽取[J】.华南理工大学学报(自然科学版),2007,35(9):90一 】O6. siifcation[J].Computer Engineering and Applications,2008,44 (13):130.133. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top