|
|
[电子邮件] 基于AIS和Bayes网络的垃圾邮件过滤研究格式:KDH格式(需要用CAJViewer查看) 页数:64页 摘 要 如今电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但电子邮件在为人们提供极其方便的通信手段同时,垃圾邮件的危害也日益严重,网民平均收到的垃圾邮件数量已经超过了正常邮件。因此,如何解决好垃圾邮件的过滤问题是一项有着重大现实意义的课题。 人工免疫系统强大的自体非自体识别(免疫识别)能力是垃圾邮件识别“天然”的解决办法,灵敏的免疫反馈机制为识别多变的垃圾邮件提供了解决之道。 如何将人工免疫系统的这些仿生机制,应用于垃圾邮件过滤,是本文将要解决的主要问题。 本文首先分析了电子邮件的工作原理、垃圾邮件的危害及过滤研究现状,并对垃圾邮件过滤的常用语料库,和垃圾邮件过滤方法的评价体系做了介绍。 在分析现有垃圾邮件过滤技术的基础上,尝试将人工免疫系统和贝叶斯网络相结合应用于垃圾邮件的过滤。其次,分析了人工免疫系统和贝叶斯网络的基本原理。对人工免疫系统,不仅分析了它的仿生机理,还给出了免疫算法的基本架构,和常用的基于群体的免疫算法;对贝叶斯网络,给出了基本的贝叶斯公式,分析了贝叶斯网络的拓扑结构,和条件独立性假设。 最后,设计了一个基于 AIS 和 Bayes 网络的垃圾邮件过滤算法,分析了其中的关键问题,并给出了解决办法;在此基础上设计了一个基于 AIS 和 Bayes网络的垃圾邮件过滤模型,并以此模型为基础设计了一个垃圾邮件过滤仿真器;最后在 PU1 Bare 语料上做了垃圾邮件过滤仿真实验,并取得了较好效果。 关键词:垃圾邮件;邮件过滤;AIS;Bayes;PU1 目 录 摘 要..........................................................................................I Abstract......................................................................................II 第一章 绪论................................................................................1 1.1 研究背景 ..............................................................................1 1.2 论文研究的内容 ......................................................................1 1.2.1 创新之处 .............................................................................1 1.2.2 研究目标 ..............................................................................1 1.2.3 本文的主要工作 .....................................................................2 1.3 本文的结构...............................................................................2 第二章 垃圾邮件过滤研究现状...........................................................3 2.1 电子邮件简介............................................................................3 2.1.1 电子邮件的工作原理 ..............................................................3 2.1.2 电子邮件系统的有关协议.........................................................4 2.2 垃圾邮件及其危害 ....................................................................6 2.3 垃圾邮件过滤的类型..................................................................9 2.3.1 MTA 过滤..............................................................................9 2.3.2 MDA 过滤 ...........................................................................10 2.3.3 MUA 过滤 ...........................................................................10 2.4 垃圾邮件过滤技术分类 ............................................................10 2.4.1 基于 IP 地址的垃圾邮件过滤...................................................10 2.4.2 基于手工规则的垃圾邮件过滤 ................................................. 11 2.4.3 基于内容的垃圾邮件过滤........................................................13 2.5 垃圾邮件的常用语料库 .............................................................14 2.5.1 PU1 语料 .............................................................................14 2.5.2 Ling-Spam 语料 .....................................................................15 2.6 垃圾邮件过滤方法的评价体系 ....................................................16 2.7 小结 .....................................................................................17 第三章 人工免疫系统原理...............................................................18 3.1 人工免疫系统简介 ...................................................................18 3.1.1 人工免疫系统的定义 ..............................................................18 3.1.2 AIS 的生物原型 .....................................................................18 3.2 AIS 的仿生机理 ........................................................................20 3.2.1 免疫识别 ..............................................................................20 3.2.2 免疫记忆 ..............................................................................21 3.2.3 克隆选择 ..............................................................................21 3.2.4 多样性..................................................................................21 3.2.5 分布性..................................................................................21 3.2.6 进化 ....................................................................................22 3.3 免疫算法 ................................................................................22 3.3.1 免疫算法基本架构 ..................................................................22 3.3.2 否定选择算法 ........................................................................23 3.3.3 肯定选择算法 ........................................................................24 3.3.4 克隆选择算法 ........................................................................25 3.4 小结 ......................................................................................25 第四章 贝叶斯网络基本原理.............................................................26 4.1 贝叶斯网络基本定理.................................................................26 4.2 贝叶斯网络的拓扑结构 .............................................................26 4.3 条件独立性假设 ......................................................................27 4.4 贝叶斯文本分类算法的基本原理 ................................................28 4.5 小结 ....................................................................................28 第五章 基于 AIS 和 Bayes 网络的垃圾邮件过滤 ............................29 5.1 电子邮件的预处理 ..................................................................29 5.1.1 文本的表示方法. .................................................................29 5.1.2 电子邮件的语义信息及其 VSM 向量表示....................................29 5.1.3 邮件文本的特征提取算法.......................................................30 5.2 基于 AIS 和 Bayes 网络的垃圾邮件过滤方法的基本思想...................32 5.3 基于 AIS 和 Bayes 网络的垃圾邮件过滤算法 ...................................33 5.4 关键问题处理..........................................................................34 5.4.1 抗原的结构设计、生成抗原 .....................................................34 5.4.2 抗体的结构设计、生成抗体 ......................................................35 5.4.3 亲和力的定义和计算 ...............................................................36 5.5 免疫反馈和抗体变异..................................................................38 5.5.1 Normal 抗体细胞变异 ..............................................................39 5.5.2 Spam抗体细胞变异.................................................................39 5.6 小结 ....................................................................................39 第六章 基于 AIS 和 Bayes 网络的垃圾邮件过滤仿真器的实现....40 6.1 基于 AIS 和 Bayes 网络的垃圾邮件过滤模型 ..................................40 6.2 基于 AIS 和 Bayes 网络的垃圾邮件过滤仿真器的实现 .......................41 6.2.1 细胞结构类的设计 .................................................................43 6.2.2 公共功能类的设计 .................................................................43 6.2.3 邮件过滤类的设计 .................................................................44 6.2.4 抗体生成类的设计 .................................................................46 6.3 实验结果及对比分析...................................................................47 6.4 小结 .......................................................................................48 结 论............................................................................................49 参考文献.......................................................................................50 致 谢.............................................................................................54 附录(攻读硕士学位期间发表论文目录) ........................................55 |




发表于 2006-4-26 19:04
|