手机站
网通分站
电信主站
密 码:
用户名:
当前位置 : 主页>行业资讯>业界动态>列表

中国垃圾邮件数量降到第三,反垃圾邮件技术功不可没

来源: 作者: 时间:2008-02-28
西部数码-全国虚拟主机10强!40余项虚拟主机管理功能,全国领先!双线多线虚拟主机南北访问畅通无阻!免费赠送企业邮局,.CN域名,自助建站480元起,免费试用7天,满意再付款! P4主机租用799元/月.月付免压金!
现在每个邮箱用户里的垃圾邮件是增加了还是减少了?可能大部分的网民都有这样一个感觉:现在垃圾邮件的形式是层出不穷,所以垃圾邮件的数量肯定是增加了。
 
但是根据1月23日召开的《互联网协会反垃圾邮件工作成果报告大会》透露的消息显示,中国垃圾邮件数量的排名已由全球第二位降至第三,成为全球垃圾邮件治理效果最显著的国家。
 
据计世网调查显示,2007年第三季度中国网民平均每周收到的垃圾邮件比例降至55.85%,较最为严重的2004年第三季度的65.72%,下降了近10个百分点。特别是从2006年第一季度开始,垃圾邮件比例基本呈连续下降的态势。同时,安全机构Sophos调查数据显示:2007年第三季度中国垃圾邮件发送量在全球所占的比例为4.9%,较最为严重的2005年第四季度的22.30%,下降了17.40个百分点。
 
垃圾邮件的大量减少,得益于反垃圾邮件技术的不断更新升级,中国的成就也是全球垃圾邮件泛滥现状得到控制的一个缩影。“得益于过去两年里在商业反垃圾邮件解决方案领域的投资,垃圾邮件问题已得到了有效的控制。”IDC主管协同计算部的副总裁Mark Levitt表示。根据IDC的一份研究显示,2008年全球范围内反垃圾邮件产品的收入将由2003年的3亿美元增长至超过17亿美元。
 
下面我们来看一下垃圾邮件的定义以及相关的反垃圾邮件技术:
 
垃圾邮件的定义:
 
    1、带有虚假信头信息的邮件;
2、带有欺诈信息或恶意代码;
3、非法利用他人电脑发送的邮件;
4、带有违反国家法律内容的信件(例如反动,发票,赌博等等);
5、信件格式破损,完全无法阅读;
6、带有恶意干扰过滤行为的邮件;
7、普遍被用户认为是垃圾的邮件。
 
虽然法律上对垃圾邮件的发送有一定的限制,但是由于利益驱使,垃圾邮件发送的数量还是越来越多。而且,为了躲避过滤,垃圾邮件发送者研究了过往主流的垃圾邮件过滤系统并提出相应的对策,例如控制流量,分散发送和内容干扰等,这些发送和干扰手段的使用,导致过往的垃圾邮件过滤系统对现在的垃圾邮件办法不多,过滤效果下降。
 
过往的过滤系统为什么容易被绕过?我们做一个简单的分析:
1、以往的行为过滤:
 
    过往的垃圾邮件过滤系统对垃圾邮件分析以下向量:
行为过滤模式为主的系统所分析的向量:
l        来源IP
l        并发数
l        连接频率
l        出错频率
l        流量
由于行为模式所分析的向量太少,所以容易被伪造,容易造成漏判,而且控制粒度太粗。
 
2、内容过滤:
 
    全文过滤或贝叶斯算法为主的过滤系统分析的向量:
l        正文里的每一个词
l        词频
 
全文过滤需要管理员不断的更新关键字,而且随着关键字的增加,过滤效率会大为下降;贝叶斯算法通过用好邮件和垃圾邮件样本来训练自动学习垃圾邮件的特征词,但是贝叶斯算法对于非拉丁语系的文本(例如中文)分词困难,分词结果有多种组合方式,造成向量取值太广,消耗资源过大,容易被干扰,对图片垃圾完全无能为力。而且,对于贝叶斯算法需要数量庞大且均衡的样本训练,样本需要持续更新。
现在每个邮箱用户里的垃圾邮件是增加了还是减少了?可能大部分的网民都有这样一个感觉:现在垃圾邮件的形式是层出不穷,所以垃圾邮件的数量肯定是增加了。
 
但是根据1月23日召开的《互联网协会反垃圾邮件工作成果报告大会》透露的消息显示,中国垃圾邮件数量的排名已由全球第二位降至第三,成为全球垃圾邮件治理效果最显著的国家。
 
据计世网调查显示,2007年第三季度中国网民平均每周收到的垃圾邮件比例降至55.85%,较最为严重的2004年第三季度的65.72%,下降了近10个百分点。特别是从2006年第一季度开始,垃圾邮件比例基本呈连续下降的态势。同时,安全机构Sophos调查数据显示:2007年第三季度中国垃圾邮件发送量在全球所占的比例为4.9%,较最为严重的2005年第四季度的22.30%,下降了17.40个百分点。
 
上篇文章《中国垃圾邮件数量降到第三,反垃圾邮件技术功不可没!(一)》中已经介绍到过往反垃圾邮件的一些弊端,这篇文章将介绍最新有效的反垃圾邮件技术:
 
 
其技术原理是KBAS通过模拟专家分析垃圾邮件的思维过程,把电子邮件专家和垃圾邮件专家对邮件的知识形式化为知识库,通过知识库的指导和启发程序去分析邮件,高效的提取出邮件的本质向量,然后再进行高效特征匹配,从而判断出邮件的属性。
 
KBAS首先提取邮件信头中的本质向量,通过知识点识别其是否存在伪造信息,并判断是否垃圾。然后排除干扰信息,使用启发式算法提取正文的核心向量,并与实时更新的黑白名单数据库进行匹配,判断是否垃圾邮件。实时更新的黑白名单数据库: 
 
 
 
技术名词解释:
 
什么是本质向量?
 
信头部分中,包含的邮件传输本质环节:发送工具,邮件系统,邮件服务器,服务商等。
信件内容中,包含的垃圾邮件本质信息:电话号码,网址,股票代码,QQ号码,干扰程度等。
 
什么是知识库?
 
知识库就是一个永真命题库,命题包括:邮件系统,邮件客户端,邮件协议,物理IP,邮件运营商,网络运营商,垃圾邮件发送者活动区域以及地域差异等多方面的信息,其创建和维护过程经过大规模试验验证,专家认可和知识对象的确认和补充。知识点对垃圾邮件的判断贯穿整个垃圾邮件判断过程。

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!