主流网页过滤方法剖析
作者:
网页过滤(Web Filtering)已经不是一个新鲜名词,由于互联网的蓬勃发展,网上的信息资源开始到处泛滥,而其中不乏很多不良信息,于是人们开始探寻各种过滤信息的技术手段,以扼制不良信息的传播,保护特定人群不受恶意信息的侵扰,例如保护企业内员工不受购物、娱乐等信息侵扰,而影响工作效率;保护青少年不受色情、暴力等信息毒害,而健康成长;因此网页过滤技术应运而生,而由此衍生的内容安全市场也在飞速发展,国内外众多网络设备厂商开始涉足该领域。例如国外厂商有Websense、BlueCoat、8e6等,国内厂商有网康科技、新网程、任子行等。
目前,网页过滤技术正向两个主要方向发展:1.内容实时分析;2.Url过滤。
内容实时分析过滤是指在访问Web内容时,对内容进行实时扫描,根据已知的敏感关键字/词、图片和页面构成特点,分析是否含有禁止访问的内容。这是最有效的控制方法,只要建立一个足够完全的关键字库就可以完全杜绝对不良信息的访问。
但是,应用内容实时分析过滤技术却受到网络延迟、法律法规、文化道德、维护更新等多方面因素的限制。首先,该类产品对分析算法要求很高,并且要有相应运算能力的设备支持,否则在遇到大量数据分析时可能会造成严重的网络延迟、误判漏判等问题。其次,此类产品需要人工维护更新一个庞大的关键字数据库,不断将新的禁止访问的内容关键字添加进去,但是对内容的分析需要跟文化、法律、宗教信仰等多方面结合起来评判,因为不同地区、不同文化、不同法律对信息良莠的定义都不相同,特别是在中国,一个词可以用多音字、谐音字、拼音字母等多种方式表现,为关键字数据库的维护带来了巨大的难度。而这个维护更新工作一般是由用户自己完成,因为不同的用户对需要过滤的内容有不同的需求。还有,内容实时分析过滤需要将网页内容下载到本地才能进行分析,对系统资源和带宽资源都造成了一定的浪费。
因此,采用内容实时分析过滤技术的产品不应该是一个全球通用产品,必须做到真正的完全本地化,才能具备为本地用户服务的能力。
Url过滤是近几年才兴起的一种网页过滤方法,其原理非常简单:通过对互联网上各种各样的信息进行分类,精确地匹配URL和与之对应的页面内容,形成一个预分类网址库。在用户访问网页时,将要访问的网址与预分类网址库中的地址进行对比,以此来判断该网址是否被允许访问。例如我们事先设定禁止访问色情类网站,当某个用户想要访问www.sex.com时,系统会对比该网址在预分类网址库中属于哪一类?是否被允许访问?从而达到控制访问的效果。
与内容实时分析过滤相比,Url过滤方法具有节约带宽,降低访问延迟,减少误判率的优点。但是,Url过滤方法也存在一定的应用限制:首先,采用Url过滤方法的产品也不能是全球通用产品,这同样牵扯到法律、文化、宗教等诸多问题,例如中西方对色情和成人的评定等级就不相同,这就要求预分类网址库收集、分类必须符合当地法律法规、道德文化标准、用户使用习惯等。其次,预分类网址库必须实时更新,我们知道互联网的发展日新月异,每天都会有大量的新网站诞生,这就对采用Url过滤技术的产品提出了实时更新数据库的要求。还有,既然采用预分类的方式过滤Url,就对预分类网址库的精确度提出了很高的要求,预分类的网址不但要数量庞大,还要具有非常高的分类精确度,才不至于出现误判、漏判的可能。
北京网康科技有限公司拥有500万网址的预分类网址库,是业界领先的本地化预分类网址库,数据库的生成是根据中国地区上网用户的URL访问集中度、文化背景、对内容的敏感程度,以及参照国家立法规定,进行合理化采集、分类的结果。网康科技副总裁左英男说:“采用Url过滤技术的公司必须成立专门的Url收集分析部门,及时对新近诞生和死亡的网址进行跟踪、分析和分类,并及时为用户更新预分类网址库,这样才能保证网页过滤的有效性”。北京网康科技有限公司是中国领先的互联网控制管理设备及服务提供商。
网康科技Url过滤部门负责人杨东晓说:“网康科技拥有自主研发的内容分类搜索引擎,它会实时在互联网上进行区域性的URL抓取,并经网康智能分类分析系统对抓取结果进行有效性校验和内容分类匹配,再通过我们部门的URL数据分类审核小组成员对分类结果进行人工审核,以保证分类的准确性,最后将审核结果导入数据库,并上传至服务器供所有用户实时更新。”
由于网页过滤与法律、文化、宗教有着很高的相关性,过滤技术的发展已经不能完全满足用户的需求。而智能系统对内容的分析判断总是会有些偏差,无论是实时的内容扫描分析,还是预分类的Url过滤方法,都无法做到100%的准确判断。但是完善的本地化服务却能弥补先天的不足,只有把用户的需求和利益放在第一位,为本地用户提供真正适合的产品和服务,才能在市场上立足根本。
更多关于 网页过滤 的文章
- [UTM]UTM安全设备在大企业中的未来探讨
- [新闻]美国竟是盗版源头 各类黑客工具热销
- [新闻]思科在华产品线大幅降价 金融危机拖累
- [资料]WatchGuard网络安全方案为尚德电力护航
- [新闻]今天你黑屏了吗?网络流行新段子
- [新闻]速用第三方工具补漏洞遏制木马入侵
- [应用案例]Qno侠诺城市小区网络接入解决方案
- [网页技术]解决杀毒软件误删asp文件的方法
- [SEO]一些值得注意的英文网站优化心得
- [新闻]金山WPS软件应对微软黑屏 日增50%安装
精彩专题
- [新闻]2008年中国互联网五大最雷人事件
- [新闻]恶搞:互联网大佬的另类形象(图)
- [新闻]中国“互联网之父”看互联网三十年变迁
- [新闻]维基百科 原有真实被重新定义
- [网页技术]提高MySQL数据库查询效率的三个实用技巧
- [新闻]网站快速被百度和谷歌收录的六个建站气质
- [SEO]流量之外更看效果 增加用户粘性六个要点
- [新闻]外国人评出五大最佳性能FTP客户端工具
- [新闻]众中小论坛红色警报 PHP类论坛遭附件漏...
- [SEO]百度更改网页权重算法 如何顺利被收录
- [dudu]实现安全稳固的AD和DNS架构
- [mmet]找回丢失的管理员密码
- [宋家雨]别拿虚拟机不当固定资产
- [vvv]Juniper CTO:我看好100G
- [小希大人]關於cloudcompute對云計算
- [DU的世界]美国在反身份窃取方面努力
- [bigrong]向托马斯.弗里德曼致敬
- [blue]最近火起来的RUBY
- [淡月]国外十大著名IT类网站
- [宋家雨]失望的芯片虚拟化调查结果
- [姜子牙]采购大型化主机应对金融
- [小卡罗]再强也拼不过数据中心掉电
- [owenglyn]10大最流行开源软件!
- [淡月]QQ好友“集体出国”
- [ly]Ruby的日期和时刻
- [skke]快速排除PC上网故障
- [淡月]笔记本活拆键盘实录!(图)
- [姜子牙]Sun公司面临陨落
- [papada]生命游戏 c语言完成
- [淡月]裁员名单让你一次看个够!
- [江湖传闻] 自杀可增强公司竞争力
- [江湖传闻] 是什么冷落了中关村?
- [江湖传闻] 彩虹QQ外挂或致高层动荡
- [网管专区] 多线路叠加要注意的事项
- [网管专区] Web服务器Ping通不能访问
- [网管专区] 端口映射不成功找出原因
- [网管专区] 由故障性质排除网络故障
- [争议人物] 李想:汽车站大都是垃圾
- [争议人物] 梁永伦:上任半年别盛大
- [争议人物] 李一男:思维要转型
- [争议人物] 马化腾:曾想摆摊装电脑
- [争议人物] 梁念坚:14月挖来的高管!
- [IDC专区] “CMS文章”的汇总贴
- [IDC专区] 让中国web2.0去死!
- [网络安全] 能解任何电脑的开机密码
- [网络安全]教你如何防范U盘病毒
- [网络安全] 把自己的IP地址隐藏起来
- [网络安全] 六大措施保障网络安全
- [系统应用] 30秒完成清除任务
- [系统应用] 无线网络下载小技巧
- [新闻]80/90后最喜爱上的十大网站
- [新闻]从谷歌公司发现的十个至理名言
- [新闻]2008年中国互联网五大最雷人事件
- [新闻]恶搞:互联网大佬的另类形象(图)
- [SEO]百度拒绝收录的一个重要理由:英文站名
- [网页技术]提高MySQL数据库查询效率的三个实用技巧
- [新闻]外国人评出五大最佳性能FTP客户端工具
- [新闻]众中小论坛红色警报 PHP类论坛遭附件漏...
- [新闻]Web2.0变革:社区网站价值被高估
- [新闻]互联网企业裁员降薪正当时
- [新闻]80/90后最喜爱上的十大网站
- [新闻]2008年中国互联网五大最雷人事件
- [新闻]恶搞:互联网大佬的另类形象(图)
- [新闻]中国“互联网之父”看互联网三十年变迁
- [网页技术]提高MySQL数据库查询效率的三个实用技巧
- [新闻]外国人评出五大最佳性能FTP客户端工具
- [虚拟主机]易用才是王道!美橙VPS主机受青睐
- [新闻]众中小论坛红色警报 PHP类论坛遭附件漏...
- [网页技术]建站历程 分享建站过程中六点感受
- [新闻]Web2.0变革:社区网站价值被高估





