 |
基础技术 |
| 大规模文本/网页去重系统 |
| 概况介绍 |
| 随着信息时代的到来,尤其是互联网技术的高速发展,网络中网站的数量成倍增长,在2001年2月共统计到28669939个网站的记录,而且网站已很高的速率增长。这些网站为我们提供了大量的信息,但不同的网站中存在着大量的重复信息,这些信息被搜索引擎反复的索引,因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。对于用户来说相同的文章只检索出一篇就够了,但对于搜索引擎来说保存相同内容的网页,也会造成存储资源的浪费和检索时的低效率。现阶段取出相同或相似网页的技术还没有很好的应用在现有的搜索引擎上,如果这一技术能应用到现有的搜索引擎中,势必会极大地方便用户的检索信息,同时通过去掉重复的网页,减少的需要检索的信息量,从而提高了检索的效率。 |
体系结构
|
 |
问天大规模网页去重系统(WinDR)主要体系结构为:首先由服务器汇总所有的网页数
据,然后经过特征出的抽取,将所有的特征字串加入到特征串的检索系统中,在检索系统中
比较并判断特征串的出现次数,以确定该特征串所代表的网页是否出现过。 |
| 系统特点 |
| WinDR系统最大的优势在于可以以极快的速度处理超大规模的文本和网页,网页不用进行净化处理,就可以判断是否是被转载过的,这相比市场上同类产品,有着明显的优势。 |
| 系统功能 |
1 WinDR系统可以将各个网站经过转载的网页进行聚类比较,把相同的网页归为一类。
2 WinDR系统能够以极高的速度来判定新出现的一个网页是否在以前的网页库中出现过。 |
| 技术特点 |
WinDR系统采用的技术有着鲜明的特点,它将一个两两比对的问题,转化为一个检索问
题,从而时间复杂度原来的 O(n2)降到O(log(n)*n),这相比市场上同类产品,有着很明显的技术优势。该技术是将网页并没有进行净化处理,而直接的进行抽取特征串,这样是因为速
度非常快,而且准确率也是非常高。进行抽取完特征串以后,对抽取后的特征串建立检索系
统,通过特征串匹配的方式,来判定两个网页是否是转载的,通过这一系列的处理,对大规
模的文本有着极高的速度优势,而且准确率也很高。 |
| 性能指标 |
WinDR系统有着很强的速度优势,由于采用了将检索技术应用到去重技术之中,所以将时间复杂度由原来的 O(n2)降到O(log(n)*n),所以速度优势明显。
测试语料:所有的文本为网页形式,网页大小平均为2K。
测试环境:linux环境, 1G内存。CPU: P4 3.0
计算标准:将N篇网页特征等事先已经加载到内存中,计算的时间为:新来的一篇网页计算它与之前的网页是否重复的时间。
测试一: N= 200万 时间为: 0.01s
测试二: N= 560万 时间为: 0.01s
由于采用的时间计数精度为0.01,所以可能他们之间的略微差别体现不出来。如果使用上面我采用的计算方法,时间复杂度O(log(n)),并且实际上计算时间基本和n的增大没有太大关系。 |
| 应用领域 |
| WinDR采用的技术有着极强的应用背景和应用领域,,尤其是对搜索引擎的后排序技术有着很好的辅助作用,可以有效地去除掉搜索引擎返回结果的重复性,此外还可以有效地将各网站中转载的网页进行聚类后分析。 除了网页外,还可以对正常的文本进行去重,亦有很好的准确率和效率。 |
| |