首页 关于问天 新闻动态 产品系统 加入问天 合作伙伴 问天论坛 联系方式
 
 
·基础技术
·应用技术
·应用系统
·产品下载
·在线演示
 
应用系统
中文全文检索系统
概况介绍

  问天中文全文检索系统(WinIR)面向海量的中、英文文本信息,包括网页、文档文件等(如果加入转换接口,可以支持更广泛的数据源),提供快速、准确的查询,帮助使用者查找资料。WinIR系统主要使用了中文信息处理技术、索引检索技术和文档排序技术。WinIR系统既可以作为独立的搜索引擎使用,也可以作为信息处理平台的支持子系统。

体系结构
  WinIR系统整体结构如下图所示
图 1 系统结构
  总体上,WinIR系统可分为四个部分:(1)网页预处理部分。对所有网页进行正文提取,获取网页
的标题文本以及其他网页指向该网页的链接文本信息。(2)索引部分。对全部文本信息分词和建立索引。(3)查询处理部分。实现对主题集的查询输入构造。(4)检索部分。实现对检索结果取出、排序和后处
理。
系统特点
  WinIR系统的特色之一是将中文自然语言处理技术应用在检索技术中,采用多种信息检索模型,能够有效地提高检索的准确率。比起基于向量空间模型的传统检索系统,本系统在准确率上能有约10~20个百分点的提高。
  WinIR系统的另一个特色是以词为索引基础,而不是单个汉字。尽量用语义的基本单位计算,能够尽量避免单字引起的查准率低的问题。系统中用到中文分词技术。
  WinIR系统的第三个特点是支持大数据量的网页、文本索引。实际中索引数据量可达30G(纯文本)。即使在数据量大的情况下,查询能够快速相应,迅速地检索出结果。
  此外WinIR系统还能够给出文章的提示性信息,方便用户浏览。
系统功能
  ·全文检索;
  ·基于语言模型的全文检索;
  ·提供文档自动文摘。
技术特点
  WinIR系统采用了几项关键技术:
  ·中英文文本处理技术。英文处理方面,由于英文单词,由于名词有数的变化(比如: apples, boxes等)、动词有事态的变化(如:done, had等)、形容词有比较级的变化(如:better, worse等),对于这种情况,系统需要使用词形还原(stemming)技术做处理。中文处理中,首先遇到的问题是编码问题。目前两岸三地使用的中文编码主要有两种:GB码和BIG5编码。GB为中国大陆使用的编码方案,BIG5为中国台湾地区的通用方案。如果希望系统能够处理简体和繁体中文,则需要使用繁简转换技术进行处理,并且将两种编码转化为一种统一的编码(比如Unicode或者GBK)。统一编码以后,还需要对中文进行进一步处理——使用中文自动分词技术,将连续的中文文本分成词的序列。
  ·快速高效索引技术。
  ·查询分析技术。可以自动的构造查询,设定关键词的全重,更好地提速检索效果;
  ·网页正文提取及分析技术。主要的文本来源之一是从互联网上获取的HTML网页。HTML网页中包含的广告链接信息、链接到其它网页的导航信息等,都会对该网页内容检索产生干扰。因此,在对网页的内容建立索引之前,需要其中的有效正文信息进行了提取。我们采用了多种方法提取正文,形成只包含正文的纯文本文件,以供检索;
  ·文摘技术。
  ·基于语言模型的排序技术。语言模型排序技术是近几年发展起来的,平均表现效果比向量空间模型的要好。系统也采用混合排序策略,结合多种排序方法综合排序,结果表现排序效果有提升。
性能指标
  WinIR系统所取得的评测指标值见表 1。
表 1与所有参评单位的单项评价指标最好结果对比
类别
程序自动构造查询   人工构造查询

MAP

P@10 R-Precision MAP P@10 R-Precision
WinIR早期版本 0.3107 0.624 0.3672 0.3538 0.684 0.4078
  从表 1可以看出,在程序自动构造查询时,WinIR系统在三项评价指标上与最好的结果非常接近。
  以句子索引为例,在Inter 2GHz CPU、1G内存的服务器上,将原数据1.36G的双语句子以句子为单位建立索引,情况如下。其中中文自动分词的速度约为55.8K/s。
句子数 运行时间(s) 速度(ms/句)
2,327,253

17h 13m (62013505ms)

22.74
2,510,656 20h 6m (72341295ms) 28.81
  原数据约1.36GB,合并后的索引数据约801MB。索引约为原数据的50.72%。
应用领域
  本系统应用广泛,可以作为资料检索、网站全文检索、公司内部局域网检索等多个领域中应用,凡是需要在大规模数据中迅速定位资料的位置的应用场合都可以使用本系统。
   
 
版权所有:2006 问天(北京)信息技术有限公司 京ICP备 06025972 号