| |
|
|
 |
应用系统 |
| 问天站内搜索系统 |
背景与需求:
随着网站资讯的不断累积和用户对搜索的依赖,很多网站需要一个强大的搜索来对自身网站的数据进行统一的管理。不管是信息门户网站、还是某个论坛,都越来离不开一个统一的搜索,方便用户或者自身的网站编辑查找相关的信息。
系统概述:
站内搜索和全文检索系统类似,通过将所有不同格式,不同编码,不同平台的所有信息按照相似度排序,利用自动去重、自动生成信息摘要、自动标注和关键词提取等一系列智能处理模块,建立一套统一的方便用户或自身网站编辑统一管理所有信息的平台。
产品架构
总体上,WTZN系统可分为四个部分:(1)网页预处理部分。对所有网页进行正文提取,获取网页的标题文本以及其他网页指向该网页的链接文本信息。(2)索引部分。对全部文本信息分词和建立索引。(3)查询处理部分。实现对主题集的查询输入构造。(4)检索部分。实现对检索结果取出、排序和后处理。
产品特点和优势:
可支持多种网站数据库,并对这些数据库内信息进行统一检索;
支持word、excel、ppt、pdf、html、txt等多种格式文本信息;
可轻松实现关键词搜索、各种逻辑搜索;
可以根据用户需要,按照相关度或者时间排序;
可以在所有信息中统一搜索,也可以在单个平台信息搜索;
支持中英文等混合检索;
能对每个网页自动生成简单的摘要和关键词描述;
典型应用:
某IT行业网站的页面摘要和关键词描述自动生成;
某国内大型汽车论坛的论坛搜索(可搜索全站、分版、可按标题、内容、ID搜索);
化妆品网站和医疗网站的站内搜索系统
运行环境
Microsoft Windows XP/NT/2000/2003/
Linux/Unix |
| |
|
|