加入收藏

 
 
首页 产品系统 解决方案 客户案例 新闻公告 服务支持 关于问天
 
 
基础技术
  • 中文分词技术
  • 网页去重技术
  • 中文文本分类
  • 简繁/繁简转换
  • 应用系统
  • 互动问答平台
  • 站内搜索系统
  • 双语例句检索系统
  • 网络信息监控系统
  • 线上产品
  • 爱搜车
  • 问天句典








  •  
     
    中文分词
    应用系统
    问天站内搜索系统
    背景与需求:
      随着网站资讯的不断累积和用户对搜索的依赖,很多网站需要一个强大的搜索来对自身网站的数据进行统一的管理。不管是信息门户网站、还是某个论坛,都越来离不开一个统一的搜索,方便用户或者自身的网站编辑查找相关的信息。

    系统概述:
      站内搜索和全文检索系统类似,通过将所有不同格式,不同编码,不同平台的所有信息按照相似度排序,利用自动去重、自动生成信息摘要、自动标注和关键词提取等一系列智能处理模块,建立一套统一的方便用户或自身网站编辑统一管理所有信息的平台。

    产品架构

      总体上,WTZN系统可分为四个部分:(1)网页预处理部分。对所有网页进行正文提取,获取网页的标题文本以及其他网页指向该网页的链接文本信息。(2)索引部分。对全部文本信息分词和建立索引。(3)查询处理部分。实现对主题集的查询输入构造。(4)检索部分。实现对检索结果取出、排序和后处理。

    产品特点和优势:
    可支持多种网站数据库,并对这些数据库内信息进行统一检索;
    支持word、excel、ppt、pdf、html、txt等多种格式文本信息;
    可轻松实现关键词搜索、各种逻辑搜索;
    可以根据用户需要,按照相关度或者时间排序;
    可以在所有信息中统一搜索,也可以在单个平台信息搜索;
    支持中英文等混合检索;
    能对每个网页自动生成简单的摘要和关键词描述;

    典型应用:
    某IT行业网站的页面摘要和关键词描述自动生成;
    某国内大型汽车论坛的论坛搜索(可搜索全站、分版、可按标题、内容、ID搜索);
    化妆品网站和医疗网站的站内搜索系统

    运行环境
    Microsoft Windows XP/NT/2000/2003/
    Linux/Unix
      
     
    常见问题 | 联系我们 | 渠道合作 | 招贤纳士
    版权所有:Copyright 2005-2008 问天 (北京) 信息技术有限公司 京ICP备06025972号