加入收藏

 
 
首页 产品系统 解决方案 客户案例 新闻公告 服务支持 关于问天
 
 
基础技术
  • 中文分词技术
  • 网页去重技术
  • 中文文本分类
  • 简繁/繁简转换
  • 应用系统
  • 互动问答平台
  • 站内搜索系统
  • 双语例句检索系统
  • 网络信息监控系统
  • 线上产品
  • 爱搜车
  • 问天句典








  •  
     
    中文分词
    应用系统
    双语例句检索系统
    概况介绍
      问天双语检索系统的代表产品是问天句典(WTDIC 2006),面向使用英文写作的用户,在写作时提供恰当的词汇,帮助写出地道的英文句子。目前本系统已经索引50万和500万英汉例句,其中用到几项技术 如中文句子模糊检索、中英文混合查询处理技术及大规模增量式索引技术,以帮助用户迅速、便捷地检索例句 。问天句典(WTDIC 2006)是问天公司推出的免费共享软件,用户范围广泛。
    体系结构
      系统结构图如下:
      WTDIC系统由四个主要部分组成:
    (1) 检索引擎。这是系统的核心部分,负责处理用户的查询、检索例句、处理检索结果和返回例句;
    (2) 自然语言处理模块。这部分技术负责对文本处理,包括对用户查询的预处理、中文自动分词、中文例句的模糊匹配等运算;
    (3) 双语资源的管理模块。双语资源数量庞大,这个模块能够实现有效地读入某一组例句,提供检索结果的原始例句;
    (4) 索引信息是检索中重要的资源,借助于它,系统能够尽快地找到符合用户输入条件的候选例句集合。 
    系统特点
      本系统有几大特点:
    (1) 有丰富的双语例句资源。目前有500万的机器自动对齐中英语料和50万人工校对的中英语
    料,在信息的海洋中一定能找到适合用户的表达方式。
    (2) 句库语言标准。例句资料来自经典的文学作品、教材和官方文件等。
    (3) 查询迅速。毫秒级时间返回结果。
    (4) 获得不同的搭配方式。同一中文可能对应不同的英文说法,详尽的结果让用户有更多的选择。
    与英汉字典、机器翻译系统之间的功能对比如下表。
      英汉双语例句 英汉词典 英中机器翻译系统
    规模

    550万例句

    20万左右词条 --
    结果层面 短语和例句 词条 例句
    信息可靠性 标准文本中的例句 规范化的解释,附有例句 机器生成的翻译句
    适用情况 不知道如何表达或是否为地道的表达方式,适用人工翻译和写作 不知道某个词的含义及使用情况 翻译例句
           
    系统功能
      (1) 根据用户输入的句子,从语料库中检索出与输入最接近的一组例句。
      (2) 根据用户输入的短语或单词,系统返回包括该短语和词汇的例句。
    技术特点
      WTDIC系统采用了以下五项技术:
    (1) 中文句子模糊匹配技术。对于输入的中文例句,如果系统中没有与之完全一样的例句,该技术可以找出在含义上、词语表达方式相近的例句。比如用户输入“我爱吃 苹果”,系统可能会检索出“我喜欢吃香蕉 。I feel like eating bananas.”这样的例句 ,用户只要替换一下就可以使用。
    (2) 大数据量的索引技术。目前使用了550万例句,数据量约1.5G。
    (3) 独立的句库设计。将不同例句分开存放,检索时系统显示不同句库的结果。一个句库类似一部词典。这样做的好处是可以向第三方提供开发规范,保证不同的范围内的所有权、著作权等。
    (4) 中英文混合检索。中英文混合检索技术允许用户输入中文或英文,检索出来的结果的中英例句都会尽量接近输入。
    (5) 相关检索技术。对用户输入的句子进行相关的分析,给与相近语义表述搭配的提示。
    性能指标
      以句子检索为例,在P4 2G CPU、1G内存的服务器上,将原数据1.36G的双语句子以句子为单位建立索引,情况如下。其中中文自动分词的速度约为55.8K/s。
    句子数 所用时间 速度(ms/句)
    2,327,253

    17h 13m (62013505ms)

    22.74
    2,510,656 20h 6m (72341295ms) 28.81
      原数据约1.36GB,合并后的索引数据约801MB。索引约为原数据的50.72%。
    中文模糊句子匹配对最后的结果的顺序起决定性作用,其执行时间统计如下:
    中文句子模糊相似度计算速度测试结果
    实验数据的规模 运行时间(s) 平均每句计算时间开销(s)
    1000组

    1

    0.0010
    5000组 4 0.0008
    10000组 7 0.0007
    30000组 21 0.0007
    70000组 49 0.0007
      由于这方面的技术刚刚开始,目前市场上基本没有同类产品,缺乏统一、规范的测试平台,结果不具有可比性。
    应用领域
       WTDIC系统及其中几项技术在信息处理领域、教育等领域有广泛的应用。WTDIC系统以大数据量的平行语料为基础,充分利用检索技术和自然语言处 理技术,帮助用户尽快地检索到地道的表达方式,在写作、翻译和学习等方面有明显的辅助效果。而且系统不仅局限于中文和英文,如果有相应的语料(比如英法、 中日等语料),都可以方面地加入系统中,供用户检索。本系统特别适用经常写作、翻译的人士使用。
      
     
    常见问题 | 联系我们 | 渠道合作 | 招贤纳士
    版权所有:Copyright 2005-2008 问天 (北京) 信息技术有限公司 京ICP备06025972号