| 概况介绍 |
| 问天双语检索系统的代表产品是问天句典(WTDIC 2006),面向使用英文写作的用户,在写作时提供恰当的词汇,帮助写出地道的英文句子。目前本系统已经索引50万和500万英汉例句,其中用到几项技术 如中文句子模糊检索、中英文混合查询处理技术及大规模增量式索引技术,以帮助用户迅速、便捷地检索例句 。问天句典(WTDIC 2006)是问天公司推出的免费共享软件,用户范围广泛。 |
| 体系结构 |
| 系统结构图如下: |
 |
WTDIC系统由四个主要部分组成:
(1) 检索引擎。这是系统的核心部分,负责处理用户的查询、检索例句、处理检索结果和返回例句;
(2) 自然语言处理模块。这部分技术负责对文本处理,包括对用户查询的预处理、中文自动分词、中文例句的模糊匹配等运算;
(3) 双语资源的管理模块。双语资源数量庞大,这个模块能够实现有效地读入某一组例句,提供检索结果的原始例句;
(4) 索引信息是检索中重要的资源,借助于它,系统能够尽快地找到符合用户输入条件的候选例句集合。 |
| 系统特点 |
本系统有几大特点:
(1) 有丰富的双语例句资源。目前有500万的机器自动对齐中英语料和50万人工校对的中英语
料,在信息的海洋中一定能找到适合用户的表达方式。
(2) 句库语言标准。例句资料来自经典的文学作品、教材和官方文件等。
(3) 查询迅速。毫秒级时间返回结果。
(4) 获得不同的搭配方式。同一中文可能对应不同的英文说法,详尽的结果让用户有更多的选择。
与英汉字典、机器翻译系统之间的功能对比如下表。 |
| |
英汉双语例句 |
英汉词典 |
英中机器翻译系统 |
规模
|
550万例句
|
20万左右词条 |
-- |
| 结果层面 |
短语和例句 |
词条 |
例句 |
| 信息可靠性 |
标准文本中的例句 |
规范化的解释,附有例句 |
机器生成的翻译句 |
| 适用情况 |
不知道如何表达或是否为地道的表达方式,适用人工翻译和写作 |
不知道某个词的含义及使用情况 |
翻译例句 |
| |
|
|
|
|
| 系统功能 |
(1) 根据用户输入的句子,从语料库中检索出与输入最接近的一组例句。
(2) 根据用户输入的短语或单词,系统返回包括该短语和词汇的例句。 |
| 技术特点 |
WTDIC系统采用了以下五项技术:
(1) 中文句子模糊匹配技术。对于输入的中文例句,如果系统中没有与之完全一样的例句,该技术可以找出在含义上、词语表达方式相近的例句。比如用户输入“我爱吃 苹果”,系统可能会检索出“我喜欢吃香蕉 。I feel like eating bananas.”这样的例句 ,用户只要替换一下就可以使用。
(2) 大数据量的索引技术。目前使用了550万例句,数据量约1.5G。
(3) 独立的句库设计。将不同例句分开存放,检索时系统显示不同句库的结果。一个句库类似一部词典。这样做的好处是可以向第三方提供开发规范,保证不同的范围内的所有权、著作权等。
(4) 中英文混合检索。中英文混合检索技术允许用户输入中文或英文,检索出来的结果的中英例句都会尽量接近输入。
(5) 相关检索技术。对用户输入的句子进行相关的分析,给与相近语义表述搭配的提示。 |
| 性能指标 |
| 以句子检索为例,在P4 2G CPU、1G内存的服务器上,将原数据1.36G的双语句子以句子为单位建立索引,情况如下。其中中文自动分词的速度约为55.8K/s。 |
| 句子数 |
所用时间 |
速度(ms/句) |
2,327,253
|
17h 13m (62013505ms)
|
22.74 |
| 2,510,656 |
20h 6m (72341295ms) |
28.81 |
|
原数据约1.36GB,合并后的索引数据约801MB。索引约为原数据的50.72%。
中文模糊句子匹配对最后的结果的顺序起决定性作用,其执行时间统计如下: |
| 中文句子模糊相似度计算速度测试结果 |
| 实验数据的规模 |
运行时间(s) |
平均每句计算时间开销(s) |
1000组
|
1
|
0.0010 |
| 5000组 |
4 |
0.0008 |
| 10000组 |
7 |
0.0007 |
| 30000组 |
21 |
0.0007 |
| 70000组 |
49 |
0.0007 |
|
| 由于这方面的技术刚刚开始,目前市场上基本没有同类产品,缺乏统一、规范的测试平台,结果不具有可比性。 |
| 应用领域 |
| WTDIC系统及其中几项技术在信息处理领域、教育等领域有广泛的应用。WTDIC系统以大数据量的平行语料为基础,充分利用检索技术和自然语言处 理技术,帮助用户尽快地检索到地道的表达方式,在写作、翻译和学习等方面有明显的辅助效果。而且系统不仅局限于中文和英文,如果有相应的语料(比如英法、 中日等语料),都可以方面地加入系统中,供用户检索。本系统特别适用经常写作、翻译的人士使用。 |