WinDIC系统由四个主要部分组成:
(1) 检索引擎。这是系统的核心部分,负责处理用户的查询、检索例句、处理检索结果和返回例句;
(2) 自然语言处理模块。这部分技术负责对文本处理,包括对用户查询的预处理、中文自动分词、中文例句的模糊匹配等运算;
(3) 双语资源的管理模块。双语资源数量庞大,这个模块能够实现有效地读入某一组例句,提供检索结果的原始例句;
(4) 索引信息是检索中重要的资源,在此基础上,系统能够尽快地找到符合用户输入条件的候选例句集合。
功能特点
支持单词和短语查询
可根据用户输入的句子,从语料库中检索出与输入最接近的一组例句,也可根据用户输入的短语或单词,系统返回包括该短语和词汇的例句。
智能模糊匹配能力:
对于输入的中文例句,如果系统中没有与之完全一样的例句,问天句典也能找出在含义上、词语表达方式相近的例句。比如用户输入“我爱吃苹果”,系统可能会检索出“我喜欢吃香蕉 。I feel like eating bananas.”这样的例句 ,用户只要替换一下香蕉和苹果两个单词就可以使用。同时可对用户输入的句子进行相关的分析,给与相近语义表述搭配的提示。
支持超大数据库索引
问天句典支持千万级的数据条目,在语料资源足够丰富的情况下,可为用户提供良好的文件的查询匹配服务,可支持在线和离线访问。
多种语言支持
支持中文、英语、日语、法语、德语、韩语等语言。其中中文、日文支持分词,是以词为基础的查询技术,避免产生查询歧义。英语、法语可支持变位、变形。
独立的句库设计
将不同例句分开存放,检索时系统显示不同句库的结果。一个句库类似一部词典。这样做的好处是可以向第三方提供开发规范,保证不同的范围内的所有权、著作权等。
毫秒级的查询速度
根据用户的查询,系统保证在毫秒级时间返回结果,提高用户工作效率。
产品特点和优势
丰富的双语例句资源:目前超过百万中英双语语料,以及中日、英日、英法、中韩等双语语料;
获得不同的搭配方式:例如同一中文可能对应不同的英文说法,详尽的结果让用户有更多的选择;
可用于网站站内双语检索、数字图书馆和专业数据库建设;
可和硬件结合,形成类似于文曲星词典一样的句典产品;
可作为外语学习网站和机构的强大辅助学习工具;
可帮助外语初学者轻松应付交流需要;
相应的自动对齐技术,可帮助机构和相关从业人员进行专业机器翻译工作;
系统内部的核心引擎,可作为拥有相关双语资源的企业开发新产品。
运行环境
Microsoft Windows XP/NT/2000/2003/
Linux/Unix |