加入收藏

 
 
首页 产品系统 解决方案 客户案例 新闻公告 服务支持 关于问天
 
 
基础技术[在线演示]
  • 中文分词技术
  • 网页去重技术
  • 中文文本分类
  • 简繁/繁简转换
  • 应用系统
  • 互动问答平台
  • 站内搜索系统
  • 双语例句检索系统
  • 网络信息监控系统
  • 线上产品
  • 爱搜车
  • 问天句典








  •  
     
     
    基础技术
    简繁/繁简转换
    概况介绍
      繁简/简繁转换是指在繁体文本和简体文本之间实现自由的转换。随着中国大陆与港澳台地区之间的经贸及文化等各方面交流和合作的不断加强,双方文字的差异给彼此的交流和合作带来了诸多麻烦,这使得繁简/简繁转换的需求变得日益迫切。问天公司实现的繁简/简繁转换系统(WinUC)正是在这样的条件下应运而生的。它可以高效的实现繁简和简繁之间的转换,且准确率高,可以满足不同层次的需求。
    体系结构
      如图1所示,WinUC系统的输入是待转换的文档,输出是转换后的文档。实现系统功能的主要部分是繁简/简繁转换器,可完成按字的繁简、简繁转换,按词的繁简、简繁转换等。另外,系统还需要一个包含简、繁信息的资源文件用于查询。
    图1 繁简/简繁转换系统基本框图
    系统特点
      WinUC系统是一个具有实用化特点的系统,转换效率高,除了满足通常的繁简/简繁转换的需求之外,还增加了一些实用化的功能:
      ·它支持多线程
      ·支持按字或词的繁简、简繁转换
      ·支持文档中包含空字符
      ·能提供转换后的分词信息
      ·支持Unicode编码
      ·转换的准确率在95%以上
    系统功能
      1、WinUC系统可以完成按字或按词的繁简、简繁转换。按字转换如:计算机->計算機;按词转换如:计算机->電腦。
      2、WinUC系统将繁简/简繁转换需要用到的资源独立出来,只加载一次,节省了系统的开
    销。同时,用户使用时利用自己创建的转换器进行繁简/简繁转换工作,可以实现多个线程或多用户同时操作而互不影响。
      3、该系统能处理Unicode编码的文本以及含有空字符的文本,使其适应力更强。
      4、提供Dll调用接口,可以方便的嵌入到其他的应用系统中。同时也可以独立运行得到识别结果。
      5、系统操作方便,性能和效率较高。
    技术特点
      WinUC系统在实现繁简、简繁转换时,考虑到了支持多线程、提高系统效率和性能等多方面需求。同时,采用了自己设计的数据结构存放数据,节省了系统开销,也提高了转换效率。在基于词的繁简、简繁转换过程中,采用逆向最大匹配方法进行分词,分词速度很快。另外,还能处理Unicode文本,扩大了系统的适用范围。
    性能指标
      在P4 2.4G,256M内存的机器上实验。简体和繁体语料来自互联网。
      简体转换为繁体:82个文本,175K,速度为74.7/s
      繁体转换为简体:82个文本,196K,速度为89.6K/s
      转换的准确率在95%以上。
    应用领域
      可应用在需要繁简、简繁转换的各个方面。如网页的繁简转换,应用到如word、wps等编辑器中等。
     
     
    常见问题 | 联系我们 | 渠道合作 | 招贤纳士
    版权所有:Copyright 2005-2008 问天 (北京) 信息技术有限公司 京ICP 备 05063266 号