加入收藏

 
 
首页 产品系统 解决方案 客户案例 新闻公告 服务支持 关于问天
 
 
基础技术[在线演示]
  • 中文分词技术
  • 网页去重技术
  • 中文文本分类
  • 简繁/繁简转换
  • 应用系统
  • 互动问答平台
  • 站内搜索系统
  • 双语例句检索系统
  • 网络信息监控系统
  • 线上产品
  • 爱搜车
  • 问天句典








  •  
     
     
    应用系统
    中文信息模糊匹配
    系统概述
      随着网络、通讯技术的不断发展,电子邮件、短信已经逐渐成为人们之间通信的一种重要的方式,但同时也产生了大量的垃圾邮件和垃圾短信。这不仅打破了正常的网络秩序,而且也给用户带来了不便。需要一种技术能够对这些垃圾邮件、垃圾短信进行有效、及时地过滤。为了防止被监测,垃圾邮件和垃圾短信的制造者采用很多方式(如谐音字、拆分字等)对邮件进行处理,以防止所发送的邮件被监测和封堵。系统采用了中文信息模糊匹配技术,能够对那些经过处理的信息进行快速、有效地监测。问天中文信息模糊匹配系统(WinFM)初期版本技术是863计划的917子项,该技术实现了对邮件的有效过滤。在863组织的验收评测中,该系统的成绩为优秀。
    关键技术
      ·中文模糊匹配技术
      ·谐音字、拆分字等汉字的识别
    系统指标
      ·WinFM系统能够对信息如下几种变化进行处理:
      1.谐音字,如“邮件”被替换成“油件”。
      2.拆分字,如“计算机”被替换成“计算木几”。
      3.通配符,在关键词中加入若干无意义的符号,如“邮件”被替换成“邮*#件”。
      4.关键词与操作,只有同时包含着两个关键词的邮件或短信会被过滤掉,只包含其中一个关键词的不予以处理。
      ·WinFM系统性能指标
      1.系统可以在一秒钟内对近100M字节的数据进行处理(P4 2G、主存为256M的计算机上的测试结果)。
      2.系统的准确率和召回率均在95%以上。
    应用领域
      该技术对于维护网络正常的运行秩序起着重要的作用,有着很大的实用价值。该系统可以应用于移动通信中对短消息的处理、垃圾邮件的过滤、在实时系统中实现信息的过滤。愿意与相关单位(移动通讯运营商、手机生产商等)进行联合开发。
     
     
     
    常见问题 | 联系我们 | 渠道合作 | 招贤纳士
    版权所有:Copyright 2005-2008 问天 (北京) 信息技术有限公司 京ICP 备 05063266 号