| |
|
|
 |
应用系统 |
| 中文信息模糊匹配 |
| 系统概述 |
| 随着网络、通讯技术的不断发展,电子邮件、短信已经逐渐成为人们之间通信的一种重要的方式,但同时也产生了大量的垃圾邮件和垃圾短信。这不仅打破了正常的网络秩序,而且也给用户带来了不便。需要一种技术能够对这些垃圾邮件、垃圾短信进行有效、及时地过滤。为了防止被监测,垃圾邮件和垃圾短信的制造者采用很多方式(如谐音字、拆分字等)对邮件进行处理,以防止所发送的邮件被监测和封堵。系统采用了中文信息模糊匹配技术,能够对那些经过处理的信息进行快速、有效地监测。问天中文信息模糊匹配系统(WinFM)初期版本技术是863计划的917子项,该技术实现了对邮件的有效过滤。在863组织的验收评测中,该系统的成绩为优秀。 |
| 关键技术 |
·中文模糊匹配技术
·谐音字、拆分字等汉字的识别 |
| 系统指标 |
·WinFM系统能够对信息如下几种变化进行处理:
1.谐音字,如“邮件”被替换成“油件”。
2.拆分字,如“计算机”被替换成“计算木几”。
3.通配符,在关键词中加入若干无意义的符号,如“邮件”被替换成“邮*#件”。
4.关键词与操作,只有同时包含着两个关键词的邮件或短信会被过滤掉,只包含其中一个关键词的不予以处理。
·WinFM系统性能指标
1.系统可以在一秒钟内对近100M字节的数据进行处理(P4 2G、主存为256M的计算机上的测试结果)。
2.系统的准确率和召回率均在95%以上。 |
| 应用领域 |
| 该技术对于维护网络正常的运行秩序起着重要的作用,有着很大的实用价值。该系统可以应用于移动通信中对短消息的处理、垃圾邮件的过滤、在实时系统中实现信息的过滤。愿意与相关单位(移动通讯运营商、手机生产商等)进行联合开发。 |
| |
| |
|
|
|