FuzzyOcr 介绍
FuzzyOCR,是一套修改自OcrPlugin的Spamassassin
plugin。同样是利用光学字符辨认(OCR)的方式,来识别图像式邮件所包含的「文字讯息」,并利用Fuzzy word
matching算法判断辨识出来的文字。
主要具备了下列的功能:
Optical Character Recognition using different engines and settings
Fuzzy word matching algorithm applied to OCR results
Image hashing system to learn unique properties of kNown spam images
Dimension, size and integrity checking of images
Content-Type verification for the containing email
Matching and learning techniques
可弹性支持不同的OCR interface,并利用fuzzy word matching算法来处理辨识的结果。
支持DB,可将处理过的图片,以 feature vectors的形态储存在数据库。因此相同或是类似的图片,便可以利用储存在DB的特征向量来处理。
能检测不同维 度、size与整合性的测试。
Resource saving techniques
仅扫描邮件,而非辨认该封信件是否为垃圾信件。信件的分类仍交由spamassassin所判别的分数高低来决定。
对于已达到 spam分数门坎的邮件,FuzzyOCR在处理该封邮件时会忽略该封信件而不进行扫描,进而减轻系统负载。(3.5版之后提供)
藉 由比对储存于DB的feature vectors(dimensions and file
size)。若比对成功,则忽略该封信件,而不再进行OCR辨识与处理。
FuzzyOcr 官网
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。