专利内容由知识产权出版社提供
专利名称:一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤
方法
专利类型:发明专利
发明人:崔玉文,石乐义,刘晓彤,陈鸿龙,郭宏斌,孙慧,薛智宇,
李剑蓝
申请号:CN201710257123.7申请日:20170419公开号:CN107086952A公开日:20170822
摘要:本发明公开了一种基于TF‑IDF中文分词的贝叶斯垃圾邮件过滤方法,所述方法包括:建立中文邮件训练文本集;根据停用词词库对中文邮件训练文本集进行TF‑IDF中文分词,并更新停用词词库;通过TF‑IDF中文分词算法对中文邮件训练文本集进行特征词提取,根据提取的特征词以及特征词权值更新特征词词库;把TF‑IDF中文分词后的特征词及特征词权值输入到贝叶斯过滤器执行邮件分类;分类结果反馈到日志库。本发明在中文垃圾邮件过滤中误报率低,执行效率高。
申请人:中国石油大学(华东)
地址:266580 山东省青岛市黄岛区长江西路66号
国籍:CN
更多信息请下载全文后查看