计算机工程与信息技术学报

随机森林垃圾邮件分类系统

孔班塔巴姆·苏西拉·德维

电子邮件是一种快速的通信工具,对用户来说具有成本效益。相反,电子邮件用户的数量在过去的几个时代推动了垃圾邮件的急剧增长。垃圾邮件问题是互联网面临的重大风险之一。垃圾邮件数量的增长带来了值得信赖的反垃圾邮件过滤器的重要性。通常,垃圾邮件发送者会将不受欢迎和未经请求的电子邮件发送给不同的收件人,这些垃圾邮件的特征大多相同。因此,有必要构建一个有效发现垃圾邮件的防御系统,并为独立过滤器提供替代流程。因此,本文提出了一种使用基于属性的随机森林分类将电子邮件分类为垃圾邮件和普通邮件的新框架。该过程首先计算每个标记的贝叶斯垃圾邮件概率,然后使用 TF-IDF 加权方案计算每个标记和邮件的权重,根据遗传适应度计算分数,最后使用随机森林分类器进行分类过程,将电子邮件分为垃圾邮件和非垃圾邮件。将结果与现有的垃圾邮件分类方法在分类准确度、加权准确度和 F1 度量方面进行比较。结果表明,与其他现有算法相比,所提出的系统显示出良好的效果。

免责声明: 此摘要通过人工智能工具翻译,尚未经过审核或验证