Loading...

反击垃圾邮件的过滤器

Original

2003年8月

我们可能通过让贝叶斯垃圾邮件过滤器跟踪链接,以查看另一端等待着什么,从而提高其准确性。Richard Jowsey 现在在边缘案例中这样做,并报告说效果很好。

为什么只在边缘案例中这样做?为什么只做一次?

正如我在过滤器会杀死垃圾邮件吗?中提到的,跟踪垃圾邮件中的所有网址会产生一个有趣的副作用。如果流行的电子邮件客户端这样做以过滤垃圾邮件,垃圾邮件发送者的服务器将遭受严重打击。越想越觉得这个主意越好。这不仅有趣;想象一下对垃圾邮件发送者的完美针对性反击,实在是难以想象。

因此,我想向那些正在开发垃圾邮件过滤器的人建议一个额外的功能:一个“惩罚”模式,如果开启,将在可疑垃圾邮件中的每个网址上爬取 n 次,n 可以由用户设置。[1]

正如许多人所指出的,目前电子邮件系统的问题之一是它过于被动。它只会执行你告诉它的事情。到目前为止,所有修复问题的建议似乎都涉及新的协议。而这个则不需要。

如果广泛使用,自动检索垃圾邮件过滤器将使电子邮件系统反弹。垃圾邮件的巨大数量,迄今为止一直对垃圾邮件发送者有利,现在将对他不利,就像一根树枝在他脸上弹回一样。自动检索垃圾邮件过滤器将使垃圾邮件发送者的costs上升,而他的销售下降:他的带宽使用将飙升,他的服务器将在负载下停滞不前,这将使他们无法响应垃圾邮件的人。

每小时发送一百万封电子邮件,每小时在你的服务器上获得一百万次点击。

我们希望确保这仅针对可疑的垃圾邮件。一般来说,发送给数百万人的任何网址都可能是垃圾邮件网址,因此提交每封电子邮件中的每个 http 请求几乎总是有效。但有一些情况并非如此:例如,从 Yahoo Mail 和 Hotmail 等免费电子邮件服务发送的邮件底部的网址。

为了保护这些网站,并防止滥用,自动检索应与垃圾邮件广告网站的黑名单结合使用。只有在黑名单上的网站才会被爬取,网站只有在经过人工检查后才会被列入黑名单。垃圾邮件的生命周期必须至少为几个小时,因此应该很容易及时更新这样的列表,以干扰推广新网站的垃圾邮件。[2]

高流量的自动检索仅对高带宽连接的用户实用,但这样的用户足够多,可以给垃圾邮件发送者带来严重麻烦。实际上,这个解决方案巧妙地反映了问题。垃圾邮件的问题在于,为了接触到少数易受骗的人,垃圾邮件发送者向所有人发送邮件。非易受骗的收件人只是附带损害。但非易受骗的多数人不会停止收到垃圾邮件,直到他们能够阻止(或威胁停止)易受骗的人对此做出回应。自动检索垃圾邮件过滤器为他们提供了一种方法。

这会杀死垃圾邮件吗?不完全是。最大的垃圾邮件发送者可能会保护他们的服务器免受自动检索过滤器的影响。然而,他们最简单和最便宜的做法是包括有效的退订链接在他们的邮件中。这对小型垃圾邮件发送者和雇佣垃圾邮件发送者进行推广的“合法”网站来说都是必要的。因此,如果自动检索过滤器变得普遍,它们将变成自动退订过滤器。

在这种情况下,垃圾邮件就像操作系统崩溃、病毒和弹出窗口一样,成为那些不愿意使用正确软件的人所遭受的瘟疫之一。

备注

[1] 自动检索过滤器必须跟踪重定向,并且在某些情况下(例如,一个页面上只说“点击这里”)应跟踪多个级别的链接。确保 http 请求与流行的网页浏览器的请求无异,包括顺序和引荐来源。

如果响应在 x 时间内没有返回,则默认设置为相当高的垃圾邮件概率。

与其将 n 设为常量,不如将其设为提到该网站的垃圾邮件数量的函数。这将增加对滥用和意外的进一步保护。

[2] 本文的原始版本使用“白名单”一词,而不是“黑名单”。尽管它们的工作方式类似于黑名单,但我更喜欢称其为白名单,因为这可能使它们不那么容易受到法律攻击。然而,这似乎让读者感到困惑。

可能应该有多个黑名单。单一的故障点将容易受到攻击和滥用。

感谢 Brian Burton、Bill Yerazunis、Dan Giffin、Eric Raymond 和 Richard Jowsey 阅读本文草稿。