Loading...

反击过滤器

Original

2003 年 8 月

我们或许能够提高贝叶斯垃圾邮件过滤器的准确性,方法是让它们跟踪链接,查看另一端等待的内容。death2spam 的 Richard Jowsey 现在在边界情况下这样做,并报告说效果很好。

为什么只在边缘情况下这样做?为什么只做一次?

正如我在过滤器会消灭垃圾邮件吗?中提到的,跟踪垃圾邮件中的所有 URL 会产生有趣的副作用。如果流行的电子邮件客户端这样做是为了过滤垃圾邮件,那么垃圾邮件发送者的服务器将受到严重打击。我越想越觉得这个想法不错。这不仅仅是有趣;很难想象还有比这更完美的反击垃圾邮件发送者的策略。

因此,我想向那些从事垃圾邮件过滤器工作的人建议一项附加功能:“惩罚”模式,如果启用该模式,将会对可疑垃圾邮件中的每个 URL 进行 n 次抓取,其中 n 可以由用户设置。[1]

正如许多人所指出的,当前电子邮件系统的一个问题是它太被动了。它只会按照你的指令行事。到目前为止,所有解决这个问题的建议似乎都涉及新的协议。但这个建议不需要。

如果广泛使用,自动检索垃圾邮件过滤器将使电子邮件系统*反弹。*大量的垃圾邮件,到目前为止对垃圾邮件发送者有利,现在却对他不利,就像树枝折断了他的脸。自动检索垃圾邮件过滤器将使垃圾邮件发送者的成本上升,销售额下降:他的带宽使用量将飙升,他的服务器将因负载而陷入瘫痪,这将使那些响应垃圾邮件的人无法使用它们。

每小时发送一百万封电子邮件,每小时在您的服务器上获得一百万次点击。

我们希望确保只对可疑垃圾邮件执行此操作。一般来说,发送给数百万人的任何 URL 都可能是垃圾邮件 URL,因此在每封电子邮件中提交每个 http 请求几乎总是可行的。但在某些情况下情况并非如此:例如,从 Yahoo Mail 和 Hotmail 等免费电子邮件服务发送的邮件底部的 URL。

为了保护此类网站并防止滥用,应将自动检索与垃圾广告网站的黑名单相结合。只有黑名单上的网站才会被抓取,并且网站只有在经过人工检查后才会被列入黑名单。垃圾邮件的生命周期至少为几个小时,因此应该很容易及时更新此类列表以干扰推广新网站的垃圾邮件。[2]

高容量自动检索只对高带宽连接的用户实用,但这样的用户数量足以给垃圾邮件发送者带来严重麻烦。事实上,这种解决方案巧妙地反映了这个问题。垃圾邮件的问题在于,为了接触到少数容易上当的人,垃圾邮件发送者会向所有人发送邮件。不易上当的收件人只是附带损害。但不易上当的大多数人不会停止接收垃圾邮件,除非他们能阻止(或威胁阻止)容易上当的人回复垃圾邮件。自动检索垃圾邮件过滤器为他们提供了一种方法。

这会消灭垃圾邮件吗?不完全是。最大的垃圾邮件发送者可能可以保护他们的服务器免受自动检索过滤器的攻击。但是,对他们来说,最简单、最便宜的方法是在他们的邮件中包含有效的取消订阅链接。这对于小公司和雇佣垃圾邮件发送者来推广它们的“合法”网站来说是必要的。因此,如果自动检索过滤器变得普遍,它们就会变成自动取消订阅过滤器。

在这种情况下,垃圾邮件就会像操作系统崩溃、病毒和弹出窗口一样,成为只会困扰那些不愿意使用正确软件的人的祸害。

笔记

[1] 自动检索过滤器必须遵循重定向,在某些情况下(例如,页面只显示“单击此处”)应遵循多级链接。还要确保 http 请求与流行 Web 浏览器的请求没有区别,包括顺序和引用者。

如果在 x 时间内没有收到回复,则默认为相当高的垃圾邮件概率。

与其让 n 成为常数,不如让它成为提及该网站的垃圾邮件数量的函数,这可能是一个好主意。这将进一步提高对滥用和事故的保护程度。

[2] 本文的原始版本使用了“白名单”一词,而不是“黑名单”。尽管它们的工作原理与黑名单类似,但我更喜欢称它们为白名单,因为这样可能会使它们更不容易受到法律攻击。不过,这似乎让读者感到困惑。

可能应该有多个黑名单。单点故障将容易受到攻击和滥用。

感谢Brian Burton、Bill Yerazunis、Dan Giffin、Eric Raymond 和 Richard Jowsey 阅读本文草稿。