Loading...

反击的过滤器

Original

August 2003

我们或许可以通过让贝叶斯垃圾邮件过滤器跟踪链接来查看链接的另一端是什么,从而提高其准确性。death2spam 的 Richard Jowsey 现在在边界情况下这样做,并报告说效果很好。

为什么只在边界情况下这样做?为什么只做一次?

正如我在 过滤器会杀死垃圾邮件吗? 中提到的那样,跟踪垃圾邮件中的所有 URL 会产生一个有趣的副作用。如果流行的电子邮件客户端为了过滤垃圾邮件而这样做,垃圾邮件发送者的服务器将受到严重打击。我越想这件事,它就越像一个好主意。这不仅仅是有趣;很难想象对垃圾邮件发送者有比这更完美的针对性反击。

因此,我想向那些致力于垃圾邮件过滤器的开发人员建议一个额外的功能:“惩罚”模式,如果开启,它将 n 次抓取可疑垃圾邮件中的每个 URL,其中 n 可以由用户设置。[1]

正如许多人指出的那样,当前电子邮件系统的一个问题是它太被动了。它只做你告诉它的事情。到目前为止,所有解决这个问题的建议似乎都涉及新的协议。这个则不会。

如果广泛使用,自动检索垃圾邮件过滤器将使电子邮件系统 反弹。垃圾邮件的巨大数量,到目前为止一直有利于垃圾邮件发送者,现在将反过来对他不利,就像一根树枝折断后弹回他的脸上一样。自动检索垃圾邮件过滤器将提高垃圾邮件发送者的 成本, 并降低他的销售额:他的带宽使用量 将大幅增加,他的服务器将在负载下不堪重负,这将使它们无法为那些本应回复垃圾邮件的人提供服务。

每小时发送一百万封电子邮件,每小时在你的服务器上获得一百万次点击。

我们希望确保这只会对可疑的垃圾邮件进行。通常情况下,任何发送给数百万人的 URL 都可能是垃圾邮件 URL,因此几乎所有时候提交每封电子邮件中的每个 HTTP 请求都可以正常工作。但有一些情况并非如此:例如,来自 Yahoo Mail 和 Hotmail 等免费电子邮件服务的邮件底部的 URL。

为了保护此类网站,并防止滥用,自动检索应与垃圾邮件网站黑名单相结合。只有黑名单上的网站才会被抓取, 并且 只有在人工检查后才会将网站列入黑名单。垃圾邮件的寿命至少要几个小时,因此 应该很容易及时更新此类列表,以干扰推广新网站的垃圾邮件。[2]

高流量自动检索只对高带宽用户实用 连接,但数量足够多,足以给垃圾邮件发送者造成严重麻烦。事实上,这个解决方案巧妙地 反映了问题。垃圾邮件的问题在于,为了接触到少数容易上当的人,垃圾邮件发送者会向所有人发送 邮件。那些不容易上当的收件人 只是附带损害。但那些不容易上当的大多数人 不会停止收到垃圾邮件,直到他们能够阻止(或威胁要阻止)那些容易上当的人 回复它。自动检索垃圾邮件过滤器为他们提供了一种方法来做到这一点。

这会杀死垃圾邮件吗?不完全是。最大的垃圾邮件发送者 可能能够保护他们的服务器免受自动检索 过滤器。然而,他们最简单、最便宜的方法 是将有效的退订链接包含在 他们的邮件中。对于那些规模较小的垃圾邮件发送者来说, 以及那些雇佣垃圾邮件发送者来推广自己的“合法”网站来说,这将是必需的。因此,如果自动检索过滤器变得普遍, 它们将成为自动退订过滤器。

在这种情况下,垃圾邮件将像操作系统崩溃、病毒和 弹出窗口一样,成为那些不使用正确软件的人才会遇到的灾难之一。

注释

[1] 自动检索过滤器将不得不跟踪重定向, 并且在某些情况下(例如,一个页面上只写着 “点击这里”)应该跟踪多个级别的链接。 还要确保 HTTP 请求与 流行的 Web 浏览器的请求无法区分,包括顺序和来源。

如果响应 在 x 秒内没有返回,则默认为 相当高的垃圾邮件概率。

与其让 n 保持不变,不如将其设为 已看到提及该网站的垃圾邮件数量的函数。这将增加一层 防止滥用和意外事件的保护。

[2] 本文最初版本使用的是“白名单”而不是“黑名单”。虽然它们 应该像黑名单一样工作,但我更喜欢称它们为白名单 因为这可能会使它们不太容易受到法律攻击。 但这似乎只是让读者感到困惑。

可能应该有多个黑名单。单点 故障将容易受到攻击和滥用的影响。

感谢 Brian Burton、Bill Yerazunis、Dan Giffin、 Eric Raymond 和 Richard Jowsey 阅读了本文的草稿。