反击的过滤器
Original2003年8月
我们可以通过让贝叶斯垃圾邮件过滤器跟踪链接来提高其准确性,看看另一端有什么在等着。Richard Jowsey 现在在边界情况下这样做,并报告效果很好。
为什么只在边界情况下这样做?为什么只做一次?
正如我在《过滤器能杀死垃圾邮件吗?》中提到的,跟踪垃圾邮件中的所有网址会产生一个有趣的副作用。如果流行的电子邮件客户端这样做来过滤垃圾邮件,垃圾邮件发送者的服务器将遭受严重打击。我越想越觉得这是个好主意。这不仅很有趣,而且很难想象有什么比这更针对性的反击垃圾邮件发送者的方法了。
所以我想建议那些从事垃圾邮件过滤器研究的人增加一个"惩罚"模式,如果开启,就会爬取可疑垃圾邮件中的每个网址n次,n可由用户设置。[1]
正如许多人指出的,当前电子邮件系统的一个问题是太被动了。它只做你告诉它做的事。到目前为止,所有修复这个问题的建议似乎都涉及新的协议。这个建议不需要。
如果广泛使用,自动检索垃圾邮件过滤器将使电子邮件系统"反弹"。大量的垃圾邮件,到目前为止一直有利于垃圾邮件发送者,现在将成为他的劣势,就像一根弹回的树枝打在他脸上。自动检索垃圾邮件过滤器将使垃圾邮件发送者的成本飙升,销量下降:他的带宽使用量将飙升,服务器将在负载下陷入停顿,这将使他们无法为响应垃圾邮件的人提供服务。
每小时发送100万封电子邮件,每小时获得100万次点击。
我们希望这只针对可疑的垃圾邮件。通常情况下,发送给数百万人的任何网址很可能是垃圾邮件网址,所以几乎所有情况下都可以提交每个http请求。但也有一些情况不是这样:来自Yahoo Mail和Hotmail等免费电子邮件服务的邮件底部的网址,例如。
为了保护这些网站,并防止滥用,自动检索应该与垃圾邮件网站黑名单相结合。只有在黑名单上的网站才会被爬取,而网站只有在经过人工检查后才会被列入黑名单。垃圾邮件的生命周期至少要几个小时,所以应该很容易及时更新这样一个列表,以干扰推广新网站的垃圾邮件。[2]
高容量自动检索只对高带宽连接的用户来说是可行的,但这样的用户已经足够多,足以给垃圾邮件发送者带来严重麻烦。事实上,这个解决方案很好地反映了这个问题。垃圾邮件的问题在于,为了接触到少数几个容易上当的人,垃圾邮件发送者向所有人发送邮件。非容易上当的收件人只是附带损失。但是,直到非容易上当的大多数人能够停止(或威胁停止)容易上当的人响应垃圾邮件,他们才会停止收到垃圾邮件。自动检索垃圾邮件过滤器为他们提供了一种方法。
这能杀死垃圾邮件吗?并不完全。最大的垃圾邮件发送者可能能够保护他们的服务器免受自动检索过滤器的攻击。然而,他们最简单和最便宜的方法就是在他们的邮件中包含有效的取消订阅链接。对于较小的从业者和雇用垃圾邮件发送者推广自己的"合法"网站来说,这也是必须的。所以如果自动检索过滤器广泛使用,它们就会变成自动取消订阅过滤器。
在这种情况下,垃圾邮件就像操作系统崩溃、病毒和弹出窗口一样,只会困扰那些不使用合适软件的人。
注释
[1] 自动检索过滤器需要跟踪重定向,在某些情况下(例如一个只说"点击这里"的页面)需要跟踪多个级别的链接。同时也要确保http请求与流行的Web浏览器(包括顺序和referrer)无法区分。
如果响应在x时间内没有返回,就默认为相当高的垃圾邮件概率。
不如让n成为一个函数,取决于提到该网站的垃圾邮件数量。这将增加进一步的保护,防止滥用和意外。
[2] 本文的原始版本使用了"白名单"而不是"黑名单"这个术语。尽管它们的工作方式类似于黑名单,但我更喜欢称之为白名单,因为这可能使它们不太容易受到法律攻击。不过,这似乎只是让读者感到困惑。
应该有多个黑名单。单一故障点会使其容易受到攻击和滥用。
感谢 Brian Burton、Bill Yerazunis、Dan Giffin、Eric Raymond 和 Richard Jowsey 阅读本文的草稿。