FILTER, DIE ZURÜCKSCHLAGEN

August 2003

Wir könnten die Genauigkeit von Bayesian-Spamfiltern verbessern, indem wir sie Links folgen lassen, um zu sehen, was am anderen Ende wartet. Richard Jowsey von death2spam macht dies jetzt in Grenzfällen und berichtet, dass es gut funktioniert.

Warum nur in Grenzfällen? Und warum nur einmal?

Wie ich in Will Filters Kill Spam? erwähnt habe, hätte das Folgen aller URLs in einem Spam eine amüsante Nebenwirkung. Wenn beliebte E-Mail-Clients dies tun würden, um Spam zu filtern, würden die Server der Spammer ernsthaft in Mitleidenschaft gezogen. Je mehr ich darüber nachdenke, desto besser scheint mir diese Idee. Das ist nicht nur amüsant; es wäre schwer vorstellbar, einen perfekt gezielten Gegenangriff auf Spammer zu konzipieren.

Ich möchte daher eine zusätzliche Funktion für diejenigen vorschlagen, die an Spamfiltern arbeiten: einen "bestrafen"-Modus, der, wenn er aktiviert ist, jede URL in einem verdächtigen Spam n-mal spiderte, wobei n vom Benutzer festgelegt werden könnte. [1]

Wie viele Menschen festgestellt haben, ist eines der Probleme mit dem aktuellen E-Mail-System, dass es zu passiv ist. Es tut, was man ihm sagt. Bisher scheinen alle Vorschläge zur Behebung des Problems neue Protokolle zu beinhalten. Dieser würde das nicht tun.

Wenn weit verbreitet, würden automatisch abrufende Spamfilter das E-Mail-System zurückprallen lassen. Das enorme Volumen des Spams, das bisher im Vorteil des Spammers gearbeitet hat, würde nun gegen ihn arbeiten, wie ein Ast, der ihm ins Gesicht schnippt. Automatisch abrufende Spamfilter würden die Kosten des Spammers in die Höhe treiben und seine Verkäufe senken: sein Bandbreitenverbrauch würde durch die Decke gehen, und seine Server würden unter der Last zum Stillstand kommen, was sie für die Menschen, die auf den Spam reagiert hätten, unzugänglich machen würde.

Eine Million E-Mails pro Stunde versenden, eine Million Zugriffe pro Stunde auf deinen Servern erhalten.

Wir möchten sicherstellen, dass dies nur bei verdächtigen Spams geschieht. Als Regel gilt, dass jede URL, die an Millionen von Menschen gesendet wird, wahrscheinlich eine Spam-URL ist, sodass das Einreichen jeder HTTP-Anfrage in jeder E-Mail fast immer gut funktionieren würde. Aber es gibt einige Fälle, in denen dies nicht zutrifft: die URLs am Ende von E-Mails, die von kostenlosen E-Mail-Diensten wie Yahoo Mail und Hotmail gesendet werden, zum Beispiel.

Um solche Seiten zu schützen und Missbrauch zu verhindern, sollte das automatische Abrufen mit Blacklists von spamvertisierten Seiten kombiniert werden. Nur Seiten auf einer Blacklist würden gecrawlt, und Seiten würden nur nach menschlicher Inspektion auf die Blacklist gesetzt. Die Lebensdauer eines Spams muss mindestens mehrere Stunden betragen, sodass es einfach sein sollte, eine solche Liste rechtzeitig zu aktualisieren, um mit einem Spam, der eine neue Seite bewirbt, zu interferieren. [2]

Hochvolumiges automatisches Abrufen wäre nur für Benutzer mit Hochgeschwindigkeitsverbindungen praktikabel, aber es gibt genug davon, um Spammern ernsthafte Probleme zu bereiten. Tatsächlich spiegelt diese Lösung elegant das Problem wider. Das Problem mit Spam ist, dass der Spammer, um ein paar leichtgläubige Menschen zu erreichen, Mail an alle sendet. Die nicht leichtgläubigen Empfänger sind lediglich Kollateralschaden. Aber die nicht leichtgläubige Mehrheit wird nicht aufhören, Spam zu erhalten, bis sie die leichtgläubigen daran hindern kann, darauf zu reagieren (oder drohen kann, dies zu tun). Automatisch abrufende Spamfilter bieten ihnen eine Möglichkeit, dies zu tun.

Würde das Spam töten? Nicht ganz. Die größten Spammer könnten wahrscheinlich ihre Server gegen automatisch abrufende Filter schützen. Der einfachste und kostengünstigste Weg für sie, dies zu tun, wäre, funktionierende Abmeldelinks in ihren Mails einzufügen. Und dies wäre eine Notwendigkeit für kleinere Fische und für "legitime" Seiten, die Spammer engagieren, um sie zu bewerben. Wenn also automatisch abrufende Filter weit verbreitet würden, würden sie zu automatisch abmeldenden Filtern werden.

In diesem Szenario würde Spam, wie Betriebssystemabstürze, Viren und Popups, zu einer dieser Plagen werden, die nur Menschen betreffen, die sich nicht die Mühe machen, die richtige Software zu verwenden.

Hinweise

[1] Automatisch abrufende Filter müssen Weiterleitungen folgen und sollten in einigen Fällen (z. B. eine Seite, die nur "hier klicken" sagt) mehr als eine Ebene von Links folgen. Stellen Sie auch sicher, dass die HTTP-Anfragen von denen beliebter Webbrowser nicht zu unterscheiden sind, einschließlich der Reihenfolge und des Referrers.

Wenn die Antwort nicht innerhalb einer bestimmten Zeit zurückkommt, sollte standardmäßig eine ziemlich hohe Spam-Wahrscheinlichkeit angenommen werden.

Anstatt n konstant zu machen, könnte es eine gute Idee sein, es zu einer Funktion der Anzahl der Spams zu machen, die gesehen wurden und die die Seite erwähnen. Dies würde eine weitere Schutzebene gegen Missbrauch und Unfälle hinzufügen.

[2] Die ursprüngliche Version dieses Artikels verwendete den Begriff "Whitelist" anstelle von "Blacklist". Obwohl sie wie Blacklists funktionieren sollten, zog ich es vor, sie Whitelists zu nennen, da dies sie möglicherweise weniger anfällig für rechtliche Angriffe machen könnte. Das scheint die Leser jedoch nur verwirrt zu haben.

Es sollte wahrscheinlich mehrere Blacklists geben. Ein einzelner Ausfallpunkt wäre sowohl Angriffen als auch Missbrauch ausgesetzt.

Danke an Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond und Richard Jowsey für das Lesen von Entwürfen davon.