FILTER, DIE ZURÜCKSCHLAGEN

August 2003

Wir könnten die Genauigkeit von Bayesischen Spam-Filtern verbessern, indem wir sie Links folgen lassen, um zu sehen, was am anderen Ende wartet. Richard Jowsey von death2spam tut dies jetzt in Grenzfällen und berichtet, dass es gut funktioniert.

Warum nur in Grenzfällen? Und warum nur einmal?

Wie ich in Will Filters Kill Spam? erwähnt habe, hätte das Folgen aller URLs in einem Spam einen amüsanten Nebeneffekt. Wenn beliebte E-Mail-Clients dies täten, um Spam zu filtern, würden die Server des Spammers eine ernsthafte Abreibung bekommen. Je mehr ich darüber nachdenke, desto besser erscheint mir diese Idee. Das ist nicht nur amüsant; es wäre schwer vorstellbar, wie ein gezielter Gegenangriff auf Spammer besser aussehen könnte.

Daher möchte ich denjenigen, die an Spam-Filtern arbeiten, ein zusätzliches Feature vorschlagen: einen "Bestraf"-Modus, der, wenn er aktiviert ist, jede URL in einem vermuteten Spam n-mal durchsucht, wobei n vom Benutzer eingestellt werden kann. [1]

Wie viele Leute bemerkt haben, ist eines der Probleme des derzeitigen E-Mail-Systems, dass es zu passiv ist. Es tut, was man ihm sagt. Bisher scheinen alle Vorschläge zur Behebung des Problems neue Protokolle zu erfordern. Dieser würde das nicht.

Wenn sie weit verbreitet wären, würden automatisch abrufende Spam-Filter das E-Mail-System zurückprallen lassen. Das enorme Volumen des Spams, das bisher zu Gunsten des Spammers gewirkt hat, würde sich nun gegen ihn wenden, wie ein Ast, der ihm ins Gesicht schlägt. Automatisch abrufende Spam-Filter würden die Kosten des Spammers in die Höhe treiben und seine Verkäufe senken: Seine Bandbreitennutzung würde durch die Decke gehen und seine Server würden unter der Last zusammenbrechen, was sie für die Leute, die auf den Spam reagiert hätten, unzugänglich machen würde.

Pumpen Sie eine Million E-Mails pro Stunde aus, erhalten Sie eine Million Zugriffe pro Stunde auf Ihre Server.

Wir wollen sicherstellen, dass dies nur bei vermuteten Spams geschieht. Als Regel ist jede URL, die an Millionen von Menschen gesendet wird, wahrscheinlich eine Spam-URL, so dass das Senden jeder HTTP-Anfrage in jeder E-Mail fast immer funktionieren würde. Es gibt jedoch einige Fälle, in denen dies nicht zutrifft: die URLs am Ende von E-Mails, die von kostenlosen E-Mail-Diensten wie Yahoo Mail und Hotmail gesendet werden, zum Beispiel.

Um solche Websites zu schützen und Missbrauch zu verhindern, sollte das automatische Abrufen mit Sperrlisten von Spam-Websites kombiniert werden. Nur Websites auf einer Sperrliste würden durchsucht werden, und Websites würden nur nach Inspektion durch Menschen auf die Liste gesetzt. Die Lebensdauer eines Spams muss mindestens mehrere Stunden betragen, so dass es einfach sein sollte, eine solche Liste rechtzeitig zu aktualisieren, um einen Spam, der eine neue Website bewirbt, zu stören. [2]

Hochvolumiges automatisches Abrufen wäre nur für Benutzer mit Hochgeschwindigkeitsverbindungen praktisch, aber es gibt genug davon, um Spammern ernsthafte Probleme zu bereiten. In der Tat spiegelt diese Lösung das Problem wider. Das Problem mit Spam ist, dass der Spammer, um ein paar leichtgläubige Menschen zu erreichen, E-Mails an alle sendet. Die nicht leichtgläubigen Empfänger sind nur Kollateralschäden. Aber die nicht leichtgläubige Mehrheit wird erst dann aufhören, Spam zu erhalten, wenn sie die Leichtgläubigen daran hindern (oder damit drohen) können, darauf zu reagieren. Automatisch abrufende Spam-Filter bieten ihnen eine Möglichkeit dazu.

Würde das Spam töten? Nicht ganz. Die größten Spammer könnten ihre Server wahrscheinlich gegen automatisch abrufende Filter schützen. Der einfachste und billigste Weg für sie, dies zu tun, wäre jedoch, funktionierende Abmelde-Links in ihren E-Mails aufzunehmen. Und das wäre eine Notwendigkeit für kleinere Fische und für "legitime" Websites, die Spammer engagiert haben, um sie zu bewerben. Wenn also automatisch abrufende Filter weit verbreitet würden, würden sie zu automatisch abmeldenden Filtern.

In diesem Szenario würde Spam, wie Betriebssystemabstürze, Viren und Pop-ups, zu einer Plage, von der nur Menschen betroffen sind, die sich nicht die richtige Software zulegen.

Anmerkungen

[1] Automatisch abrufende Filter müssen Weiterleitungen verfolgen und in manchen Fällen (z.B. eine Seite, die nur "Klicken Sie hier" sagt) mehr als eine Ebene von Links verfolgen. Stellen Sie auch sicher, dass die HTTP-Anfragen von denen beliebter Webbrowser nicht zu unterscheiden sind, einschließlich der Reihenfolge und des Referrers.

Wenn die Antwort nicht innerhalb von x Zeiteinheiten eintrifft, sollte standardmäßig eine ziemlich hohe Spam-Wahrscheinlichkeit angenommen werden.

Anstatt n konstant zu machen, wäre es vielleicht eine gute Idee, es als Funktion der Anzahl der Spams, die die Website erwähnt haben, zu gestalten. Dies würde einen weiteren Schutz gegen Missbrauch und Unfälle bieten.

[2] Die ursprüngliche Version dieses Artikels verwendete den Begriff "Whitelist" anstelle von "Sperrliste". Obwohl sie wie Sperrlisten funktionieren sollten, bevorzugte ich es, sie Whitelists zu nennen, da dies sie möglicherweise weniger anfällig für rechtliche Angriffe machen würde. Dies scheint die Leser jedoch nur verwirrt zu haben.

Es sollte wahrscheinlich mehrere Sperrlisten geben. Ein einzelner Fehlerknoten wäre anfällig für Angriffe und Missbrauch.

Danke an Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond und Richard Jowsey für das Lesen von Entwürfen dieses Artikels.