FILTER, DIE ZURÜCKSCHLAGEN

August 2003

Wir könnten die Genauigkeit von Bayes'schen Spamfiltern verbessern, indem wir sie Links folgen lassen, um zu sehen, was am anderen Ende wartet. Richard Jowsey von death2spam tut dies jetzt in Grenzfällen und berichtet, dass es gut funktioniert.

Warum nur in Grenzfällen? Und warum nur einmal?

Wie ich in Werden Filter Spam töten? erwähnt habe, das Folgen aller URLs in einem Spam hätte einen amüsanten Nebeneffekt. Wenn beliebte E-Mail-Clients dies tun würden, um Spam zu filtern, würden die Server des Spammers einen ernsthaften Schlag abbekommen. Je mehr ich darüber nachdenke, desto besser scheint mir diese Idee. Das ist nicht nur amüsant; es wäre schwer vorstellbar, einen gezielteren Gegenangriff auf Spammer zu finden.

Daher möchte ich eine zusätzliche Funktion für diejenigen vorschlagen, die an Spamfiltern arbeiten: einen "Bestrafungs"-Modus, der, wenn er aktiviert ist, jede URL in einem verdächtigen Spam n-mal crawlen würde, wobei n vom Benutzer festgelegt werden könnte. [1]

Wie viele Leute festgestellt haben, ist eines der Probleme mit dem derzeitigen E-Mail-System, dass es zu passiv ist. Es tut alles, was man ihm sagt. Bisher scheinen alle Vorschläge zur Behebung des Problems neue Protokolle zu beinhalten. Dieser hier würde das nicht tun.

Wenn sie weit verbreitet wären, würden Spamfilter mit automatischem Abruf das E-Mail-System zurückprallen lassen. Das riesige Volumen des Spams, das bisher zu Gunsten des Spammers gearbeitet hat, würde nun gegen ihn arbeiten, wie ein Ast, der ihm ins Gesicht zurückspringt. Spamfilter mit automatischem Abruf würden die Kosten des Spammers Kosten erhöhen, und seinen Umsatz senken: seine Bandbreitennutzung würde durch die Decke gehen, und seine Server würden unter der Last zum Stillstand kommen, was sie für die Leute, die auf den Spam geantwortet hätten, nicht mehr verfügbar machen würde.

Schieße eine Million E-Mails pro Stunde raus, bekomme eine Million Hits pro Stunde auf deine Server.

Wir müssten sicherstellen, dass dies nur bei verdächtigen Spams geschieht. In der Regel ist jede URL, die an Millionen von Menschen geschickt wird, wahrscheinlich eine Spam-URL, so dass das Absenden jeder HTTP- Anfrage in jeder E-Mail fast immer funktionieren würde. Aber es gibt ein paar Fälle, in denen das nicht stimmt: die URLs am Ende von Mails, die von kostenlosen E-Mail-Diensten wie Yahoo Mail und Hotmail versendet werden, zum Beispiel.

Um solche Seiten zu schützen und Missbrauch zu verhindern, sollte der automatische Abruf mit Blacklists von Spam-Werbe-Seiten kombiniert werden. Nur Seiten auf einer Blacklist würden gecrawlt, und Seiten würden nur dann auf die Blacklist gesetzt, wenn sie von Menschen geprüft wurden. Die Lebensdauer eines Spams muss mindestens mehrere Stunden betragen, so dass es einfach sein sollte, eine solche Liste rechtzeitig zu aktualisieren, um einen Spam zu stören, der für eine neue Seite wirbt. [2]

Der automatische Abruf mit hohem Volumen wäre nur für Benutzer mit Hochgeschwindigkeitsverbindungen praktikabel, aber es gibt genug davon, um Spammern ernsthafte Probleme zu bereiten. Tatsächlich spiegelt diese Lösung das Problem auf elegante Weise wider. Das Problem mit Spam ist, dass der Spammer, um ein paar leichtgläubige Leute zu erreichen, Mails an alle schickt. Die nicht leichtgläubigen Empfänger sind nur Kollateralschaden. Aber die nicht leichtgläubige Mehrheit wird nicht aufhören, Spam zu bekommen, bis sie den leichtgläubigen Empfängern das Antworten auf den Spam verbieten (oder drohen, zu verbieten) können. Spamfilter mit automatischem Abruf bieten ihnen eine Möglichkeit, dies zu tun.

Würde das Spam töten? Nicht ganz. Die größten Spammer könnten ihre Server wahrscheinlich vor Spamfiltern mit automatischem Abruf schützen. Die einfachste und billigste Möglichkeit dafür wäre jedoch, funktionierende Abmelde-Links in ihre Mails einzubauen. Und das wäre eine Notwendigkeit für kleinere Fische, und für "legitime" Seiten, die Spammer beauftragt haben, für sie zu werben. Wenn Spamfilter mit automatischem Abruf weit verbreitet wären, würden sie zu Spamfiltern mit automatischem Abmelden werden.

In diesem Szenario würde Spam, wie Betriebssystem-Abstürze, Viren und Popups, zu einer dieser Plagen werden, die nur Menschen betreffen, die sich nicht die Mühe machen, die richtige Software zu verwenden.

Hinweise

[1] Spamfilter mit automatischem Abruf müssen Weiterleitungen verfolgen, und sollten in einigen Fällen (z. B. eine Seite, auf der nur steht "Klicken Sie hier") mehr als eine Ebene von Links verfolgen. Stellen Sie auch sicher, dass die HTTP-Anfragen nicht von denen beliebter Webbrowser zu unterscheiden sind, einschließlich der Reihenfolge und des Referrers.

Wenn die Antwort nicht innerhalb von x Sekunden zurückkommt, sollte eine ziemlich hohe Spam-Wahrscheinlichkeit angenommen werden.

Anstatt n konstant zu machen, könnte es eine gute Idee sein, es zu einer Funktion der Anzahl der Spams zu machen, die die Seite erwähnt haben. Dies würde einen weiteren Schutz gegen Missbrauch und Unfälle bieten.

[2] Die ursprüngliche Version dieses Artikels verwendete den Begriff "Whitelist" anstelle von "Blacklist". Obwohl sie wie Blacklists funktionieren sollten, habe ich sie lieber Whitelists genannt, weil sie dadurch weniger anfällig für rechtliche Angriffe sein könnten. Dies scheint jedoch nur die Leser verwirrt zu haben.

Es sollte wahrscheinlich mehrere Blacklists geben. Ein einziger Punkt des Versagens wäre sowohl anfällig für Angriffe als auch für Missbrauch.

Danke an Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond und Richard Jowsey für das Lesen der Entwürfe.