FILTER, DIE ZURÜCKSCHLAGEN

August 2003

Wir können die Genauigkeit bayesianischer Spamfilter möglicherweise verbessern, indem wir sie Links folgen lassen, um zu sehen, was am anderen Ende wartet. Richard Jowsey von death2spam tut dies jetzt in Grenzfällen und berichtet, dass es gut funktioniert.

Warum nur in Grenzfällen? Und warum nur einmal?

Wie ich bereits in „Können Filter Spam töten?“ erwähnt habe, hätte das Verfolgen aller URLs in einem Spam einen amüsanten Nebeneffekt. Wenn beliebte E-Mail-Clients dies täten, um Spam zu filtern, würden die Server der Spammer ernsthaft in Mitleidenschaft gezogen. Je mehr ich darüber nachdenke, desto besser erscheint mir diese Idee. Das ist nicht nur amüsant; es wäre schwer, sich einen gezielteren Gegenangriff auf Spammer vorzustellen.

Deshalb möchte ich denjenigen, die an Spamfiltern arbeiten, eine zusätzliche Funktion vorschlagen: einen „Bestrafungsmodus“, der, wenn er aktiviert wird, jede URL in einem mutmaßlichen Spam n-mal durchsucht, wobei n vom Benutzer festgelegt werden kann. [1]

Wie viele Leute bemerkt haben, ist eines der Probleme des aktuellen E-Mail-Systems, dass es zu passiv ist. Es tut, was man ihm sagt. Bisher scheinen alle Vorschläge zur Lösung des Problems neue Protokolle zu beinhalten. Dieser hier würde das nicht tun.

Bei weit verbreiteter Verwendung würden automatisch abrufende Spamfilter das E-Mail-System in die Knie zwingen. Die enorme Menge an Spam, die dem Spammer bisher zugute kam, würde nun gegen ihn arbeiten, wie ein Ast, der ihm ins Gesicht schnappt. Automatisch abrufende Spamfilter würden die Kosten des Spammers in die Höhe treiben und seine Umsätze senken: Sein Bandbreitenverbrauch würde in die Höhe schnellen und seine Server würden unter der Last zum Stillstand kommen, wodurch sie für die Personen, die auf den Spam geantwortet hätten, nicht mehr verfügbar wären.

Versenden Sie eine Million E-Mails pro Stunde und erzielen Sie eine Million Zugriffe pro Stunde auf Ihren Servern.

Wir möchten sicherstellen, dass dies nur bei Spam-Verdacht geschieht. In der Regel ist jede URL, die an Millionen von Menschen gesendet wird, wahrscheinlich eine Spam-URL. Daher würde das Senden jeder HTTP-Anfrage in jeder E-Mail fast immer problemlos funktionieren. Es gibt jedoch einige Fälle, in denen dies nicht zutrifft: beispielsweise die URLs am Ende von E-Mails, die von kostenlosen E-Mail-Diensten wie Yahoo Mail und Hotmail gesendet werden.

Um solche Seiten zu schützen und Missbrauch zu verhindern, sollte die automatische Abfrage mit schwarzen Listen von Seiten kombiniert werden, die als Spam beworben werden. Nur Seiten auf einer schwarzen Liste würden gecrawlt werden, und Seiten würden erst nach einer Überprüfung durch Menschen auf die schwarze Liste gesetzt. Die Lebensdauer eines Spams muss mindestens mehrere Stunden betragen, daher sollte es einfach sein, eine solche Liste rechtzeitig zu aktualisieren, um Spam, der für eine neue Seite wirbt, zu unterbinden. [2]

Ein automatisches Abrufen großer Mengen von E-Mails wäre nur für Benutzer mit Verbindungen mit hoher Bandbreite praktisch, aber es gibt genug davon, um Spammern ernsthafte Probleme zu bereiten. Tatsächlich spiegelt diese Lösung das Problem genau wider. Das Problem mit Spam besteht darin, dass der Spammer, um einige leichtgläubige Leute zu erreichen, E-Mails an alle schickt. Die nicht leichtgläubigen Empfänger sind lediglich Kollateralschaden. Aber die nicht leichtgläubige Mehrheit wird nicht aufhören, Spam zu erhalten, bis sie die Leichtgläubigen davon abhalten kann (oder damit droht), darauf zu antworten. Spamfilter mit automatischem Abruf bieten ihnen eine Möglichkeit, dies zu tun.

Würde das Spam töten? Nicht ganz. Die größten Spammer könnten ihre Server wahrscheinlich vor automatisch abrufenden Filtern schützen. Der einfachste und billigste Weg für sie wäre jedoch, funktionierende Abmeldelinks in ihre Mails einzufügen. Und das wäre eine Notwendigkeit für kleinere Fische und für „legitime“ Websites, die Spammer anheuern, um sie zu bewerben. Wenn sich also automatisch abrufende Filter weit verbreiteten, würden sie zu Filtern für die automatische Abmeldung.

In diesem Szenario würde Spam, ebenso wie Betriebssystemabstürze, Viren und Popups, zu einer jener Plagen werden, die nur Leute befallen, die sich nicht die Mühe machen, die richtige Software zu verwenden.

Hinweise

[1] Automatisch abrufende Filter müssen Weiterleitungen folgen und sollten in manchen Fällen (z. B. bei einer Seite, auf der nur "hier klicken" steht) mehr als einer Linkebene folgen. Stellen Sie außerdem sicher, dass die HTTP-Anfragen nicht von denen gängiger Webbrowser zu unterscheiden sind, einschließlich der Reihenfolge und des Referrers.

Wenn innerhalb einer bestimmten Zeitspanne keine Antwort erfolgt, ist die Spam-Wahrscheinlichkeit relativ hoch.

Anstatt n konstant zu machen, wäre es vielleicht eine gute Idee, es von der Anzahl der Spams abhängig zu machen, die die Site erwähnt haben. Dies würde einen weiteren Schutz gegen Missbrauch und Unfälle bieten.

[2] In der Originalversion dieses Artikels wurde der Begriff „Whitelist“ statt „Blacklist“ verwendet. Obwohl sie wie Blacklists funktionieren sollten, habe ich es vorgezogen, sie Whitelists zu nennen, da sie dadurch weniger angreifbar für juristische Angriffe sein könnten. Dies scheint die Leser jedoch nur verwirrt zu haben.

Es sollten wahrscheinlich mehrere schwarze Listen vorhanden sein. Ein einzelner Ausfallpunkt wäre sowohl für Angriffe als auch für Missbrauch anfällig.

Danke an Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond und Richard Jowsey für das Lesen der Entwürfe.