FILTRES QUI SE BATTENT

Août 2003

Nous pourrions améliorer la précision des filtres anti-spam bayésiens en les faisant suivre les liens pour voir ce qui les attend à l'autre bout. Richard Jowsey de death2spam le fait maintenant dans les cas limites et affirme que cela fonctionne bien.

Pourquoi ne le faire que dans les cas limites ? Et pourquoi une seule fois ?

Comme je l'ai mentionné dans Will Filters Kill Spam?, suivre toutes les URLs dans un spam aurait un effet secondaire amusant. Si les principaux clients de messagerie faisaient cela pour filtrer le spam, les serveurs du spammeur subiraient de sérieux dommages. Plus j'y pense, plus cette idée me semble bonne. Ce n'est pas seulement amusant ; ce serait difficile d'imaginer une contre-attaque plus parfaitement ciblée contre les spammeurs.

Donc j'aimerais suggérer une fonctionnalité supplémentaire à ceux qui travaillent sur les filtres anti-spam : un mode "punir" qui, s'il est activé, parcourrait chaque URL dans un spam suspecté n fois, où n pourrait être défini par l'utilisateur. [1]

Comme de nombreuses personnes l'ont fait remarquer, l'un des problèmes du système de messagerie actuel est qu'il est trop passif. Il fait tout ce qu'on lui dit. Jusqu'à présent, toutes les suggestions pour résoudre le problème semblent impliquer de nouveaux protocoles. Celle-ci ne le ferait pas.

S'ils étaient largement utilisés, les filtres anti-spam qui récupèrent automatiquement feraient rebondir le système de messagerie. Le volume énorme du spam, qui a jusqu'à présent joué en faveur du spammeur, jouerait maintenant contre lui, comme une branche qui lui claque au visage. Les filtres anti-spam qui récupèrent automatiquement feraient augmenter les coûts du spammeur et baisser ses ventes : son utilisation de la bande passante exploserait et ses serveurs s'arrêteraient sous la charge, ce qui les rendrait indisponibles pour les personnes qui auraient répondu au spam.

Envoyez un million d'e-mails par heure, obtenez un million de hits par heure sur vos serveurs.

Nous voudrions nous assurer que cela ne soit fait que sur les spams suspectés. En règle générale, toute URL envoyée à des millions de personnes est susceptible d'être une URL de spam, donc soumettre chaque requête HTTP dans chaque e-mail fonctionnerait bien presque tout le temps. Mais il y a quelques cas où ce n'est pas vrai : les URLs au bas des e-mails envoyés à partir de services de messagerie gratuits comme Yahoo Mail et Hotmail, par exemple.

Pour protéger ces sites et prévenir les abus, la récupération automatique devrait être combinée avec des listes noires de sites faisant l'objet de spamvertising. Seuls les sites figurant sur une liste noire seraient explorés, et les sites ne seraient inscrits sur la liste noire qu'après inspection par des humains. La durée de vie d'un spam doit être d'au moins plusieurs heures, donc il devrait être facile de mettre à jour cette liste à temps pour interférer avec un spam promouvant un nouveau site. [2]

La récupération automatique à haut débit ne serait pratique que pour les utilisateurs disposant de connexions haut débit, mais il y en a suffisamment pour causer de sérieux problèmes aux spammeurs. En effet, cette solution reflète parfaitement le problème. Le problème du spam est que pour atteindre quelques personnes crédules, le spammeur envoie du courrier à tout le monde. Les destinataires non crédules ne sont que des dommages collatéraux. Mais la majorité non crédule ne cessera pas de recevoir du spam tant qu'elle ne pourra pas (ou menacer de) empêcher les crédules de répondre à celui-ci. Les filtres anti-spam qui récupèrent automatiquement leur offrent un moyen de le faire.

Cela tuerait-il le spam ? Pas tout à fait. Les plus gros spammeurs pourraient probablement protéger leurs serveurs contre les filtres qui récupèrent automatiquement. Cependant, le moyen le plus facile et le moins coûteux pour eux de le faire serait d'inclure des liens de désinscription fonctionnels dans leurs e-mails. Et ce serait une nécessité pour les plus petits et pour les sites "légitimes" qui auraient engagé des spammeurs pour les promouvoir. Donc si les filtres qui récupèrent automatiquement devenaient répandus, ils deviendraient des filtres qui se désinscrivent automatiquement.

Dans ce scénario, le spam deviendrait, comme les plantages de système d'exploitation, les virus et les fenêtres publicitaires, l'une de ces plaies qui n'affectent que les gens qui ne prennent pas la peine d'utiliser le bon logiciel.

Notes

[1] Les filtres qui récupèrent automatiquement devront suivre les redirections et, dans certains cas (par exemple une page qui dit simplement "cliquez ici"), suivre plus d'un niveau de liens. Assurez-vous également que les requêtes HTTP sont indistinguables de celles des navigateurs Web populaires, y compris l'ordre et le référent.

Si la réponse ne revient pas dans un certain délai, attribuez par défaut une probabilité de spam assez élevée.

Au lieu de faire de n une constante, il pourrait être judicieux d'en faire une fonction du nombre de spams qui ont mentionné le site. Cela ajouterait un niveau de protection supplémentaire contre les abus et les accidents.

[2] La version originale de cet article utilisait le terme "liste blanche" au lieu de "liste noire". Bien qu'elles devaient fonctionner comme des listes noires, je préférais les appeler des listes blanches car cela pourrait les rendre moins vulnérables aux attaques juridiques. Cela n'a fait que confondre les lecteurs, cependant.

Il devrait probablement y avoir plusieurs listes noires. Un seul point de défaillance serait vulnérable à la fois aux attaques et aux abus.

Merci à Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond et Richard Jowsey d'avoir lu les brouillons de cet article.