DES FILTRES QUI RIPOSTENT

Août 2003

Nous pourrions améliorer la précision des filtres anti-spam bayésiens en leur faisant suivre des liens pour voir ce qui les attend à l'autre bout. Richard Jowsey de death2spam le fait maintenant dans les cas limites et rapporte que cela fonctionne bien.

Pourquoi ne le faire que dans des cas limites ? Et pourquoi ne le faire qu'une seule fois ?

Comme je l'ai mentionné dans Will Filters Kill Spam? , suivre toutes les URL d'un spam aurait un effet secondaire amusant. Si les clients de messagerie les plus populaires faisaient cela pour filtrer le spam, les serveurs des spammeurs en subiraient de sérieux revers. Plus j'y réfléchis, plus cette idée me semble bonne. Ce n'est pas seulement amusant ; il serait difficile d'imaginer une contre-attaque plus parfaitement ciblée contre les spammeurs.

J'aimerais donc suggérer une fonctionnalité supplémentaire à ceux qui travaillent sur les filtres anti-spam : un mode « punir » qui, s'il était activé, analyserait chaque URL d'un spam suspecté n fois, où n pourrait être défini par l'utilisateur. [1]

Comme beaucoup l'ont remarqué, l'un des problèmes du système de messagerie électronique actuel est qu'il est trop passif. Il fait tout ce qu'on lui dit. Jusqu'à présent, toutes les suggestions pour résoudre le problème semblent impliquer de nouveaux protocoles. Ce n'est pas le cas de celui-ci.

Si les filtres anti-spam à récupération automatique étaient largement utilisés, le système de messagerie électronique pourrait rebondir. L'énorme volume de spam, qui a jusqu'ici joué en faveur du spammeur, jouerait désormais contre lui, comme une branche qui lui claque au visage. Les filtres anti-spam à récupération automatique feraient grimper les coûts du spammeur et diminueraient ses ventes : sa consommation de bande passante grimperait en flèche et ses serveurs s'arrêteraient sous la charge, ce qui les rendrait indisponibles pour les personnes qui auraient répondu au spam.

Envoyez un million d'e-mails par heure et obtenez un million de visites par heure sur vos serveurs.

Nous souhaitons nous assurer que cette procédure ne s'applique qu'aux courriers indésirables suspectés. En règle générale, toute URL envoyée à des millions de personnes est susceptible d'être une URL de spam. L'envoi de chaque requête http dans chaque e-mail fonctionnerait donc presque toujours. Mais il existe quelques cas où ce n'est pas le cas : les URL figurant au bas des e-mails envoyés par des services de messagerie gratuits comme Yahoo Mail et Hotmail, par exemple.

Pour protéger ces sites et prévenir les abus, la récupération automatique devrait être combinée à des listes noires de sites spammés. Seuls les sites figurant sur une liste noire seraient explorés et les sites ne seraient mis sur liste noire qu'après avoir été inspectés par des humains. La durée de vie d'un spam doit être de plusieurs heures au moins, il devrait donc être facile de mettre à jour une telle liste à temps pour interférer avec un spam faisant la promotion d'un nouveau site. [2]

La récupération automatique de gros volumes ne serait pratique que pour les utilisateurs disposant de connexions à haut débit, mais il y en a suffisamment pour causer de sérieux problèmes aux spammeurs. En effet, cette solution reflète parfaitement le problème. Le problème du spam est que pour atteindre quelques personnes crédules, le spammeur envoie du courrier à tout le monde. Les destinataires non crédules ne sont que des dommages collatéraux. Mais la majorité des non crédules ne cessera de recevoir du spam que lorsqu'ils pourront empêcher (ou menacer d'empêcher) les crédules d'y répondre. Les filtres anti-spam à récupération automatique leur offrent un moyen d'y parvenir.

Cela permettrait-il de mettre fin au spam ? Pas tout à fait. Les plus gros spammeurs pourraient probablement protéger leurs serveurs contre les filtres de récupération automatique. Cependant, le moyen le plus simple et le moins cher pour eux de le faire serait d'inclure des liens de désabonnement fonctionnels dans leurs e-mails. Et cela serait une nécessité pour les petits poissons et pour les sites « légitimes » qui engagent des spammeurs pour les promouvoir. Donc, si les filtres de récupération automatique se généralisaient, ils deviendraient des filtres de désabonnement automatique.

Dans ce scénario, le spam deviendrait, comme les pannes de système d'exploitation, les virus et les fenêtres contextuelles, l'un de ces fléaux qui affectent uniquement les personnes qui ne prennent pas la peine d'utiliser le bon logiciel.

Remarques

[1] Les filtres de récupération automatique devront suivre les redirections et, dans certains cas (par exemple, une page indiquant simplement « cliquez ici »), suivre plus d'un niveau de liens. Assurez-vous également que les requêtes http sont indiscernables de celles des navigateurs Web courants, y compris l'ordre et le référent.

Si la réponse n'arrive pas dans un délai x, la probabilité de spam est par défaut assez élevée.

Au lieu de rendre n constant, il serait peut-être judicieux de le rendre fonction du nombre de spams qui ont été vus mentionnant le site. Cela ajouterait un niveau de protection supplémentaire contre les abus et les accidents.

[2] La version originale de cet article utilisait le terme « liste blanche » au lieu de « liste noire ». Bien qu'elles devaient fonctionner comme des listes noires, j'ai préféré les appeler listes blanches car cela pourrait les rendre moins vulnérables aux attaques juridiques. Cela semble toutefois avoir semé la confusion chez les lecteurs.

Il devrait probablement y avoir plusieurs listes noires. Un seul point de défaillance serait vulnérable à la fois aux attaques et aux abus.

Merci à Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond et Richard Jowsey pour avoir lu les brouillons de cet article.