FILTRES QUI RIPOSTENT
OriginalAoût 2003
Nous pourrions être en mesure d'améliorer la précision des filtres anti-spam bayésiens en les faisant suivre les liens pour voir ce qui se trouve à l'autre bout. Richard Jowsey de death2spam le fait maintenant dans les cas limites, et rapporte que cela fonctionne bien.
Pourquoi ne le faire que dans les cas limites ? Et pourquoi ne le faire qu'une seule fois ?
Comme je l'ai mentionné dans Les filtres tueront-ils le spam ?, suivre tous les URL dans un spam aurait un effet secondaire amusant. Si les clients de messagerie populaires le faisaient afin de filtrer le spam, les serveurs des spammeurs subiraient un sérieux bombardement. Plus j'y pense, meilleure est l'idée. Ce n'est pas juste amusant ; il serait difficile d'imaginer une contre-attaque plus parfaitement ciblée contre les spammeurs.
Je voudrais donc suggérer une fonctionnalité supplémentaire à ceux qui travaillent sur les filtres anti-spam : un mode "punir" qui, s'il est activé, parcourrait chaque URL dans un spam suspect n fois, où n pourrait être défini par l'utilisateur. [1]
Comme beaucoup de gens l'ont fait remarquer, l'un des problèmes du système de messagerie actuel est qu'il est trop passif. Il fait ce que vous lui dites. Jusqu'à présent, toutes les suggestions pour résoudre le problème semblent impliquer de nouveaux protocoles. Celui-ci ne le ferait pas.
Si les filtres anti-spam à récupération automatique étaient largement utilisés, ils feraient le système de messagerie rebondir. L'énorme volume du spam, qui a jusqu'à présent joué en faveur du spammeur, fonctionnerait maintenant contre lui, comme une branche qui se brise dans son visage. Les filtres anti-spam à récupération automatique feraient grimper les coûts du spammeur, et ses ventes baisseraient : son utilisation de la bande passante monterait en flèche, et ses serveurs seraient bloqués par la charge, ce qui les rendrait indisponibles aux personnes qui auraient répondu au spam.
Pompez un million d'e-mails par heure, obtenez un million de hits par heure sur vos serveurs.
Nous voudrions nous assurer que cela ne se fait que pour les spams suspects. En règle générale, toute URL envoyée à des millions de personnes est susceptible d'être une URL de spam, donc soumettre chaque requête http dans chaque e-mail fonctionnerait bien presque tout le temps. Mais il y a quelques cas où ce n'est pas vrai : les URL en bas des mails envoyés depuis des services de messagerie gratuits comme Yahoo Mail et Hotmail, par exemple.
Pour protéger ces sites, et pour prévenir les abus, la récupération automatique devrait être combinée avec des listes noires de sites spamvertisés. Seuls les sites figurant sur une liste noire seraient parcourus, et les sites seraient mis sur liste noire uniquement après avoir été inspectés par des humains. La durée de vie d'un spam doit être d'au moins plusieurs heures, donc il devrait être facile de mettre à jour une telle liste à temps pour interférer avec un spam promouvant un nouveau site. [2]
La récupération automatique à haut volume ne serait pratique que pour les utilisateurs ayant une connexion à haut débit, mais il y en a suffisamment pour causer aux spammeurs de sérieux problèmes. En effet, cette solution reflète parfaitement le problème. Le problème avec le spam est que pour atteindre quelques personnes crédules, le spammeur envoie des mails à tout le monde. Les destinataires non crédules ne sont que des dommages collatéraux. Mais la majorité non crédule ne cessera pas de recevoir du spam tant qu'elle ne pourra pas arrêter (ou menacer d'arrêter) les crédules de répondre à celui-ci. Les filtres anti-spam à récupération automatique leur offrent un moyen de le faire.
Cela tuerait-il le spam ? Pas tout à fait. Les plus gros spammeurs pourraient probablement protéger leurs serveurs contre les filtres à récupération automatique. Cependant, la façon la plus simple et la moins chère pour eux de le faire serait d'inclure des liens de désabonnement fonctionnels dans leurs mails. Et ce serait une nécessité pour les petits poissons, et pour les sites "légitimes" qui ont embauché des spammeurs pour les promouvoir. Donc, si les filtres à récupération automatique se généralisaient, ils deviendraient des filtres de désabonnement automatique.
Dans ce scénario, le spam, comme les pannes de système d'exploitation, les virus et les fenêtres pop-up, deviendrait l'une de ces plaies qui ne touchent que les personnes qui ne prennent pas la peine d'utiliser le bon logiciel.
Notes
[1] Les filtres à récupération automatique devront suivre les redirections, et devraient dans certains cas (par exemple, une page qui dit simplement "cliquez ici") suivre plus d'un niveau de liens. Assurez-vous également que les requêtes http sont indiscernables de celles des navigateurs Web populaires, y compris l'ordre et le référent.
Si la réponse ne revient pas dans un délai de x, définissez par défaut une probabilité de spam assez élevée.
Au lieu de rendre n constant, il pourrait être judicieux de le faire dépendre du nombre de spams qui ont été vus mentionnant le site. Cela ajouterait un niveau de protection supplémentaire contre les abus et les accidents.
[2] La version originale de cet article utilisait le terme "liste blanche" au lieu de "liste noire". Bien qu'ils devaient fonctionner comme des listes noires, j'ai préféré les appeler des listes blanches car cela pourrait les rendre moins vulnérables aux attaques juridiques. Cela semble juste avoir confondu les lecteurs, cependant.
Il devrait probablement y avoir plusieurs listes noires. Un seul point de défaillance serait vulnérable à la fois aux attaques et aux abus.
Merci à Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond, et Richard Jowsey pour avoir lu les brouillons de cet article.