FILTROS QUE LUTAM DE VOLTA
OriginalAgosto de 2003
Podemos melhorar a precisão dos filtros anti-spam bayesianos fazendo-os seguir links para ver o que está esperando do outro lado. Richard Jowsey da death2spam agora faz isso em casos duvidosos e relata que funciona bem.
Por que fazer isso apenas em casos duvidosos? E por que apenas uma vez?
Como mencionei em Will Filters Kill Spam?, seguir todas as URLs em um spam teria um efeito colateral divertido. Se os principais clientes de e-mail fizessem isso para filtrar spam, os servidores do spammer sofreriam um sério impacto. Quanto mais penso nisso, melhor parece a ideia. Isso não é apenas divertido; seria difícil imaginar um contra-ataque mais perfeitamente direcionado aos spammers.
Então, gostaria de sugerir um recurso adicional para aqueles que trabalham em filtros anti-spam: um modo "punir" que, se ativado, aranha cada URL em um spam suspeito n vezes, onde n poderia ser definido pelo usuário. [1]
Como muitas pessoas observaram, um dos problemas com o sistema de e-mail atual é que é muito passivo. Ele faz o que você mandar. Até agora, todas as sugestões para resolver o problema parecem envolver novos protocolos. Essa não precisaria.
Se amplamente utilizado, os filtros anti-spam que recuperam automaticamente fariam o sistema de e-mail retroceder. O enorme volume do spam, que até agora funcionou a favor do spammer, agora trabalharia contra ele, como um galho que se quebra em seu rosto. Os filtros anti-spam que recuperam automaticamente aumentariam os custos do spammer e diminuiriam suas vendas: seu uso de largura de banda dispararia e seus servidores ficariam sobrecarregados, o que os tornaria indisponíveis para as pessoas que responderiam ao spam.
Envie um milhão de e-mails por hora, receba um milhão de acessos por hora em seus servidores.
Quereríamos garantir que isso seja feito apenas em spams suspeitos. Como regra, qualquer URL enviada a milhões de pessoas provavelmente será uma URL de spam, então enviar cada solicitação http em cada e-mail funcionaria bem na maioria das vezes. Mas há alguns casos em que isso não é verdade: as URLs na parte inferior de e-mails enviados de serviços de e-mail gratuitos como Yahoo Mail e Hotmail, por exemplo.
Para proteger esses sites e evitar abusos, a recuperação automática deve ser combinada com listas negras de sites anunciados por spam. Apenas sites em uma lista negra seriam rastreados, e os sites seriam incluídos na lista negra apenas após inspeção humana. O tempo de vida de um spam deve ser de pelo menos algumas horas, então deve ser fácil atualizar essa lista a tempo de interferir com um spam promovendo um novo site. [2]
A recuperação automática de alto volume só seria prática para usuários em conexões de alta largura de banda, mas há o suficiente desses para causar sérios problemas aos spammers. De fato, essa solução reflete perfeitamente o problema. O problema com o spam é que, para atingir algumas pessoas crédulas, o spammer envia e-mail para todos. Os destinatários não crédulos são apenas danos colaterais. Mas a maioria não crédula não deixará de receber spam até que possa parar (ou ameaçar) os crédulos de responder a ele. Os filtros anti-spam que recuperam automaticamente oferecem a eles uma maneira de fazer isso.
Isso mataria o spam? Não exatamente. Os maiores spammers provavelmente poderiam proteger seus servidores contra filtros que recuperam automaticamente. No entanto, a maneira mais fácil e barata para eles fazê-lo seria incluir links de cancelamento de inscrição que funcionem em seus e-mails. E isso seria uma necessidade para os menores, e para sites "legítimos" que contrataram spammers para promovê-los. Então, se os filtros que recuperam automaticamente se tornassem generalizados, eles se tornariam filtros que se cancelam automaticamente.
Nesse cenário, o spam se tornaria, como falhas do sistema operacional, vírus e pop-ups, uma das pragas que afetam apenas as pessoas que não se incomodam em usar o software certo.
Notas
[1] Os filtros de recuperação automática terão que seguir redirecionamentos e, em alguns casos (por exemplo, uma página que apenas diz "clique aqui"), seguir mais de um nível de links. Certifique-se também de que as solicitações http são indistinguíveis daquelas dos navegadores da Web populares, incluindo a ordem e o referenciador.
Se a resposta não voltar dentro de x quantidade de tempo, defina como uma probabilidade de spam bastante alta.
Em vez de tornar n constante, pode ser uma boa ideia torná-lo uma função do número de spams que foram vistos mencionando o site. Isso adicionaria um nível adicional de proteção contra abusos e acidentes.
[2] A versão original deste artigo usava o termo "lista branca" em vez de "lista negra". Embora eles fossem trabalhar como listas negras, preferi chamá-los de listas brancas porque poderia torná-los menos vulneráveis a ataques legais. Isso parece ter confundido os leitores, no entanto.
Provavelmente deve haver várias listas negras. Um único ponto de falha seria vulnerável tanto a ataques quanto a abusos.
Obrigado a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond e Richard Jowsey por lerem rascunhos deste.