FILTROS QUE REAGEM

Agosto de 2003

Podemos ser capazes de melhorar a precisão dos filtros de spam bayesianos fazendo com que eles sigam links para ver o que está esperando do outro lado. Richard Jowsey do death2spam agora faz isso em casos limítrofes e relata que funciona bem.

Por que fazer isso apenas em casos limítrofes? E por que fazer isso apenas uma vez?

Como mencionei em Will Filters Kill Spam?, seguir todos os URLs em um spam teria um efeito colateral divertido. Se os clientes de email populares fizessem isso para filtrar spam, os servidores dos spammers sofreriam um sério golpe. Quanto mais penso sobre isso, melhor a ideia parece. Isso não é apenas divertido; seria difícil imaginar um contra-ataque mais perfeitamente direcionado contra os spammers.

Então, gostaria de sugerir um recurso adicional para aqueles que trabalham em filtros de spam: um modo "punir" que, se ativado, rastrearia cada URL em um spam suspeito n vezes, onde n poderia ser definido pelo usuário. [1]

Como muitas pessoas notaram, um dos problemas com o sistema de email atual é que ele é muito passivo. Ele faz o que você diz. Até agora, todas as sugestões para corrigir o problema parecem envolver novos protocolos. Este não envolveria.

Se amplamente utilizado, filtros de spam que se auto-retraiam fariam o sistema de email recuar. O enorme volume de spam, que até agora trabalhou a favor do spammer, agora trabalharia contra ele, como um galho se estalando de volta em seu rosto. Filtros de spam que se auto-retraiam aumentariam os custos do spammer e diminuiriam suas vendas: seu uso de largura de banda dispararia, e seus servidores parariam sob a carga, o que os tornaria indisponíveis para as pessoas que teriam respondido ao spam.

Envie um milhão de emails por hora, receba um milhão de acessos por hora em seus servidores.

Queremos garantir que isso seja feito apenas para spams suspeitos. Como regra, qualquer URL enviada para milhões de pessoas é provável que seja uma URL de spam, então submeter cada solicitação http em cada email funcionaria bem quase o tempo todo. Mas há alguns casos em que isso não é verdade: os URLs no final dos emails enviados de serviços de email gratuitos como Yahoo Mail e Hotmail, por exemplo.

Para proteger tais sites e prevenir abusos, a auto-retratação deve ser combinada com listas negras de sites promovidos por spam. Apenas sites em uma lista negra seriam rastreados, e os sites seriam colocados na lista negra apenas após serem inspecionados por humanos. A vida útil de um spam deve ser de várias horas, pelo menos, então deve ser fácil atualizar tal lista a tempo de interferir em um spam promovendo um novo site. [2]

A auto-retratação em grande volume só seria prática para usuários em conexões de alta largura de banda, mas há o suficiente desses para causar sérios problemas aos spammers. De fato, essa solução espelha neatamente o problema. O problema com spam é que, para alcançar algumas pessoas ingênuas, o spammer envia email para todos. Os destinatários não ingênuos são meramente danos colaterais. Mas a maioria não ingênua não vai parar de receber spam até que possam impedir (ou ameaçar impedir) os ingênuos de responder a ele. Filtros de spam que se auto-retraem oferecem a eles uma maneira de fazer isso.

Isso mataria o spam? Não exatamente. Os maiores spammers provavelmente poderiam proteger seus servidores contra filtros de auto-retratação. No entanto, a maneira mais fácil e barata para eles fazerem isso seria incluir links de cancelamento de inscrição funcionais em seus emails. E isso seria uma necessidade para os menores, e para sites "legítimos" que contratavam spammers para promovê-los. Portanto, se filtros de auto-retratação se tornassem amplamente utilizados, eles se tornariam filtros de auto-cancelamento de inscrição.

Nesse cenário, o spam se tornaria, como falhas de sistema operacional, vírus e pop-ups, uma daquelas pragas que apenas afligem pessoas que não se dão ao trabalho de usar o software certo.

Notas

[1] Filtros de auto-retratação terão que seguir redirecionamentos e devem, em alguns casos (por exemplo, uma página que apenas diz "clique aqui"), seguir mais de um nível de links. Certifique-se também de que as solicitações http sejam indistinguíveis das de navegadores da Web populares, incluindo a ordem e o referenciador.

Se a resposta não voltar dentro de x quantidade de tempo, defina uma probabilidade de spam bastante alta.

Em vez de tornar n constante, pode ser uma boa ideia torná-lo uma função do número de spams que foram vistos mencionando o site. Isso adicionaria um nível adicional de proteção contra abusos e acidentes.

[2] A versão original deste artigo usou o termo "whitelist" em vez de "blacklist". Embora eles devessem funcionar como listas negras, eu preferi chamá-los de listas brancas porque isso poderia torná-los menos vulneráveis a ataques legais. Isso apenas parece ter confundido os leitores, no entanto.

Provavelmente deveria haver várias listas negras. Um único ponto de falha seria vulnerável tanto a ataques quanto a abusos.

Agradecimentos a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond e Richard Jowsey por lerem rascunhos deste texto.