FILTROS QUE REVIDAM

Agosto de 2003

Podemos melhorar a precisão dos filtros de spam bayesianos fazendo com que eles sigam links para ver o que está esperando do outro lado. Richard Jowsey, do death2spam, agora faz isso em casos limítrofes e relata que funciona bem.

Por que fazer isso apenas em casos limítrofes? E por que fazer isso apenas uma vez?

Como mencionei em Os filtros matarão o spam?, seguir todas as URLs em um spam teria um efeito colateral divertido. Se clientes de e-mail populares fizessem isso para filtrar spam, os servidores do spammer levariam uma surra séria. Quanto mais penso sobre isso, melhor parece ser a ideia. Isso não é apenas divertido; seria difícil imaginar um contra-ataque mais perfeitamente direcionado aos spammers.

Então, gostaria de sugerir um recurso adicional para aqueles que trabalham com filtros de spam: um modo "punir" que, se ativado, rastrearia cada URL em um spam suspeito n vezes, onde n poderia ser definido pelo usuário. [1]

Como muitas pessoas notaram, um dos problemas com o sistema de e-mail atual é que ele é muito passivo. Ele faz tudo o que você manda. Até agora, todas as sugestões para consertar o problema parecem envolver novos protocolos. Este não envolveria.

Se amplamente utilizados, os filtros de spam de recuperação automática fariam o sistema de e-mail se recuperar. O enorme volume de spam, que até então funcionava a favor do spammer, agora funcionaria contra ele, como um galho quebrando de volta em seu rosto. Os filtros de spam de recuperação automática aumentariam os custos do spammer e suas vendas cairiam: seu uso de largura de banda dispararia e seus servidores parariam sob a carga, o que os tornaria indisponíveis para as pessoas que teriam respondido ao spam.

Envie um milhão de e-mails por hora e receba um milhão de acessos por hora em seus servidores.

Gostaríamos de garantir que isso seja feito apenas para spams suspeitos. Como regra, qualquer URL enviada para milhões de pessoas provavelmente será uma URL de spam, então enviar todas as solicitações http em todos os e-mails funcionaria bem quase o tempo todo. Mas há alguns casos em que isso não é verdade: as URLs na parte inferior de e-mails enviados de serviços de e-mail gratuitos como Yahoo Mail e Hotmail, por exemplo.

Para proteger tais sites e evitar abusos, a recuperação automática deve ser combinada com listas negras de sites com spam. Somente sites em uma lista negra seriam rastreados, e os sites seriam colocados na lista negra somente após serem inspecionados por humanos. A vida útil de um spam deve ser de várias horas, pelo menos, então deve ser fácil atualizar tal lista a tempo de interferir com um spam promovendo um novo site. [2]

A recuperação automática de alto volume só seria prática para usuários em conexões de alta largura de banda, mas há o suficiente delas para causar sérios problemas aos spammers. De fato, essa solução reflete nitidamente o problema. O problema com o spam é que, para atingir algumas pessoas ingênuas, o spammer envia e-mails para todos. Os destinatários não ingênuos são meramente danos colaterais. Mas a maioria não ingênua não parará de receber spam até que consiga impedir (ou ameaçar impedir) os ingênuos de responder a ele. Os filtros de spam de recuperação automática oferecem a eles uma maneira de fazer isso.

Isso acabaria com o spam? Não exatamente. Os maiores spammers provavelmente poderiam proteger seus servidores contra filtros de recuperação automática. No entanto, a maneira mais fácil e barata para eles fazerem isso seria incluir links de cancelamento de assinatura em seus e-mails. E isso seria uma necessidade para os menores, e para sites "legítimos" que contratam spammers para promovê-los. Então, se os filtros de recuperação automática se tornassem comuns, eles se tornariam filtros de cancelamento de assinatura automático.

Nesse cenário, o spam, assim como travamentos de sistema operacional, vírus e pop-ups, se tornaria uma dessas pragas que afligem apenas pessoas que não se preocupam em usar o software certo.

Notas

[1] Os filtros de recuperação automática terão que seguir redirecionamentos e, em alguns casos (por exemplo, uma página que diz apenas "clique aqui"), devem seguir mais de um nível de links. Certifique-se também de que as solicitações http sejam indistinguíveis daquelas de navegadores populares da Web, incluindo a ordem e o referenciador.

Se a resposta não for retornada dentro de um período de tempo determinado, a probabilidade de spam é considerada alta.

Em vez de tornar n constante, pode ser uma boa ideia torná-lo uma função do número de spams que foram vistos mencionando o site. Isso adicionaria um nível adicional de proteção contra abusos e acidentes.

[2] A versão original deste artigo usou o termo "lista branca" em vez de "lista negra". Embora elas devessem funcionar como listas negras, preferi chamá-las de listas brancas porque isso poderia torná-las menos vulneráveis a ataques legais. Isso parece ter confundido os leitores, no entanto.

Provavelmente deve haver várias listas negras. Um único ponto de falha seria vulnerável tanto a ataques quanto a abusos.

Obrigado a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond e Richard Jowsey pela leitura dos rascunhos.