FILTROS QUE REVIDAM

Augusto de 2003

Podemos ser capazes de melhorar a precisão dos filtros de spam bayesianos fazendo com que eles sigam links para ver o que está esperando do outro lado. Richard Jowsey de death2spam agora faz isso em casos limítrofes e relata que funciona bem.

Por que fazer isso apenas em casos limítrofes? E por que fazer isso apenas uma vez?

Como mencionei em Will Filters Kill Spam?, seguir todos os URLs em um spam teria um efeito colateral divertido. Se os clientes de e-mail populares fizessem isso para filtrar spam, os servidores dos spammers levariam uma surra séria. Quanto mais penso sobre isso, melhor a ideia parece. Isso não é apenas divertido; seria difícil imaginar um contra-ataque mais perfeitamente direcionado contra spammers.

Então, gostaria de sugerir um recurso adicional para aqueles que trabalham com filtros de spam: um modo "punir" que, se ativado, rastrearia cada URL em um spam suspeito n vezes, onde n poderia ser definido pelo usuário. [1]

Como muitas pessoas observaram, um dos problemas com o sistema de e-mail atual é que ele é muito passivo. Ele faz o que você manda. Até agora, todas as sugestões para corrigir o problema parecem envolver novos protocolos. Este não seria.

Se amplamente utilizados, os filtros de spam de recuperação automática tornariam o sistema de e-mail reagir. O enorme volume do spam, que até agora funcionou a favor do spammer, agora funcionaria contra ele, como um galho se quebrando de volta em seu rosto. Os filtros de spam de recuperação automática dirigiriam o spammer's custos para cima, e suas vendas para baixo: seu uso de largura de banda subiria às alturas e seus servidores seriam interrompidos por sobrecarga, o que os tornaria indisponíveis para as pessoas que teriam respondido ao spam.

Bombeie um milhão de e-mails por hora, receba um milhão de acessos por hora em seus servidores.

Queremos garantir que isso seja feito apenas para spams suspeitos. Como regra, qualquer URL enviado para milhões de pessoas provavelmente será um URL de spam, então enviar cada solicitação http em cada e-mail funcionaria bem quase o tempo todo. Mas existem alguns casos em que isso não é verdade: os URLs no final das mensagens enviadas de serviços de e-mail gratuitos como Yahoo Mail e Hotmail, por exemplo.

Para proteger esses sites e evitar abusos, a recuperação automática deve ser combinada com listas negras de sites spamvertised. Somente os sites em uma lista negra seriam rastreados e os sites seriam colocados na lista negra apenas depois de serem inspecionados por humanos. A vida útil de um spam deve ser de pelo menos várias horas, então deve ser fácil atualizar essa lista a tempo de interferir com um spam promovendo um novo site. [2]

A recuperação automática de alto volume só seria prática para usuários em conexões de alta largura de banda, mas existem o suficiente para causar problemas sérios aos spammers. De fato, essa solução espelha perfeitamente o problema. O problema com o spam é que, para atingir algumas pessoas crédulas, o spammer envia e-mail para todos. Os destinatários não crédulos são apenas danos colaterais. Mas a maioria não crédula não deixará de receber spam até que possa parar (ou ameaçar parar) o crédulo de responder a ele. Os filtros de spam de recuperação automática oferecem a eles uma maneira de fazer isso.

Isso mataria o spam? Não exatamente. Os maiores spammers provavelmente poderiam proteger seus servidores contra filtros de recuperação automática. No entanto, a maneira mais fácil e barata para eles fazerem isso seria incluir links de cancelamento de inscrição funcionais em seus e-mails. E isso seria uma necessidade para os menores, e para sites "legítimos" que contrataram spammers para promovê-los. Então, se os filtros de recuperação automática se tornassem generalizados, eles se tornariam filtros de cancelamento de inscrição automática.

Nesse cenário, o spam, como travamentos do sistema operacional, vírus e pop-ups, se tornaria uma dessas pragas que só afetam as pessoas que não se dão ao trabalho de usar o software certo.

Notas

[1] Os filtros de recuperação automática terão que seguir redirecionamentos, e em alguns casos (por exemplo, uma página que apenas diz "clique aqui") siga mais de um nível de links. Certifique-se também de que as solicitações http sejam indistinguíveis daquelas de navegadores da Web populares, incluindo a ordem e o remetente.

Se a resposta não voltar em x quantidade de tempo, use como padrão uma probabilidade de spam bastante alta.

Em vez de tornar n constante, pode ser uma boa ideia torná-lo uma função do número de spams que foram vistos mencionando o site. Isso adicionaria um nível adicional de proteção contra abuso e acidentes.

[2] A versão original deste artigo usou o termo "lista branca" em vez de "lista negra". Embora eles devessem funcionar como listas negras, preferi chamá-los de listas brancas porque isso poderia torná-los menos vulneráveis a ataques legais. Isso parece ter confundido os leitores, no entanto.

Provavelmente deveria haver várias listas negras. Um único ponto de falha seria vulnerável tanto a ataques quanto a abusos.

Obrigado a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond e Richard Jowsey por lerem rascunhos deste.