FILTROS QUE CONTRAATACAN

Agosto de 2003

Tal vez podamos mejorar la precisión de los filtros de spam bayesianos si hacemos que sigan enlaces para ver qué hay al otro lado. Richard Jowsey, de death2spam, ahora hace esto en casos límite y afirma que funciona bien.

¿Por qué hacerlo sólo en casos límite? ¿Y por qué hacerlo sólo una vez?

Como mencioné en ¿Los filtros acabarán con el spam?, seguir todas las URL de un correo no deseado tendría un efecto secundario divertido. Si los clientes de correo electrónico populares hicieran esto para filtrar el spam, los servidores del spammer sufrirían un duro golpe. Cuanto más pienso en esto, mejor me parece la idea. No es solo divertido; sería difícil imaginar un contraataque más perfectamente dirigido a los spammers.

Por eso, me gustaría sugerir una característica adicional a quienes trabajan en filtros de spam: un modo "castigar" que, si se activa, rastreará cada URL en un correo spam sospechoso n veces, donde n puede ser configurado por el usuario. [1]

Como muchos han señalado, uno de los problemas del sistema de correo electrónico actual es que es demasiado pasivo. Hace lo que le dices. Hasta ahora, todas las sugerencias para solucionar el problema parecen implicar nuevos protocolos. Este no lo haría.

Si se utilizaran ampliamente, los filtros de spam de recuperación automática harían que el sistema de correo electrónico se recuperara. El enorme volumen de spam, que hasta ahora había funcionado a favor del spammer, ahora funcionaría en su contra, como una rama que se le estrella en la cara. Los filtros de spam de recuperación automática aumentarían los costes del spammer y sus ventas disminuirían: su uso de ancho de banda se dispararía y sus servidores se paralizarían por la carga, lo que los dejaría inaccesibles para las personas que hubieran respondido al spam.

Envíe un millón de correos electrónicos por hora y obtenga un millón de visitas por hora en sus servidores.

Nos gustaría asegurarnos de que esto solo se haga con los correos que se sospecha que son spam. Como norma, cualquier URL enviada a millones de personas es probable que sea una URL spam, por lo que enviar cada solicitud http en cada correo electrónico funcionaría bien casi siempre. Pero hay algunos casos en los que esto no es así: las URL que aparecen al final de los correos enviados desde servicios de correo electrónico gratuitos como Yahoo Mail y Hotmail, por ejemplo.

Para proteger estos sitios y evitar el abuso, la recuperación automática debería combinarse con listas negras de sitios que promocionan spam. Solo se rastrearían los sitios que se encuentren en una lista negra, y los sitios se incluirían en la lista negra solo después de ser inspeccionados por humanos. La vida útil de un spam debe ser de varias horas como mínimo, por lo que debería ser fácil actualizar una lista de este tipo a tiempo para interferir con un spam que promocione un nuevo sitio. [2]

La recuperación automática de grandes volúmenes de mensajes sólo sería práctica para usuarios con conexiones de gran ancho de banda, pero hay suficientes como para causarles serios problemas a los spammers. De hecho, esta solución refleja claramente el problema. El problema con el spam es que, para llegar a unas pocas personas crédulas, el spammer envía mensajes a todo el mundo. Los destinatarios no crédulos son simplemente daños colaterales. Pero la mayoría no crédula no dejará de recibir spam hasta que pueda impedir (o amenazar con impedir) que los crédulos respondan a él. Los filtros de spam de recuperación automática les ofrecen una forma de hacerlo.

¿Eso acabaría con el spam? No exactamente. Los spammers más importantes probablemente podrían proteger sus servidores contra los filtros de recuperación automática. Sin embargo, la forma más fácil y barata de hacerlo sería incluir enlaces de cancelación de suscripción en sus correos. Y esto sería una necesidad para los más pequeños y para los sitios "legítimos" que contratan spammers para promocionarlos. Por lo tanto, si los filtros de recuperación automática se generalizaran, se convertirían en filtros de cancelación de suscripción automática.

En este escenario, el spam, al igual que los fallos del sistema operativo, los virus y las ventanas emergentes, se convertiría en una de esas plagas que sólo afectan a las personas que no se molestan en utilizar el software adecuado.

Notas

[1] Los filtros de recuperación automática deberán seguir las redirecciones y, en algunos casos (por ejemplo, una página que simplemente dice "haga clic aquí"), deberían seguir más de un nivel de enlaces. Asegúrese también de que las solicitudes http sean indistinguibles de las de los navegadores web más populares, incluido el orden y el referente.

Si no se obtiene respuesta en un plazo de tiempo x, se utilizará una probabilidad de spam bastante alta.

En lugar de hacer que n sea constante, puede ser una buena idea convertirla en una función de la cantidad de mensajes spam que se han visto mencionando el sitio. Esto añadiría un nivel adicional de protección contra el abuso y los accidentes.

[2] La versión original de este artículo utilizaba el término "lista blanca" en lugar de "lista negra". Aunque debían funcionar como listas negras, preferí llamarlas listas blancas porque eso las haría menos vulnerables a ataques legales. Sin embargo, esto parece haber confundido a los lectores.

Probablemente debería haber varias listas negras. Un único punto de fallo sería vulnerable tanto a ataques como a abusos.

Gracias a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond y Richard Jowsey por leer borradores de este libro.