FILTROS QUE CONTRAATACAN

Agosto 2003

Podríamos mejorar la precisión de los filtros de spam bayesianos haciéndolos seguir enlaces para ver qué hay esperando al otro lado. Richard Jowsey de death2spam ahora hace esto en casos límite, y reporta que funciona bien.

¿Por qué hacerlo solo en casos límite? ¿Y por qué hacerlo solo una vez?

Como mencioné en ¿Los filtros acabarán con el spam?, seguir todas las URL en un spam tendría un efecto secundario divertido. Si los clientes de correo electrónico populares hicieran esto para filtrar spam, los servidores de los spammers recibirían un golpe serio. Cuanto más pienso en esto, mejor parece la idea. Esto no es solo divertido; sería difícil imaginar un contraataque más perfectamente dirigido a los spammers.

Así que me gustaría sugerir una característica adicional a aquellos que trabajan en filtros de spam: un modo de "castigo" que, si se activa, rastrearía cada URL en un spam sospechoso n veces, donde n podría ser establecido por el usuario. [1]

Como muchas personas han señalado, uno de los problemas con el sistema de correo electrónico actual es que es demasiado pasivo. Hace lo que le dices. Hasta ahora, todas las sugerencias para solucionar el problema parecen involucrar nuevos protocolos. Este no lo haría.

Si se usara ampliamente, los filtros de spam de auto-recuperación harían que el sistema de correo electrónico rebotara. El enorme volumen de spam, que hasta ahora ha funcionado a favor del spammer, ahora funcionaría en su contra, como una rama que se rompe y le golpea en la cara. Los filtros de spam de auto-recuperación aumentarían los costos del spammer, y reducirían sus ventas: su uso de ancho de banda se dispararía, y sus servidores se detendrían bajo la carga, lo que los haría inaccesibles para las personas que habrían respondido al spam.

Envía un millón de correos electrónicos por hora, recibe un millón de visitas por hora en tus servidores.

Querríamos asegurarnos de que esto solo se haga a spams sospechosos. Como regla general, cualquier URL enviada a millones de personas es probable que sea una URL de spam, por lo que enviar cada solicitud http en cada correo electrónico funcionaría bien casi todo el tiempo. Pero hay algunos casos donde esto no es cierto: las URL al final de los correos enviados desde servicios de correo electrónico gratuitos como Yahoo Mail y Hotmail, por ejemplo.

Para proteger tales sitios, y para prevenir abusos, la auto-recuperación debería combinarse con listas negras de sitios publicitados como spam. Solo los sitios en una lista negra serían rastreados, y los sitios serían incluidos en la lista negra solo después de ser inspeccionados por humanos. La vida útil de un spam debe ser de al menos varias horas, por lo que debería ser fácil actualizar tal lista a tiempo para interferir con un spam que promueve un nuevo sitio. [2]

La auto-recuperación de alto volumen solo sería práctica para usuarios en conexiones de alto ancho de banda, pero hay suficientes de esos para causar serios problemas a los spammers. De hecho, esta solución refleja perfectamente el problema. El problema con el spam es que para alcanzar a algunas personas crédulas, el spammer envía correo a todos. Los destinatarios no crédulos son simplemente daños colaterales. Pero la mayoría no crédula no dejará de recibir spam hasta que pueda detener (o amenazar con detener) a los crédulos de responder a él. Los filtros de spam de auto-recuperación les ofrecen una forma de hacerlo.

¿Eso acabaría con el spam? No del todo. Los spammers más grandes probablemente podrían proteger sus servidores contra filtros de auto-recuperación. Sin embargo, la forma más fácil y barata para ellos de hacerlo sería incluir enlaces de cancelación de suscripción funcionales en sus correos. Y esto sería una necesidad para los más pequeños, y para sitios "legítimos" que contrataron spammers para promover sus productos. Así que si los filtros de auto-recuperación se volvieran comunes, se convertirían en filtros de auto-cancelación de suscripción.

En este escenario, el spam se convertiría, al igual que los bloqueos del sistema operativo, virus y ventanas emergentes, en una de esas plagas que solo afectan a las personas que no se molestan en usar el software adecuado.

Notas

[1] Los filtros de auto-recuperación tendrán que seguir redirecciones, y deberían en algunos casos (por ejemplo, una página que solo dice "haz clic aquí") seguir más de un nivel de enlaces. Asegúrate también de que las solicitudes http sean indistinguibles de las de navegadores web populares, incluyendo el orden y el referente.

Si la respuesta no regresa dentro de un tiempo x, predetermina una probabilidad de spam bastante alta.

En lugar de hacer n constante, podría ser una buena idea hacerlo una función del número de spams que se han visto mencionando el sitio. Esto añadiría un nivel adicional de protección contra abusos y accidentes.

[2] La versión original de este artículo usó el término "lista blanca" en lugar de "lista negra". Aunque debían funcionar como listas negras, preferí llamarlas listas blancas porque podría hacerlas menos vulnerables a ataques legales. Esto solo parece haber confundido a los lectores, sin embargo.

Probablemente debería haber múltiples listas negras. Un único punto de falla sería vulnerable tanto a ataques como a abusos.

Gracias a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond y Richard Jowsey por leer borradores de esto.