FILTROS QUE CONTRAATACAN

August 2003

Podríamos mejorar la precisión de los filtros antispam bayesianos haciéndolos seguir los enlaces para ver qué hay al otro lado. Richard Jowsey de death2spam ahora lo hace en casos dudosos y reporta que funciona bien.

¿Por qué hacerlo solo en casos dudosos? ¿Y por qué solo una vez?

Como mencioné en ¿Matarán los filtros el spam?, seguir todas las URLs en un spam tendría un efecto secundario divertido. Si los clientes de correo electrónico populares hicieran esto para filtrar el spam, los servidores del spammer sufrirían un serio castigo. Cuanto más lo pienso, mejor parece la idea. Esto no es solo divertido; sería difícil imaginar un contraataque más perfectamente dirigido a los spammers.

Así que me gustaría sugerir una función adicional para aquellos que trabajan en filtros antispam: un modo "castigar" que, si se activa, rastrearía cada URL en un spam sospechoso n veces, donde n podría ser establecido por el usuario. [1]

Como muchas personas han señalado, uno de los problemas con el sistema de correo electrónico actual es que es demasiado pasivo. Hace lo que le dices. Hasta ahora, todas las sugerencias para solucionar el problema parecen involucrar nuevos protocolos. Esta no lo haría.

Si se usara ampliamente, los filtros antispam que recuperan automáticamente harían que el sistema de correo electrónico rebotara. El enorme volumen del spam, que hasta ahora ha funcionado a favor del spammer, ahora trabajaría en su contra, como una rama que le golpea en la cara. Los filtros antispam que recuperan automáticamente harían que los costos del spammer aumentaran y sus ventas disminuyeran: su uso de ancho de banda se dispararía y sus servidores se ralentizarían bajo la carga, lo que los haría inaccesibles para las personas que habrían respondido al spam.

Envía un millón de correos electrónicos por hora, obtén un millón de visitas por hora en tus servidores.

Querríamos asegurarnos de que esto solo se haga con spams sospechosos. Como regla general, cualquier URL enviada a millones de personas probablemente sea una URL de spam, por lo que enviar cada solicitud http en cada correo electrónico funcionaría bien casi todo el tiempo. Pero hay algunos casos en los que esto no es cierto: las URLs al final de los correos enviados desde servicios de correo electrónico gratuitos como Yahoo Mail y Hotmail, por ejemplo.

Para proteger dichos sitios y evitar abusos, la recuperación automática debe combinarse con listas negras de sitios publicitados por spam. Solo se rastrearían los sitios de la lista negra, y los sitios se incluirían en la lista negra solo después de ser inspeccionados por humanos. La vida útil de un spam debe ser de al menos varias horas, por lo que debería ser fácil actualizar dicha lista a tiempo para interferir con un spam que promueve un nuevo sitio. [2]

La recuperación automática de alto volumen solo sería práctica para usuarios con conexiones de alta velocidad, pero hay suficientes de ellos como para causar serios problemas a los spammers. De hecho, esta solución refleja el problema de manera precisa. El problema con el spam es que, para llegar a algunas personas crédulas, el spammer envía correos a todos. Los destinatarios no crédulos son simplemente daños colaterales. Pero la mayoría no crédula no dejará de recibir spam hasta que puedan detener (o amenazar con detener) a los crédulos de responder a él. Los filtros antispam que recuperan automáticamente les ofrecen una forma de hacerlo.

¿Eso mataría al spam? No del todo. Los spammers más grandes probablemente podrían proteger sus servidores de los filtros que recuperan automáticamente. Sin embargo, la forma más fácil y barata para ellos de hacerlo sería incluir enlaces de cancelación de suscripción que funcionen en sus correos. Y esto sería una necesidad para los más pequeños y para los sitios "legítimos" que contrataran spammers para promocionarlos. Así que si los filtros que recuperan automáticamente se generalizaran, se convertirían en filtros que se dan de baja automáticamente.

En este escenario, el spam, como los bloqueos del sistema operativo, los virus y los popups, se convertiría en una de esas plagas que solo afectan a las personas que no se molestan en usar el software adecuado.

Notas

[1] Los filtros que recuperan automáticamente tendrán que seguir los redireccionamientos y, en algunos casos (por ejemplo, una página que solo dice "haz clic aquí"), seguir más de un nivel de enlaces. Asegúrate también de que las solicitudes http sean indistinguibles de las de los navegadores web populares, incluido el orden y el referente.

Si la respuesta no llega dentro de x cantidad de tiempo, asigna una probabilidad de spam bastante alta por defecto.

En lugar de hacer que n sea constante, podría ser una buena idea hacerlo una función del número de spams que se han visto mencionando el sitio. Esto agregaría un nivel adicional de protección contra abusos y accidentes.

[2] La versión original de este artículo usaba el término "lista blanca" en lugar de "lista negra". Aunque iban a funcionar como listas negras, preferí llamarlas listas blancas porque podría hacerlas menos vulnerables a ataques legales. Esto solo parece haber confundido a los lectores, sin embargo.

Probablemente debería haber múltiples listas negras. Un solo punto de falla sería vulnerable tanto a ataques como a abusos.

Gracias a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond y Richard Jowsey por leer borradores de esto.