FILTROS QUE CONTRAATACAN
OriginalAugust 2003
Es posible que podamos mejorar la precisión de los filtros de spam bayesianos haciéndolos seguir los enlaces para ver qué espera al otro lado. Richard Jowsey de death2spam ahora lo hace en casos límite, y reporta que funciona bien.
¿Por qué hacerlo solo en casos límite? ¿Y por qué hacerlo solo una vez?
Como mencioné en ¿Los filtros acabarán con el spam?, seguir todas las url en un spam tendría un efecto secundario divertido. Si los clientes de correo electrónico populares hicieran esto para filtrar el spam, los servidores de los spammers recibirían una fuerte paliza. Cuanto más pienso en esto, mejor idea parece. Esto no es solo divertido; sería difícil imaginar un contraataque más perfectamente dirigido a los spammers.
Así que me gustaría sugerir una característica adicional a aquellos que trabajan en filtros de spam: un modo "castigar" que, si se activa, arrastraría todas las url en un spam sospechoso n veces, donde n podría ser configurado por el usuario. [1]
Como muchas personas han notado, uno de los problemas con el sistema de correo electrónico actual es que es demasiado pasivo. Lo hace lo que le digas. Hasta ahora, todas las sugerencias para arreglar el problema parecen involucrar nuevos protocolos. Este no lo haría.
Si se usaran ampliamente, los filtros de spam de recuperación automática harían que el sistema de correo electrónico rebotara. El enorme volumen del spam, que hasta ahora ha funcionado a favor del spammer, ahora funcionaría en su contra, como una rama que se rompe en su cara. Los filtros de spam de recuperación automática impulsarían el costos del spammer , y sus ventas a la baja: el uso de su ancho de banda se dispararía, y sus servidores se quedarían paralizados por la carga, lo que los haría inaccesibles para las personas que hubieran respondido al spam.
Bombardea con un millón de correos electrónicos por hora, obtén un millón de visitas por hora en tus servidores.
Querríamos asegurarnos de que esto solo se hace a spams sospechosos. Como regla general, cualquier url que se envía a millones de personas es probable que sea una url de spam, por lo que enviar cada solicitud http en cada correo electrónico funcionaría bien casi siempre. Pero hay algunos casos en los que esto no es cierto: las url en la parte inferior de los correos enviados desde servicios de correo electrónico gratuitos como Yahoo Mail y Hotmail, por ejemplo.
Para proteger esos sitios, y para evitar el abuso, la recuperación automática debe combinarse con listas negras de sitios spamvertizados. Solo los sitios en una lista negra serían rastreados, y los sitios serían incluidos en la lista negra solo después de ser inspeccionados por humanos. La vida útil de un spam debe ser de varias horas como mínimo, por lo que debería ser fácil actualizar dicha lista a tiempo para interferir con un spam que promueva un nuevo sitio. [2]
La recuperación automática de alto volumen solo sería práctica para usuarios en conexiones de alto ancho de banda, pero hay suficientes de esos para causar problemas graves a los spammers. De hecho, esta solución refleja perfectamente el problema. El problema con el spam es que para alcanzar a algunas personas crédulas, el spammer envía correo a todos. Los receptores no crédulos son simplemente daños colaterales. Pero la mayoría no crédula no dejará de recibir spam hasta que puedan detener (o amenacen con detener) a los crédulos de responder a él. Los filtros de spam de recuperación automática les ofrecen una forma de hacer esto.
¿Eso mataría el spam? No del todo. Los spammers más grandes probablemente podrían proteger sus servidores contra los filtros de recuperación automática. Sin embargo, la forma más fácil y económica para ellos de hacerlo sería incluir enlaces para cancelar la suscripción funcionales en sus correos electrónicos. Y esto sería una necesidad para los pequeños, y para los sitios "legítimos" que contrataron a spammers para promocionarlos. Así que si los filtros de recuperación automática se generalizaran, se convertirían en filtros de cancelación de suscripción automática.
En este escenario, el spam, como las fallas del sistema operativo, los virus y las ventanas emergentes, se convertiría en una de esas plagas que solo afectan a las personas que no se molestan en usar el software adecuado.
Notas
[1] Los filtros de recuperación automática tendrán que seguir redireccionamientos, y en algunos casos (por ejemplo, una página que simplemente dice "haga clic aquí") siga más de un nivel de enlaces. Asegúrese también de que las solicitudes http son indistinguibles de las de los navegadores web populares, incluido el orden y el referente.
Si la respuesta no vuelve en x cantidad de tiempo, predeterminado a una probabilidad de spam bastante alta.
En lugar de hacer que n sea constante, podría ser una buena idea hacerlo una función del número de spams que se han visto mencionar el sitio. Esto agregaría un nivel adicional de protección contra el abuso y los accidentes.
[2] La versión original de este artículo utilizó el término "lista blanca" en lugar de "lista negra". Aunque debían funcionar como listas negras, prefería llamarlas listas blancas porque podría hacerlas menos vulnerables a los ataques legales. Esto solo parece haber confundido a los lectores, sin embargo.
Probablemente debería haber múltiples listas negras. Un solo punto de falla sería vulnerable tanto a ataques como a abusos.
Gracias a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond y Richard Jowsey por leer borradores de esto.