फ़िल्टर जो वापस लड़ते हैं

अगस्त 2003

हम बेयेसियन स्पैम फ़िल्टर की सटीकता में सुधार कर सकते हैं द्वारा उन्हें लिंक का पालन करने और देखने के लिए कि क्या है दूसरे छोर पर इंतजार कर रहा है। रिचर्ड जोवसी ऑफ death2spam अब इसे सीमा-पार मामलों में करता है, और रिपोर्ट करता है कि यह अच्छा काम करता है।

केवल सीमा-पार मामलों में ऐसा क्यों करना चाहिए? और केवल एक बार क्यों करना चाहिए?

जैसा कि मैंने क्या फ़िल्टर स्पैम को मार देंगे? में उल्लेख किया है, एक स्पैम में मौजूद सभी यूआरएल का पालन करना एक मजेदार साइड-इफेक्ट होगा। यदि लोकप्रिय ईमेल क्लाइंट इस उद्देश्य से यह करते हैं कि स्पैम को फ़िल्टर करें, तो स्पैमर के सर्वर गंभीर रूप से पीड़ित होंगे। जितना मैं इस बारे में सोचता हूं, यह एक बेहतर विचार लगता है। यह केवल मजेदार नहीं है; यह स्पैमरों पर एक पूरी तरह से लक्षित प्रतिकार कल्पना करना मुश्किल होगा।

इसलिए मैं उन लोगों को एक अतिरिक्त सुविधा सुझाना चाहूंगा जो स्पैम फ़िल्टर पर काम कर रहे हैं: एक "दंड" मोड जो, यदि चालू किया गया है, तो n बार हर यूआरएल को स्पाइडर करेगा संदिग्ध स्पैम में, जहां n उपयोगकर्ता द्वारा सेट किया जा सकता है। [1]

जैसा कि कई लोगों ने नोट किया है, वर्तमान ईमेल प्रणाली की एक समस्या यह है कि यह बहुत निष्क्रिय है। यह आपको जो भी बताया जाता है वह करता है। अब तक समस्या को ठीक करने के लिए सुझाव नए प्रोटोकॉल शामिल हैं। यह एक नहीं होगा।

यदि व्यापक रूप से उपयोग किया जाता है, तो स्वत: पुनर्प्राप्त स्पैम फ़िल्टर ईमेल प्रणाली को पलट देंगे। स्पैम की भारी मात्रा, जो अब तक स्पैमर के पक्ष में काम किया है, अब उसके खिलाफ काम करेगा, जैसे कि एक शाखा उसके चेहरे पर वापस आ जाती है। स्वत: पुनर्प्राप्त स्पैम फ़िल्टर स्पैमर के लागत बढ़ा देंगे, और उसकी बिक्री नीचे: उसका बैंडविड्थ उपयोग छत छू लेगा, और उसके सर्वर धीमे हो जाएंगे लोड के तहत, जो उन्हें उन लोगों के लिए अनुपलब्ध बना देगा जो स्पैम का जवाब देते।

प्रति घंटा एक मिलियन ईमेल भेजो, प्रति घंटा एक मिलियन हिट प्राप्त करो।

हम यह सुनिश्चित करना चाहेंगे कि यह केवल संदिग्ध स्पैम पर किया जाता है। एक नियम के रूप में, किसी भी यूआरएल को भेजा गया जो लाखों लोगों को भेजा गया है, संभावना है कि यह एक स्पैम यूआरएल है, इसलिए प्रत्येक http का प्रस्तुत करना प्रत्येक ईमेल में अनुरोध लगभग हर समय काम करेगा। लेकिन कुछ मामले हैं जहां यह सच नहीं है: जैसे Yahoo Mail और Hotmail जैसी मुक्त ईमेल सेवाओं से भेजे गए मेलों के नीचे यूआरएल।

ऐसी साइटों की रक्षा करने के लिए, और दुरुपयोग को रोकने के लिए, स्वत: पुनर्प्राप्ति को स्पैमवर्टाइज्ड साइटों की काली सूची के साथ संयुक्त होना चाहिए। केवल काली सूची में शामिल साइटों को क्रॉल किया जाएगा, और साइटों को केवल मानव द्वारा निरीक्षण के बाद काली सूची में डाला जाएगा। एक स्पैम की आयु कम से कम कुछ घंटे होनी चाहिए, इसलिए एक नई साइट को प्रचारित करने वाले स्पैम को व्यवधान पहुंचाने के लिए समय में सूची को अपडेट करना आसान होना चाहिए। [2]

उच्च-वॉल्यूम स्वत: पुनर्प्राप्ति केवल उच्च-बैंडविड्थ वाले उपयोगकर्ताओं के लिए व्यावहारिक होगी कनेक्शन, लेकिन ऐसे पर्याप्त उपयोगकर्ता हैं जो स्पैमरों को गंभीर परेशानी पैदा कर सकते हैं। वास्तव में, यह समाधान समस्या का प्रतिबिंब करता है। स्पैम की समस्या यह है कि कुछ मूर्ख लोगों तक पहुंचने के लिए स्पैमर सभी को मेल भेजता है। गैर-मूर्ख प्राप्तकर्ता केवल साइड-नुकसान हैं। लेकिन गैर-मूर्ख बहुमत तब तक स्पैम नहीं रोक सकते जब तक कि वे (या धमकी दे) मूर्ख को नहीं रोक सकते इसका जवाब देने से। स्वत: पुनर्प्राप्त स्पैम फ़िल्टर उन्हें इसे करने का एक तरीका प्रदान करते हैं।

क्या यह स्पैम को मार देगा? बिल्कुल नहीं। सबसे बड़े स्पैमर शायद स्वत: पुनर्प्राप्त फ़िल्टरों के खिलाफ अपने सर्वर की रक्षा कर सकते हैं। हालांकि, उनके लिए सबसे आसान और सस्ता तरीका यह होगा कि वे अपने मेलों में कार्यात्मक अनसब्सक्राइब लिंक शामिल करें। और यह छोटे लोगों के लिए एक आवश्यकता होगी, और "वैध" साइटों के लिए जो स्पैमरों को उनका प्रचार करने के लिए भरती करते हैं। इसलिए यदि स्वत: पुनर्प्राप्त फ़िल्टर व्यापक रूप से उपयोग किए जाते हैं, वे स्वत: अनसब्सक्राइब फ़िल्टर बन जाएंगे।

इस पृष्ठभूमि में, स्पैम, जैसे कि ओएस क्रैश, वायरस, और पॉप-अप, उन महामारियों में से एक बन जाएगा जो केवल उन लोगों को प्रभावित करती हैं जो सही सॉफ्टवेयर का उपयोग करने की परवाह नहीं करते हैं।

नोट्स

[1] स्वत: पुनर्प्राप्त फ़िल्टर को रीडायरेक्ट का पालन करना होगा, और कुछ मामलों में (उदा. एक पृष्ठ जो केवल कहता है "यहां क्लिक करें") एक से अधिक स्तर के लिंक का पालन करना चाहिए। यह भी सुनिश्चित करें कि http अनुरोध लोकप्रिय वेब ब्राउज़रों के समान हैं, रेफरर सहित क्रम और।

यदि प्रतिक्रिया x समय के भीतर नहीं आती है, तो डिफ़ॉल्ट रूप से कुछ काफी उच्च स्पैम संभावना।

n को स्थिर नहीं बनाकर, यह एक अच्छा विचार हो सकता है कि यह उस साइट का उल्लेख करने वाले स्पैम की संख्या का एक कार्य हो। यह दुरुपयोग और दुर्घटनाओं के खिलाफ एक और स्तर की सुरक्षा जोड़ेगा।

[2] इस लेख के मूल संस्करण में "काली सूची" शब्द का उपयोग "सफेद सूची" के बजाय किया गया था। हालांकि वे काली सूचियों की तरह काम करने वाले थे, मैं "सफेद सूची" कहना पसंद करता था क्योंकि यह उन्हें कानूनी हमले के प्रति कमजोर बना सकता था। लेकिन यह केवल पाठकों को भ्रमित करता प्रतीत होता है।

कई काली सूचियों होनी चाहिए। एक एकल विफलता हमले और दुरुपयोग के लिए भी कमजोर होगा।

धन्यवाद ब्रायन बर्टन, बिल येरज़ुनिस, डैन गिफ़िन, एरिक रेमंड, और रिचर्ड जोवसी ने इस पर मसौदा पढ़ने के लिए।