प्रतिरोधी फ़िल्टर

अगस्त 2003

हम बेयesian स्पैम फ़िल्टर की सटीकता को बेहतर बनाने में सक्षम हो सकते हैं यदि हम उन्हें लिंक का पालन करने दें ताकि वे देख सकें कि दूसरी तरफ क्या है। रिचर्ड जोव्सी death2spam अब ऐसा करता है सीमांत मामलों में, और रिपोर्ट करता है कि यह अच्छी तरह से काम करता है।

सीमांत मामलों में ऐसा क्यों करें? और केवल एक बार ऐसा क्यों करें?

जैसा कि मैंने क्या फ़िल्टर स्पैम को मार देंगे? में उल्लेख किया, स्पैम में सभी यूआरएल का पालन करने का एक मजेदार साइड-इफेक्ट होगा। यदि लोकप्रिय ईमेल क्लाइंट स्पैम को फ़िल्टर करने के लिए ऐसा करते हैं, तो स्पैमर के सर्वर गंभीर रूप से प्रभावित होंगे। जितना मैं इस बारे में सोचता हूं, यह एक बेहतर विचार लगता है। यह सिर्फ मजेदार नहीं है; यह स्पैमर्स पर एक अधिक लक्षित प्रतिक्रमण की कल्पना करना कठिन होगा।

तो मैं स्पैम फ़िल्टर पर काम कर रहे लोगों को एक अतिरिक्त विशेषता का सुझाव देना चाहूंगा: एक "दंड" मोड जो, यदि चालू किया जाए, तो संदिग्ध स्पैम में हर यूआरएल को n बार स्पाइडर करेगा, जहां n को उपयोगकर्ता द्वारा सेट किया जा सकता है। [1]

जैसा कि कई लोगों ने नोट किया है, वर्तमान ईमेल प्रणाली की एक समस्या यह है कि यह बहुत निष्क्रिय है। यह जो कुछ आप इसे बताते हैं, वही करता है। अब तक समस्या को ठीक करने के लिए सभी सुझाव नए प्रोटोकॉल से संबंधित हैं। यह एक ऐसा नहीं होगा।

यदि व्यापक रूप से उपयोग किया जाए, तो ऑटो-रीट्रीविंग स्पैम फ़िल्टर ईमेल प्रणाली को पुनः सक्रिय कर देंगे। स्पैम की विशाल मात्रा, जो अब तक स्पैमर के पक्ष में काम कर रही थी, अब उसके खिलाफ काम करेगी, जैसे एक शाखा उसके चेहरे पर वापस झूलती है। ऑटो-रीट्रीविंग स्पैम फ़िल्टर स्पैमर के लागत को बढ़ाएंगे, और उसकी बिक्री को कम करेंगे: उसकी बैंडविड्थ उपयोग आसमान छू जाएगी, और उसके सर्वर लोड के तहत रुक जाएंगे, जिससे वे उन लोगों के लिए अनुपलब्ध हो जाएंगे जो स्पैम का जवाब देने वाले होते।

एक घंटे में एक मिलियन ईमेल भेजें, अपने सर्वरों पर एक घंटे में एक मिलियन हिट प्राप्त करें।

हम यह सुनिश्चित करना चाहेंगे कि यह केवल संदिग्ध स्पैम पर किया जाए। सामान्यतः, लाखों लोगों को भेजा गया कोई भी यूआरएल स्पैम यूआरएल होने की संभावना है, इसलिए हर ईमेल में हर http अनुरोध को सबमिट करना लगभग हमेशा ठीक काम करेगा। लेकिन कुछ मामले हैं जहां यह सच नहीं है: उदाहरण के लिए, मुफ्त ईमेल सेवाओं जैसे Yahoo Mail और Hotmail से भेजे गए मेल के नीचे के यूआरएल।

ऐसे साइटों की रक्षा करने के लिए, और दुरुपयोग को रोकने के लिए, ऑटो-रीट्रीवल को स्पैमवर्टाइज्ड साइटों की ब्लैकलिस्ट के साथ मिलाना चाहिए। केवल ब्लैकलिस्ट पर साइटों को क्रॉल किया जाएगा, और साइटों को केवल मानव द्वारा निरीक्षण के बाद ब्लैकलिस्ट किया जाएगा। एक स्पैम का जीवनकाल कम से कम कई घंटे होना चाहिए, इसलिए इस तरह की सूची को समय पर अपडेट करना आसान होना चाहिए एक नए साइट को बढ़ावा देने वाले स्पैम में हस्तक्षेप करने के लिए। [2]

उच्च मात्रा में ऑटो-रीट्रीवल केवल उच्च-बैंडविड्थ कनेक्शनों पर उपयोगकर्ताओं के लिए व्यावहारिक होगा, लेकिन उनमें से पर्याप्त हैं जो स्पैमर्स को गंभीर परेशानी में डाल सकते हैं। वास्तव में, यह समाधान समस्या को अच्छी तरह से दर्शाता है। स्पैम की समस्या यह है कि कुछ भोले-भाले लोगों तक पहुँचने के लिए स्पैमर सभी को मेल भेजता है। गैर-भोले-भाले प्राप्तकर्ता सिर्फ सहायक क्षति हैं। लेकिन गैर-भोले-भाले बहुमत तब तक स्पैम प्राप्त करना बंद नहीं करेगा जब तक वे (या धमकी देकर) भोले-भाले लोगों को इसका जवाब देने से रोक नहीं सकते। ऑटो-रीट्रीविंग स्पैम फ़िल्टर उन्हें ऐसा करने का एक तरीका प्रदान करते हैं।

क्या इससे स्पैम खत्म हो जाएगा? बिल्कुल नहीं। सबसे बड़े स्पैमर शायद अपने सर्वरों को ऑटो-रीट्रीविंग फ़िल्टरों से बचा सकते हैं। हालाँकि, उनके लिए इसे करने का सबसे आसान और सस्ता तरीका होगा अपने मेल में काम करने वाले अनसब्सक्राइब लिंक शामिल करना। और यह छोटे लोगों के लिए एक आवश्यकता होगी, और "वैध" साइटों के लिए जो स्पैमर्स को उन्हें बढ़ावा देने के लिए नियुक्त करते हैं। इसलिए यदि ऑटो-रीट्रीविंग फ़िल्टर व्यापक हो गए, तो वे ऑटो-अनसब्सक्राइबिंग फ़िल्टर बन जाएंगे।

इस परिदृश्य में, स्पैम, ओएस क्रैश, वायरस और पॉपअप की तरह, उन बीमारियों में से एक बन जाएगा जो केवल उन लोगों को प्रभावित करती हैं जो सही सॉफ़्टवेयर का उपयोग करने की परवाह नहीं करते।

नोट्स

[1] ऑटो-रीट्रीविंग फ़िल्टर को रीडायरेक्ट का पालन करना होगा, और कुछ मामलों में (जैसे एक पृष्ठ जो बस कहता है "यहाँ क्लिक करें") एक से अधिक स्तर के लिंक का पालन करना चाहिए। यह सुनिश्चित करें कि http अनुरोध लोकप्रिय वेब ब्राउज़रों के अनुरोधों से भिन्न न हों, जिसमें क्रम और संदर्भदाता शामिल हैं।

यदि प्रतिक्रिया x समय की मात्रा के भीतर वापस नहीं आती है, तो कुछ काफी उच्च स्पैम संभावना पर डिफ़ॉल्ट करें।

n को स्थिर बनाने के बजाय, यह एक अच्छा विचार हो सकता है उसे उन स्पैम की संख्या के कार्य के रूप में बनाना जो साइट का उल्लेख करते हैं। यह दुरुपयोग और दुर्घटनाओं के खिलाफ एक और स्तर की सुरक्षा जोड़ देगा।

[2] इस लेख के मूल संस्करण में "ब्लैकलिस्ट" के बजाय "व्हाइटलिस्ट" शब्द का उपयोग किया गया था। हालांकि वे ब्लैकलिस्ट की तरह काम करने के लिए थे, मैंने उन्हें व्हाइटलिस्ट कहना पसंद किया क्योंकि इससे उन्हें कानूनी हमले के प्रति कम संवेदनशील बना सकता है। हालांकि, इससे पाठकों को भ्रमित करने का प्रभाव पड़ा है।

शायद कई ब्लैकलिस्ट होनी चाहिए। एकल विफलता का बिंदु हमले और दुरुपयोग दोनों के प्रति संवेदनशील होगा।

धन्यवाद ब्रायन बर्टन, बिल येराजुनिस, डैन गिफिन, एरिक रेयमंड, और रिचर्ड जोव्सी को इस के ड्राफ्ट पढ़ने के लिए।