反撃するフィルター
Original2003年8月
ベイジアン スパム フィルターの精度は、リンクをたどって反対側で何が待っているかを確認できるようにすることで向上できる可能性があります。death2spam の Richard Jowsey 氏は、現在、境界線上のケースでこれを実行しており、うまく機能していると報告しています。
なぜ境界線上の場合にのみ行うのですか? また、なぜ一度だけ行うのですか?
「フィルタはスパムを撲滅するのか?」で述べたように、スパム内のすべての URL を追跡すると、面白い副作用があります。一般的な電子メール クライアントがスパムをフィルタリングするためにこれを実行すると、スパマーのサーバーは深刻な打撃を受けることになります。これについて考えれば考えるほど、これは良いアイデアのように思えます。これは単に面白いだけではありません。スパマーに対する、より完璧にターゲットを絞った反撃を想像するのは難しいでしょう。
そこで、スパムフィルターに取り組んでいる人たちに、もう 1 つの機能を提案したいと思います。それは、「罰する」モードです。この機能をオンにすると、スパムの疑いのあるすべての URL を n 回スパイダー処理します。n はユーザーが設定できます。[1]
多くの人が指摘しているように、現在の電子メール システムの問題点の 1 つは、受動的すぎることです。指示されたとおりに動作します。これまでのところ、この問題を解決するための提案はすべて、新しいプロトコルを伴うものと思われます。この提案はそうではありません。
自動取得スパム フィルターが広く使用されると、電子メール システムは*回復するでしょう。*これまでスパマーに有利に働いてきた大量のスパムが、今度は枝が顔に跳ね返ったようにスパマーに不利に働くでしょう。自動取得スパム フィルターはスパマーのコストを押し上げ、売り上げを低下させます。帯域幅の使用量は急増し、サーバーは負荷で停止し、スパムに応答するはずだったユーザーがサーバーを利用できなくなります。
1 時間に 100 万通の電子メールを送信し、サーバー上で 1 時間に 100 万回のヒットを獲得します。
これはスパムの疑いがある場合にのみ行うようにする必要があります。原則として、何百万もの人々に送信される URL はスパム URL である可能性が高いため、すべてのメールのすべての http リクエストを送信すれば、ほとんどの場合問題なく動作します。ただし、これが当てはまらないケースもいくつかあります。たとえば、Yahoo メールや Hotmail などの無料メール サービスから送信されたメールの下部にある URL などです。
このようなサイトを保護し、悪用を防ぐために、自動取得をスパム広告サイトのブラックリストと組み合わせる必要があります。ブラックリストに載っているサイトだけがクロールされ、サイトは人間が検査した後にのみブラックリストに登録されます。スパムの存続期間は少なくとも数時間であるため、新しいサイトを宣伝するスパムを阻止するために、このようなリストを時間内に更新するのは簡単です。[2]
大量のメールを自動取得できるのは、高帯域幅接続のユーザーに対してのみ実用的ですが、そのような接続のユーザーはスパマーにとって深刻な問題を引き起こすほど多く存在します。実際、このソリューションは問題をうまく反映しています。スパムの問題は、騙されやすい少数の人々に届くように、スパマーが全員にメールを送信することです。騙されにくい受信者は、単に巻き添え被害に遭うだけです。しかし、騙されにくい大多数の人々は、騙されやすい人々がスパムに応答するのを止める (または止めると脅す) ことができるまで、スパムの受信を止めません。自動取得スパム フィルターは、これを実現する方法を提供します。
それでスパムがなくなるでしょうか? 必ずしもそうではありません。最大のスパマーは、おそらく自動取得フィルタからサーバーを保護できるでしょう。しかし、最も簡単で安価な方法は、メールに有効な登録解除リンクを含めることです。これは、小規模なサイトや、スパマーを雇って宣伝している「正当な」サイトにとっては必須のことです。したがって、自動取得フィルタが普及すれば、自動登録解除フィルタになります。
このシナリオでは、スパムは、OS のクラッシュ、ウイルス、ポップアップと同様に、適切なソフトウェアを使わない人だけを悩ませる疫病の 1 つになるでしょう。
注記
[1] 自動取得フィルタはリダイレクトに従う必要があり、場合によっては(「ここをクリック」とだけ書かれているページなど)、複数のレベルのリンクに従う必要があります。また、順序やリファラを含め、http リクエストが一般的な Web ブラウザのリクエストと区別がつかないことも確認してください。
応答が x 時間内に返ってこない場合は、デフォルトでかなり高いスパム確率になります。
n を定数にするのではなく、サイトについて言及しているスパムの数に応じて関数にすると良いでしょう。これにより、不正使用や事故に対する保護のレベルがさらに高まります。
[2] この記事のオリジナル版では、「ブラックリスト」ではなく「ホワイトリスト」という用語が使用されていました。ホワイトリストはブラックリストのように機能しますが、法的攻撃を受けにくくなる可能性があるため、ホワイトリストと呼ぶことを好みました。しかし、これは読者を混乱させたようです。
おそらくブラックリストは複数あるはずです。単一障害点では、攻撃と悪用の両方に対して脆弱になります。
この原稿を読んでくださった Brian Burton、Bill Yerazunis、Dan Giffin、Eric Raymond、Richard Jowsey に感謝します。