【ベイズ】POPFileを語ろう 2蛸目【spamフィルタ】
spamを言語別に別のバケツにしていたが
(あんまり理由はないけどspam置き場が見やすくなるので)
このところ何故か英語spamと中国語spamが区別できずに
unclassifiedに落ちてしまうメールが目立つようになった。
spamのバケツを一つにしてみる
他の言語は見ても読めないから、日本語とその他にしてる
901 :
名無しさん@お腹いっぱい。:05/03/16 14:00:31 ID:dS794RgZ
>>899 俺も。このスレの上の方で、言語別にわけた方が良いみたいな事を書いていたので
3ヶ月ほど試したけど、なんかunclassfiedが増えた。
spamは洋の東西問わないように戻したら、unclassfiedは確実に減った。
ついでにバケツ設定だけど、
spam ... スパム用
commarce ... 一般広告メール用
normal ... それ以外の優良メール用
って感じにしてる。
俺は unclassfied は意味有ると思ってる
細かくわけると確かにunclassfiedが増えると思うけど
結局それは分類したSPAMの正確性が高くなってる為だと思う、
unclassfiedは少ないのでその都度確認してどうするか判断しているから不便だとは思わない
逆に曖昧な物はunclassfiedにしてくれた方が安心する。
unclassfied多くなる=精度が悪くなってる、と考えるのは間違いだと思うな。
903 :
899:05/03/16 14:35:37 ID:UnCugWMD
>>902 そのへんは考えようじゃないかな
漏れの場合、結局は捨てるSPAMを言語別に整理しようとしていて、
分けられないのが増えてきた→必要ない分類はやめよう、と思った。
多分901も同じだろう
メルマガかSPAMかとか、捨てるか拾うかの狭間のunclassifiedは意味あると思うよ
>>894 私の場合は「広告(ham)」「仕事」「ISPからのお知らせ」「メーリングリスト」
「プライベート」「SPAM」の6つに分けています。
分類精度は95%を超えてるので実用上は問題ないです。
将来的にはバケツをたくさん作ったほうがいいみたいです。
905 :
894:05/03/17 23:07:34 ID:3C4SOnso
>>904 将来的、ですか。
どういうことかもし知っていたら教えていただけますか?
>>905 勝手に904を添削すると、
×将来的
○長期的
ではないかな?そうでないと意味不明。
あと、95%が分類精度として高いかどうか微妙。
みんな将来に備えてバケツを沢山作ろうぜ!!!って知能指数10未満の
>>904が仰ってまつw
>>904 95%って、20通に1通判定ミスしてるわけで・・・問題ないの?やばいんじゃないの?
ちなみにうちはinbox/admin/spam-e/spam-jの4つで、adminはほとんどマグネット、
spam-eは日本語以外のスパムという感じ。
1月23日から3500通中24通ミスで99.31%。
POPFileは元々メールソフトの振り分け機能で対応できないところ
(≒SPAMの振り分け)を補完するために作られているのだから
メールソフトでできることまでPOPFileにやらせる必要はない。
無理にPOPFileでやろうとしたら無駄に重くなるだけ。
というか普通の振り分けまでさせると精度落ちる。理論上はね。
精度が落ちるってより無駄に重くするだけのような
904じゃないけど
> 95%って、20通に1通判定ミスしてるわけで・・・問題ないの?やばいんじゃないの?
この考えの方が間違っている。
95%っていうのはPOPFilteが振り分けできた割合
例えばバケツを大雑把(2つ)に設定して99%振り分けできても
SPAMの中に通常メールが1通でも入ってしまっては意味ない
俺の場合は敢えてバケツを細分化する事によりunclassfiedの率は高くなっているが
曖昧な条件でSPAMに分類されるよりunclassfiedにしてくれた方が見落としが無くて安全
例えば
SPAM1:40%
SPAM2:38%
inbox:10%
unclassfied:2%
となっていれば頻繁なチェックはinboxとunclassfiedで
spamはある程度溜まった時や1日の終わりにざっと目を通すだけで良い
細かくわける事の利点は、BOX毎にどの程度真剣に見るかを設定出来る所にある
例えば自分は韓国や中国には相手先が居ないので、これらのバケツはまず問答無用で削除出来る
VAIAGRA系とコピーソフト販売系のSPAMも問答無用
その他のSPAMはざっと目を通すunclassfiedはもう少し真剣に見て必要なら新たな分類を作る
こうするとメール確認の時間配分を行う事が出来て時間を節約出来る。
spamとinboxしかなければ結局全部に目を通さなくてはいけないので時間の無駄
細かくわける事を否定している人が居るようだけど
そういう人はSPAMのバケツは見ないの?
そのまま捨てるのて怖くないですか?
>>905 あまりMUAに依存した振り分けをしておくと
環境を変更したときに苦労するので。
X-Text-Classification ヘッダーのみで分類できると非常に楽です。
>>908 >>910 メール分類の誤判定は60/1200といったところですが、
初期段階でミスしているだけなので多いわけではないです。
バケツが多くなれば初期の分類ミスが増えるのは当然ですから
ミスが特別多いとは思えないのですが。
>>911 確かに動作は重くなるでしょう。
でも、PentiumIII600MHzの環境では特に苦痛に感じたことはないですね。
よくわからんけど、
> spamはある程度溜まった時や1日の終わりにざっと目を通すだけで良い
結局全部見るんじゃん。
一応タイトルぐらいは目を通しておかないと誤検出が怖い。
>914
頭悪そう、
>こうするとメール確認の時間配分を行う事が出来て時間を節約出来る。
この意味解る?
SPAMが1バケツなら見逃さない為にある程度時間をかけてみなきゃならない
複数バケツで誤認識の可能性の低いバケツならタイトルをざっと流し読みするくらいで良い
914はSPAM判定は何でも消しちゃうアホか
重要度を判断せずに全て同じ手間をかけて馬鹿正直に確認するバカなんだろうね
仕事には効率が必要、
時間と安全性をどうバランスさせるかが重要だよね。
917 :
908:05/03/18 11:49:31 ID:trXvr+O6
自分で「95%って・・・やばいんじゃないの?」って書いてて言うのもアレなんだけど、
「分類精度」って、POPFileが分類した結果に対して、人間が「間違ってるよ」と指示した
数の比率だから、分類が間違ってるのが分かってるのに再分類しなければ100%に
限りなく近づくはず。
実際問題そういう運用はタコなわけで、100%にならない限り、結局ざっとでもヘッダー
ぐらいはチェックしなきゃならないんだよね。
そういう意味では、分類精度の数字自体はあまり気にしてもしょうがないわけで、
>>912の言うのは正論かな。本当にそうなるならね。今度試してみるよ。
ちなみに漏れ(inbox/admin/spam-e/spam-j+unclassified)は、
spam-e/spam-j→spamフォルダ
その他→受信箱
という風にBecky2で振り分けてます。
spam-eとspam-jをB2上で一緒にしちゃってるのは、あちこちチェックするのがめんどくさいから。
それでも1日1回チェックすれば充分です。
>>913 一度分類精度のリセットをした方がいいと思う。初期教育の分が外れたら、たぶん
99.xx%になるんじゃないかな。
>>916 誤検出は全部再教育しながらでも、99.58%いってるんで、
spamフォルダなんて、ざっとしか見んわ。
spamフォルダ2個とunclassifiedと、あちこち見てまわる気がしれん。
>>918 まあ利用形態によるわな
どうでも良い私用ならあまり気にしなくて良いと思う
ビジネスなら年に1通の見逃しが取り返しの付かない事になる可能性もある
だからといって日に500通以上もくるSPAMを詳細に見ると時間の無駄だし他の業務に支障が出る
こんな考え方も有るって事だね。
920 :
名無しさん@お腹いっぱい。:05/03/19 04:07:22 ID:iP7Cnpxc
>>919 100%完璧なspamフィルタはありえないけど、全部手動でspamを捨てるのも時間の無駄。
spam処理で楽をするって目的ならPOPFileは十分役に立つよね。
ところで、設定画面にパスワードってかけてる?
かけてない。自宅パソコンでルータのポートをわざわざ開けたりしてなければパスワードガードは不要でしょう。
あ、知識レヴェルの低い人はパスワード掛けといたほうがいいかもねw
それ以前に、デフォルトでローカルホスト以外は拒否だろ。
924 :
名無しさん@お腹いっぱい。:2005/03/22(火) 16:49:26 ID:Q3QNP70s
925 :
名無しさん@お腹いっぱい。:2005/03/24(木) 23:52:54 ID:PCMx/fG5
X-POPFile-TimeoutPreventionヘッダって付加しないようには
設定できないんですかね?
数個付くくらいなら別に気にしなければいいんですが、モバイル
用の遅いパソコンででかい添付ファイルのあるメールを受信して
たら、付加されたX-POPFile-TimeoutPreventionヘッダが多すぎ
たのかウィルスチェックソフトに「ヘッダ異常」と判断されてしまい
ました。
926 :
名無しさん@お腹いっぱい。:2005/03/25(金) 06:10:11 ID:b/HLGhzC
>>925 アンチウイルスソフトの挙動に依存するなら、必ずしもPOPFileが悪い
とも言えないのでは(言ってないけど)。
POPFile + ウイルスバスター2005で使ってるけど、特にそういった問題
は出てないです。
それよりもPOPFileコントロールセンターを開いた時に、かなりの高確率
でPOPFileが死ぬのが鬱陶しい…
927 :
925:2005/03/25(金) 09:05:39 ID:EaADm1Vf
>>926 まさにPOPFile + ウイルスバスター2005の組み合わせです。
出先で2MBの添付ファイル付きメールを受信する羽目になり、
X-POPFile-TimeoutPrevention ヘッダが20個くらいついて
ウイルスバスター2005にヘッダ異常と判断されました。
パソコンも回線も非常に遅いというのが問題で、POPFileが悪い
とはもちろんまったく思ってません。
ただ、このヘッダをつけない設定があれば知りたいな、と。
928 :
名無しさん@お腹いっぱい。:2005/03/25(金) 09:28:15 ID:WmCWgFV1
Outclassってメンテナンスされてる?
929 :
926:2005/03/25(金) 10:55:28 ID:b/HLGhzC
>>927 設定はなさそうだから、Perlのスクリプトを直接いじってみては?
C:\Program Files\POPFile\Classifier\Bayes.pm
2643: if ( time > ( $last_timeout + 2 ) ) {
2644: print $client "X-POPFile-TimeoutPrevention: $timeout_count$crlf" if ( $echo );
2645: $timeout_count += 1;
2646: $last_timeout = time;
2647: }
2644行を消すかコメントにすればヘッダが付かなくなると思う(試してないけど)。
930 :
925:2005/03/25(金) 17:18:45 ID:EaADm1Vf
>>929 いただいたアドバイスに従ってスクリプトを修正したら
X-POPFile-TimeoutPrevention ヘッダが出力されなく
なりました。
Perl で記述されているとこういう風にユーザーが動作を
修正できるというメリットもあるんですね。
ありがとうございました。
ええ話しやなあ...
映画化決定!
これってCGIの使えるレンタルWEBサーバに設置することはできますか?
それを聞いているようでは無理。
>>933 やりたいことは想像できるけど、別のベイズ実装を使っとけ。
936 :
名無しさん@お腹いっぱい。:2005/04/06(水) 08:00:41 ID:MwT6SMMO
>936
そこ見たらこんな書き込みが有った、ちょっと気になるよね
>しかし、比較のためにウイルスバスターのSPAM判別機能を最高レベルで設定して有効にし、試しにメールの受信を行ってみたところ、POPFileと同等レベルの判別能力、いやそれ以上の精度で除去してくれていた。
>どうやら、SPAMメールと判断されるものをユーザがメールでTrendmicroの判別処理を行う専用のサーバに送信することで、処理能力を高めていることが原因のようだ。
>>937 ウイルスバスターのSPAM判別の方法自体は知らないけど、もし
誤判定があったらユーザーがそれをトレンドマイクロに通知できる
ようになっている。
トレンドマイクロはそれにもとづいてパターンファイルを更新して
いるので、ユーザーはみんな学習結果を共有することになる。
つまり、個人で学習させるPOPFileとはサンプリング数が桁違いと
いうことなんじゃないかな。
ただ、POPFileは迷惑メールかどうかの判別だけじゃなくて複数の
バケツを作れるので自分ではウイルスバスターの迷惑メール防止
機能は切った状態でPOPFileを使ってる。
「育てゲー」みたいな楽しみもあるしね。
へー
スパムフィルタ学習情報の共有化っていいね
全自動じゃなくても
自分で作ったパターンファイルをアップロード
→ほかのひとがそれを貰って自分のに追加書き込み
とかできたら面白いかも。
フィルタ共有はサンプル数少ないうちはいいけど、そのうちコーパスが
バカでっかくなりそうで怖いな。
それに「SPAMと判別されにくいメールの書き方」をSPAMMERに教えていることにならんか?
コーパスをもとに、フィルタをパスしやすくなるように文章を添削するソフトとか
開発されたりしてね
941 :
名無しさん@お腹いっぱい。:2005/04/07(木) 13:43:55 ID:uC6r9BQr BE:118100377-#
バージョンアップまだ?
バックエンドをRDBMSにしてくれ。
>>942 SQLiteで良いじゃん。速いし。
バックエンドを別のマシンにしたいなら別だけど。
学習成果を共有ってやつ?
ベイジアンフィルタは個人のメールボックスに特化できるからこそ威力があるのであって
共有すると効果半減なような
0から学習させるよりマシって感じ?
バイアグラ安売りが死活的情報な場合だってあるだろうしね。
うちのコーパスだと、健康食品、サプリメント、ダイエットあたりはSPAM語に含まれてる。
他人様と使い回すのは無理があるような。
自分専用にコーパスをカスタマイズしてくれるなんて素敵じゃないかっ!!
やりたくないけどやらないか?