【ベイズ】POPFileを語ろう 2蛸目【spamフィルタ】

このエントリーをはてなブックマークに追加
899名無しさん@お腹いっぱい。:05/03/14 23:54:53 ID:b6kTnZXP
spamを言語別に別のバケツにしていたが
(あんまり理由はないけどspam置き場が見やすくなるので)
このところ何故か英語spamと中国語spamが区別できずに
unclassifiedに落ちてしまうメールが目立つようになった。

spamのバケツを一つにしてみる
900名無しさん@お腹いっぱい。:05/03/15 04:31:51 ID:kG3RQSpQ
他の言語は見ても読めないから、日本語とその他にしてる
901名無しさん@お腹いっぱい。:05/03/16 14:00:31 ID:dS794RgZ
>>899
俺も。このスレの上の方で、言語別にわけた方が良いみたいな事を書いていたので
3ヶ月ほど試したけど、なんかunclassfiedが増えた。

spamは洋の東西問わないように戻したら、unclassfiedは確実に減った。

ついでにバケツ設定だけど、
spam ... スパム用
commarce ... 一般広告メール用
normal ... それ以外の優良メール用

って感じにしてる。
902名無しさん@お腹いっぱい。:05/03/16 14:18:48 ID:2q/THRBo
俺は unclassfied は意味有ると思ってる
細かくわけると確かにunclassfiedが増えると思うけど
結局それは分類したSPAMの正確性が高くなってる為だと思う、
unclassfiedは少ないのでその都度確認してどうするか判断しているから不便だとは思わない
逆に曖昧な物はunclassfiedにしてくれた方が安心する。

unclassfied多くなる=精度が悪くなってる、と考えるのは間違いだと思うな。
903899:05/03/16 14:35:37 ID:UnCugWMD
>>902
そのへんは考えようじゃないかな
漏れの場合、結局は捨てるSPAMを言語別に整理しようとしていて、
分けられないのが増えてきた→必要ない分類はやめよう、と思った。
多分901も同じだろう

メルマガかSPAMかとか、捨てるか拾うかの狭間のunclassifiedは意味あると思うよ
904名無しさん@お腹いっぱい。:05/03/17 16:57:42 ID:dH1YREuf
>>894
私の場合は「広告(ham)」「仕事」「ISPからのお知らせ」「メーリングリスト」
「プライベート」「SPAM」の6つに分けています。
分類精度は95%を超えてるので実用上は問題ないです。
将来的にはバケツをたくさん作ったほうがいいみたいです。
905894:05/03/17 23:07:34 ID:3C4SOnso
>>904
将来的、ですか。
どういうことかもし知っていたら教えていただけますか?
906名無しさん@お腹いっぱい。:05/03/18 00:03:24 ID:x/hLZnCE
>>905
勝手に904を添削すると、

×将来的
○長期的

ではないかな?そうでないと意味不明。
あと、95%が分類精度として高いかどうか微妙。
907名無しさん@お腹いっぱい。:05/03/18 00:11:12 ID:ERFaeql4
みんな将来に備えてバケツを沢山作ろうぜ!!!って知能指数10未満の>>904が仰ってまつw
908名無しさん@お腹いっぱい。:05/03/18 01:03:22 ID:trXvr+O6
>>904
95%って、20通に1通判定ミスしてるわけで・・・問題ないの?やばいんじゃないの?

ちなみにうちはinbox/admin/spam-e/spam-jの4つで、adminはほとんどマグネット、
spam-eは日本語以外のスパムという感じ。
1月23日から3500通中24通ミスで99.31%。
909名無しさん@お腹いっぱい。:05/03/18 01:20:53 ID:122ADvDr
POPFileは元々メールソフトの振り分け機能で対応できないところ
(≒SPAMの振り分け)を補完するために作られているのだから
メールソフトでできることまでPOPFileにやらせる必要はない。
無理にPOPFileでやろうとしたら無駄に重くなるだけ。
910名無しさん@お腹いっぱい。:05/03/18 01:34:36 ID:VhzAi5py
というか普通の振り分けまでさせると精度落ちる。理論上はね。
911名無しさん@お腹いっぱい。:05/03/18 02:45:17 ID:Kjoljkx/
精度が落ちるってより無駄に重くするだけのような
912名無しさん@お腹いっぱい。:05/03/18 10:34:08 ID:3M7cQKJH
904じゃないけど
> 95%って、20通に1通判定ミスしてるわけで・・・問題ないの?やばいんじゃないの?
この考えの方が間違っている。

95%っていうのはPOPFilteが振り分けできた割合
例えばバケツを大雑把(2つ)に設定して99%振り分けできても
SPAMの中に通常メールが1通でも入ってしまっては意味ない
俺の場合は敢えてバケツを細分化する事によりunclassfiedの率は高くなっているが
曖昧な条件でSPAMに分類されるよりunclassfiedにしてくれた方が見落としが無くて安全
例えば
SPAM1:40%
SPAM2:38%
inbox:10%
unclassfied:2%
となっていれば頻繁なチェックはinboxとunclassfiedで
spamはある程度溜まった時や1日の終わりにざっと目を通すだけで良い

細かくわける事の利点は、BOX毎にどの程度真剣に見るかを設定出来る所にある
例えば自分は韓国や中国には相手先が居ないので、これらのバケツはまず問答無用で削除出来る
VAIAGRA系とコピーソフト販売系のSPAMも問答無用
その他のSPAMはざっと目を通すunclassfiedはもう少し真剣に見て必要なら新たな分類を作る

こうするとメール確認の時間配分を行う事が出来て時間を節約出来る。

spamとinboxしかなければ結局全部に目を通さなくてはいけないので時間の無駄
細かくわける事を否定している人が居るようだけど
そういう人はSPAMのバケツは見ないの?
そのまま捨てるのて怖くないですか?
913名無しさん@お腹いっぱい。:05/03/18 10:40:40 ID:Jpm9SAN5
>>905
あまりMUAに依存した振り分けをしておくと
環境を変更したときに苦労するので。
X-Text-Classification ヘッダーのみで分類できると非常に楽です。

>>908 >>910
メール分類の誤判定は60/1200といったところですが、
初期段階でミスしているだけなので多いわけではないです。
バケツが多くなれば初期の分類ミスが増えるのは当然ですから
ミスが特別多いとは思えないのですが。

>>911
確かに動作は重くなるでしょう。
でも、PentiumIII600MHzの環境では特に苦痛に感じたことはないですね。
914名無しさん@お腹いっぱい。:05/03/18 10:41:11 ID:IFu0DJwO
よくわからんけど、

> spamはある程度溜まった時や1日の終わりにざっと目を通すだけで良い

結局全部見るんじゃん。
915名無しさん@お腹いっぱい。:05/03/18 11:04:26 ID:j+F5AoPo
一応タイトルぐらいは目を通しておかないと誤検出が怖い。
916名無しさん@お腹いっぱい。:05/03/18 11:23:45 ID:3M7cQKJH
>914
頭悪そう、

>こうするとメール確認の時間配分を行う事が出来て時間を節約出来る。
この意味解る?

SPAMが1バケツなら見逃さない為にある程度時間をかけてみなきゃならない
複数バケツで誤認識の可能性の低いバケツならタイトルをざっと流し読みするくらいで良い

914はSPAM判定は何でも消しちゃうアホか
重要度を判断せずに全て同じ手間をかけて馬鹿正直に確認するバカなんだろうね

仕事には効率が必要、
時間と安全性をどうバランスさせるかが重要だよね。
917908:05/03/18 11:49:31 ID:trXvr+O6
自分で「95%って・・・やばいんじゃないの?」って書いてて言うのもアレなんだけど、
「分類精度」って、POPFileが分類した結果に対して、人間が「間違ってるよ」と指示した
数の比率だから、分類が間違ってるのが分かってるのに再分類しなければ100%に
限りなく近づくはず。
実際問題そういう運用はタコなわけで、100%にならない限り、結局ざっとでもヘッダー
ぐらいはチェックしなきゃならないんだよね。
そういう意味では、分類精度の数字自体はあまり気にしてもしょうがないわけで、
>>912の言うのは正論かな。本当にそうなるならね。今度試してみるよ。

ちなみに漏れ(inbox/admin/spam-e/spam-j+unclassified)は、
spam-e/spam-j→spamフォルダ
その他→受信箱
という風にBecky2で振り分けてます。
spam-eとspam-jをB2上で一緒にしちゃってるのは、あちこちチェックするのがめんどくさいから。
それでも1日1回チェックすれば充分です。

>>913
一度分類精度のリセットをした方がいいと思う。初期教育の分が外れたら、たぶん
99.xx%になるんじゃないかな。
918名無しさん@お腹いっぱい。:05/03/18 15:04:28 ID:IFu0DJwO
>>916
誤検出は全部再教育しながらでも、99.58%いってるんで、
spamフォルダなんて、ざっとしか見んわ。
spamフォルダ2個とunclassifiedと、あちこち見てまわる気がしれん。
919名無しさん@お腹いっぱい。:05/03/19 01:55:05 ID:mF50eFsJ
>>918
まあ利用形態によるわな
どうでも良い私用ならあまり気にしなくて良いと思う

ビジネスなら年に1通の見逃しが取り返しの付かない事になる可能性もある
だからといって日に500通以上もくるSPAMを詳細に見ると時間の無駄だし他の業務に支障が出る
こんな考え方も有るって事だね。
920名無しさん@お腹いっぱい。:05/03/19 04:07:22 ID:iP7Cnpxc
>>919
100%完璧なspamフィルタはありえないけど、全部手動でspamを捨てるのも時間の無駄。
spam処理で楽をするって目的ならPOPFileは十分役に立つよね。
921名無しさん@お腹いっぱい。:05/03/19 15:03:50 ID:3JVcnAyR
ところで、設定画面にパスワードってかけてる?
922名無しさん@お腹いっぱい。:05/03/20 12:25:05 ID:nPYdfwal
かけてない。自宅パソコンでルータのポートをわざわざ開けたりしてなければパスワードガードは不要でしょう。
あ、知識レヴェルの低い人はパスワード掛けといたほうがいいかもねw
923名無しさん@お腹いっぱい。:05/03/20 12:54:27 ID:mmrz437a
それ以前に、デフォルトでローカルホスト以外は拒否だろ。
924名無しさん@お腹いっぱい。:2005/03/22(火) 16:49:26 ID:Q3QNP70s
pc5→pc8に移転どすえーーーーーーーーーーーー
ちなみにここは
http://pc8.2ch.net/software/
925名無しさん@お腹いっぱい。:2005/03/24(木) 23:52:54 ID:PCMx/fG5
X-POPFile-TimeoutPreventionヘッダって付加しないようには
設定できないんですかね?
数個付くくらいなら別に気にしなければいいんですが、モバイル
用の遅いパソコンででかい添付ファイルのあるメールを受信して
たら、付加されたX-POPFile-TimeoutPreventionヘッダが多すぎ
たのかウィルスチェックソフトに「ヘッダ異常」と判断されてしまい
ました。
926名無しさん@お腹いっぱい。:2005/03/25(金) 06:10:11 ID:b/HLGhzC
>>925
アンチウイルスソフトの挙動に依存するなら、必ずしもPOPFileが悪い
とも言えないのでは(言ってないけど)。

POPFile + ウイルスバスター2005で使ってるけど、特にそういった問題
は出てないです。

それよりもPOPFileコントロールセンターを開いた時に、かなりの高確率
でPOPFileが死ぬのが鬱陶しい…
927925:2005/03/25(金) 09:05:39 ID:EaADm1Vf
>>926
まさにPOPFile + ウイルスバスター2005の組み合わせです。
出先で2MBの添付ファイル付きメールを受信する羽目になり、
X-POPFile-TimeoutPrevention ヘッダが20個くらいついて
ウイルスバスター2005にヘッダ異常と判断されました。
パソコンも回線も非常に遅いというのが問題で、POPFileが悪い
とはもちろんまったく思ってません。
ただ、このヘッダをつけない設定があれば知りたいな、と。
928名無しさん@お腹いっぱい。:2005/03/25(金) 09:28:15 ID:WmCWgFV1
Outclassってメンテナンスされてる?
929926:2005/03/25(金) 10:55:28 ID:b/HLGhzC
>>927
設定はなさそうだから、Perlのスクリプトを直接いじってみては?

C:\Program Files\POPFile\Classifier\Bayes.pm

2643: if ( time > ( $last_timeout + 2 ) ) {
2644: print $client "X-POPFile-TimeoutPrevention: $timeout_count$crlf" if ( $echo );
2645: $timeout_count += 1;
2646: $last_timeout = time;
2647: }

2644行を消すかコメントにすればヘッダが付かなくなると思う(試してないけど)。
930925:2005/03/25(金) 17:18:45 ID:EaADm1Vf
>>929
いただいたアドバイスに従ってスクリプトを修正したら
X-POPFile-TimeoutPrevention ヘッダが出力されなく
なりました。
Perl で記述されているとこういう風にユーザーが動作を
修正できるというメリットもあるんですね。
ありがとうございました。
931名無しさん@お腹いっぱい。:2005/03/28(月) 18:56:34 ID:9QQiJ/QG
ええ話しやなあ...
932名無しさん@お腹いっぱい。:2005/03/28(月) 19:10:26 ID:usdqvqr8
映画化決定!
933名無しさん@お腹いっぱい。:2005/03/28(月) 22:30:12 ID:W177aKgq
これってCGIの使えるレンタルWEBサーバに設置することはできますか?
934名無しさん@お腹いっぱい。:2005/03/28(月) 22:44:19 ID:YBJJY1G3
それを聞いているようでは無理。
935名無しさん@お腹いっぱい。:2005/03/29(火) 00:15:26 ID:WgMjoJep
>>933
やりたいことは想像できるけど、別のベイズ実装を使っとけ。
936名無しさん@お腹いっぱい。:2005/04/06(水) 08:00:41 ID:MwT6SMMO
ここのページを読むと処理に時間がかかるということなのですが
どなたか改善策見つけた人いませんか?

http://d.hatena.ne.jp/antispam/
937名無しさん@お腹いっぱい。:2005/04/06(水) 10:24:20 ID:tAgIKlDn
>936
そこ見たらこんな書き込みが有った、ちょっと気になるよね


>しかし、比較のためにウイルスバスターのSPAM判別機能を最高レベルで設定して有効にし、試しにメールの受信を行ってみたところ、POPFileと同等レベルの判別能力、いやそれ以上の精度で除去してくれていた。
>どうやら、SPAMメールと判断されるものをユーザがメールでTrendmicroの判別処理を行う専用のサーバに送信することで、処理能力を高めていることが原因のようだ。
938名無しさん@お腹いっぱい。:2005/04/06(水) 10:37:45 ID:5eMLgvRG
>>937
ウイルスバスターのSPAM判別の方法自体は知らないけど、もし
誤判定があったらユーザーがそれをトレンドマイクロに通知できる
ようになっている。
トレンドマイクロはそれにもとづいてパターンファイルを更新して
いるので、ユーザーはみんな学習結果を共有することになる。
つまり、個人で学習させるPOPFileとはサンプリング数が桁違いと
いうことなんじゃないかな。
ただ、POPFileは迷惑メールかどうかの判別だけじゃなくて複数の
バケツを作れるので自分ではウイルスバスターの迷惑メール防止
機能は切った状態でPOPFileを使ってる。
「育てゲー」みたいな楽しみもあるしね。
939名無しさん@お腹いっぱい。:2005/04/06(水) 12:28:18 ID:02yUjG6E
へー
スパムフィルタ学習情報の共有化っていいね
全自動じゃなくても

自分で作ったパターンファイルをアップロード
→ほかのひとがそれを貰って自分のに追加書き込み

とかできたら面白いかも。
940名無しさん@お腹いっぱい。:2005/04/06(水) 13:20:57 ID:f69dJs4h
フィルタ共有はサンプル数少ないうちはいいけど、そのうちコーパスが
バカでっかくなりそうで怖いな。
それに「SPAMと判別されにくいメールの書き方」をSPAMMERに教えていることにならんか?

コーパスをもとに、フィルタをパスしやすくなるように文章を添削するソフトとか
開発されたりしてね
941名無しさん@お腹いっぱい。:2005/04/07(木) 13:43:55 ID:uC6r9BQr BE:118100377-#
バージョンアップまだ?
942名無しさん@お腹いっぱい。:2005/04/08(金) 16:30:57 ID:30YdMSLX
バックエンドをRDBMSにしてくれ。
943名無しさん@お腹いっぱい。:2005/04/09(土) 09:16:56 ID:fOyHPVsK
>>942
SQLiteで良いじゃん。速いし。
バックエンドを別のマシンにしたいなら別だけど。
944名無しさん@お腹いっぱい。:2005/04/11(月) 13:23:23 ID:11mz97zv
学習成果を共有ってやつ?
945名無しさん@お腹いっぱい。:2005/04/12(火) 00:52:06 ID:+23+zZgT
ベイジアンフィルタは個人のメールボックスに特化できるからこそ威力があるのであって
共有すると効果半減なような
946名無しさん@お腹いっぱい。:2005/04/12(火) 01:51:50 ID:EcMvIlhG
0から学習させるよりマシって感じ?
947名無しさん@お腹いっぱい。:2005/04/12(火) 02:47:30 ID:IMnF7I1P
バイアグラ安売りが死活的情報な場合だってあるだろうしね。
うちのコーパスだと、健康食品、サプリメント、ダイエットあたりはSPAM語に含まれてる。
他人様と使い回すのは無理があるような。
948名無しさん@お腹いっぱい。
自分専用にコーパスをカスタマイズしてくれるなんて素敵じゃないかっ!!




やりたくないけどやらないか?