外れ値を除去したい(統計学?)

このエントリーをはてなブックマークに追加
1132人目の素数さん
http://microsoft.ug.to/zatsu/zatsu0083.png

一般に分布には外れ値が混在することが多いと思うのですが、
外れ値を検出するにはどのような手法があるのでしょうか?
何を「異常な値」とみなすかによって様々な手法があると思うのですが。。。
2132人目の素数さん:02/03/16 02:08
近似ではじく。最小二乗法等。
3132人目の素数さん:02/03/16 08:16
散布図を見てはじく
41:02/03/16 08:51
>2さん
もう少し具体的にお教え願えますか?
>3さん
プログラムで自動化するため、
人間の思考が介入しないようにしたいのですが。。。
5132人目の素数さん:02/03/16 10:03
外れ値は外す値ではないことに注意ですよね。
一応データに分布が仮定できれば(正規分布など)、Grubbs-Smirnov testというものがあります。
このtestで示されることは、「データが正規分布するはずだとしたら、正規分布に従っていない値がありますよ。」です。
そもそもが正規分布でないとだめなのです。
例としては、年収なんかが正規分布しない代表例です。
ただ、ビルゲイツみたいな奴を考慮してもしょうがないので、そういう人にははずれてもらおうという程度にはつかうことができます。
6品質”管理”屋:02/03/16 10:38
とりあえず+−5シグマでやってみそ。
7132人目の素数さん:02/03/16 10:49
>5
分布がジップ則ないしは、これを少し変形したもの(SIGKDD2001 のプロシー
ディングみそ)で従うということもあるから、これをもとに外れ値を同定する
というのもいいかも。あと、年収と人数の関係はジップに近いものがあるみた
いだよ(→ATR)。

自分のやっているケースでは、観測値の分布にクセがあることは分かってい
るけど、そのクセの傾向から分析する必要があって、ちゃんとやろうとする
と、かなりの労力が発生することが見えていて鬱だったりする。
8>6:02/03/18 06:14
通常2σか3σでしょう?
9132人目の素数さん:02/03/18 07:22
>>8
用途にも依るから何とも言えないな。
10132人目の素数さん:02/03/24 00:50
めんどくさいから上位10%下位10%は弾いちゃうとか
11品質”管理”屋:02/03/24 01:21
+−2とか3やったら、不良品だらけやっちゅーねん
12まあ:02/03/24 02:17
1日に数十万以上といった大量の製品製造する工場だとそうだろうね。
13132人目の素数さん:02/03/25 22:59
エクセルだとTRIMMEAN関数ってのがあったね。
漏れはコレでいつも両側5%を弾いてるよ。
14132人目の素数さん:02/03/29 06:02
5パーセンタイルと95%パーセンタイルの外を除去するのね
原理的には最も単純
15132人目の素数さん:02/03/29 07:55
95%パーセンタイル