이상치 제거 (Box-plot 해석을 통한)
Box-Plot을 이용해서 이상치를 제거한다.
여러 방법이 있지만, 사분위수를 이용해서 제거하는 방법을 사용한다.
우선 Box-Plot은 4가지 구성요소가 있다.
1) 중앙값(median): 말그대로 중앙값 50%의 위치이다.
중앙 값은 짝수일 경우 2개가 될 수도 있고, 그것의 평균이 중앙값이 될 수도 있다.
홀수일 경우, 중앙값은 1개가 된다.
2) 박스(Box): 25%(Q1) ~75%(Q3) 까지 값들을 박스로 둘러 쌓는다.
3) 수염 (whiskers): 박스의 각 모서리 (Q1, Q3)로 부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터 점까지 이어져 있는 것이 수염이다.
4) 이상치(Outlier): 수염(whiskers)보다 바깥쪽에 데이터가 존재한다면, 이것은 이상치로 분류 된다.
Inter Quartile range (IQR) 이란?
Q3 - Q1의 값이다.
이상치를 구하기 위해서는 결국 수염을 이용하게 되는데, 이때 보통 1.5를 IQR에 곱한것으로 구한 수염을 이용한다.
참고사이트: http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
'AI > Probability & Statistics (R)' 카테고리의 다른 글
비교 분석 (0) | 2016.08.03 |
---|---|
가설 검증과 추정 (0) | 2016.08.03 |
통계학: F-검정 (0) | 2013.08.29 |
회귀 분석 (1) (0) | 2013.08.29 |
조건부 확률, Conditional Probability / joint probability (2) | 2013.05.17 |