이상치 제거 (Box-plot 해석을 통한)


Box-Plot을 이용해서 이상치를 제거한다.

여러 방법이 있지만, 사분위수를 이용해서 제거하는 방법을 사용한다.


우선 Box-Plot은 4가지 구성요소가 있다.

1) 중앙값(median): 말그대로 중앙값 50%의 위치이다.

    중앙 값은 짝수일 경우 2개가 될 수도 있고, 그것의 평균이 중앙값이 될 수도 있다.

    홀수일 경우, 중앙값은 1개가 된다.

2) 박스(Box): 25%(Q1) ~75%(Q3) 까지 값들을 박스로 둘러 쌓는다.

3) 수염 (whiskers): 박스의 각 모서리 (Q1, Q3)로 부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터 점까지 이어져 있는 것이 수염이다.

4) 이상치(Outlier): 수염(whiskers)보다 바깥쪽에 데이터가 존재한다면, 이것은 이상치로 분류 된다.


Inter Quartile range (IQR) 이란?

Q3 - Q1의 값이다.


이상치를 구하기 위해서는 결국 수염을 이용하게 되는데, 이때 보통 1.5를 IQR에 곱한것으로 구한 수염을 이용한다.



참고사이트: http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm


'Data Science > Probability & Statistics (R)' 카테고리의 다른 글

비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29
회귀 분석 (1)  (0) 2013.08.29
조건부 확률, Conditional Probability / joint probability  (2) 2013.05.17

+ Recent posts