비교 분석 (t-test)


분포

t-분포

정규 분포를 사용하기 위해선 샘플이 많아야 하는 문제를 개선 (30개 이상)
땜 빵으로 사용하게 되는게 t 분포이다. 정규분포처럼 좌우 대칭인 상황
자유도에 따라서 그래프의 모양이 변한다.

  • 자유도: 표본분포를 구성하기 위해 자유롭게 반복해서 추출할 수 있는 표본(repeated random sample)의 수를 의미함

ex> 예를 들어 1~30까지에 이르는 30개의 수 중 2개의 수를 임의로 선택해서 표본을 구성한다면 표본의 크기는 2(N=2)가
된다. 이 때의 자유도(df)는 표본구성에 아무런 제한이 없기애 2가 된다.
하지만 2개의 수를 뽑되, 그 합이 20이 되는 수 2개를 고르라고 한다면, 표본의 크기는 2로 동일하지만 합이 20이 되어야
한다는 제한이 2개 생겼으므로 이때의 자유도는 1(표본의 크기 - 제약조건의 수= 1)이 되는 것

일반적으로 t분포의 자유도는 크기가 N인 표본에서 모분산이 추정되어야 한다는 제한을 받기 때문에 각 표본에서는 N-1개의
자유도를 가지게 된다.

ex> 두 개의 표본간에 존재하는 평균의 차이를 검정하기 위해 t분포를 사용하는 경우 두 표본의 자유도를 합산
(N1 - 1)(N2 - 1) = N1+ N2 - 2의 자유도를 가진 t분포를 사용하여 가설을 검정

f-분포

두 정규 모집단의 분산 비교에 대한 추론에 사용하는 분포
두 모 분산의 비에 대한 통계적 추론, 분산분석 등에 유용하게 활용

비교 분석

단일 모집단 평균 t-test

귀무가설:
$H_0$: $mu_1$ - $mu_2$ = 0

세 가지 전략

  1. 두 집단의 데이터가 서로 연관: paired T-test
  2. 두 집단의 데이터가 서로 독립: T-test
    • 두 집단의 분산이 서로 같은지 여부에 따라 분석 방법이 달라짐
  3. 두 집단의 분산을 알고 있느냐? 모르냐?
    • 중심극한 정리를 사용할 수 있는가? 없는가?

참고자료

https://m.blog.naver.com/PostView.nhn?blogId=mykepzzang&logNo=220853827288&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F

http://blog.naver.com/PostView.nhn?blogId=victor3dh&logNo=220841293738&parentCategoryNo=&categoryNo=35&viewDate=&isShowPopularPosts=true&from=search


'Data Science > Probability & Statistics (R)' 카테고리의 다른 글

표준오차 (Standard Error)  (0) 2016.10.27
정규성 검정  (3) 2016.08.20
비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29

+ Recent posts