표준오차 (Standard Error)


평균의 표준 오차(평균의 SE)는 같은 모집단에서 여러 표본을 추출하는 경우 얻게 될 표본 평균 간의 변동성을 추정합니다. 평균의 표준 오차는 표본 간의 변동성을 추정하는 반면, 표준 편차는 단일 표본 내의 변동성을 측정합니다.

예를 들어, 312개의 배송 시간 랜덤 표본을 근거로 1.43일의 표준 편차가 있는 평균 배송 시간이 3.80일입니다. 이 숫자로 0.08일의 평균에 대한 표준 오차가 산출됩니다(1.43을 312 제곱근으로 나눈 값). 동일한 크기의 여러 랜덤 표본을 동일한 모집단에서 추출한 경우 서로 다른 표본 평균의 표준 편차는 약 0.08일이 됩니다.

평균의 표준 오차를 사용하여 표본의 평균이 모평균을 얼마나 정확하게 추정하는지 확인할 수 있습니다. 평균의 표준 오차의 하한 값은 모집단 평균의 더 정확한 추정치를 나타냅니다. 일반적으로, 표준 편차가 클수록 평균의 표준 오차가 더 크고 추정치가 덜 정확합니다. 표본 크기가 클수록 평균의 표준 오차가 더 작고 추정치가 더 정확하게 됩니다.

se   = sd / sqrt(N)

수식 유도

참고자료

http://stats.stackexchange.com/questions/89154/general-method-for-deriving-the-standard-error


'AI > Probability & Statistics (R)' 카테고리의 다른 글

정규성 검정  (3) 2016.08.20
비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29

정규성 검정


정규성을 판별해야지 통계학의 많은 개념들을 활용 할 수 있다.

평균값, 중앙값, 왜도, 첨도 등을 확인하는것이 필 수 적이다.

정규성 검증에 관한 고찰

정규성 가정이 상대적으로 덜 한 통계적 분석 방법

  • Sample t test
  • t test
  • ANOVA (비모수 Krukal-Wallis test)
  • Regression Analysis

위와 같은 경우 평균에 대해서 비교하기 때문에 정규성 가정의 중요도가 상대적으로 덜 하다.

이러한 이유에서 정규분포 하지 않는 데이터 분석에도 사용되어지고 있다.

정규성이 성립하지 않는 이유들로는 다음과 같다.

  • 배경에 사용된 분포가 정규분포를 하지 않는 경우
  • 이상치나 두개 이상의 분포가 섞여 있는 경우
  • 낮은 해상도의 Gage R&R을 사용한 경우
  • 데이터의 중심이 한쪽으로 치우쳐 있는 경우(Skewed data)
  • 표본의 갯수가 너무 많은 경우

통계학의 근간 이론

중심극한 정리 (Central Limit Theorem)

모집단의 실제 분포에 관계 없이 표본크기 n이 증가할수록 표본평균의 분포는 정규분포에 근사한다.

대수의 법칙 (Law of Large Number)

정규성 검증 Sapiro-Wilks Test

정규성을 판별하는 검증 방법은
Kolmogorov-Smirnov test(콜모고로프 스미르노프), Sapiro-Wilks test가 있다.
표본수가 30개 이하 일 때는 중심극한정리를 가정하기 어렵기 때문에 정규성 검정을 해야 한다.

귀무가설 $H_0$: 데이터가 정규분포를 따른다.
대립가설 $H_1$: 데이터가 정규분포를 따르지 않는다.

p-value가 .05 보다 커야 귀무가설을 채택할 수 있다.

> data <- sample(50:1000,replace=TRUE)
> shapiro.test(data)

    Shapiro-Wilk normality test

data:  data
W = 0.95422, p-value < 2.2e-16

p값이 너무 작기 때문에 귀무가설은 기각 된다.
히스토그램을 그려봐도 정규성을 만족하지 않음을 알 수 있다.

정규성을 따르지 않는다.

이제, rnorm으로 해보자. 당연히 parameter(모수)가 정규 분포이므로 정규분포를 따를 것이다.

> dataNorm <- rnorm(1000,0,1)
> hist(dataNorm)
> hist(dataNorm,las=1)
> shapiro.test(dataNorm)

    Shapiro-Wilk normality test

data:  dataNorm
W = 0.99882, p-value = 0.7661

p값이 0.05많이 크다. 귀무가설을 채택한다.
히스토그램도 정규성을 가진다는것을 눈으로 쉽게 확인 가능 하다.

그래프에 의한 정규성 검증, Kernel Density Plot, Q-Q plot

Normal Q-Q plot을 그려서 Linear화의 정도를 눈으로 보면서 확인 할 수 있다.

dataNorm <- rnorm(1000,0,1)
qqnorm(dataNorm)
qqline(dataNorm)

비정규성 일떄의 검증 방법, Kruskal-Wallis Test(비모수적인 방법)

갖고 계신 표본이 정규성 가정을 만족하지 못할 경우에 각 집단별 표본평균의 동질성을 비교하기 위해서는 비모수 검정 중 하나인 Kruskal-Wallis Test를 한다.

비모수 검정에서는 Bonferroni Correction이라는 방법을 이용해서 각 집단간 차이를 비교한다.

예를 들어 a,b,c,d 4개 집단을 비교하고 싶다면, a-b, a-c, a-d, b-c, b-d, c-d 에 대해 각각 Mann-Whitney test 를 한다.

총 6번의 분석을 다시 해야 되겠죠. 그 다음에 각각의 분석 결과에서 얻은 p-value 를 살펴보는데, 유의수준을 0.05로 설정했을 경우 0.05가 아닌 0.05/6 = .00833를 기준값으로 p-value를 해석한다.

즉, p-value 가 .00833 작으면 Bonferroni Correction 에 의한 사후분석 결과 그 집단들 사이에는 통계적으로 유의한 차이가 있다고 판단하면 된다.

참고자료

[1] 이론, http://dermabae.tistory.com/148
[2] 코드, http://acpi.tistory.com/30
[3] 단일 모집단 분포의 정규성 검정, http://rfriend.tistory.com/118
[4] 정규성 가정이 상대적으로 덜 중요한 통계적 분석 방법은?|작성자 평화롭게
[5] 깜신의 통계이야기, R을 이용해서 정규성 검증을 해보자!


'AI > Probability & Statistics (R)' 카테고리의 다른 글

표준오차 (Standard Error)  (0) 2016.10.27
비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29

비교 분석 (t-test)


분포

t-분포

정규 분포를 사용하기 위해선 샘플이 많아야 하는 문제를 개선 (30개 이상)
땜 빵으로 사용하게 되는게 t 분포이다. 정규분포처럼 좌우 대칭인 상황
자유도에 따라서 그래프의 모양이 변한다.

  • 자유도: 표본분포를 구성하기 위해 자유롭게 반복해서 추출할 수 있는 표본(repeated random sample)의 수를 의미함

ex> 예를 들어 1~30까지에 이르는 30개의 수 중 2개의 수를 임의로 선택해서 표본을 구성한다면 표본의 크기는 2(N=2)가
된다. 이 때의 자유도(df)는 표본구성에 아무런 제한이 없기애 2가 된다.
하지만 2개의 수를 뽑되, 그 합이 20이 되는 수 2개를 고르라고 한다면, 표본의 크기는 2로 동일하지만 합이 20이 되어야
한다는 제한이 2개 생겼으므로 이때의 자유도는 1(표본의 크기 - 제약조건의 수= 1)이 되는 것

일반적으로 t분포의 자유도는 크기가 N인 표본에서 모분산이 추정되어야 한다는 제한을 받기 때문에 각 표본에서는 N-1개의
자유도를 가지게 된다.

ex> 두 개의 표본간에 존재하는 평균의 차이를 검정하기 위해 t분포를 사용하는 경우 두 표본의 자유도를 합산
(N1 - 1)(N2 - 1) = N1+ N2 - 2의 자유도를 가진 t분포를 사용하여 가설을 검정

f-분포

두 정규 모집단의 분산 비교에 대한 추론에 사용하는 분포
두 모 분산의 비에 대한 통계적 추론, 분산분석 등에 유용하게 활용

비교 분석

단일 모집단 평균 t-test

귀무가설:
$H_0$: $mu_1$ - $mu_2$ = 0

세 가지 전략

  1. 두 집단의 데이터가 서로 연관: paired T-test
  2. 두 집단의 데이터가 서로 독립: T-test
    • 두 집단의 분산이 서로 같은지 여부에 따라 분석 방법이 달라짐
  3. 두 집단의 분산을 알고 있느냐? 모르냐?
    • 중심극한 정리를 사용할 수 있는가? 없는가?

참고자료

https://m.blog.naver.com/PostView.nhn?blogId=mykepzzang&logNo=220853827288&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F

http://blog.naver.com/PostView.nhn?blogId=victor3dh&logNo=220841293738&parentCategoryNo=&categoryNo=35&viewDate=&isShowPopularPosts=true&from=search


'AI > Probability & Statistics (R)' 카테고리의 다른 글

표준오차 (Standard Error)  (0) 2016.10.27
정규성 검정  (3) 2016.08.20
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29

가설 검증과 추정


추정 (Estimation)

점 추정 (point estimation)
- 모 평균 값은 얼마 일 것이다.
- 모평균, 모분산, 모표준편차 등이 모집단의 모수중 중요한 하나의 값이 된다.

구간 추정 (interval estimation): 모평균 값은 최소 얼마내지 최대 얼마일 것이다.

모든 자료를 조사할 수 없는 경우 표본에서 얻은 결과를 이용하여 모집단을 추측.

중심 극한 정리

  • 통계학을 있게한 핵심 정리

가설 검정 (Hypothesis Testing)

귀무가설 (null hypothesis, $H_0$): 통계학에서 처음부터 버릴 것을 예상하는 가설이다.

연구자가 증며하고자 하는 실험가설과 반대되는 입장, 증명되기 전까지는 효과도 없고 차이도 없다는 영가설을 귀무가설이라 한다.

흡연여부는 뇌혈관 질환의 발생에 영향을 미치지 않는다

대립가설 (alternative hypothesis): 연구가설 또는 유지가설은 귀무가설에 대립하는 명제이다. 보통, 모집단에서 독립변수와 결과 변수 사이에 어떤 특정한 관련이 있다는 꼴이다.

연구자가 실험을 통해 규명하고자 하는 가설을 대립가설이라 한다.

가설 검정의 순서

검증(test)

귀무가설: $H_0$
대립가설: $H_1$

  1. 가설 설정

    • 귀무가설 설정

      • 핵심은 무조건 최대한 보수적으로 가정해야한다. 이게 틀려야 연구가설이 입증되기 떄문이다.

      예: 치료법은 효과가 없다.

    • 대립가설 설정

      • 주장하는 바를 설정 한다.

      예: 치료법은 효과가 있다.

  2. 유의 수준 결정 (5%, 1%)

    • 실험 결과 통계적으로 유의한 결과를 얻음 ( p < 0.05)
    • 유의수준 $\alpha$이 있다.
    • 유의 수준이란 귀무가설($H_0$)가 참인데도 불구하고 $H_0$를 기각할 확률의 최대 허용 한계를 의미한다.
    • 유의 확률은 P값이라 부른다. 주어진 데이터가 귀무가설을 기각 시키고자 할 때 필요한 최소의 유의 수준을 말한다.
    • 즉 P value < $\alpha$, 이면 귀무가설을 기각 한다. 그리고 대립 가설을 채택 한다.
  3. 결과해석 불가

    • 귀무가설 전제로 이런 결과가 도출될 가능성은 전체 5% 이하임.
  4. 귀무가설 기각

    • 그렇다면 처음에 전제로 가정했던 귀무가설이 틀린 것임.
  5. 대립가설 채택

    • 실제 효과가 있기 때문에 이 결과가 관찰 되었다.

$H_0$를 기각할 것인지 아닌지를 결정할 때, 2가지 의사결정 실수를 할 수 있다.

위와 같이 배심원이 재판을 하는 상황을 교차표(cross tabulation)를 그려서 확인해 본다.
2개의 과오가 존재하는데 여기서 알파위험이 죄 없는 사람을 감옥에 보내기 때문에 더 심각하다
이러한 이유는 $H_0$ 귀무 가설은 보수적인 결적인데 이것을 기각하게 되면 실험적인 주장 대립 가설을 채택하게 되고
이것이 잘못 될 경우 문제는 심각해 지게 된다.

  • 죄없는 사람을 감옥에 보냄
  • 잘못된 약 처방을 내려서 사람이 죽음


'AI > Probability & Statistics (R)' 카테고리의 다른 글

정규성 검정  (3) 2016.08.20
비교 분석  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29
회귀 분석 (1)  (0) 2013.08.29

이상치 제거 (Box-plot 해석을 통한)


Box-Plot을 이용해서 이상치를 제거한다.

여러 방법이 있지만, 사분위수를 이용해서 제거하는 방법을 사용한다.


우선 Box-Plot은 4가지 구성요소가 있다.

1) 중앙값(median): 말그대로 중앙값 50%의 위치이다.

    중앙 값은 짝수일 경우 2개가 될 수도 있고, 그것의 평균이 중앙값이 될 수도 있다.

    홀수일 경우, 중앙값은 1개가 된다.

2) 박스(Box): 25%(Q1) ~75%(Q3) 까지 값들을 박스로 둘러 쌓는다.

3) 수염 (whiskers): 박스의 각 모서리 (Q1, Q3)로 부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터 점까지 이어져 있는 것이 수염이다.

4) 이상치(Outlier): 수염(whiskers)보다 바깥쪽에 데이터가 존재한다면, 이것은 이상치로 분류 된다.


Inter Quartile range (IQR) 이란?

Q3 - Q1의 값이다.


이상치를 구하기 위해서는 결국 수염을 이용하게 되는데, 이때 보통 1.5를 IQR에 곱한것으로 구한 수염을 이용한다.



참고사이트: http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm


'AI > Probability & Statistics (R)' 카테고리의 다른 글

비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
통계학: F-검정  (0) 2013.08.29
회귀 분석 (1)  (0) 2013.08.29
조건부 확률, Conditional Probability / joint probability  (2) 2013.05.17


F-검정에 대해서 공부해보자. 
몇 결정트리 알고리즘에서 t-검정, F검정을 사용하기 때문에 
해당 결정트리 알고리즘을 잘 이해하기 위해서는 이러한 통계 검정 방법들을 잘 이해해두어야 한다. 


F-검정은 언제 사용할까?
F-검정은 두 모집단의 분산의 차이가 있는가를 검정할 때 사용한다. 
(두 집단의 평균의 차이가 존재하는가가 아니라 분산의 차이가 있는가를 검정한다.) 


F-검정은 언제 사용할까?
F-검정은 두 모집단의 분산의 차이가 있는가를 검정할 때 사용한다. 
(두 집단의 평균의 차이가 존재하는가가 아니라 분산의 차이가 있는가를 검정한다.) 


예1. (제4판. 현대통계학. p.349-350) 
예를들어, 어느 중학교에서 1학년 학생들의 성적의 차이(분산)이 2학년이 되면 더 커질 것이라고 예상된다. 실제로 그런가 검정해보자. 1학년에서 7명을 뽑고, 2학년에서 9명을 뽑아서 각각의 성적의 분산을 조사해 봤더니, 1학년의 분산은 9.0 이었고, 2학년의 분산은 19.8 이었다. 두 모집단의 분산은 같다고 볼 수 있을까? 알파=0.05 에서 검정해보자. 
F(8,6) = 4.15 이다. (자유도는 개체 크기에서 1씨 뺀 값으며 2개가 사용된다. F분포표에서 찾아보자.) 
F = 19.8 / 9 = 2.2 이다. 2.2 < 4.15 이므로 F=2.2는 기각역 안에 있으며, 귀무가설을 기각할 수 없다. 
즉, 2학년학생의 성적 차이가 1학년 학생의 성적차이보다 크다고 할 수 없다. 


F-분포표 

F검정에 필요한 F분포표를 첨부하였다. 

F검정표는 두 개의 자유도 값을 사용한다. (행, 열에 두 표본의 자유도가 사용된다.)  




'AI > Probability & Statistics (R)' 카테고리의 다른 글

비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
회귀 분석 (1)  (0) 2013.08.29
조건부 확률, Conditional Probability / joint probability  (2) 2013.05.17


1. 단순 회귀 분석: 종속 변수 = 독립변수.


단순 회귀 모형은 최소 제곱법에 의해서 추정을 하게 된다. 


최소 제곱법


이때, L 값이 가장 작을 때의, 베타1과 베타0의 값으로 모형을 만들게 된다.



단순 회귀 분석에 의한 모형,



잔차의 정의: 잔차 = 측정치 - 예측치




2. 모형의 적합도 분석 


모형의 적합도는 분산분석의 F 검정을 실시하거나,

결정계수 r^2를 가지고 회귀 방정식의 유효성을 검증하게 된다.



사전 지식


SST (총변동) = SSE (잔차변동) + SSR (회귀변동)


따라서, SSE(잔차변동)이 0으로 가면 아주 좋은 것이다.

그렇게 될경우 SST(총 변동) = SSR(회귀변동)과 일치한다.

이 의미는, SSR(회귀변동)은 회귀 방정식에 의한 값이고 이게 SST(총 변동)과 일치한다는 것은 회귀 방정식이 완벽히 측정값과 일치한다는 의미를 가진다.


이러한 특성을 토대로 우리는 결정계수 R^2을 계산해 낸다.

결정계수: 


- 모형의 설명력

- 즉, 독립수들이 Y값을 얼마나 잘 설명해 주는가를 나타내는 척도

- 결정계수 값이 1에 가까울수록 설명력이 좋음 0에 가까울수록 설명이 떨어지는 것 

- 결정계수에 대한 검정방법은 없으므로, 회귀모형의 적합성에 대해 설명하는 것은 위험 하다.

단지 독립변수들의 설명력으로만 해석이 가능하다.

모델의 적합성은 F검정으로 해야 한다.



▣ 분산분석표에 의한 F-검정의 정의는 아래의 스크린샷과 같다.






보통, 통계페키지(SPSS)에 의해서 유의확률 p 값이 0.5 보다 작을 경우, 귀무 가설을 기각한다.

따라서 해당 회귀 방정식은 유효하다고 검정 한다.



▣ 베타계수

  • 독립변수들이 종속변수에 주는 영향력을 비교하기 위해 회귀계수를 직접 비교하는 것은 위험 (회귀계수의 크기가 독립변수들의 측정단위에 크게 영향을 미치기 때문) 
  • 측정단위에 관계없는 회귀계수 필요
  • 표준화 변환 후 회귀 모형 추정시 이때의 회귀계수를 표준화 계수 혹은 베타계수 
  • 독립 변수들간에 관련성이 낮을경우 상대적인 중요도 
▣ 회귀계수
  • 공선성 통계량

독립변수들 간에 상관관계가 높으면 하나의 변수가 투입이 되며 나머지 변수들이 갖는 고유한 설명력은 매우 작아짐

VIF = 1/공차한계

공차한계<0.1 이거나 VIF>10 이면 공선성이 존재

  • 다중 공선성

설명변수 사이에 정확한 선형관계는 아니나 상관관계가 매우 높은 경우

상관관계가 클수록 회귀분산이 커지고, 분산이 커지면 회귀계수 추정량에 대한 t-통계량값이 작아져서 유의성이 낮게 나타남

해결책

설명변수의 제외

모형의 재설정

사전정보이용

표본자료의 추가 



▣ T,F,P 값의 의미


T-test = T, P

ANOVA = T, P

회귀분석 = F, T, P

교차분석 = X^2, P


위 그림을 보면, x축에 T,F 값이 존재한다. 그리고 그 값에 대한 오른쪽 면적이 P 값이 된다.



이렇게 나온 P값을 기준치인 0.05랑 항상 비교해서 해당 통계치가 유의한지 유의하지 않은지를 판단하게 된다.





3. 중회귀모형 또는 다중 회귀 모형




결정계수는 독립변수가 늘어나면, 무조건 증가 하게된다.

따라서 어떠한 독립변수가 중요한 역할을 하는지를 알기위해서 다른 참조 값을 필요로 한다. 이 때 이용하는 값이 수정된 결정계수이다.


▣ 수정된 결정계수

결정계수를 자유도로 수정시킨 계수

설명력이 거의없는 독립변수가 추가되면 감소 따라서 변수선택의 기준으로 이용



▣ 부분상관계수 (part correlation coeff.)

기존의 회귀모형에 어떤 독립변수를 추가할 것인가를 결정하고자 할 때 이용.


편 상관계수 ( partial correlation coeef.)

용도는 부분 상관계수와 비슷한 용도를 가진다.




▣ 변수 선택 방법

의의: 모형은 최대한 간소화 되어져야 한다. 따라서 설득력있는 독립변수들로만 모형을 구성하는 것은 중요하다.


(1) 모든 가능한 회귀: all possible regressions

-> 독립변수 K에 대한 모든 변수들에 대한 모든 모형들을 만들어보는것이다.

ex k=5, 일 경우에는 2^5 개의 모형이 생겨나게 된다. 이렇게 많은 모형들중 가장 적합한 회귀를 하게 된다.

단점은, 계산량이 엄청나게 많다. 실무에서는 거의 쓸수 없다.

SPSS의 경우는 제공하지 않는 기능이다.


(2) 전진

-> 등록된 변수를 통계적 기준에 따라 가장 중요한 변수부터 선택하여 더 이상 중요한 변수가 없다고 판단될 때 중단 (변수를 하나씩 추가해 가는 방법)

-> 일단 선택된 변수는 다른 변수에 의해 중요성이 상실되더라도 희귀모형에서 빠져 나올 수 없음


(3) 제거

-> 모형 설정 후 사용 가능

-> 모형에서 변수 제거


(4) 후진

-> 등록된 모든 독립변수를 포함하여 통계적 기준에 따라 중요도가 낮은 변수부터 한 변수씩 제거해나가는 방법 더 이상 제거시킬 필요가 없을 때 중단

-> 남아있는 변수들을 중요한 변수로 선택


(5)입력

-> 독립변수들의 강제 투입, 지정해준 변수 그대로 다 넣은 상태에서 모형 만듬


(6) 단계별 회귀: stepwise regression

-> 실무에서 적용하는 것이다.

일단, 가장 유효성이 높은 독립변수를 추가하고,

그다음 남은 독립 변수들중에서 또 하나를 추가한다.

그다음 유효성을 검사해서, 새로운 변수를 추가 했을때, 이전의 독립변수가 유효하지 않게 된다면, 그 독립변수를 제거하게 된다.


앞으로 부터의 선택과의 차이점은, 단계별 회귀방법은 일단 모델에 반영된 독립변수일 지라도, 유효성이 없어진다면, 제거가 가능하다는 점이다.




4. 회귀 모형의 진단







(a) 분산이 일정함을 나타냄

(b) 분산이 점점 커지므로, 동일 분산의 가정이 틀림

(c) 베타0와 같은 y 절편의 값의 증가를 필요로 함을 나타냄

(d) 선형 모델이 아닌 곡선 모형이 적합하는 것을 나타냄








'AI > Probability & Statistics (R)' 카테고리의 다른 글

비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29
조건부 확률, Conditional Probability / joint probability  (2) 2013.05.17


Conditional Probability



사건 B가 발생했다는 가정하에 사건 A가 일어날 확률을 의미한다.

Joint Probability와 헷갈리면 안되는 것이 이건 어쨋거나 1번 시행에대한 확률이다.

전체 경우의 수가 있을 때 그중 특정 조건일 때의 확률만 뽑아 내고 싶을때 사용 할 수 있다.





예제: 두 개의 주사위가 있다. 주사위가 둘 다 같은 숫자가 나올 경우 그 때 숫자가 둘 다 1일 확률은??



두 개의 주사위가 모두 1이 나올 확률은 A

두 개의 주사위가 같은 숫자가 나올 확률은 B


P(A) = 1/36, P(B) = 1/6



P(A 교집합 B) = P(A)

왜냐하면, 두개의 주사위가 모두 1이 나오는 경우는 두개의 주사위가 같은 숫자가 나오는것의 특수한 경우이기 때문이다.




만약 조건부 확률에서도 두 사건이 상호 독립적이라면 아래와 같이 된다.


 



Joint probability


두개의 서로다른 사건이 동시에 일어나는 확률을 말한다.

동전으로 치면 동전 2개를 동시에 던지는 것이다.

{0,0}, {0,1}, {1,0}, {1,1} 의 경우가 나오므로

모든 joint probability는 1/4가 된다.

동전의 경우 각각의 사상이 독립적이므로 이러한 간단한 수식이 가능하다.


notaion은 다음 두가지 이다.



계산은 독립적인 X의 사상과 Y의 사상이 독립적인 경우에는 (ex: 2개의 동전을 던지는 경우)



로 계산한다.


독립적이지 않을 때의 계산 식은 아래와 같다.



n개에 대해서는







조건부와 결합확률의 차이를 생각해 보기


상자 A에서 하얀 공이 선택될 확률 (조건부 확률)

P(하얀공|A) // A상자를 뽑는 가정하에 흰 공을 뽑는 경우로 조건 부 확률이다.



상자는 A이고 뽑은 공은 하얀 공일 확률 (결합 확률, 두 서로다른 사건이 동시에 일어남)

P(A, 흰공) = P(흰공|A) * P(A) // 핵심은 사건이 2개이다. 그리고 2사건이 곱으로 연결 된다.





 









'AI > Probability & Statistics (R)' 카테고리의 다른 글

비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29
회귀 분석 (1)  (0) 2013.08.29

+ Recent posts