1. 단순 회귀 분석: 종속 변수 = 독립변수.


단순 회귀 모형은 최소 제곱법에 의해서 추정을 하게 된다. 


최소 제곱법


이때, L 값이 가장 작을 때의, 베타1과 베타0의 값으로 모형을 만들게 된다.



단순 회귀 분석에 의한 모형,



잔차의 정의: 잔차 = 측정치 - 예측치




2. 모형의 적합도 분석 


모형의 적합도는 분산분석의 F 검정을 실시하거나,

결정계수 r^2를 가지고 회귀 방정식의 유효성을 검증하게 된다.



사전 지식


SST (총변동) = SSE (잔차변동) + SSR (회귀변동)


따라서, SSE(잔차변동)이 0으로 가면 아주 좋은 것이다.

그렇게 될경우 SST(총 변동) = SSR(회귀변동)과 일치한다.

이 의미는, SSR(회귀변동)은 회귀 방정식에 의한 값이고 이게 SST(총 변동)과 일치한다는 것은 회귀 방정식이 완벽히 측정값과 일치한다는 의미를 가진다.


이러한 특성을 토대로 우리는 결정계수 R^2을 계산해 낸다.

결정계수: 


- 모형의 설명력

- 즉, 독립수들이 Y값을 얼마나 잘 설명해 주는가를 나타내는 척도

- 결정계수 값이 1에 가까울수록 설명력이 좋음 0에 가까울수록 설명이 떨어지는 것 

- 결정계수에 대한 검정방법은 없으므로, 회귀모형의 적합성에 대해 설명하는 것은 위험 하다.

단지 독립변수들의 설명력으로만 해석이 가능하다.

모델의 적합성은 F검정으로 해야 한다.



▣ 분산분석표에 의한 F-검정의 정의는 아래의 스크린샷과 같다.






보통, 통계페키지(SPSS)에 의해서 유의확률 p 값이 0.5 보다 작을 경우, 귀무 가설을 기각한다.

따라서 해당 회귀 방정식은 유효하다고 검정 한다.



▣ 베타계수

  • 독립변수들이 종속변수에 주는 영향력을 비교하기 위해 회귀계수를 직접 비교하는 것은 위험 (회귀계수의 크기가 독립변수들의 측정단위에 크게 영향을 미치기 때문) 
  • 측정단위에 관계없는 회귀계수 필요
  • 표준화 변환 후 회귀 모형 추정시 이때의 회귀계수를 표준화 계수 혹은 베타계수 
  • 독립 변수들간에 관련성이 낮을경우 상대적인 중요도 
▣ 회귀계수
  • 공선성 통계량

독립변수들 간에 상관관계가 높으면 하나의 변수가 투입이 되며 나머지 변수들이 갖는 고유한 설명력은 매우 작아짐

VIF = 1/공차한계

공차한계<0.1 이거나 VIF>10 이면 공선성이 존재

  • 다중 공선성

설명변수 사이에 정확한 선형관계는 아니나 상관관계가 매우 높은 경우

상관관계가 클수록 회귀분산이 커지고, 분산이 커지면 회귀계수 추정량에 대한 t-통계량값이 작아져서 유의성이 낮게 나타남

해결책

설명변수의 제외

모형의 재설정

사전정보이용

표본자료의 추가 



▣ T,F,P 값의 의미


T-test = T, P

ANOVA = T, P

회귀분석 = F, T, P

교차분석 = X^2, P


위 그림을 보면, x축에 T,F 값이 존재한다. 그리고 그 값에 대한 오른쪽 면적이 P 값이 된다.



이렇게 나온 P값을 기준치인 0.05랑 항상 비교해서 해당 통계치가 유의한지 유의하지 않은지를 판단하게 된다.





3. 중회귀모형 또는 다중 회귀 모형




결정계수는 독립변수가 늘어나면, 무조건 증가 하게된다.

따라서 어떠한 독립변수가 중요한 역할을 하는지를 알기위해서 다른 참조 값을 필요로 한다. 이 때 이용하는 값이 수정된 결정계수이다.


▣ 수정된 결정계수

결정계수를 자유도로 수정시킨 계수

설명력이 거의없는 독립변수가 추가되면 감소 따라서 변수선택의 기준으로 이용



▣ 부분상관계수 (part correlation coeff.)

기존의 회귀모형에 어떤 독립변수를 추가할 것인가를 결정하고자 할 때 이용.


편 상관계수 ( partial correlation coeef.)

용도는 부분 상관계수와 비슷한 용도를 가진다.




▣ 변수 선택 방법

의의: 모형은 최대한 간소화 되어져야 한다. 따라서 설득력있는 독립변수들로만 모형을 구성하는 것은 중요하다.


(1) 모든 가능한 회귀: all possible regressions

-> 독립변수 K에 대한 모든 변수들에 대한 모든 모형들을 만들어보는것이다.

ex k=5, 일 경우에는 2^5 개의 모형이 생겨나게 된다. 이렇게 많은 모형들중 가장 적합한 회귀를 하게 된다.

단점은, 계산량이 엄청나게 많다. 실무에서는 거의 쓸수 없다.

SPSS의 경우는 제공하지 않는 기능이다.


(2) 전진

-> 등록된 변수를 통계적 기준에 따라 가장 중요한 변수부터 선택하여 더 이상 중요한 변수가 없다고 판단될 때 중단 (변수를 하나씩 추가해 가는 방법)

-> 일단 선택된 변수는 다른 변수에 의해 중요성이 상실되더라도 희귀모형에서 빠져 나올 수 없음


(3) 제거

-> 모형 설정 후 사용 가능

-> 모형에서 변수 제거


(4) 후진

-> 등록된 모든 독립변수를 포함하여 통계적 기준에 따라 중요도가 낮은 변수부터 한 변수씩 제거해나가는 방법 더 이상 제거시킬 필요가 없을 때 중단

-> 남아있는 변수들을 중요한 변수로 선택


(5)입력

-> 독립변수들의 강제 투입, 지정해준 변수 그대로 다 넣은 상태에서 모형 만듬


(6) 단계별 회귀: stepwise regression

-> 실무에서 적용하는 것이다.

일단, 가장 유효성이 높은 독립변수를 추가하고,

그다음 남은 독립 변수들중에서 또 하나를 추가한다.

그다음 유효성을 검사해서, 새로운 변수를 추가 했을때, 이전의 독립변수가 유효하지 않게 된다면, 그 독립변수를 제거하게 된다.


앞으로 부터의 선택과의 차이점은, 단계별 회귀방법은 일단 모델에 반영된 독립변수일 지라도, 유효성이 없어진다면, 제거가 가능하다는 점이다.




4. 회귀 모형의 진단







(a) 분산이 일정함을 나타냄

(b) 분산이 점점 커지므로, 동일 분산의 가정이 틀림

(c) 베타0와 같은 y 절편의 값의 증가를 필요로 함을 나타냄

(d) 선형 모델이 아닌 곡선 모형이 적합하는 것을 나타냄








'Data Science > Probability & Statistics (R)' 카테고리의 다른 글

비교 분석  (0) 2016.08.03
가설 검증과 추정  (0) 2016.08.03
이상치 제거 (Box-plot 해석을 통한)  (0) 2015.01.03
통계학: F-검정  (0) 2013.08.29
회귀 분석 (1)  (0) 2013.08.29
조건부 확률, Conditional Probability / joint probability  (2) 2013.05.17

+ Recent posts