논문과통계학/SPSS

[SPSS] 회귀분석 쉽게 이해하고 실전까지 :)

발큰신데렐라 2010. 6. 24. 18:27

회귀분석은 어렵다. 특히 결과값 해석이.... 아무리 쉽게 써져 있어도 그건 통계하는 사람들의 눈에나 쉽지, 나처럼 아무리 인터넷과 책을 뒤져봐도 그 알수없는 용어들이 뭐가 뭔지 모르는 사람들을 위해서 쓴다!

우선 회귀분석에 대해 알아보자. 고고씽!


회귀분석은 왜 할까?
흩어져 있는 잔차들(산포도)을 가장 잘 대표하는 지나가는 선을 찾기 위해서이다.
바로 이 선을 통한 회귀식을 이용하여 여러 개의 독립변수를 통해 종속변수를 예측할 수 있다.
(즉 그 선을 통해 공식을 발견하면 y(종속변수)=ax(독립변수)+b을 통해 x를 알면 y를 알 수 있다는 장점이 있다.)

예를들어 어떤프로그램의성과가 교육과 사용자의 참여 등을 통해 이루어 진다고 예측할때,
프로그램의성과 : 종속변수(y)
교육, 사용자의참여 등등 : 독립변수(x)
이때 y(종속변수)값의 몇%를 x(독립변수)로 예측할 수 있는지가 중요할 수 밖에 없다. 예측가능성이 높다는것은 그만큼 연관성도 높다는 뜻이 되니까.

회귀란 점들이 선으로 회귀한다는 뜻으로 그 대표선을 잘 찾으면 +와 -를 모두 합한 값이 0이 된다.

spss를 이용하여 회귀분석을 해보자!


1.
 데이터를 불러옵니다.



물론 회귀분석을 하기 이전에 데이터들간의 요인분석을 통해 변수를 정리해야 한다.
(요인분석 : http://melissaeh.tistory.com/16)

2. 데이터를 불러옵니다.
(분석→ 회귀분석→ 선형)
-대부분의 회귀분석은 선형회귀분석을 사용합니다.



3. 종속변수와 독립변수를 지정한다.


4.
다른 옵션은 건들지 말고 후진제거만 선택하자.
 왜 후진제거를 선택할까?
후진제거는 회귀식에 유의적으로 기여하지 못하는 독립변수의 값을 검정을 실시하여 가장 작은 변수부터 하나씩 제거하고 남은 독립변수를 통해 모형을 재추정하는 방법이다. 그러니까 출력결과에서 가장 마지막에 나온 모형으로 결과값을 설명하면된다.

5. 결과값을 설명한다.
(솔직히 이게 제일 어렵다.)
<여기서 중요한것은 R제곱>
R2의 값이 0.4가 넘지 않은 .391로 끝났기 때문에  설명력이 있다고 보기 힘들다. 즉 기각된다. 
아래에서 볼 수 있듯 유의 확률이 0.00이기 때문에 높은 신뢰성으로 기각된다.

R제곱
위에서 설명했듯이 y값의 몇%를 x값들로 예측할 수 있는지가 중요한데,
그것을 알려주는 척도가 바로 R2이다.
(값이 과연 얼마나 설명하고 있는지를 알려주는 것이기 때문에 설명력이라고도 한다.) 

그럼 과연 몇%가 넘어야 유효한 걸까?
일반적으로 학계는 0.6이상을 실무에서는 0.4이상은 의미가 있다고 본다.
(40%정도밖에 안되는데 왜 유효한지 모르겠다고요? 그만큼 예측하기 어렵기 때문이죠. 이럴때 저희 교수님이 잘 하시는 얘기가 있는데, 만약 주식변동에 대해서 40%라도 예측할 수 있다면 어떨까요? 대박이죠?)

<여기서 중요한것은 베타값과 유의확률>
베타값은 어떤  독립변수가 가장 영향력이 있는지를 나타내주는 척도이므로, 표에서 확인할 수 있듯 커뮤니케이션 정도, 교육정도, 관심과지원 정도의 순이다. 각각의 유의확률은 모두 0.05안에 값이므로 높은 신뢰도를 갖는다.

베타값
독립변수들의 종속변수에 미치는 상대적인 영향력의 크기를 말한다.
위의 데이터를 보면 사용자의 참여가 유의확률 0.607로 0.05보다 높기 때문에, 후진제거를 통해 제거되었다.(모형2) 즉 유의확률도 같이 봐주어야 한다.

여기서는 커뮤니케이션의 정도가 가장 높으므로 프로그램의 성과를 내는데 가장 높은 영향력을 미친다는것을 알 수 있다.

유의확률
귀무가설을 기각하고 대립가설을 채택하기 위해 필요한 것이 유의확률(p-value)이다.
(귀무가설과 대립가설에 대해서는 요인분석할때 설명)

얼마나 믿을 수 있느냐,
신뢰성이 있는지 여부를 판단하는데 결정적인 도움을 준다.
0.01(99%)~0.05(95%)~0.1(90%)

유의확률은 대부분 0.05를 사용한다.(95%) 그러므로, 그보다 낮은 값 0.00~0.05까지는 유의하다 보고,
(검정되었다.) 그 이상의 값을 가지게 되면 유의하지 않다고 보는것이 일반적이다. 


<여기서 중요한것은 유의확률>
0.00으로 높은 신뢰도를 갖는다.

유의확률
이미 앞에서 설명했다. 이 회귀식에 대한 유의확률이다.


*틀린부분이 있으면 가감없이 지적해주세요~*