close_btn
2015.04.13 13:00

3. 회귀분석 (part1)

조회 수 66589 추천 수 1 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files


안녕하세요. 저는 회귀분석을 포스팅하게 된 통계학과 10학번 김상진입니다. 아무래도 학부생이다 보니 

회귀분석에 대해서 부족한 개념들이 많을텐데 지적이나 혹은 조언을 해주시면 수정하도록 하겠습니다. 








2.PNG







회귀분석에 앞서 몇가지 개념을 알고 들어가려고 합니다.

맨 위에 그림은 산점도 산포도 or 상관도라고 합니다.

변수 x를 수평축에 놓고 변수 y를 수직 축에 놓은 후 or 두 개의 변수를 수평과 수직축에 놓은 후에 

각 관측 값의 짝을 좌표 위에 표시함으로써 얻게 되는 그림입니다.

이를 통해서 시각적으로 두 변수간의 관계가 어떤지 대략적으로 파악할 수 있습니다.


보통 회귀분석을 하기 전에 변수들 간의 산점도를 그림으로써 독립변수(x)와 종속변수(y)가 직선관계인지 곡선관계인지 

독립변수들 즉 x들 사이에서 다중공선성은 없는지 혹은 점들이 남자 여자같이 층으로 나뉘어져서 나타나지는 경우는 

없는지 이상한 혼자 튀는 값은 없는지 등등을 점검해보는 그림입니다. 



자 이 때 두 친구가 갑론을박을 펼치는데요. 과연 둘 중에 누구의 말이 맞는 걸까요 ?   

인과관계는 어떠한 것이 원인이 되어서 결과가 나타나는 것입니다

상관관계는 한 쪽이 변화함에 따라서 다른 한 쪽도 증가하거나 감소하는 어떠한 관계의 추세를 보이는 것이구요.

높은 상관관계가 두 변수 사이에 연관성이 높다는 것이지 절대 인과관계를 뜻하는 것이 아닙니다

왜냐하면 상관관계는 그 사이에 어떤 제 3의 변수가 두 변수의 값이 같은 방향으로 변하도록 작용하게 하는 것이 있기 때문입니다.. 


이때 위 그림 같은 경우엔 제 3의 변수인 기온이 아이스크림과 에어컨 판매량을 높은 상관관계를 맺게끔 하는 변수인데요이러한 제 3의 변수를 잠재변수라고 합니다두 변수가 진짜로 인과관계가 있는 것인지는 통계적인 방법으로는 알기 힘들고 두 변수 사이에 대한 연관성에 대한 이해나 그 분야에 대한 전문적인 지식이 필요합니다마케팅 쪽에서 주로 인과관계와 상관관계를 잘못 이해하고 마케팅을 펼치는 경우가 많습니다








3.PNG









공분산은 두 개의 확률 변수 x와 y가 상호 어떤 관계를 갖으며 변화하는 가를 나타내주는 척도로 두 확률변수의

관계의 방향을 나타내게 됩니다.

이 말은  그냥 x가 증가할 때 y가 증가하네 혹은 X가 증가할 때 y가 감소하네 정도만 알 수 있다는 뜻입니다

X와 y가 정말 선형적인 관계로 증가한다 이런 것은 알 수 없습니다.

왜냐하면 공분산은 단위의 영향을 받기 때문인데요. 단위만 크면 공분산은 저절로 커지기 때문에 실제로 선형관계에 

있지 않아도 그 값은 커질 수 있기 때문에 그렇습니다.

또한 공분산은 단위의 영향을 받으므로 그 범위가 마이너스 무한대부터 무한대까지입니다.












4.PNG









공분산은 단위의 영향을 받으므로 그런 단점을 보완하기 위해 공분산을 표준화 시킨 것이 상관계수입니다.

두 확률변수의 공분산을 각각의 표준편차의 곱으로 나누어준 것이므로 이렇게 되면 표준화가 됨으로써 

단위의 영향력이 사라집니다


그래서 x와 y가 어떤 선형관계에 있는지에 대해서 알 수 있습니다. 

r이 1이면 완벽한 직선관계, 1과 사이이면 증가하는 관계 정도로 알 수 있는데 

여기서 중요한 것은 선형관계에 대해서만 파악할 수 있습니다.

6번째 그림처럼 2차 식의 관계를 갖고 있음에도 불구하고 상관계수 값은 매우 낮은 값을 가질 수 있기 때문입니다.

따라서 상관계수가 0이라는 것은 두변수간의 직선관계가 없다는 의미이지 반드시 두 변수 사이에 관계가 없음을 뜻하는 것은 아닙니다상관계수의 범위는 -1부터 1까지 입니다.

보통  r값이 0.6이상일 때 양의 선형관계 -0.6이하일때 음의 상관관계가 있다고 할 수 있습니다.








41.PNG






회귀분석이 공분산이나 상관계수와의 차이점은 앞에 2개는 상관관계를 보았다면 회귀분석은 인과관계를 보는 것입니다. 나머지 변수가 고정되어있고 x가 1만큼 증가할 때 y가 얼만큼 증가하더라 같은 인과관계를요. 

또한 어떠한 수학적 모형을 가정한다는 점이 차이가 있고 또한 종속변수의 값을 예측한다는 것이 중요합니다


회귀분석을 통계학과 저학년에서 배우는 편이여서 사실 쉬워 보이지만 회귀계수 AIC F값 상관계수 오차항의 가정등등

볼게 너무나도 많은 분석이라고 할 수 있습니다.








43-1.PNG






우리는 모집단에 어떠한 값이 있는데 그것을 전수 조사해서 알 수 없으니 표본집단을 뽑아서 모집단을 추론합니다.

그러한 것처럼 모집단에게도 어떠한 회귀직선이 분명히 존재합니다그러한 회귀직선을 모회귀직선 이라고 하고 빨간색 선에 있는 것처럼 표현을 합니다그리고 실제 관측값을 모회귀직선으로 표현할 때 y=b0+b1x+E라고 표현을 하는데 이때 E는 오차 또는 오차항이라는 표현을 합니다. 오차는 회귀직선으로는 표현할 수 없는 무엇인가가 있다는 뜻이죠하지만 실제로 모회귀직선은 알 수 없습니다이론상에만 존재하죠.



실제로 우리는 표본을 가지고 회귀직선을 만드는데 이때 나오는 것 하늘색 선 옆에 식처럼 나타내집니다

위에 가 써져있잖아요이때 ^은 hat이라고 불립니다그리고 표본 회귀직선과 실제 관측 값의 차이는 이제 e라고 

하고 잔차라고 불려집니다.

그래서 이제 우리는 하늘색 선 옆에 있는 식은 표본으로 추정을 했기 때문에 각 계수들의 값을 알 수 있습니다

Yhat=0.02+3x 이런 식으로요


용어설명을 하자면 x의 값은 독립변수 또는 설명변수라고 하고 y의 값은 종속변수 또는 반응변수라고 합니다

또한 각각의 값들은 회귀 계수라고 하는데요.  B0는 절편 b1은 기울기라고 합니다.

확률오차 또는 잔차 ei는 관측 값이 정확하게 직선 위에 있지 않는 이유로서 모형에 포함되지 않은 

다른 변수들의 영향측정오차 등 여러 가지 원인으로 발생합니다.

회귀직선은 인과적인 관계를 갖고 잇습니다왜냐면 'x가 1만큼 증가할 때 y가 몇만큼 증가한다.' 같은 

확실한 관계가 있기 때문입니다.







43.PNG







Data 값이 이렇게 퍼져있을 때에 어떠한 회귀 식을 적합 시키는 것이 좋을까요

빨간색이나 보라색처럼그냥 내 마음대로 직선을 찍 그으면 그게 가장 좋은 모형일까요 ?

아닙니다. 가장 좋은 모형은 회귀식과 각 관측값들의 잔차의 합이 제일 적은 모형이라고 할 수 있겠는데요.

즉 회귀 식과 실제 관측 값의 차이가 가장 작은 것이 좋은 모델이라고 할 수 있습니다이 빨간 원 안에 있는 거리들을 최소화하는거죠. 통계학과생은 회귀분석 책을 펼쳐서 공부하는 것이 좋구 비전공자생은 컴퓨터를 공부하시면

컴퓨터가 다 알아서 구해줍니다.








44.PNG

45.PNG



단순 선형회귀에서 회귀계수를 구하는 방법입닌다. 잔차들의 합의 제곱이 최소가 되는 점을 편미분을 통해서 구하는 것입니다. 이것을 이제 최소제곱법이라고 합니다. 회귀계수를 구하는 많은 방법이 있지만 이 최소제곱법이 제일 좋은 모형을 

나타내는 것으로 알고 있습니다. 











46.PNG








다음은 컴퓨터에서 표를 해석하는 방법입니다. 

맨 윗줄부터 보시면 회귀분석을 돌렸는데 y를 종속 변수로 두고 x1 과 x2를 독립변수로 뒀다는 것을 알 수 있습니다.

그리고 나서 이제 봐야 할 것이 빨간색 박스 안을 보시면 되는데 estimate는 추정값입니다

즉 이 식은 yhat=52.57+1.46x1+0.66x2입니다



회귀계수는 단위의 영향을 받기 때문에 사실상 크다 하더라도 의미있는지 없는지를 확인할 수 없고 여기서 봐야하는 것이 

그 옆에 있는 p값 여기서 표현은 (pr(>l t l)인데  값이 0.05보다 작아야합니다

그 이유는 각 회귀 계수 값이 0이냐 아니냐를 검정하는 것인데 만약 pr(>l t l)값이 0.05보다 크다면 그 회귀 계수의 값은 0과 같다고 볼 수 있습니다

그 말은 즉, '이 변수는 있으나 마나 값에 별 영향을 끼치지 않는다' 라고 볼 수 있습니다.

다행이 각 계수의 값의 p값은 0.05보다 작으므로 각 변수들은 유효하다고 볼 수 있습니다

E-08 이런 것들은 그냥 쉽게 10^(-8)정도로 생각하시면 됩니다.



그 다음에 이제 파란색 박스안에 R-squared라고 하는 것인데 이것은 결정계수라고도 합니다

뒷장에서 설명을 아주 조금 더 하겠습니다만 일단 높은 것이 좋다고 생각하시면 됩니다.



그 다음에 F값입니다이 역시 설명을 뒷장에서 할텐데 비전공자에겐 F값이 높을수록 p값이 0.05보다 작을수록 이 모델이 쓸수있다라 좋다 정도로 이해하시면  되겠습니다

또한 이때 가장 중요한 것은 yhat=52.57+1.46x1+0.66x2 이런 식으로 있을 때 1.46이 뜻하는 바는 나머지 변수들이 고정되있고 x1을 한 단위 증가시켰을 때 y의 증가량 이라고 할 수 있습니다








47.PNG





R-squared는 결정계수라고도 하고 R^2으로도 표현이 됩니다.

SSR/SST는 쉽게 표현 하자면 회귀식이 설명할 수 있는 변동력 총 변동력이라고 보시면 되는데

어떠한 관측 값들의 변동력을 회귀식으로 설명하는 것이 높을 수록 좋다고 볼 수 있겠죠 ?


하지만 R-squared값이 무조건 높다고 좋은 것이 아닙니다.

변수가 늘어나면 결정계수가 무조건 커지게 되는데 그래서 쓰레기 같은 변수들이라도 많아지면

회귀모형이 적절하지 않아도 결정계수가 매우 큰 기형적인 모형이 나올 가능성이 있습니다.

그러므로 결정계수는 클수록 좋지만 모형을 평가할 때 맹신을 하면 안됩니다.

변수가 많으면 좋지 않냐 ? 라고 묻는다면 마치 이런 비유를 들고 싶은데요. 

필자가 책을 한권사려고 하는데 그 책을 마침 친구가 갖고 있어서 물어봅니다. 야 그책 좋냐 ? 

그런데 이 친구가 책의 1페이지의 구성부터 글자 수 한문단마다의 주요 내용 이런걸 너무 자세하게 설명해주면

짜증나겠죠 ? 내가 알고 싶은건 어떤 콘텐츠가 있고 그 콘텐츠에 대한 설명이 적절하냐 정도만 알고 싶은데

너무 자세하게 설명해주면 오히려 설명을 안해주는 것만 못하게 되는데요. 그럼 그 책에 대해 엄청 많이 알게되었다

해도 사고싶어질 것 같지는 않습니다. 








48.PNG



49.PNG



굳이 비전공자는 이번 장도 안보셔도 될 것 같은데 

회귀      SSR      p        (변수의 개수)

잔차      SSE   n-p-1      (관측치의 개수 – 변수의 개수 -1)

         SST    n-1        (관측치의 개수-1)

예를 들어 변수가 x1 x2 x3 x4라면 변수는 4개 총 관측수가 100이라면

4

95

99가 되겠죵자유도 개념은 대학원 수준이기에 패스하겠습니다.

그래서 각각을 나눠준게 MSR, MSE고 F값은 MSR/MSE인데 이것은 즉슨

회귀식으로 설명 가능한 변동력 회귀식으로 설명 불가능한 변동력이란 말과 같다고 보시면 됩니다.

잔차는 회귀식과 관측값의 차이닌깐요. 


예를 들면 100의 변동력중 90이 회귀식으로 설명가능하고 10이 불가능하면 90/10 F 값은 9인데

모형을 잘 적합해서 100의 변동력중 99가 회귀식으로 설명가능하고 1이 불가능하면 99/1이므로 값은 99가 되죠

이처럼 F값이 높은 것이 회귀식이 설명을 잘한다 정도로 이해를 해주시면 될 것 같습니다








5.PNG








빨간색과 파란색 선이 없다고 생각하고 하늘색 선만 있다고 생각해봅시다. 

그렇다고 한다면 하늘색 선의 회귀식은 yhat=0.2+2.1x1 입니

근데 이 때 알고보니 남자와 여자의 관측 값에 차이가 있는것 같네요. ! 그래서 남녀  

두 개로 나눠서 회귀 식을 보기 위해  변수를 하나 더 추가합니다

이때 추가되는 것이 더미변수라는 것인데요.

더미변수란 것은 이제 명목변수를 숫자로 표현하기 위함인데 이때 중요한 것은 0, 1로만 표현을

해야한다는 것입니다.  X2 : 남자=1 여자=0 이런 식으로요.  왜냐하면 서울 인천 목포 창원 이렇게 4개의 지역이 있다고

합시다. 그럼 코딩을 1, 2, 3, 4 라고 하면 이것은 연속형 변수마냥 창원이 서울보다 좋게됩니다. 하지만 우리는 그런 효과를

노리려는 것이 아니라 그저 지역간의 차이를 보려고 하기 때문에 0 1 로 표현을 해야 합니다. 그런 경우엔 어떻게 

표현을 해야할까요? 밑의 예제로 확인하도록 하겠습니다.  




     x2    x3    x4

      0      0    0     서울

      1      0    0     인천 

      0      1    0     목포

      0      0    1     창원


이런 식으로 명목형 종류의 개수 -1 의 변수가 필요합니다

지금은 서울 인천 목포 창원 4개를 나누기 위해 3개의 변수를 필요로 했죠.



Interaction은 변수들 간의 시너지 효과가 날 때 추가해주는 것인데요.  

만약 결혼업체 듀오에서 y를 남자의 점수라고 할때 가상의 회귀식을 하나 만들어서 

y= 7.24x1 + 6.24x2 +  7.38x3 라고 합시다

X1은 외모점수 x2는 키 x3는 자가차 보유 유무(있을 시 1 없으면 0)의 명목형 변수라고 하겠습니다.

이때 자가차만 가지고 있거나 혹은 외모점수만 높아지면 조금씩 오르는데

자가차를 가지고 있으면서 외모가 잘생기면 점수가 폭풍 높아지는 효과를 기대할 수 있는거죠 ! 

혹은 오히려 자가차를 가지고 있으면서 외모가 잘생기면 부담스러워서 갑자기 음의 효과가 나타날 수도 있는거구요.

물론 그럴 일은 거의 없겠지만... 아무튼 그런 효과를 알아내기 위해 Interaction 즉 변수들간의 퓨전된 값을 보는 것입니다.

그래서 예를 들면, y= 7.24x1 + 6.24x2 +  7.38x3 + 24.224x1x3 이런 식으로 표현을 해줄 수 있겠죠 ?

자가차가 있을 때 외모가 1점 높아질때마다 24.224점이 높아지는 그런 효과.. 를 노릴 수 있습니다.






회귀분석의 part1은 여기까지 하겠고 다음 번엔 이상치라던지 변수선택법등을 가지고 part2의 글을 써보겠습니다.

이상입니다. 부족한 긴 글 읽어주셔서 감사합니다. 




List of Articles
번호 제목 글쓴이 날짜 조회 수
8 8.군집분석[H-cluster] file 바키똥 2015.09.22 59866
7 군집분석[K-means] file 뀐뀐 2015.09.19 58028
6 6. K 근접이웃 알고리즘 1 file 통계돌이 2015.08.16 54240
5 5. 나이브 베이즈 분류기 1 file 통계돌이 2015.07.27 56666
4 4.회귀분석(part2) file 지니상 2015.05.05 66048
» 3. 회귀분석 (part1) file 지니상 2015.04.13 66589
2 2. 통계학 기초 Part2 ssomnium 2015.03.14 53480
1 1. 통계학 기초 Part1 1 ssomnium 2015.03.12 54888
Board Pagination ‹ Prev 1 Next ›
/ 1

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소

Designed by sketchbooks.co.kr / sketchbook5 board skin

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5