close_btn
2015.03.14 22:23

2. 통계학 기초 Part2

조회 수 59162 추천 수 1 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print

20150311211608.png 

마지막 수리통계학 내용입니다

수리통계학의 주된 내용은 두 가지 입니다.

우리가 주어진 데이터를 통해 궁금해 하는 그룹의 특정 정보를 알아내고자 하는 추정 파트와

데이터를 통해 우리가 주장하고자 하는 바를 통계학적으로 뒷받침해주는 검정 파트가 있어요


이 두 가지에 대해 간단하게 배워보도록 합시다


 20150311211637.png


샘플링에 대해서는 앞에서 잠깐 이야기 했었죠?


고등학교 때 배운 내용을 잠시 떠올려보면 우리가 궁금해하는 그룹의 데이터를 모집단이라 하고

그 모집단에서 랜덤하게 뽑아낸 그룹의 데이터를 표본(샘플) 이라고 하죠


우리는 모집단의 정보인 평균이 궁금하다고 생각합시다즉 20대 남자의 키의 평균이 궁금한 거에요

그럼 투빅스 남자학생의 키를 조사하는 거에요. 이는 투빅스 남자라는 표본의 데이터를 구하는 것이죠

그리고 평균을 내는거죠. 이게 바로 표본평균이겠죠? 그런데 이 걸로 모집단의 평균, 즉 20대 남자의 키를 

예측하는 것은 직관적으로도 부족함이 느껴지죠? 


그래서 그 표본을 매우 많이 뽑는다고 가정하는 것이죠. 

투빅스 뿐 아니라 과의 남자들, 친구 과의 남자 그룹 등등 많은 표본들의 데이터를 모으는 것이죠

그리고 각 표본의 표본평균들을 구하고 표본평균을 확률변수 xbar라고 지정하면 각각의 그룹에서 구한

평균키들은 새로운 데이터가 되는 셈이죠. 이렇게 확률변수 xbar의 분포를 구한다고 생각해보는거에요.


그러면 이 표본평균이라는 확률변수는 표본의 크기가 커질수록 

평균이 모집단의 평균이고 분산은 모분산을 표본의 크기로 나눈 값에 가까워져요.

즉, 모집단의 평균을 추정하기 가장 좋은 값은 표본평균이라는 확률변수가 될 수 있겠죠?


20150311211654.png


방금 한 내용이 점추정, 즉 추정을 하는 값이 점으로 하나의 값을 나타냈다면 이제부터 할 내용은 구간 추정입니다.

아무래도 구간 추정이 점추정에 비하면 맞출 확률은 상대적으로 더 높겠죠.

그리고 이 구간 추정은 신뢰구간이라 하고 신뢰구간에 대해서는 고등학교 때도 배웠었죠

사진에 보이는 수식은 고등학교 때 배웠던 신뢰구간을 유도하는 과정이에요.


그리고 기억을 하실지 모르겠지만 신뢰구간에는 신뢰도라는 개념이 따라 붙습니다

이 신뢰도라는 내용에 대해 정확하게 알아야 합니다.

흔히 신뢰도 95%를 신뢰구간을 만들고 나서 그 신뢰구간에 모집단이 들어있을 확률이 95%라고 생각하기 쉽습니다

하지만 이는 베이즈 통계학의 관점의 신뢰구간의 의미입니다.


우리가 알고 있는 통계학은 베이즈 통계학이 아니기 때문에 신뢰구간은 이런 의미가 아닙니다.

신뢰도 95%의 의미는 신뢰구간을 100개 뽑았다하면 95개정도가 모집단의 정보를 포함한다는 것입니다.

여기서는 모집단의 정보가 모집단의 평균이 되겠지요?


이 차이점을 느끼기 어려울 수도 있겠지만 이 두가지는 확실하게 다른것으로 구분지어 기억해놓을 필요가 있습니다.


20150311211719.png


수리통계의 다른 한 부분인 검정은 다양한 분야에서 사용됩니다.

왜냐하면 검정은 우리가 보이고자 하는 주장을 통계학적인 뒷받침을 해주는 부분이라고 할 수 있거든요.


우리가 보이고자 하는 내용을 대립가설이라 하고 반대의 주장을 귀무가설이라고 합니다

즉, 보통은 대립가설이 맞다는 것을 보여야 하지요.


하지만 위 표에서와 같은 오류 상황들이 벌어질 수 있겠지요

사진의 보이는 두 가지 오류를 모두 줄이는게 가장 바람직하겠지만 이 두 가지 오류의 확률을 모두 줄일 수는 없습니다.

다음 장 사진을 보면 쉽게 알겠지만 이 두 가지 오류의 확률은 하나를 줄이면 하나가 증가하는 관계를 가지고 있어서 

어느 것 하나는 희생해야 합니다.


그래서 통계학에서는 1종 오류를 중요시 하여 1종 오류의 상한선을 정하고 이를 유의수준이라 하며 검정을 진행합니다.


20150311211733.png


그림에서 보듯 빨간색 영역은 기각역이라고 합니다.

쓰여있든 기각역은 귀무가설을 기각시키는 영역이라고 생각하면 됩니다

귀무가설을 기각한다는 것은 대립가설에 더 의미를 둘 수 있다는 것이지요.


그리고 오류들을 그림에 나타내면 왜 두가지 오류가 기각역의 변화에 따라 둘 다 줄어들 수만은 없는지

아실 수 있을 것입니다.

그래서 1종 오류즉 귀무가설이 맞는데 대립가설을 맞다고 하는 확률이 유의수준보다 작은 상황이 벌어진다면

우리는 그 귀무가설을 기각 할 수 있을 것입니다.


20150311211758.png


다음은 가설 검정의 예제문제를 들고 와봤는데요

왜 그런지 생각하면 읽어보세요


그리고 중간의 기각역의 형태가 왜 저렇지요라는 궁금증이 드는 사람은 정말 훌륭합니다.

궁금하신 분들은 수리통계학을 깊이 공부하시면 아실 수 있어요 


20150311211814.png

 

같은 예제에 대한 또 다른 방법인데요

가장 많이 쓰는 방법 중에 하나지요

P-value라는 값을 이용해서 검정하는 방법으로 자세하게 들여다보면 그냥 비교하는 값을 다른것으로 할뿐이지 

사실 같은 이야기를 하고 있다는 것을 아실 수 있을 것에요


이제 왜 p-value가 매번 작아야 하는지 아시겠나요?

하지만 이는 대립가설이 맞아야 한다는 점을 보여야 해서 그렇지만 항상 대립가설을 주장하고자 하는 것은 아니어서

가설에 따라 p-value가 커야 좋은 것인지 작아야 좋은 것인지 달라집니다.

그러니까 이론에 대해 알아야 그 점도 파악할 수 있겠죠?


20150311211829.png


지금까지 통계이론의 아주 기초적이고 간단한 내용만 소개를 했는데요

더 자세히 알고 싶거나 설명이 부족해 보인다면 기초통계학 책을 찾아보시는 것을 추천합니다.


요즘 빅데이터 분석이라는 말이 많이 나오지요?

하지만 단순히 프로그램을 돌릴 줄 아느냐 아니냐가 그 전문성을 키워줄 수는 없습니다

어떤 데이터가 있더라도 어떻게 정리를 해서 어떤 모델에 적합시켜야 할지 알려면 

그 바탕에는 깊은 이론적 바탕을 필요로 합니다.


저는 이 강의를 통해 그 중요성을 알리고 싶었고 

이 이후에 나오는 이론 강의들도 관심을 가지고 많이 공부하시면 전문성을 키우실 수 있을 것입니다.

저도 그렇게 생각하고 공부하고 있고요 ^^


부족한 강의 끝까지 보시느라 수고 많으셨습니다.

다음 강의는 다른 분과 함께 하실 꺼에요.

감사합니다.


List of Articles
번호 제목 글쓴이 날짜 조회 수
8 8.군집분석[H-cluster] file 바키똥 2015.09.22 68381
7 군집분석[K-means] file 뀐뀐 2015.09.19 63967
6 6. K 근접이웃 알고리즘 1 file 통계돌이 2015.08.16 59102
5 5. 나이브 베이즈 분류기 1 file 통계돌이 2015.07.27 61681
4 4.회귀분석(part2) file 지니상 2015.05.05 75195
3 3. 회귀분석 (part1) file 지니상 2015.04.13 80766
» 2. 통계학 기초 Part2 ssomnium 2015.03.14 59162
1 1. 통계학 기초 Part1 1 ssomnium 2015.03.12 60918
Board Pagination ‹ Prev 1 Next ›
/ 1

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소

Designed by sketchbooks.co.kr / sketchbook5 board skin

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5