close_btn
2015.03.12 20:11

1. 통계학 기초 Part1

조회 수 53845 추천 수 2 댓글 1
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print

20150311211049.png

(주의아직 대학생의 신분으로 쓴 글이다 보니 부족한 점이 많습니다.

        소개된 내용이 틀렸다고 생각하시거나 자신이 아는 것과 다르다 생각이 들면 꼭 피드백을 해주세요

        그래야 더 나은 강의가 될 수 있다고 생각합니다. ^^


안녕하세요 Tobig’s 2기 방성수입니다.

이번에 제가 소개할 내용은 통계학 기초, 통계학의 전반적인 내용입니다.

통계분석을 전문적으로 하는 전문가부터 간단한 분석을 해보고 싶은 사람들까지 통계학의 전반적인 내용의 흐름을 알리고자

이번 강의를 준비했습니다.


더 궁금하신 분들은 

대학생의 경우에는 각 학교의 기초통계학이라는 과목이 있을텐데요. 그 과목을 들으시는 것을 추천하고요.

대학생이 아닌 분들은 시중에 기초통계학 책이 많으니 읽어보시면 더 많은 것을 배우실 수 있을꺼에요.

 

20150311211135.png


제가 소개할 내용은 크게 3가지 내용입니다.


제일 먼저 소개할 내용은 데이터 분석 과정인데요.

분석을 하기 위해서는 그 순서를 알아야 할텐데요. 그 순서에 대한 짤막한 소개를 할 예정입니다.


두번째 소개할 내용은 확률론입니다.

확률론은 보통의 학교에서도 한 학기에 걸쳐 강의가 진행되는 내용으로 

그 내용이 많고 외워야 할 것도 많지만 여기서 소개할 내용은 아주 기본적이고 데이터를 분석하기 위해서 

필요한 정도의 내용만 소개할 예정입니다.


마지막 소개 내용은 수리통계학입니다.

수리통계학은 통계학과의 필수과목 중 하나로 이것 역시 제대로 배우려면 한 학기 이상의 시간이 걸리죠

게다가 이 과목은 학문명에서도 보시다시피 수학적인 내용이 많이 포함되어 악명이 높죠

그러나 여기서는 자세한 내용을 소개하진 않고 수리통계학 내에서 나오는 분석의 이론에 대한 설명을 할 예정입니다.


20150311211156.png 

첫번째 내용인 데이터 분석과정입니다.


데이터 분석과정의 첫번째는 샘플링입니다.

우리가 궁금해 하는 데이터는 항상 그 양이 많습니다

우리나라 남자의 평균키나 대통령 선거의 지지율 같이 분석을 하기에 필요한 데이터를 구하는 것 조차 어려운게 사실이죠

그래서 통계학에서는 샘플링이라는 방법을 사용해서 우리가 궁금해 하는 정보를 알아내죠

그리고 이 샘플링 하는 방법도 여러가지고 연구도 많이 하고 있습니다.

이부분이 궁금하다면 시중에 있는 사회조사분석사책이나 조사방법론에 관한 책을 찾아보세요


하지만 간단한 분석을 위해서 위같이 어려운것이 아니라 여기서 우리가 해야하는 샘플링은

우리나라 남자의 평균키가 궁금하다면 자신의 학과의 남자들의 평균키를 측정하여 데이터로 만드는 것이겠지요

샘플링의 더 자세한 내용은 나중에 더 설명하도록 하겠습니다.


20150311211442.png


데이터를 만들었다면 다음으로 해야 할 일은 우리가 만든 데이터를 분석에 맞는 형식으로 바꿔야 하는 과정을 거쳐야 합니다

이를 전처리 과정이라고 부르는데요


데이터를 수집할 때는 남/녀라는 대답을 수집해야 할 것입니다.

그런데 우리가 실질적으로 데이터를 분석할 때는 수식에 입력해야 하는데 이때 남/녀를 넣을 수는 없자나요?

그래서 이런 데이터를 수치화해서 바꿔줘야 해요

남자는여자는 0 이런 식으로요

그러면 분석을 할 수 있는 형식으로 바꿔줄 수 있죠


또 해줘야 하는 일은 결측값 처리에요

설문지조사나 직접 데이터를 받을 때 주로 발생하는 상황으로 데이터가 비어있는 상황에는 이를 처리해 줘야 하지요

이를 처리하는 방법 역시 많다고 하는데요 버리는 방법도 있고 

데이터 수가 적다면 평균값으로 대체하거나 다른 수로 대체하는 방법도 있다고 합니다.

 

20150311211456.png 

데이터가 완성되었다면 우리가 어떤 분석을 해야할지 결정을 해야해요

사실 이 부분은 우리가 데이터를 구하기 전부터 생각을 하고 그에 맞는 데이터를 구해야 하는 경우도 있죠

하지만 말 그대로 데이터만 주워져 있고 분석을 할 경우에는 어떤 분석방법을 사용할지 결정해야 하지요

분석방법에는 위에 제시한 그룹 비교나 자료 추이자료 예측과 같은 방법 말고도 매우 많아요 

그래서 어떻게 보면 어려운 부분 일수도 있지요


그렇다면 어떤 기준으로 방법을 정해야 할까요?

그건 자신이 분석하고자 하는 주제에 따라 결정해야겠지요


어떤 그룹과 어떤 그룹의 데이터 비교를 하기 위해서는 그룹비교,

데이터의 전체적인 변화 모습을 알아보고 싶다면 자료 추이,

그리고 아직은 모르지만 미래의 데이터를 구하고 싶다면 자료 예측

방법을 선택하고 각 카테고리별 적절한 모델이나 방법에 맞추어 분석을 진행해야 해요.


20150311211524.png 

방금 한 내용을 정리해본 것인데요.

그와 연관된 통계학 과목을 써 보았어요

소개한 부분이 더 궁금하시면 해당 과목명의 책을 찾아보시면 도움이 되실 거에요


20150311211540.png


확률론에서 할 내용은 소개할 내용은 확률 변수에 대한 내용이에요

확률 변수에 대한 내용은 이미 고등학교 때 처음 배웠다고 생각하는데요


사실 확률이라는 것은 사건을 0과 1사이의 실수값으로 보내주는 함수라고 생각할 수 있어요

하지만 함수의 정의역이 사건이라는 점도 불편하고 이 사건을 매번 쓰기에도 불편하겠죠?


그래서 만들어낸 것이 확률변수라는 것이지요

우리가 수학시간에 배운 x가 변수이듯 확률에서 쓰이는 변수라는 의미겠지요?


그래서 옆에 사진에서와 같이

한 개만 앞면이 나오는 사건

앞면이 나오는 개수를 X라는 확률변수라고 하고 X=1’ 이라 하면 이 두 가지는 같은 내용을 품고 있죠

그래서 우리는 더 받아드리기 쉬운 이 확률변수를 이용하고 있죠   


20150311211552.png

 

하지만 단순히 확률 변수를 사용하는 이유가 덜 불편해서는 아니겠지요?

확률 변수를 사용하면서 가장 큰 이점이 이 확률변수가 특정한 확률 함수의 모양을 가지고 있다는 점이지요


고등학교 때 배웠던 이산형연속형 확률 변수를 기억하나요?

이산형 유한하거나 셀수 있는 무한 확률변수 일 때

연속형 셀 수 없는 무한한 확률변수를 뜻하지요


그리고 각각에 대한 분포 함수를 고등학교때 하나씩 배우지요

바로 이항분포와 정규분포죠.


하지만 고등학교 때 배운 그 두 개의 분포함수가 전부는 아니에요

세상에는 그림에서 주어진 것 말고도 많아요 또한 이 함수들을 이용해서 새로운 함수를 만들기도 하지요

이런 확률함수를 이용해서 우리는 더 많은 데이터의 성질과 분석이 가능해졌어요


나와있는 분포나 분포간의 관계가 궁금하신 분들은 확률론을 공부해보세요^^


  • ?
    리미 2015.04.27 00:58
    투빅스분들이강의자료도올리시는군요!!보기좋아요^0^!!

List of Articles
번호 제목 글쓴이 날짜 조회 수
8 8.군집분석[H-cluster] file 바키똥 2015.09.22 58506
7 군집분석[K-means] file 뀐뀐 2015.09.19 57005
6 6. K 근접이웃 알고리즘 1 file 통계돌이 2015.08.16 53492
5 5. 나이브 베이즈 분류기 1 file 통계돌이 2015.07.27 55805
4 4.회귀분석(part2) file 지니상 2015.05.05 64139
3 3. 회귀분석 (part1) file 지니상 2015.04.13 63735
2 2. 통계학 기초 Part2 ssomnium 2015.03.14 52505
» 1. 통계학 기초 Part1 1 ssomnium 2015.03.12 53845
Board Pagination ‹ Prev 1 Next ›
/ 1

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소

Designed by sketchbooks.co.kr / sketchbook5 board skin

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5