close_btn
2015.09.22 17:22

8.군집분석[H-cluster]

조회 수 59867 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files

슬라이드1.JPG

군집분석[H-cluster]부분을 맡게된 인하대학교 통계학과 12학번 투빅스 3기 박희경입니다.

앞글 군집분석[K-means]에서 전체적인 군집분석의 개념에 대루었기 때문에, H-cluster와 군집분석의 진단에 대해서 알아보겠습니다. 틀린 내용이나 부족한 내용이 있으면 지적해주시고 수정하겠습니다.


슬라이드2.JPG


H-cluster는 Hierarchical Clustering(계층적 군집분석)의 줄임말입니다.

K-means에서는 군집들끼리 서로 배타적으로 겹치는 부분이 없으나, H-cluster는 군집들끼리 서로 포함적인 관계를 맺을 수 있습니다. 왼쪽은 그룹들 간의 관계를 덴드로그램(세로축 : 군집 혹은 자료사이의 거리)으로 보여줌으로써, 군집과 부군집을 나타낼 수 있고, 오른쪽 그림처럼 부분집합의 관계로 나타낼 수 있습니다.

또한 K-means는 그룹의 갯수를 사전에 정하고 그룹을 쪼개는것과는 달리 H-cluster에서는 그룹을 다 나눈 결과를 본 후 분석가에 의해 그룹의 갯수를 정할 수 있습니다.


H-cluster에서 군집을 지정해주는 방법에대해 알아보겠습니다.


응집형(agglomerative)방법

- 자료 하나하나를 하나의 군집으로 간주하고, 가까운 군집끼리 연결해가는 방법 

  ( 군집의 크기를 점점 늘려가는 알고리즘 - 상향식)

분리형(divisive)방법

- 전체 자료를 하나의 큰 군집으로 간주하고, 유의미한 부분을 쪼개어 나아가는 방법

  ( 군집의 크기를 점점 줄여가는 알고리즘 - 하향식)


[데이터 하나와 데이터 하나] 사이의 거리는 유클리드거리 ( 때에 따라 Manhattan, Minkowski, Cosine, Tanimoto 방법 등 )로 쉽게 구할 수 있기 때문에,  [데이터 하나와 군집] [군집과 군집] 사이의 거리를 제는 방법에 대해서 알아보겠습니다.

슬라이드5.JPG

1. 최단연결법 (Single Linkage)

군집A와 군집B에 속하는 데이터중 가장 가까운 데이터들의 거리로 군집간의 거리로 정의


이해를 위해 간단한 예제를 통해 알아보겠습니다. ( 숫자를 단순히 하기위해 거리를 유클리드거리의 제곱으로 나타냈습니다. )슬라이드6.JPG

1단계 ) A,B,C,D,E 데이터중 가장 가까운 데이터는 D와 E임으로 하나의 군집으로 처리합니다.슬라이드7.JPG

2단계 ) A,B,C 데이터와 (D,E) 군집의 거리  =  A,B,C 각각의 데이터와 D와 E중 가까운 데이터의 거리

   로 정의하여 군집과 데이터들 사이의 거리를 나타낸뒤 가장 가까운 데이터인 A와 B를 하나의 군집으로 처리합니다. 슬라이드8.JPG

3단계 ~ ) 2단계를 반복합니다. 

      (A,B)와 (D,E)의 거리 = 두 군집에서 가장 가까운 데이터인 B와 D의 거리슬라이드9.JPG

최단거리로 지정했을 때의 덴드로그램 입니다.


슬라이드10.JPG

2. 최장연결법 (Complete Linkage)

군집A와 군집B에 속하는 데이터중 가장 먼 데이터들의 거리로 군집간의 거리로 정의


위의 예제를 동일하게 진행해보도록 하겠습니다.슬라이드11.JPG

1단계 ) A,B,C,D,E 데이터중 가장 가까운 데이터는 D와 E임으로 하나의 군집으로 처리합니다.슬라이드12.JPG

2단계 ) A,B,C 데이터와 (D,E) 군집의 거리  =  A,B,C 각각의 데이터와 D와 E중 먼 데이터의 거리

       로 정의하여 군집과 데이터들 사이의 거리를 나타낸뒤 가장 가까운 데이터인 A와 B를 하나의 군집으로 처리합니다. 슬라이드13.JPG

3단계 ~ ) 2단계를 반복합니다. 

      (A,B)와 (D,E)의 거리 = 두 군집에서 가장 먼 데이터인 A와 E의 거리슬라이드14.JPG

최장거리로 지정했을 때의 덴드로그램 입니다. 최단거리로 했을 때와는 살짝 다른 결과를 나타냄을 알 수 있습니다.


슬라이드15.JPG

3. 평균연결법 (Average Linkage)

군집A와 군집B에 속하는 모든 데이터들의 거리의 평균을 군집간의 거리로 정의


위와 동일한 예제임으로, 1단계는 생략하겠습니다.

슬라이드17.JPG

1단계 ) A,B,C,D,E 데이터중 가장 가까운 데이터는 D와 E임으로 하나의 군집으로 처리합니다.

2단계 ) A,B,C 데이터와 (D,E) 군집의 거리  =  A,B,C 각각의 데이터와 D와 E 데이터의 거리의 평균

   로 정의하여 군집과 데이터들 사이의 거리를 나타낸뒤 가장 가까운 데이터인 A와 B를 하나의 군집으로 처리합니다. 슬라이드18.JPG


3단계 ~ ) 2단계를 반복합니다. 

      (A,B)와 (D,E)의 거리 = 두 군집에서 속하는 데이터의 모든 거리(A-D,A-E,B-D,B-E)의 평균슬라이드19.JPG

평균연결법으로 했을 때의 결과에 대한 덴드로그램입니다.


슬라이드20.JPG

4. 중심연결법 (Centroid Linkage)

군집A와 군집B에 속하는 모든 데이터들의 중심간의 거리로 정의


위와 동일한 예제임으로, 1단계는 생략하겠습니다.슬라이드22.JPG

1단계 ) A,B,C,D,E 데이터중 가장 가까운 데이터는 D와 E임으로 하나의 군집으로 처리합니다.

2단계 ) A,B,C 데이터와 (D,E) 군집의 거리  =  A,B,C 각각의 데이터와 D와 E 데이터 중심(4.5 , 3)과의 거리

   로 정의하여 군집과 데이터들 사이의 거리를 나타낸뒤 가장 가까운 데이터인 A와 B를 하나의 군집으로 처리합니다. 

3단계 ~ ) 2단계를 반복합니다.



마지막으로 군집이 얼마나 잘 되었는지 진단, 평가척도에 대해 알아보겠습니다.

전체적인 개념으로, 군집안의 데이터들끼리는 가깝고 군집과 군집사이의 거리는 멀 수록 "군집이 잘 되었다." 라고 할 수 있겠습니다. 

슬라이드23.JPG

1. Dunn Index

분자 - 군집과 군집사이의 거리 중 최솟값

분모 - 군집내에서의 데이터들의 거리 중 최댓값

분자값이 크면 클수록 군집과 군집사이의 거리가 크고, 분모값이 작으면 작을 수록 군집내의 데이터들이 모여있 으므로 Dunn Index가 클 수록 군집이 잘 된것으로 볼 수 있습니다.


슬라이드24.JPG

슬라이드26.JPG 2. Shilouette

a(i) = 군집내 데이터와의 거리를 나타내는 척도이므로 작으면 작을수록 군집이 잘 모임.

b(i) = 군집과 군집사이의 거리중 최소값이므로, 위의 그림에서는 아래군집보다는 오른쪽군집과의 거리의 평균.

크면 클 수록 군집이 잘 나누어짐.  




이것으로 H-cluster에 대한 부족한 포스팅을 마치도록 하겠습니다.^^



List of Articles
번호 제목 글쓴이 날짜 조회 수
» 8.군집분석[H-cluster] file 바키똥 2015.09.22 59867
7 군집분석[K-means] file 뀐뀐 2015.09.19 58028
6 6. K 근접이웃 알고리즘 1 file 통계돌이 2015.08.16 54240
5 5. 나이브 베이즈 분류기 1 file 통계돌이 2015.07.27 56668
4 4.회귀분석(part2) file 지니상 2015.05.05 66049
3 3. 회귀분석 (part1) file 지니상 2015.04.13 66591
2 2. 통계학 기초 Part2 ssomnium 2015.03.14 53480
1 1. 통계학 기초 Part1 1 ssomnium 2015.03.12 54888
Board Pagination ‹ Prev 1 Next ›
/ 1

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소

Designed by sketchbooks.co.kr / sketchbook5 board skin

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5