close_btn
조회 수 14119 추천 수 1 댓글 1
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files

### 연관성 분석

## 1. 조사 번호, 조사 년도 컬럼은 제거한 후 모든 컬럼을 범주화 시킴

      2. 부채비율이라는 새로운 컬럼 추가(안정성 판단 기준), 부채비율 = 부채총액/자산총액

      3. 인구통계학 변수, 주택 변수를 lhs / 자산총액, 부채비율을 rhs 로 놓고 연관성 분석

      4. 분석 결과 기술 및 시각화




library(stringr)
library(arules)


** 1-1. 데이터 로드 후 조사 번호, 조사 년도 컬럼 제거


setwd("D:\\투빅스")
data <- read.csv("2012공통.csv", stringsAsFactors = F)
dim(data)
data <- data[,3:15]
dim(data)
str(data)
class(data)
colnames(data)


** 1-2. 모든 컬럼 범주화


# 성별 명목화
data$가구주.성별 <- ifelse(data$가구주.성별==1,"남자","여자")


# 나이 범주화

data$가구주.만나이[data$가구주.만나이<=19] <- "10대"
data$가구주.만나이[data$가구주.만나이>=20&data$가구주.만나이<=29] <- "20대"
data$가구주.만나이[data$가구주.만나이>=30&data$가구주.만나이<=39] <- "30대"
data$가구주.만나이[data$가구주.만나이>=40&data$가구주.만나이<=49] <- "40대"
data$가구주.만나이[data$가구주.만나이>=50&data$가구주.만나이<=59] <- "50대"
data$가구주.만나이[data$가구주.만나이>=60&data$가구주.만나이<=69] <- "60대"
data$가구주.만나이[data$가구주.만나이>=70&data$가구주.만나이<=79] <- "70대"
data$가구주.만나이[data$가구주.만나이>=80&data$가구주.만나이<=89] <- "80대"
data$가구주.만나이[data$가구주.만나이>=90&data$가구주.만나이<=99] <- "90대"


# 동거여부 명목화
data$가구주.동거여부[data$가구주.동거여부==1] <- "1인 가구"
data$가구주.동거여부[data$가구주.동거여부==2] <- "같이 살고 있음"
data$가구주.동거여부[data$가구주.동거여부==3] <- "따로 살고 있음(학업,취업)"
data$가구주.동거여부[data$가구주.동거여부==4] <- "따로 살고 있음(군인 등)"


# 교육정도 명목화
data$가구주.교육정도_학교[data$가구주.교육정도_학교==1] <- "안 받음(미취학 포함)"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==2] <- "초등학교"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==3] <- "중학교"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==4] <- "고등학교"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==5] <- "대학교(3년제 이하)"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==6] <- "대학교(4년제 이상)"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==7] <- "대학원 이상"


# 가구주 혼인상태
data$가구주.혼인상태[data$가구주.혼인상태==1] <- "미혼"
data$가구주.혼인상태[data$가구주.혼인상태==2] <- "기혼"
data$가구주.혼인상태[data$가구주.혼인상태==3] <- "사별"
data$가구주.혼인상태[data$가구주.혼인상태==4] <- "이혼"


# 가구주 종사상 지위
data$가구주.종사상지위[data$가구주.종사상지위==1] <- "상용근로자"
data$가구주.종사상지위[data$가구주.종사상지위==2] <- "임시.일용직근로자"
data$가구주.종사상지위[data$가구주.종사상지위==3] <- "고용원이 있는 자영업자"
data$가구주.종사상지위[data$가구주.종사상지위==4] <- "고용원이 없는 자영업자"
data$가구주.종사상지위[data$가구주.종사상지위==5] <- "무급가족종사자"
data$가구주.종사상지위[data$가구주.종사상지위==6] <- "기타종사자"
data$가구주.종사상지위[data$가구주.종사상지위==7] <- "무직자,기사,학생"


# 주택 종류
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==1] <- "단독주택"
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==2] <- "아파트"
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==3] <- "연립 및 다세대주택"
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==4] <- "기타"


# 전용 면적 (제곱미터를 평수로 바꿔서 계산)
e <- data$전용면적
e[data$전용면적<=33] <- "10평 이하"
e[data$전용면적>33&data$전용면적<=66] <- "10평 대"
e[data$전용면적>66&data$전용면적<=99] <- "20평 대"
e[data$전용면적>99&data$전용면적<=132] <- "30평 대"
e[data$전용면적>132&data$전용면적<=165] <- "40평 대"
e[data$전용면적>165&data$전용면적<=198] <- "50평 대"
e[data$전용면적>198&data$전용면적<=231] <- "60평 대"
e[data$전용면적>231&data$전용면적<=264] <- "70평 대"
e[data$전용면적>264&data$전용면적<=297] <- "80평 대"
e[data$전용면적>297&data$전용면적<=330] <- "90평 대"
e[data$전용면적>330&data$전용면적<=661] <- "100평 대"
e[data$전용면적>661&data$전용면적<=991] <- "200평 대"
table(e)
data$전용면적 <- e


# 입주 형태
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==1] <- "자기집"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==2] <- "전세"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==3] <- "보증금 있는 월세,사글세"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==4] <- "보증금 없는 월세,사글세"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==5] <- "기타(무상주택,무상사택)"


# 자산 
f <- data$자산총액

f[order(data$자산총액)<=length(data$자산총액)*0.1] <- "10%"
f[order(data$자산총액)>length(data$자산총액)*0.1&order(data$자산총액)<=length(data$자산총액)*0.2] <- "20%"
f[order(data$자산총액)>length(data$자산총액)*0.2&order(data$자산총액)<=length(data$자산총액)*0.3] <- "30%"
f[order(data$자산총액)>length(data$자산총액)*0.3&order(data$자산총액)<=length(data$자산총액)*0.4] <- "40%"
f[order(data$자산총액)>length(data$자산총액)*0.4&order(data$자산총액)<=length(data$자산총액)*0.5] <- "50%"
f[order(data$자산총액)>length(data$자산총액)*0.5&order(data$자산총액)<=length(data$자산총액)*0.6] <- "60%"
f[order(data$자산총액)>length(data$자산총액)*0.6&order(data$자산총액)<=length(data$자산총액)*0.7] <- "70%"
f[order(data$자산총액)>length(data$자산총액)*0.7&order(data$자산총액)<=length(data$자산총액)*0.8] <- "80%"
f[order(data$자산총액)>length(data$자산총액)*0.8&order(data$자산총액)<=length(data$자산총액)*0.9] <- "90%"
f[order(data$자산총액)>length(data$자산총액)*0.9&order(data$자산총액)<=length(data$자산총액)*1] <- "100%"

data$자산총액 <- f


** 2. 부채 비율 변수 추가 - 부채 총액/자산 총액


부채비율 <- (data$부채총액/data$자산총액)
data <- cbind(data,부채비율)
colnames(data)
head(data)


# 부채 비율 - 선진국 부채 비율(74%) 기준


d <- 부채비율
d[부채비율<=0.64] <- "매우 안정"
d[부채비율>0.64&부채비율<=0.84] <-"평균 안정"
d[부채비율>=0.84&부채비율<=100000] <-"불안정"
table(d)
data$부채비율 <- d



head(data)


** 3. 인구통계학 변수, 주택 변수를 lhs / 자산총액, 부채비율을 rhs 로 놓고 연관성 분석


# 인구통계 및 주택 변수와 자산 총액 간의 연관성 분석

data_asset <- data[,1:11]
df <- as.data.frame(sapply(data_asset,as.factor))
str(df)
df <- as(df,"transactions")
summary(df)


# 자산 총액 - 상위 10%

rule_rich <- apriori(df,parameter=list(support=0.03,confidence=0.1,minlen=2),
                appearance = list(rhs="자산총액=10%",default="lhs"))
rule_rich <- sort(rule_rich,by="lift")
inspect(rule_rich)


# 자산 총액 - 상위 100%

rule_poor <- apriori(df,parameter=list(support=0.03,confidence=0.1,minlen=2),
                 appearance = list(rhs="자산총액=100%",default="lhs"))
rule_poor <- sort(rule_poor,by="lift")
inspect(rule_poor)


# 인구통계 및 주택 변수와 부채비율 간의 연관성 분석
data_debt <-data[,c(1:10,14)]
db <- as.data.frame(sapply(data_debt,as.factor))
str(db)
db <- as(db,"transactions")
summary(db)


# 부채 비율 - 매우 안정

rule_stable <- apriori(db,parameter=list(support=0.4,confidence=0.8,minlen=2),
                appearance = list(rhs="부채비율=매우 안정",default="lhs"))
rule_stable <- sort(rule_stable,by="lift")
inspect(rule_stable)


# 부채 비율 - 불안정

rule_unstable <- apriori(db,parameter=list(support=0.01,confidence=0.1,minlen=2),
               appearance = list(rhs="부채비율=불안정",default="lhs"))

rule_unstable <- sort(rule_unstable,by="lift")
inspect(rule_unstable)


** 4. 분석 결과 기술 및 시각화


# 자산 총액 - 상위 10%

- 혼인 상태가 '기혼', 거주 주택 종류가 '아파트', 가구주 성별이 '남자', 가구주가 '같이 살고 있음', 입주 형태가 '자기집'인 특징을 가진 가구가 자산이 많은 것으로 나왔습니다.


   lhs                                                                                                       
7  {가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트}                                                 =>
12 {가구주.성별=남자,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트}                                =>
2  {현재.살고.있는.주택의.종류=아파트}                                                                      =>
13 {가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트}                  =>
8  {가구주.성별=남자,현재.살고.있는.주택의.종류=아파트}                                                     =>
9  {가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.종류=아파트}                                       =>
1  {전용면적=10평 대}                                                                                       =>
16 {가구주.성별=남자,가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트} =>
6  {현재.살고.있는.주택의.종류=아파트,현재.살고.있는.주택의.입주형태=자기집}                                =>
14 {가구주.성별=남자,가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.종류=아파트}                      =>
4  {가구주.성별=남자,전용면적=10평 대}                                                                      =>
10 {가구주.혼인상태=기혼,현재.살고.있는.주택의.입주형태=자기집}                                             =>
5  {가구주.동거여부=같이 살고 있음,전용면적=10평 대}                                                        =>
3  {현재.살고.있는.주택의.입주형태=자기집}                                                                  =>
11 {가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.입주형태=자기집}                                   =>
15 {가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.입주형태=자기집}              =>
   rhs            support    confidence lift   
7  {자산총액=10%} 0.03986021 0.1042660  1.042872
12 {자산총액=10%} 0.03803687 0.1033297  1.033506
2  {자산총액=10%} 0.04968598 0.1031112  1.031321
13 {자산총액=10%} 0.03844206 0.1027759  1.027967
8  {자산총액=10%} 0.04137966 0.1026382  1.026590
9  {자산총액=10%} 0.04325365 0.1023367  1.023575
1  {자산총액=10%} 0.04188614 0.1019352  1.019558
16 {자산총액=10%} 0.03661872 0.1017450  1.017656
6  {자산총액=10%} 0.03099676 0.1015431  1.015636
14 {자산총액=10%} 0.03823947 0.1015194  1.015400
4  {자산총액=10%} 0.03008509 0.1011925  1.012130
10 {자산총액=10%} 0.04629254 0.1007940  1.008144
5  {자산총액=10%} 0.03211102 0.1006349  1.006553
3  {자산총액=10%} 0.05819489 0.1005249  1.005453
11 {자산총액=10%} 0.05064830 0.1004218  1.004421
15 {자산총액=10%} 0.04533023 0.1002464  1.002667

- 시각화

library(arulesViz)
plot(rule_rich,method="grouped")


rule_rich.jpg


# 자산 총액 - 상위 100%

- 자산 총액이 낮은 사람들의 공통점은 크게 발견되지 않으나, 종사상 지위가 '상용근로자', 전용면적이 '작음', 가구주가 '같이 살고 있음'의 특징을 가진 가구가 자산이 적은 것으로 나타났습니다.


  lhs                                                                                        rhs           
2 {가구주.교육정도_학교=고등학교}                                                         => {자산총액=100%}
3 {현재.살고.있는.주택의.종류=단독주택}                                                   => {자산총액=100%}
7 {가구주.동거여부=같이 살고 있음,전용면적=10평 대}                                       => {자산총액=100%}
6 {가구주.동거여부=같이 살고 있음,가구주.종사상지위=상용근로자}                           => {자산총액=100%}
5 {가구주.성별=남자}                                                                      => {자산총액=100%}
1 {전용면적=20평 대}                                                                      => {자산총액=100%}
8 {가구주.성별=남자,가구주.동거여부=같이 살고 있음}                                       => {자산총액=100%}
4 {가구주.종사상지위=상용근로자}                                                          => {자산총액=100%}
9 {가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트} => {자산총액=100%}
  support    confidence lift   
2 0.03327593 0.1015927  1.015618
3 0.03834076 0.1010816  1.010509
7 0.03216167 0.1007937  1.007630
6 0.03575770 0.1005698  1.005392
5 0.07804903 0.1005481  1.005175
1 0.03271880 0.1004353  1.004048
8 0.06989465 0.1002470  1.002165
4 0.04031605 0.1001384  1.001080
9 0.03742909 0.1000677  1.000373


- 시각화

plot(rule_poor,method="paracoord")


rule_poor.jpg


# 부채 비율 - 매우 안정

- 가구주 성별이 '남자', 혼인상태가 '기혼', 입주 형태가 '자기집', 가구주가 '같이 살고 있음'의 특징을 지닌 가구가 부채비율이 안정적인 것으로 나타났습니다.


   lhs                                        rhs                    support confidence     lift
1  {가구주.성별=남자,                                                                          
    가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4308651  0.9770300 1.040311
2  {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4239263  0.9768908 1.040162
3  {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음,                                                            
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4461609  0.9768241 1.040091
4  {가구주.성별=남자,                                                                          
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4709279  0.9767833 1.040048
5  {현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.5652350  0.9763780 1.039616
6  {가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4481361  0.9757389 1.038936
7  {가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4411467  0.9755824 1.038769
8  {가구주.동거여부=같이 살고 있음,                                                            
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4918963  0.9752962 1.038465
9  {현재.살고.있는.주택의.종류=아파트}     => {부채비율=매우 안정} 0.4616086  0.9579567 1.020002
10 {가구주.동거여부=같이 살고 있음,                                                            
    현재.살고.있는.주택의.종류=아파트}     => {부채비율=매우 안정} 0.4046293  0.9573397 1.019345
11 {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6190235  0.9491341 1.010608
12 {가구주.성별=남자,                                                                          
    가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6303687  0.9489897 1.010454
13 {가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6485008  0.9469013 1.008231
14 {가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6599473  0.9468101 1.008133
15 {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음}        => {부채비율=매우 안정} 0.6599980  0.9466076 1.007918
16 {가구주.성별=남자}                      => {부채비율=매우 안정} 0.7314121  0.9422550 1.003283
17 {가구주.동거여부=같이 살고 있음}        => {부채비율=매우 안정} 0.7582557  0.9395042 1.000354


- 시각화

plot(rule_stable,method="graph")


rule_stable.jpg


# 부채 비율 - 불안정

- 주택 입주 형태가 '보증금 있는 월세,사글세'인 가구가 부채 비율이 불안정적인 것으로 나타났습니다.


  lhs                                                                                                       
5 {가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                  =>
6 {가구주.성별=남자,가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세} =>
4 {가구주.성별=남자,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                                =>
3 {전용면적=10평 대,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                                =>
2 {현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                                                 =>
1 {가구주.혼인상태=이혼}                                                                                   =>
  rhs               support    confidence lift   
5 {부채비율=불안정} 0.01478930 0.1469552  3.654262
6 {부채비율=불안정} 0.01023096 0.1449067  3.603323
4 {부채비율=불안정} 0.01301661 0.1388439  3.452561
3 {부채비율=불안정} 0.01144652 0.1317016  3.274958
2 {부채비율=불안정} 0.01929700 0.1292840  3.214841
1 {부채비율=불안정} 0.01058549 0.1146462  2.850849


- 시각화

plot(rule_unstable)


rule_unstable.jpg







List of Articles
번호 제목 글쓴이 날짜 조회 수
공지 우수 코드 게시판 이용 관련 공지사항 DataMarket 2014.05.21 39655
53 투빅스 5&6기 2주차과제 1번 회귀분석 -6기 한동훈 2 file 투빅스6기한동훈 2016.08.04 11245
52 투빅스 5&6기 2주차 과제 2번 마방진 만들기 - 6기 임진주 4 file 진주 2016.08.04 10959
51 투빅스 5&6기 1주차 과제 2번 재석 2016.07.28 9418
50 5&6기 1주차 과제 1번 - 6기 이윤섭 겨뽀 2016.07.28 10123
49 투빅스 5&6기 1주차 과제코드 Alan 2016.07.27 9558
48 크롤링 - 전국 이디야 매장정보를 중심으로 (5기 이승은) 2 file 켜져있는멀티탭 2016.03.26 26750
47 crawling - 5기 이제형 4 trevor 2016.03.24 14413
46 PCA (주성분 분석) - 5기 이제형 trevor 2016.03.09 14750
45 NBA data 회귀분석 / Adult data 로지스틱 회귀분석, 나이브베이즈, 의사결정나무 - 5기 정현재 2 file 정현재 2016.03.03 17937
44 NBA 회귀분석 / adult 로지스틱회귀, 나이브베이즈, 의사결정나무 - 5기 최도현 3 file 알빈 2016.03.03 20271
43 K-Means Funtion (5기 이제형) 3 trevor 2016.02.25 13735
42 박이삭_기초스터디__반복문 및 apply함수 및 데이터프레임다루기 지니상 2016.02.12 10686
41 최도현_기초스터디_R기초 지니상 2016.02.12 11377
40 양우식_기초스터디_dplyr_sqldf 지니상 2016.02.12 12171
39 이정민_기초스터디_stringr패키지 지니상 2016.02.12 17660
38 고가영_기초스터디_파일불러오기 및 Rmarkdown 지니상 2016.02.12 13563
37 입출금 처리 프로그램 (4주차 과제) - 5기 방정훈 file Alan 2016.02.10 12430
36 연관성 분석(3주차 과제) & KNN 함수만들기(3주차 과제) - 4기 김선지 순지 2016.02.09 13667
» 연관성 분석(3주차 과제) - 5기 이정민 1 file 쩡마 2016.02.07 14119
34 KNN 함수만들기 (3주차 과제) - 5기 방정훈 Alan 2016.02.03 14394
Board Pagination ‹ Prev 1 ... 2 3 4 5 6 7 ... 8 Next ›
/ 8

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소

Designed by sketchbooks.co.kr / sketchbook5 board skin

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5