close_btn
조회 수 14466 추천 수 1 댓글 1
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print Files

### 연관성 분석

## 1. 조사 번호, 조사 년도 컬럼은 제거한 후 모든 컬럼을 범주화 시킴

      2. 부채비율이라는 새로운 컬럼 추가(안정성 판단 기준), 부채비율 = 부채총액/자산총액

      3. 인구통계학 변수, 주택 변수를 lhs / 자산총액, 부채비율을 rhs 로 놓고 연관성 분석

      4. 분석 결과 기술 및 시각화




library(stringr)
library(arules)


** 1-1. 데이터 로드 후 조사 번호, 조사 년도 컬럼 제거


setwd("D:\\투빅스")
data <- read.csv("2012공통.csv", stringsAsFactors = F)
dim(data)
data <- data[,3:15]
dim(data)
str(data)
class(data)
colnames(data)


** 1-2. 모든 컬럼 범주화


# 성별 명목화
data$가구주.성별 <- ifelse(data$가구주.성별==1,"남자","여자")


# 나이 범주화

data$가구주.만나이[data$가구주.만나이<=19] <- "10대"
data$가구주.만나이[data$가구주.만나이>=20&data$가구주.만나이<=29] <- "20대"
data$가구주.만나이[data$가구주.만나이>=30&data$가구주.만나이<=39] <- "30대"
data$가구주.만나이[data$가구주.만나이>=40&data$가구주.만나이<=49] <- "40대"
data$가구주.만나이[data$가구주.만나이>=50&data$가구주.만나이<=59] <- "50대"
data$가구주.만나이[data$가구주.만나이>=60&data$가구주.만나이<=69] <- "60대"
data$가구주.만나이[data$가구주.만나이>=70&data$가구주.만나이<=79] <- "70대"
data$가구주.만나이[data$가구주.만나이>=80&data$가구주.만나이<=89] <- "80대"
data$가구주.만나이[data$가구주.만나이>=90&data$가구주.만나이<=99] <- "90대"


# 동거여부 명목화
data$가구주.동거여부[data$가구주.동거여부==1] <- "1인 가구"
data$가구주.동거여부[data$가구주.동거여부==2] <- "같이 살고 있음"
data$가구주.동거여부[data$가구주.동거여부==3] <- "따로 살고 있음(학업,취업)"
data$가구주.동거여부[data$가구주.동거여부==4] <- "따로 살고 있음(군인 등)"


# 교육정도 명목화
data$가구주.교육정도_학교[data$가구주.교육정도_학교==1] <- "안 받음(미취학 포함)"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==2] <- "초등학교"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==3] <- "중학교"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==4] <- "고등학교"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==5] <- "대학교(3년제 이하)"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==6] <- "대학교(4년제 이상)"
data$가구주.교육정도_학교[data$가구주.교육정도_학교==7] <- "대학원 이상"


# 가구주 혼인상태
data$가구주.혼인상태[data$가구주.혼인상태==1] <- "미혼"
data$가구주.혼인상태[data$가구주.혼인상태==2] <- "기혼"
data$가구주.혼인상태[data$가구주.혼인상태==3] <- "사별"
data$가구주.혼인상태[data$가구주.혼인상태==4] <- "이혼"


# 가구주 종사상 지위
data$가구주.종사상지위[data$가구주.종사상지위==1] <- "상용근로자"
data$가구주.종사상지위[data$가구주.종사상지위==2] <- "임시.일용직근로자"
data$가구주.종사상지위[data$가구주.종사상지위==3] <- "고용원이 있는 자영업자"
data$가구주.종사상지위[data$가구주.종사상지위==4] <- "고용원이 없는 자영업자"
data$가구주.종사상지위[data$가구주.종사상지위==5] <- "무급가족종사자"
data$가구주.종사상지위[data$가구주.종사상지위==6] <- "기타종사자"
data$가구주.종사상지위[data$가구주.종사상지위==7] <- "무직자,기사,학생"


# 주택 종류
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==1] <- "단독주택"
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==2] <- "아파트"
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==3] <- "연립 및 다세대주택"
data$현재.살고.있는.주택의.종류[data$현재.살고.있는.주택의.종류==4] <- "기타"


# 전용 면적 (제곱미터를 평수로 바꿔서 계산)
e <- data$전용면적
e[data$전용면적<=33] <- "10평 이하"
e[data$전용면적>33&data$전용면적<=66] <- "10평 대"
e[data$전용면적>66&data$전용면적<=99] <- "20평 대"
e[data$전용면적>99&data$전용면적<=132] <- "30평 대"
e[data$전용면적>132&data$전용면적<=165] <- "40평 대"
e[data$전용면적>165&data$전용면적<=198] <- "50평 대"
e[data$전용면적>198&data$전용면적<=231] <- "60평 대"
e[data$전용면적>231&data$전용면적<=264] <- "70평 대"
e[data$전용면적>264&data$전용면적<=297] <- "80평 대"
e[data$전용면적>297&data$전용면적<=330] <- "90평 대"
e[data$전용면적>330&data$전용면적<=661] <- "100평 대"
e[data$전용면적>661&data$전용면적<=991] <- "200평 대"
table(e)
data$전용면적 <- e


# 입주 형태
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==1] <- "자기집"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==2] <- "전세"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==3] <- "보증금 있는 월세,사글세"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==4] <- "보증금 없는 월세,사글세"
data$현재.살고.있는.주택의.입주형태[data$현재.살고.있는.주택의.입주형태==5] <- "기타(무상주택,무상사택)"


# 자산 
f <- data$자산총액

f[order(data$자산총액)<=length(data$자산총액)*0.1] <- "10%"
f[order(data$자산총액)>length(data$자산총액)*0.1&order(data$자산총액)<=length(data$자산총액)*0.2] <- "20%"
f[order(data$자산총액)>length(data$자산총액)*0.2&order(data$자산총액)<=length(data$자산총액)*0.3] <- "30%"
f[order(data$자산총액)>length(data$자산총액)*0.3&order(data$자산총액)<=length(data$자산총액)*0.4] <- "40%"
f[order(data$자산총액)>length(data$자산총액)*0.4&order(data$자산총액)<=length(data$자산총액)*0.5] <- "50%"
f[order(data$자산총액)>length(data$자산총액)*0.5&order(data$자산총액)<=length(data$자산총액)*0.6] <- "60%"
f[order(data$자산총액)>length(data$자산총액)*0.6&order(data$자산총액)<=length(data$자산총액)*0.7] <- "70%"
f[order(data$자산총액)>length(data$자산총액)*0.7&order(data$자산총액)<=length(data$자산총액)*0.8] <- "80%"
f[order(data$자산총액)>length(data$자산총액)*0.8&order(data$자산총액)<=length(data$자산총액)*0.9] <- "90%"
f[order(data$자산총액)>length(data$자산총액)*0.9&order(data$자산총액)<=length(data$자산총액)*1] <- "100%"

data$자산총액 <- f


** 2. 부채 비율 변수 추가 - 부채 총액/자산 총액


부채비율 <- (data$부채총액/data$자산총액)
data <- cbind(data,부채비율)
colnames(data)
head(data)


# 부채 비율 - 선진국 부채 비율(74%) 기준


d <- 부채비율
d[부채비율<=0.64] <- "매우 안정"
d[부채비율>0.64&부채비율<=0.84] <-"평균 안정"
d[부채비율>=0.84&부채비율<=100000] <-"불안정"
table(d)
data$부채비율 <- d



head(data)


** 3. 인구통계학 변수, 주택 변수를 lhs / 자산총액, 부채비율을 rhs 로 놓고 연관성 분석


# 인구통계 및 주택 변수와 자산 총액 간의 연관성 분석

data_asset <- data[,1:11]
df <- as.data.frame(sapply(data_asset,as.factor))
str(df)
df <- as(df,"transactions")
summary(df)


# 자산 총액 - 상위 10%

rule_rich <- apriori(df,parameter=list(support=0.03,confidence=0.1,minlen=2),
                appearance = list(rhs="자산총액=10%",default="lhs"))
rule_rich <- sort(rule_rich,by="lift")
inspect(rule_rich)


# 자산 총액 - 상위 100%

rule_poor <- apriori(df,parameter=list(support=0.03,confidence=0.1,minlen=2),
                 appearance = list(rhs="자산총액=100%",default="lhs"))
rule_poor <- sort(rule_poor,by="lift")
inspect(rule_poor)


# 인구통계 및 주택 변수와 부채비율 간의 연관성 분석
data_debt <-data[,c(1:10,14)]
db <- as.data.frame(sapply(data_debt,as.factor))
str(db)
db <- as(db,"transactions")
summary(db)


# 부채 비율 - 매우 안정

rule_stable <- apriori(db,parameter=list(support=0.4,confidence=0.8,minlen=2),
                appearance = list(rhs="부채비율=매우 안정",default="lhs"))
rule_stable <- sort(rule_stable,by="lift")
inspect(rule_stable)


# 부채 비율 - 불안정

rule_unstable <- apriori(db,parameter=list(support=0.01,confidence=0.1,minlen=2),
               appearance = list(rhs="부채비율=불안정",default="lhs"))

rule_unstable <- sort(rule_unstable,by="lift")
inspect(rule_unstable)


** 4. 분석 결과 기술 및 시각화


# 자산 총액 - 상위 10%

- 혼인 상태가 '기혼', 거주 주택 종류가 '아파트', 가구주 성별이 '남자', 가구주가 '같이 살고 있음', 입주 형태가 '자기집'인 특징을 가진 가구가 자산이 많은 것으로 나왔습니다.


   lhs                                                                                                       
7  {가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트}                                                 =>
12 {가구주.성별=남자,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트}                                =>
2  {현재.살고.있는.주택의.종류=아파트}                                                                      =>
13 {가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트}                  =>
8  {가구주.성별=남자,현재.살고.있는.주택의.종류=아파트}                                                     =>
9  {가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.종류=아파트}                                       =>
1  {전용면적=10평 대}                                                                                       =>
16 {가구주.성별=남자,가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트} =>
6  {현재.살고.있는.주택의.종류=아파트,현재.살고.있는.주택의.입주형태=자기집}                                =>
14 {가구주.성별=남자,가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.종류=아파트}                      =>
4  {가구주.성별=남자,전용면적=10평 대}                                                                      =>
10 {가구주.혼인상태=기혼,현재.살고.있는.주택의.입주형태=자기집}                                             =>
5  {가구주.동거여부=같이 살고 있음,전용면적=10평 대}                                                        =>
3  {현재.살고.있는.주택의.입주형태=자기집}                                                                  =>
11 {가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.입주형태=자기집}                                   =>
15 {가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.입주형태=자기집}              =>
   rhs            support    confidence lift   
7  {자산총액=10%} 0.03986021 0.1042660  1.042872
12 {자산총액=10%} 0.03803687 0.1033297  1.033506
2  {자산총액=10%} 0.04968598 0.1031112  1.031321
13 {자산총액=10%} 0.03844206 0.1027759  1.027967
8  {자산총액=10%} 0.04137966 0.1026382  1.026590
9  {자산총액=10%} 0.04325365 0.1023367  1.023575
1  {자산총액=10%} 0.04188614 0.1019352  1.019558
16 {자산총액=10%} 0.03661872 0.1017450  1.017656
6  {자산총액=10%} 0.03099676 0.1015431  1.015636
14 {자산총액=10%} 0.03823947 0.1015194  1.015400
4  {자산총액=10%} 0.03008509 0.1011925  1.012130
10 {자산총액=10%} 0.04629254 0.1007940  1.008144
5  {자산총액=10%} 0.03211102 0.1006349  1.006553
3  {자산총액=10%} 0.05819489 0.1005249  1.005453
11 {자산총액=10%} 0.05064830 0.1004218  1.004421
15 {자산총액=10%} 0.04533023 0.1002464  1.002667

- 시각화

library(arulesViz)
plot(rule_rich,method="grouped")


rule_rich.jpg


# 자산 총액 - 상위 100%

- 자산 총액이 낮은 사람들의 공통점은 크게 발견되지 않으나, 종사상 지위가 '상용근로자', 전용면적이 '작음', 가구주가 '같이 살고 있음'의 특징을 가진 가구가 자산이 적은 것으로 나타났습니다.


  lhs                                                                                        rhs           
2 {가구주.교육정도_학교=고등학교}                                                         => {자산총액=100%}
3 {현재.살고.있는.주택의.종류=단독주택}                                                   => {자산총액=100%}
7 {가구주.동거여부=같이 살고 있음,전용면적=10평 대}                                       => {자산총액=100%}
6 {가구주.동거여부=같이 살고 있음,가구주.종사상지위=상용근로자}                           => {자산총액=100%}
5 {가구주.성별=남자}                                                                      => {자산총액=100%}
1 {전용면적=20평 대}                                                                      => {자산총액=100%}
8 {가구주.성별=남자,가구주.동거여부=같이 살고 있음}                                       => {자산총액=100%}
4 {가구주.종사상지위=상용근로자}                                                          => {자산총액=100%}
9 {가구주.동거여부=같이 살고 있음,가구주.혼인상태=기혼,현재.살고.있는.주택의.종류=아파트} => {자산총액=100%}
  support    confidence lift   
2 0.03327593 0.1015927  1.015618
3 0.03834076 0.1010816  1.010509
7 0.03216167 0.1007937  1.007630
6 0.03575770 0.1005698  1.005392
5 0.07804903 0.1005481  1.005175
1 0.03271880 0.1004353  1.004048
8 0.06989465 0.1002470  1.002165
4 0.04031605 0.1001384  1.001080
9 0.03742909 0.1000677  1.000373


- 시각화

plot(rule_poor,method="paracoord")


rule_poor.jpg


# 부채 비율 - 매우 안정

- 가구주 성별이 '남자', 혼인상태가 '기혼', 입주 형태가 '자기집', 가구주가 '같이 살고 있음'의 특징을 지닌 가구가 부채비율이 안정적인 것으로 나타났습니다.


   lhs                                        rhs                    support confidence     lift
1  {가구주.성별=남자,                                                                          
    가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4308651  0.9770300 1.040311
2  {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4239263  0.9768908 1.040162
3  {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음,                                                            
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4461609  0.9768241 1.040091
4  {가구주.성별=남자,                                                                          
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4709279  0.9767833 1.040048
5  {현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.5652350  0.9763780 1.039616
6  {가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4481361  0.9757389 1.038936
7  {가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼,                                                                      
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4411467  0.9755824 1.038769
8  {가구주.동거여부=같이 살고 있음,                                                            
    현재.살고.있는.주택의.입주형태=자기집} => {부채비율=매우 안정} 0.4918963  0.9752962 1.038465
9  {현재.살고.있는.주택의.종류=아파트}     => {부채비율=매우 안정} 0.4616086  0.9579567 1.020002
10 {가구주.동거여부=같이 살고 있음,                                                            
    현재.살고.있는.주택의.종류=아파트}     => {부채비율=매우 안정} 0.4046293  0.9573397 1.019345
11 {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6190235  0.9491341 1.010608
12 {가구주.성별=남자,                                                                          
    가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6303687  0.9489897 1.010454
13 {가구주.동거여부=같이 살고 있음,                                                            
    가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6485008  0.9469013 1.008231
14 {가구주.혼인상태=기혼}                  => {부채비율=매우 안정} 0.6599473  0.9468101 1.008133
15 {가구주.성별=남자,                                                                          
    가구주.동거여부=같이 살고 있음}        => {부채비율=매우 안정} 0.6599980  0.9466076 1.007918
16 {가구주.성별=남자}                      => {부채비율=매우 안정} 0.7314121  0.9422550 1.003283
17 {가구주.동거여부=같이 살고 있음}        => {부채비율=매우 안정} 0.7582557  0.9395042 1.000354


- 시각화

plot(rule_stable,method="graph")


rule_stable.jpg


# 부채 비율 - 불안정

- 주택 입주 형태가 '보증금 있는 월세,사글세'인 가구가 부채 비율이 불안정적인 것으로 나타났습니다.


  lhs                                                                                                       
5 {가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                  =>
6 {가구주.성별=남자,가구주.동거여부=같이 살고 있음,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세} =>
4 {가구주.성별=남자,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                                =>
3 {전용면적=10평 대,현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                                =>
2 {현재.살고.있는.주택의.입주형태=보증금 있는 월세,사글세}                                                 =>
1 {가구주.혼인상태=이혼}                                                                                   =>
  rhs               support    confidence lift   
5 {부채비율=불안정} 0.01478930 0.1469552  3.654262
6 {부채비율=불안정} 0.01023096 0.1449067  3.603323
4 {부채비율=불안정} 0.01301661 0.1388439  3.452561
3 {부채비율=불안정} 0.01144652 0.1317016  3.274958
2 {부채비율=불안정} 0.01929700 0.1292840  3.214841
1 {부채비율=불안정} 0.01058549 0.1146462  2.850849


- 시각화

plot(rule_unstable)


rule_unstable.jpg







List of Articles
번호 제목 글쓴이 날짜 조회 수
공지 우수 코드 게시판 이용 관련 공지사항 DataMarket 2014.05.21 41264
87 투빅스 7&8기 6주차 과제 TF-IDF 문서유사도 측정 - 8기 최서현 최서현 2017.08.31 8103
86 투빅스 7&8기 5주차 과제 Selenium Crawling - 8기 김강열 김강열 2017.08.24 7365
85 투빅스 7&8기 5주차 과제 Image Augmentation - 8기 김민정 김소희 최수정 황다솔 file 민정e 2017.08.24 7262
84 투빅스 7&8기 5주차 과제 Beautiful Soup 이용한 Crawling - 8기 류호성 file 류호성 2017.08.24 7293
83 투빅스 7&8기 4주차 과제 tree, RF, bagging, boosting 이용 분석 - 8기 조양규 file dial123 2017.08.17 7632
82 투빅스 7&8기 4주차 과제 의사결정나무&랜덤포레스트 - 8기 김강열 김강열 2017.08.17 7575
81 투빅스 7&8기 3주차 과제 클러스터링 구현 - 8기 권문정 김강열 이현경 조양규 1 이현경 2017.08.10 8184
80 투빅스 7&8기 3주차 과제 PCA - 8기 이현경 file 이현경 2017.08.12 7191
79 투빅스 7&8기 2주차 과제 연관성 분석 - 8기 조양규 file dial123 2017.08.03 8345
78 투빅스 7&8기 2주차 과제 나이브베이즈 구현 - 8기 이현경 file 이현경 2017.08.03 8125
77 투빅스 7&8기 2주차 과제 로지스틱/Ridge/Lasso&알고리즘 - 8기 김강열 file 김강열 2017.08.03 7797
76 투빅스 7&8기 1주차 과제 알고리즘 - 8기 김강열 file 김강열 2017.07.27 7424
75 투빅스 7&8기 1주차 과제 회귀분석 - 8기 황다솔 file 다솔 2017.07.27 7637
74 투빅스 6&7기 8주차 과제 PCA(주성분 분석) - 7기 이동수 1 탱탱볼 2017.03.18 10321
73 투빅스 6&7기 8주차 과제 LBP 알고리즘 구현 - 7기 이광록 1 file 2017.03.16 9554
72 투빅스 6&7기 8주차 과제 SVM - 7기 이광록 1 file 2017.03.16 10342
71 투빅스 6&7기 6주차 과제 소멸언어 분류 예측 데이터분석 - 이동수(7기) 2 file 탱탱볼 2017.03.02 11957
70 투빅스 6&7기 5주차 과제 의사결정나무&앙상블 - 7기 최희정 2 file 히둥 2017.02.23 15496
69 투빅스 6&7기 4주차 과제 K-means 분석 및 구현 - 7기 이광록 2 2017.02.19 11069
68 투빅스 6&7기 4주차 과제 KNN 구현 - 전종섭(7기) 2 뻐엉 2017.02.16 10906
Board Pagination ‹ Prev 1 ... 2 3 4 5 6 7 8 9 ... 10 Next ›
/ 10

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소

Designed by sketchbooks.co.kr / sketchbook5 board skin

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5