close_btn
조회 수 57277 추천 수 2 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print
?

단축키

Prev이전 문서

Next다음 문서

+ - Up Down Comment Print

1. 빅데이터 란 

Excel 형식과 같은(Matrix 형태) 정형화 되어있는 데이터를 다루었지만, 사람들이 사용할수 있는 웹상의 컨텐츠가 증가함에 따라 비정형 데이터(텍스트, 이미지, 비디오, 사운드 데이터)도 증가하게 되고 비정형 데이터를 처리하는 기술이 나오게 되었습니다. 이전에는 3V를 만족하는 데이터를 빅데이터라고 불렀지만 요즈음에는 이러한 데이터를 처리하는 기술까지 포함해서 빅데이터라고 얘기합니다.종합하자면, 빅데이터란 3V를 만족하는 데이터 또는 그러한 데이터를 처리할수 있는 기술을 의미한다. - 필자 의견

 

 

2. 소셜 데이터 분석 

수년 전 부터 트위터, 페이스북과 같은 SNS가 스마트폰의 발전과 더불어서 급 뜨기 시작했습니다. 사람들은 SNS를 통해 자신의 감정과 현재 상태에 대해서 말을 하고 표현을 합니다. 과거에는 자기회사의 제품에 대해서 사람들이 어떻게 표현을 하는지 알기위해서는 직접 설문조사를 하고 시장조사를 했어야만 했지만, 요즈음에는 SNS를 통해 직관적으로 파악할 수 있습니다. 사람들이 SNS를 통해 자신의 의견과 생각을 많이 표출하기 때문에, 마케팅을 하는 사람들입장에서는 사람들의 생각을 읽을 수있는 중요한 수단이 아닐수 없습니다. 보통 통계학에서는 대표본이론 이라하여 표본이 충분이 크다면 그 표본의 성질은 모집단에 가까워진다고 합니다. 대표본이라 하는 것은 보통 '30'을 기준으로 합니다. 30명 이상의 표본 데이터가 있으면 그 데이터가 모집단의 대표 성질을 포함할 확률이 매우 높다고 생각하시면 됩니다. 그런데 SNS를 사용하는 사람들이 우리나라만해도 수백만명을 넘어서고 있습니다. 30명만 해도 대표본인데 수백만이라니, 거의 모집단에 가까울만큼 큰 표본이라 할 수 있겠습니다. 이러한 특성 때문에 소셜 데이터 분석은 최근 수년전부터 현재까지도 많은 각광을 받고 있으며 많은 기업에서 사용하고 있습니다. -  필자 의견

 

3. 데이터 마이닝

데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 OLAP (온라인 분석 처리:On-Line Analytic Processing), 인공지능 진영에서 발전한 SOM신경망전문가 시스템 등의 기술적인 방법론이 쓰인다.

데이터 마이닝의 응용 분야로 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업 분야에서 광범위하게 사용되고 있다.

단점으로는, 자료에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수가 있다.  - 출저 구글 위키피디아

 

데이터마이닝은 빅데이터와 통계학의 한 분야라고 생각하시면 좋을것 같습니다. 데이터 마이닝은 90년대에 CRM에 많이 쓰였다가 최근 빅데이터 바람이 불면서 다시 떠오르는 분야입니다. 데이터마이닝기법에는 회귀분석(선형, 비선형, 로지스틱), 의사결정트리, SVM, K-means Clustering, 신경망(Neural Netwrok), 연관규칙(Association Rule), 장바구니 분석 등이 있습니다.  -  필자 의견

 

 

4. 텍스트 마이닝

소셜 데이터 분석이 급 부상하면서 함께 떠오르는 분야 입니다. 텍스트 마이닝을 통해 소셜 데이터 분석이 이루어 진다고 보시면 됩니다. 소셜상의 텍스트 데이터를 모아서 자연어 처리통해  주 키워드가 무엇인지 그 키워드에 대한 긍정인지 부정인지 판별하고 그 긍정 부정률이 전체 어느정도 차지하는지, 긍정 부정에 대한 원인은 무엇인지 분석하는 기법이라고 생각 하시면 될것 같습니다.

영어의 경우에는 문장의 긍정 부정을 판별하기가 용이한 편이지만 한국어의 경우에는 매우 어렵습니다. 이중 부정, 반어법, 역설법, 조롱과 같은 표현 때문에 긍정 부정 판별하기가 쉽지 않습니다. 단순히 긍정 단어가 들어갔다고 해서 그 문장이 긍정을 뜻하는 것은 아니라는 얘기입니다. 예를들어 'ㅋㅋㅋㅋ기분 개같이 좋네' 라는 말은 긍정인가요, 부정인가요? ㅋ, ㅋㅋ, ㅋㅋㅋ, ㅋㅋㅋㅋ 도 의미하는 바가 조금씩 다르다는 것을 아실 겁니다. 또한 반어법같은 표현이 들어가면 그 문장의 긍부정을 잡아내기는 매우 어렵습니다. 텍스트 마이닝을 전문적으로 하는 기관에서도 이러한 부분에 대해서는 계속 연구중이고 텍스트마이닝 전문 기업에서도 현재로서는 전체 데이터중 70%정도 판별하는 수준이라고 합니다.   -  필자 의견

 

5. 자연어 처리

자연어 처리(自然語處理)는 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다.

컴퓨터가 이해할 수 있는 형태로 표현하고자 한다는 점에서 인공지능과 대단히 밀접한 관련이 있으며, 전산언어학과 거의 구별없이 비슷한 의미로 사용된다 ,   - 출저 구글 위키 피디아

 

6. 정형 데이터 

말 그대로 정형화 되어있는 데이터를 뜻합니다. 우리가 흔히 알고 있는 Excel에 들어가있는 데이터를 정형 데이터라고 생각하시면 됩니다.  -  필자 의견

 

7. 비정형 데이터

정형화 되어있지 않는 데이터를 뜻합니다. 음성, 영상, 사운드, 이미지, 텍스트 데이터가 대표적인 예입니다.   - 필자 의견

 

8. 데이터웨어하우스

데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다. 줄여서 DW로도 불린다.    - 출저 구글 위키피디아

 

9. R 

코딩이 가능한 통계 패키지, Open Source + 무료 소프트웨어의 장점으로 최근 많은 기업,기관에서 R을 사용하고 있습니다.  - 필자 의견

 

10 Hadoop

아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다[2]. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다 .  - 출저 구글 위키피디아

 

11. 맵 리듀스 

맵리듀스(MapReduce)는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크  - 출저 구글 위키피디아

 

12. SQL

SQL은 관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어이다. 관계형 데이터베이스 관리 시스템에서 자료의 검색과 관리, 데이터베이스 스키마 생성과 수정, 데이터베이스 객체 접근 조정 관리를 위해 고안되었다. SQL은 데이터베이스로부터 정보를 얻거나 갱신하기 위한 표준 대화식 프로그래밍 언어이다. 많은 수의 데이터베이스 관련 프로그램들이 SQL을 표준으로 채택하고 있다.     - 출저 구글 위키피디아

SQL은 데이터베이스를 다룰 수 있는 언어 라고 생각하시면 좋을 것 같습니다. 언어라고 해봤자 SQL은 초보자가 쓰기에는 매우 쉬운 언어입니다. Microsoft office에서 제공되는 Access도 SQL로 데이터베이스 처리가 가능합니다. Access 외에도 MySql, NoSql, MongoDB 여러가지 DB처리 소프트웨어가 있습니다.     - 필자 의견

 

13. SAS

많은 통계 함수를 내장하고 있는 대표적인 통계 소프트웨어 입니다. 현재까지도 대부분의 기관에서는 SAS를 사용하고 있습니다.(R이 많이 치고 올라와 있는 상황입니다). 통계 분석만 한다고 생각했을 때는 SAS가 가장 강력한 소프트웨어 일지는 모르겠지만, 비싼 License와 R이 최근 빅데이터 도구로서 급부상하면서 최근에는 주춤하는 모습을 보이고 있습니다.

기본적인 통계분석을 하기 위한 SAS Base, 데이터마이닝용 SAS인 SAS Enterprise Guide, SAS Enterprise Miner, Text mining 도구인 SAS Text Miner 등이 있고 모두 유료입니다.(최근 SAS가 무료 배포한다는 뉴스를 접하긴 했습니다만 정확히 어떤 패키지를 무료로 내놓는다는 말은 없었습니다) -  필자 의견

 

 

?

List of Articles
번호 제목 글쓴이 날짜 조회 수
7 BigData Visualization?(빅데이터 시각화?) 1 DataMarket2 2014.05.23 41849
6 BigData 뭐 부터 공부해야 될까? 8 DataMarket2 2014.05.23 38719
5 BigData 대표적인 성공 사례 7가지 1 DataMarket2 2014.05.23 56074
» 빅데이터(BigData) 관련 기초 용어 정리 DataMarket2 2014.05.23 57277
3 BigData 관련하여 알아두면 좋은 사이트 5 DataMarket2 2014.05.23 40764
2 빅데이터를 하기 위한 역량? 3 DataMarket2 2014.05.23 44381
1 빅데이터란? 1 DataMarket 2014.05.21 28785
Board Pagination ‹ Prev 1 Next ›
/ 1

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소

Designed by sketchbooks.co.kr / sketchbook5 board skin

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5

Sketchbook5, 스케치북5