본서에서 소개하는 과학적 데이터 분석 방법론은 빅데이터 분석 업무의 전체적인 흐름을 파악할 수 있도록 도와주므로, 빅데이터 사업과 관련된 많은 분들에게 매우 중요한 정보가 될 것이다. 본서를 읽는 독자 중에 빅데이터 분석에 막 발을 들여놓는 독자도 있을 것이고, 십수 년의 경험을 가진 분도 있을 것이다. 본서의 내용을 충분히 이해하고 공감하려면 대형 빅데이터 분석을 몇 차례 수행하면서 여러 고민을 겪어야만 가능할 것이다. 하지만 필자는 빅데이터 입문자도 프로젝트에 대한 이해 범위를 넓히고 자신의 미래 경력을 보다 효과적으로 설계하는데 본서의 내용이 도움이 된다는 측면에서 본서를 읽기를 적극 추천한다. 프로젝트는 다양한 분야의 전문가들이 동일한 목표로 협력하는 것인데, 전체 프로젝트를 보면 자신에게 적합한 분야를 쉽게 찾을 수 있게 된다. 예를 들어, 프로그램 코딩보다 사람과의 관계를 원만히 하는 기술이 있다면 어느 정도 기술을 익힌 후 중간 관리자로 또는 PM으로 역할을 옮길 수 있다.
빅데이터 분석은 과학적 데이터 분석 방법론을 통해 진행하는 것이 안정적이고 효과적이다. 기업은 빅데이터를 이용하여 시장 경쟁력을 확보하고자 하며, 국가는 빅데이터를 이용하여 국가의 정책 추진 효과를 높이고자 할 수도 있다. 어떠한 목적으로 빅데이터를 분석하든 데이터 분석 절차를 거치지 않는다면, 마치 집을 지으면서 설계도도 그리기 전에 기둥부터 올리는 격이 될 것이다. 일의 절차와 목표가 명확하지 않으면 규모가 큰 프로젝트일수록 원하는 결과를 달성하기는 더욱 어려워진다. 백여 개의 공공기관이 참여하는 국가에서 추진하는 빅데이터 사업도 성과를 극대화하기 위해서는 과학적 데이터 분석 방법론을 따라야 한다. 여러 빅데이터 프로젝트를 기획하고 통합 관리하는 작업이라고 하여도, 방법론에 대한 지식 없이는 프로젝트 간의 시너지 효과를 얻긴 어렵다.
과학적 데이터 분석 방법론은 문제정의단계, 데이터준비단계, 모델설계단계, 모델구현단계, 결과도출단계, 서비스구현단계로 구성된다. 경영 및 사회과학 분야의 참여자가 관심을 가지는 문제정의단계에서 기업의 핵심 문제점을 분석하는 작업도 별도의 장으로 구성하여 설명하였다. 기업의 문제점이 무엇인지 파악되었다면, 이를 어떤 절차를 통해 데이터 분석 문제로 변환하고 성공과 실패를 판단할 수 있을지를 설명하였다. 또한 어느 시점에 어떤 산출물을 내어 어떻게 발주 기관과 협력해야 하는지를 포함하였다. 빅데이터 프로젝트에서 다양한 분야의 전문가 그룹이 어떻게 효과적으로 협력할 수 있을지를 RACI 차트를 통해 가능한 한 명확히 설명하고자 하였다.
* 김형래
- 관동대학교 공과대학 컴퓨터학과 학사
- 한국외국어대학교 경영대학원 경영정보학 MBA
- 미국 Florida Institute of Technology 컴퓨터과학 석·박사
- 미국 North Carolina Livingstone College 교수
- 데이터분석 지능화 연구소
- 한국고용정보원 데이터관리팀
-주요 연구분야: 데이터분석 지능화, 개인화(Personilization), 금융 시계열 데이터 분석,
추천 알고리즘, 포렌식(Forensic) 데이터 탐색, 데이터 표준화, 고용 패턴, 머신러닝
- 저서: 데이터 분석 및 머신러닝 관련 논문 다수
* 전도홍
- 미국 Olahoma City University 컴퓨터과학 학사
- 미국 Florida Institute of Technology 컴퓨터과학 석사
- 미국 Florida Institute of Technology 컴퓨터교육학 박사
- 미국 California State University(CSUS) 초빙교수
- 현 관동대학교 공과대학 컴퓨터학과 교수
- 한국 컴퓨터교육학회 부회장 역임
- 전국대학 정보전산협의회 이사역임
- 주요 연구분야: 컴퓨터그래픽스, 빅데이터, 인공지등
- 저서: 컴퓨터그래픽스이론(정익사)외 다수
* 김정래
- 서울과학기술대학교 학사
- 국방대학교 정보관리학 석사
- 데이터분석 지능화 연구소
- 주요 연구분야: Hadoop Big Data Analytics, Text Mining, Parallel R
- 저서: 빅데이터 분석 관련 연구논문 및 프로젝트 수행
* 저자 연락처
- 김형래(goddoes8@gmail.com)
01 빅데이터 개요
1 - 1. 빅데이터의 출현 _12
1 - 2. 빅데이터의 특성 _15
1 - 3. 데이터의 구조 _18
1 - 4. 빅데이터의 활용 사례 _22
02 과학적 데이터 분석
2 - 1. 과학적 데이터 분석 방법 적용 분야 _30
2 - 2. 과학적 데이터 분석을 통한 예측 정확성 제고 _33
2 - 3. BI와 과학적 데이터 분석의 차이 _34
2 - 4. 기존 데이터 분석과 과학적 데이터 분석의 차이 _38
2 - 5. 빅데이터 분석 환경인 샌드박스 구축 필요 _43
2 - 6. 빅데이터를 분석하는 데이터 과학자 _46
03 과학적 데이터 분석 방법론
3 - 1. 과학적 데이터 분석 방법론 활용의 이점 _51
3 - 2. 과학적 데이터 분석 방법론의 특성 _53
3 - 3. 과학적 데이터 분석 방법론 6단계 _54
04과학적 데이터 분석을 위한 환경 분석
4 - 1. 기업 환경 및 업무 분석 _60
4 - 2. 외부 시장 환경 분석 _61
4 - 3. 내부 역량 분석 _66
4 - 4. 기업 내부 전략 분석 _68
4 - 5. 주요발전전략 및 KPIs 도출 _70
4 - 6. 업무 프로세스 및 내부 데이터 분석 _76
05과학적 데이터 분석 방법론 단계별 설명
5 - 1. 문제정의단계 (1단계) _82
5 - 2. 데이터준비단계 (2단계) _92
5 - 3. 모델설계단계 (3단계) _100
5 - 4. 모델구현단계 (4단계) _109
5 - 5. 결과도출단계 (5단계) _113
5 - 6. 서비스구현단계 (6단계) _118
06 과학적 데이터 분석 방법론 산출물 및 사례
6 - 1. 과학적 데이터 분석 방법론의 단계별 산출물 _124
6 - 2. 산출물 검증 방법 _129
6 - 3. 문제정의단계의 기초 분석 사례 _131
6 - 4. 과학적 데이터 분석의 단계별 적용 사례 _135
07 과학적 데이터 분석 방법론 참여자별 역할
7 - 1. 과학적 데이터 분석 프로젝트 참여자 _140
7 - 2. 프로젝트 참여자 RACI 차트 _142
맺음말 _147
참조 _149