데이터 분석 프로세스 5단계: 문제 정의 > 데이터 수집 > 데이터 전처리 > 데이터 모델링 > 시각화 및 결론 도출

 

문제 정의 : 가장 중요한 부분

분석하고자 하는 분야 이해 

해결해야 하는 문제를 객관적이고 구체적으로 명시

프로젝트 설계에서 문제 정의가 제대로 선행되지 않으면 최종 단계에서 큰 문제가 발생할 수 있음

 

데이터 수집

분석에 필요한 데이터 조건을 정의

데이터 소재를 파악하고 확보하는 작업

-크롤링 : 뉴스, 블로그, 소셜 네트워크, 카페 등 인터넷 상에 존재하는 웹 문서의 데이터 수집, 상업적 사용시 저작권 문제

현재에는 공개된 데이터가 많아서 중요도가 떨어짐

- Open API : 공급운영주체가 데이터와 정보를 제공하기 위해 개발자와 사용자에게 오픈하는 것, 공개 API

- Log Aggregator: 다양한 로그 데이터를 수집하는 오픈 소스 기술, 기업에서 주로 사용

- RDB Aggregator: 관계형 데이터베이스(테이블 간 관계를 표현한 데이터)에서 정형 데이터를 수집해 하둡이나 NoSQL에 저장하는 오픈 소스 기술.

 

데이터 전처리

수집한 데이터에 존재하는 결측치나 누락된 값 등을 수정 및 보완

결측치 대체 및 이상치 유뮤 확인, 제거를 하는 데이터 클리닝 (데이터 정리, 데이터 모델링에 따라 전처리 방법이 차이가 난다.)

분산되어 있는 데이터를 일관성 있는 형태로 변환하는 데이터 통합

적은 양으로도 전체 데이터 집합을 얻는 과정인 데이터 축소

그외 다양한 데이터 전처리 방법이 존재

 

데이터 모델링

데이터를 활용해 비즈니스에 맞는 모델을 만들어 내는 단계

통계 기반, 데이터마이닝 기반, 머신러닝, 딥러닝 등 다양한 방법론이 존재

 

통계 분석 모델링

응용수학의 기법을 이용해 데이터로부터 수치상의 성질, 구칙성 또는 불규칙성을 발견함

특정 모집단에서 구한 표본을 가지고 그 모집단의 특징 및 가능성 등을 추론해내는 추론 통계가 존개

측정이나 실험에서 수집한 자료의 정리, 표현, 예약, 해석 등을 통해 자료의 특징을 규명하는 기술 통계가 존재

 

데이터마이닝 모델링

마이닝 적용 기법 설명
Association(연관성) 데이터 간 연관성 발견
Sequence(연속성) 순서에 따른 이력을 분석해 이후의 가능성 예측 ex) 시점에 따라 매출액 분석(독립 변수, 종속 변수)
Classification(분류) 수집된 데이터의 패턴 및 속성으로 결합해 예측, 연속된 수치를 예측(회귀예측), 분리된 수치 예측(분류 예측)
Clustering(군집화) 특징 및 속성의 유사성으로 데이터 군집

머신러닝 모델링

머신러닝: 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구

데이터 마이닝과 도메인이 교차되는 경우가 있음

머신 러닝을 예측에 초점, 데이터 마이닝은 탐색적 분석에 초점

지도 학습(예측 대상 존재), 자율 학습, 준지도 학습, 강화 학습(ex) 알파고), 비지도 학습의 유형 존재

 

딥러닝 모델링

딥러닝(머신러닝 중 하나): 인공신경망에서 발전한 형태로, 은닉층(더 복잡한)이 2개 이상인 분석 알고리즘

딥러닝으로 훈련된 시스텡의 이미지 인식 능력은 이미 인간을 능가함

구글의 알파고는 바둑의 기초를 배워 강화학습을 통해 스스로 학습함

 

시각화 및 탐색(전 단계에서 사용)

데이터의 전반적 특성을 파악하기 위해 활용

다양한 유형의 데이터를 시각화할 수 있음

문제를 해결하기 위한 결론 도출

1854년 브로드 스트리트의 콜레라 사례: 모두 같은 우물을 식수로 사용했다는 것을 시각화를 통해 발견

크림 전쟁 군인 사망률: 나이팅게일은 데이터 시각화를 통해 높은 군인 사망률의 원인은 전쟁이 아닌 열악한 병원 상태라는 것을 밝혀냄 충분한 예방이 가능하다는 인사이트를 얻음

 

문제정의: 신제품의 초기 불량 발견을 위해 필요한 생산대수 및 주행거리를 측정하는 데 불필요하게 긴 시간 소모

데이터 수집: 자동차 부품에 센서를 탑재해 주행 시 발생하는 차량 데이터를 수집

데이터 전처리: 축적된 오류 데이터를 감시하고 진단하여 문제가 생겼던 코드는 따로 분류 및 분석

데이터 모델링: 수집된 운행 정보, 운전자의 운전 습관 등을 분석해 불량 탐지와 소비자 보상 규모의 정확한 측정에 활용

시각화 및 결론 도출: 데이터 분석 및 시각화 결과를 활용하여 인사이트 도출 

 

문제정의: 빅데이터 분석 도입 이전에는 공정상 불량 원인 분석에 다수의 숙련된 기술자가 필요

데이터 수집: 각 설비마다 발생하는 온도, 생산량 등의 로그 데이터 수집

데이터 전처리: 수집된 로그 데이터를 분석하기 위해 시계열 데이터 변환, 데이터 프레임 구조화 등 처리 작업

데이터 모델링: 전처리된 로그 데이터를 활용하여 공정 상황 모니터링 및 이상 탐지 시스템 구출

시각화 및 결론 도출: 데이터 분석 결과를 시각화하여 실시간으로 각 공정의 정상 작동 여부 파악이 가능해짐, 인력이 1명으로 축소

 

 

+ Recent posts