- 빅데이터의 역사 및 진화과정을 기술할 수 있다.
- 빅데이터의 발전 동력에 대해서 기술할 수 있다.
- 빅데이터의 다양한 특징을 기술할 수 있다.
빅데이터 : 거대한 데이터의 모음
데이터 센터
1940년대 : 에니악(ENIAC)이라는 거대한 데이터 센터에 뿌리를 둠.
1997년 ~ 2000년대 닷컴 버블: IT 회사들이 투자 받았던 자본을 데이터 센터에 투자
빅데이터 기술의 진화 과정
2005년: 페이스북, 유튜브의 등장으로 엄청난 양의 데이터가 생성
=>하둡, 스파크와 같은 빅데이터 처리를 위한 오픈 소스 프레임워크가 개발되면서 생성되는 데이터의 양이 크게 증가
클라우드, IoT, 머신러닝 기술의 등장으로 빅데이터의 가능성이 더욱 확장
구글 코랩: 파이썬을 웹상에서 사용(클라우딩 컴퓨터 소스 사용 가능)
2008년: 전 세계 서버가 매일 처리하는 데이터의 양은 9.57억 기가바이트
구글 회장 에릭 슈미트
"인류의 문명 이래 2003년까지 생성된 데이터가 2010년에는 불과 2일 만에 수집되고 있다."
2014년에는 PC보다 모바일 기기에서 네트워크 접속이 더 많아짐
IT(인포메이션 테크놀로지) ->DT(데이터 테크놀로지)
알리바바 그룹 전회장 마윈 : "세상은 지금 IT시대에서 DT시대로 가고 있다."
빅데이터 직무 관련 키워드
데이터 엔지니어(Data Engineer): 빅데이터 기반 전처리, DB 구축 및 관리, 예측, 최적화 등 작업 수행, 코드 작업 많이, 기존 알고리즘 활용
데이터 분석가(Data Analyst): 빅데이터 분석, 처리 및 요약, 정보 가공 및 의사 결정에 유용하게 활용될 수 있는 보고서 작성, 문서 작업 많이
데이터 과학자(Data Scientist): 예측 모델 설계, 데이터 탐구 및 분석, 새로운 알고리즘 및 모델 창안
발전 동력: 통실기술의 발달, 저장매체의 발달, 컴퓨팅 능력의 발달
빅데이터의 특징 - Volume
이전과는 비교도 되지 않는, 큰 규모의 데이터
트위터에서는 하루 평균 1억건의 데이터가 생성되며, 유튜브의 하루 평균 동영상 재생 건수는 40억 회를 넘음
수집, 저장되는 데이터의 규모가 테라, 페타, 엑사를 넘어 제타바이트 시대에 도달
디지털 정보단위
KB, MB, GB, TB, PB(페타), EB(엑사), ZB(제타), YB(요타)
전세계 클라우드에 발생되는 데이터 트래픽의 크기 단위가 제타바이트
빅데이터의 특징 - Variety
SNS의 발전으로 텍스트, 오디오, 비디오, 위치 정보 등 다양한 형식의 데이터가 발생
한 가지에 국한되지 않고 여러 형식을 가지는 것이 빅데이터의 특성
특히 기존의 정형 데이터의 틀을 넘어서 많은 종류의 비정형 데이터가 존재
정형 데이터 : 고정된 필드에 테이블 형태로 저장되는 데이터, 관계형 데이터베이스, 스프레드시트, 엑셀, CSV파일 등
로우의 개수가 데이터의 개수
비정형 데이터: 미리 정의된 방식으로 구조화되지 않은 데이터, 일반적으로 텍스트나 이미지 형태
=> 비정형 데이터를 정형화해서 정형데이터로
빅데이터의 특징 - Velocity
빅데이터 시대에 데이터는 실시간으로 생성되고 저장됨
빅데이터 기술은 대용량 데이터의 빠른 처리 - 분석이 가능해야 함
빅데이터의 특징 - Veracity (금융쪽에서 중요)
앞의 3V에 이어 정확성이 새로운 빅데이터의 특징으로 소개됨
데이터의 성질에 따라서 부정확한 데이터가 DB에 구축될 수 있으므로 최대한 오류를 줄여야 함.
빅데이터의 특징 - Value
기업에서의 빅데이터는 비즈니스적으로 융용하게 활용되어야 의미가 있음
가치 설계가 제대로 이루어지지 않으면 빅데이터의 유용성이 낮아짐
'빅데이터 분석' 카테고리의 다른 글
빅데이터 분석도구 (0) | 2023.07.23 |
---|---|
해외 빅데이터 활용 사례 (0) | 2023.07.23 |
국내 빅데이터 활용 사례 (0) | 2023.07.23 |
빅데이터 분석 프로세스 (0) | 2023.07.23 |
[빅데이터 분석 기초] 빅데이터 개념 이해 (0) | 2023.07.01 |