데이터의 정의, 데이터와 정보의 차이, 빅데이터의 일반적인 특징
데이터와 정보
데이터(정형 데이터(테이블 형태) : 엑셀, 비정형 데이터)
- 문자, 숫자, 사진, 영상, 음성 등의 형태로 된 의미 단위
- 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미 있게 정리하면 정보
데이터의 어원
- 라틴어의 단어 Datum의 복수형인 Data에서 유래
- Data의 본래 뜻은 '주어진 것', 원천 데이터(로우 데이터,raw data)
- '자료'라고 불림
질적 데이터
Qualitative Data, 수치로 측정이 불가능한 데이터 ex) 설문지에 대한 대답, 인터뷰, 성별, 종교, 직업 등
=> 데이터를 시각화하거나 수치화하는 과정에서 양적 데이터가 되기도함.
수치 관계가 없다.
양적 데이터 (인공지능이나 빅데이터에서 많이 사용)
Quantitative Data, 수치로 측정이 가능한 데이터 ex) 온도, IQ, 혈압, 맥박, 물건의 가격, 사물의 길이, 재무비율 등
정보
- 의사 결정을 지원하는 모든 종류의 가공된 자료 혹은 지식
- 데이터와 정보는 서로 교환되어 사용하는 경우가 많음
- 데이터와 정보의 차이점을 알아두는 것이 좋음
데이터 | 정보 |
의미 단위의 모음 | 가공된 자료와 지식의 모음 |
구조화되어 있지 않음 | 구조화되어 있음 |
유용하지 않을 수 있음 | 의사결정에 유용함 |
정보에 의존하지 않음 | 데이터 없이 존재할 수 없음 |
테이블, 그래프 형식으로 표현됨 | 언어로 표현됨 |
학생들의 시험 점수 (70점, 80점,...) | 반 또는 학교의 평균점수, 교육 방식을 정하는 의사결정에 유용하게 사용될 수 있음 |
유용한 데이터들을 이용해서 정보를 만듦
데이터 수집: 케글, 공공데이터 포털 등 출처들을 많이 알고 있는 것이 중요
데이터
70, 76, 95, 45, 92, 84,...
정보
A 고등학교 학생들의 수학 점수가 70, 76, 95, 45, 92, 84,...
->A 고등학교 학생들의 수학 시험 평균 점수는 82점
->A 고등학교는 다른 고등학교에 비해 성적이 우수
이미지+ 텍스트+ 수치(양적 데이터) =(처리, 가공)=> 정보 //파이프라인 구축
빅데이터: 기존의 관리 및 분석체계로는 감당할 수 없을 정도로 거대한 데이터의 집합(1테라 바이트 이상) (2012년 세계 10대 기술 선정), 데이터 안에 빅데이터 존재
빅데이터의 어원
1990년대부터 사용되어 왔으며, 존 메쉬가 처음 사용한 용어
메쉬가 수많은 소규모 모임에서 빅데이터의 개념을 설명하고 회사의 투자 설명에서도 활용한 기록이 남아 있음
빅데이터의 특징 - 3V
- 용량(Volume): 일반적으로 1TB(TeraByte)에서 1PT(PetaByte)로 정의
- 다양성(Variety): 정형 데이터뿐만 아니라, 비정형 데이터와 같은 다양한 형태의 데이터도 같이 포함
- 속도(Velocity): 데이터의 생산, 처리, 분석되는 속도가 보장됨
빅데이터 분석 기술
수집된 빅데이터에서 유용한 정보를 얻기 위해 분석하는 기술
텍스트마이닝(텍스트 분석 분야, 분류, 생성(챗봇), 변환), 머신러닝(ML, 머신러닝 안에 딥러닝), 딥러닝(DL), 자연어 처리, 비전 러닝(이미지 데이터 분석, 영상분석) 등
빅데이터 표현 기술
- 수집된 빅데이터의 특성을 파악하기 위해 시각화(그래프)하는 기술
- 디자인적 요소를 결합하여 인포그래픽, 인터렉티브, 대쉬보드 등 수많은 방법들로 표현
'빅데이터 분석' 카테고리의 다른 글
빅데이터 분석도구 (0) | 2023.07.23 |
---|---|
해외 빅데이터 활용 사례 (0) | 2023.07.23 |
국내 빅데이터 활용 사례 (0) | 2023.07.23 |
빅데이터 분석 프로세스 (0) | 2023.07.23 |
빅데이터 분석 소개 (0) | 2023.07.01 |