Pichu Pokeball
본문 바로가기

빅데이터 분석13

엑셀 데이터 처리 ! pip install openpyxl import pandas as pd from sklearn.preprocessing import LabelEncoder from google_drive_downloader import GoogleDriveDownloader as gdd gdd.download_file_from_google_drive(file_id="", dest_path = "", unzip=True) data = pd.readexcel("폴더명/자료이름", sheet_name="이름") #위에서 5개의 데이터를 가져옴 data.head() #기초 통계량을 확인할 수 있음 data.describe() #데이터 칼럼확인 data.columns #숫자로 변환할 칼럼 지정 columns = [] for.. 2023. 7. 29.
KNIME 타이타닉 예측 분석 승객들의 정보나 생존여부에 대한 데이터를 활용해 생존여부 예측 CSV Reader: 데이터 파일 불러옴 (json, txt, xlsx...) 성별, 생존여부,... feature(특성) = attribute(속성) = column 데이터 결측치 확인: 누락된 데이터 확인 (NaN, ?) 0으로 채우거나 이전 로우의 값을 사용하거나,로우 삭제... EDA(Exploratory Data Analysis) 그룹별 데이터, count데이터 데이터 시각화: 데이터의 전반적인 특성을 이해하기 위해 시각적인 그래프 형태로 나타낸것 정보 조직화 정보 시각화: 실제 그래프로, 히스토그램 상호작용: 마우스 커서를 가져다대면 수치 (인터랙티브, 대시보드) 성별 생존확률 Bar Chart Options: Aggregation.. 2023. 7. 25.
KNIME 이해 및 설치 KNIME: 오픈소스 데이터 분석 소프트웨어, VPL기반으로 별도의 코딩작업 없이도 데이터 분석, 시각화, 머신러닝 등을 수행할 수 있는 노코딩 도구 특징 및 장점 로컬 PC에서 사용하는 경우 무료로 이용가능 다양한 데이터 분석 가능 정형, 비정형 데이터 모두 분석 가능 드래그 앤 드롭 방식으로 직관적인 Work-Flow를 생성하여 초보자들도 쉽게 분석 가능 R, Python에서 사용하는 패키지도 사용가능 file reader > column filter > row filter > stacked area chart, pie/donut chart 개발환경 구축 파일 확장자 설정 노드: 개별작업이 노드를 통해 이루어짐, 노드는 색상과 모양이 같은 포트끼리만 연결할 수 있음, 노드를 연결하여 분석 워크플로우를.. 2023. 7. 23.
빅데이터 분석 플랫폼(2) 산업생태계: 기업의 비즈니스적 의사결정에 활용할 정도의 충분한 데이터가 없음, 결과에 대한 과해석 및 의미 없는 데이터간 연관성 부여로 데이터 오남용 발생(과학적 접근에 대한 이해 부족), 자체 분석 인력의 부재, 외부업체 활용은 기업의 보안 및 영업비밀 노출 가능성 증대(외부 네트워크 차단), 빅데이터 도입이 낮은 상황, 인력 부족으로 외부 업체에 분석을 의뢰하는 상황 데이터 바우처, AI 바우처: 정부가 작은 기업들을 위해 일부 자금을 대주는 사업 정책, 제도: 통찰력 있는 인사이트를 도출할 수 있는 빅데이터 전문가 부족, 인력의 수요가 증가함에도, 공급은 수요를 충족하지 못함, 개인 데이터에 대한 수집, 분석 및 활용이 증가하면서 정보 유출로 인한 사생활 침해 우려가 커짐, 빅데이터는 근본적으로 개.. 2023. 7. 23.
빅데이터 분석 플랫폼(1) 빅데이터 분석 플랫폼 새로운 비즈니스적 가치를 창출할 수 있는 데이터 프로세스 환경 데이터의 수집, 저장, 처리, 관리, 분석 등의 역할을 수행하는 것 분류 1.빅데이터 관리 플랫폼: 데이터의 수집, 관리, 처리, 저장 등의 프로세스를 지원 2. 빅데이터 분석 플랫폼: 데이터의 분석 프로세스를 지원 빅데이터 플랫폼 수집 > 저장 > 처리, 관리 > 분석 > 활용 수집: 정형데이터 , 비정형 데이터 저장: 분산 파일 시스템, NoSQL, 병렬 DBMS 빅데이터 수집 다양한 데이터들을 온라인 소스, Open API 등을 통해 수집하는 것 수집하는 데이터는 정형 및 비정형 데이터로 구분 -정형 데이터: 고정된 필드에 저장된 테이블형 데이터 -비정형 데이터: 미리 정의된 방식으로 구조화되지 않은 데이터 빅데이터.. 2023. 7. 23.
코딩 분석 도구 코딩 컴퓨터 프로그래밍 언어를 코드라고 지칭 사람의 언어와 같이 컴퓨터와 소통을 하려면 프로그래밍 언어를 사용해야 함 프로그래밍 언어를 입력하는 과정을 코딩 프로그래밍 개념 컴퓨터 프로그램을 작성하는일, 과학, 수학, 공학, 심리학적 속성들을 가지고 있음(사람들이 작성하기 때문에) 절차 지향 프로그래밍(밥 드셨나요? 예/아니요) 프로시저 호출 개념을 기반으로 하는 프로그래밍 방식 프로시저(루틴, 메소드, 함수): 수행되는 연산의 절차적 과정을 포함 절차 지향 프로그래밍에서는 어떤 위치라고 프로시저의 호출이 가능하고 다른 프로시저나 스스로에게 호출이 가능하다는 편의성이 존재 절차 지향 프로그래밍은 복잡도가 높지 않고 유지 보수가 쉽기 때문에 임베디드 기기 시스템 및 운영체제에서 유용하게 활용되고 있음 객체.. 2023. 7. 23.