! pip install openpyxl

import pandas as pd

from sklearn.preprocessing import LabelEncoder

from google_drive_downloader import GoogleDriveDownloader as gdd

gdd.download_file_from_google_drive(file_id="", dest_path = "", unzip=True)

data = pd.readexcel("폴더명/자료이름", sheet_name="이름")

 

#위에서 5개의 데이터를 가져옴

data.head()

 

#기초 통계량을 확인할 수 있음

data.describe()

 

#데이터 칼럼확인

data.columns

 

#숫자로 변환할 칼럼 지정

columns = []

for col in columns: #반복문 정의. 반복 기준을 리스트로 주면 값하나씩 들고 와서 처리

le = LabelEncoder()  #범주형 데이터를 숫자로 변환

le.fit(data[col]) #숫자 형태로 변환하는 규칙설정

data[col] = le.transform(data[col]) #칼럼 변환

 

data.iloc[0:3, 0:5]

 

columns = ["종류", "연료", "변속기"]

for col in columns:

le = LabelEncoder()

le.fit(data[col])

data[col] = le.transform(data[col])

 

#하이브리드 컬럼값이 1인 row값 출력

data["하이브리드"] ==1

 

'빅데이터 분석' 카테고리의 다른 글

KNIME 타이타닉 예측 분석  (0) 2023.07.25
KNIME 이해 및 설치  (0) 2023.07.23
빅데이터 분석 플랫폼(2)  (0) 2023.07.23
빅데이터 분석 플랫폼(1)  (0) 2023.07.23
코딩 분석 도구  (0) 2023.07.23

+ Recent posts