! pip install openpyxl
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from google_drive_downloader import GoogleDriveDownloader as gdd
gdd.download_file_from_google_drive(file_id="", dest_path = "", unzip=True)
data = pd.readexcel("폴더명/자료이름", sheet_name="이름")
#위에서 5개의 데이터를 가져옴
data.head()
#기초 통계량을 확인할 수 있음
data.describe()
#데이터 칼럼확인
data.columns
#숫자로 변환할 칼럼 지정
columns = []
for col in columns: #반복문 정의. 반복 기준을 리스트로 주면 값하나씩 들고 와서 처리
le = LabelEncoder() #범주형 데이터를 숫자로 변환
le.fit(data[col]) #숫자 형태로 변환하는 규칙설정
data[col] = le.transform(data[col]) #칼럼 변환
data.iloc[0:3, 0:5]
columns = ["종류", "연료", "변속기"]
for col in columns:
le = LabelEncoder()
le.fit(data[col])
data[col] = le.transform(data[col])
#하이브리드 컬럼값이 1인 row값 출력
data["하이브리드"] ==1
'빅데이터 분석' 카테고리의 다른 글
KNIME 타이타닉 예측 분석 (0) | 2023.07.25 |
---|---|
KNIME 이해 및 설치 (0) | 2023.07.23 |
빅데이터 분석 플랫폼(2) (0) | 2023.07.23 |
빅데이터 분석 플랫폼(1) (0) | 2023.07.23 |
코딩 분석 도구 (0) | 2023.07.23 |