목록2024/04/16 (12)
개발학습일지
데이터프레임 합치기(concat) : 새로운 판다스 데이터 프레임을 만들어, 기존에 있는 데이터 프레임에 합쳐 보자 - 새로운 데이터프레임을 만든다 new_item = [ {'bikes':20, 'pants':30, 'watches':35, 'glasses':4 } ] new_store_df=pd.DataFrame(data=new_item, index=['store3']) - 기존 데이터프레임 df에 새로운 데이터프레임 new_store_df 합친다 - 비어 있는 컬럼 값은 NaN으로 입력된다 df = pd.concat( [ df, new_store_df ] ) df 데이터 삭제하는 방법 : 행 삭제, 열 삭제 : drop() 함수를 이용하고, axis 만 설정해 주면 된다 - 데이터(인덱스) 행 삭제 ..
오늘 포스팅에 사용 할 기초데이터 df 데이터프레임 데이터 값 변경 - 판다스이기 때문에 원하는 값 엑세스 후 연산 기호를 사용해준다 - 데이터 엑세스는 .loc[] 또는 .iloc[]를 사용한다 # 스토어 2의 watches 데이터를 , 20으로 변경 해주세여 df.iloc[ 1, 2 ] = df.iloc[ 1, 2 ]+10 df df.loc[ 'store2', 'watches' ] = 20 df 데이터프레임에 새로운 컬럼을 만들고 데이터를 넣어 보자 - shirts 라는 컬럼을 만들고, store1 에는 15개, sotres2에는 2개로 만들어 보자 df['shirts'] = [15, 2] df - pants 값과 shirts 값을 더해서 suits 라는 컬럼을 만들어 보자 df['suits'] = ..
계층적 군집 Hierarchical Clustering : 데이터를 계층적으로 연결해가면서 가까운 군집끼리 군집을 구성해 가는 알고리즘이다 기초 라이브러리 import numpy as np import matplotlib.pyplot as plt import pandas as pd 기초 데이터 df df = pd.read_csv('../data/Mall_Customers.csv') df.head() 1. nan 확인 df.isna().sum() >>> CustomerID 0 Genre 0 Age 0 Annual Income (k$) 0 Spending Score (1-100) 0 dtype: int64 2. y 값이 없으므로 X 값만 구하기 X = df.loc[ : , 'Genre' : ] X.head(..
기본 임폴트 라이브러리 # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 오늘 포스팅에서 사용할 df df = pd.read_csv('Mall_Customers.csv') df.head() 데이터를 비슷한 정보끼리 묶으려고 한다 1. nan 있는지 확인한다 df.isna().sum() >>> CustomerID 0 Genre 0 Age 0 Annual Income (k$) 0 Spending Score (1-100) 0 dtype: int64 2. 필요한 데이터 X로 묶어준다 X = df.loc[ : , 'Genre':'Spending Score (1-100)'] 3. X 에 Gen..