본문 바로가기

MACHINE | DEEP LEARNING/Machine Learning Project16

[AI] 머신러닝 Unsupervised _계층적 군집 Hierarchical Clustering 계층적 군집 Hierarchical Clustering : 데이터를 계층적으로 연결해가면서 가까운 군집끼리 군집을 구성해 가는 알고리즘이다 기초 라이브러리 import numpy as np import matplotlib.pyplot as plt import pandas as pd 기초 데이터 df df = pd.read_csv('../data/Mall_Customers.csv') df.head() 1. nan 확인 df.isna().sum() >>> CustomerID 0 Genre 0 Age 0 Annual Income (k$) 0 Spending Score (1-100) 0 dtype: int64 2. y 값이 없으므로 X 값만 구하기 X = df.loc[ : , 'Genre' : ] X.head(.. 2024. 4. 16.
[AI] 머신러닝 Unsupervised. K-Means Clustering와 반복문, 그룹 정보얻기 기본 임폴트 라이브러리 # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 오늘 포스팅에서 사용할 df df = pd.read_csv('Mall_Customers.csv') df.head() 데이터를 비슷한 정보끼리 묶으려고 한다 1. nan 있는지 확인한다 df.isna().sum() >>> CustomerID 0 Genre 0 Age 0 Annual Income (k$) 0 Spending Score (1-100) 0 dtype: int64 2. 필요한 데이터 X로 묶어준다 X = df.loc[ : , 'Genre':'Spending Score (1-100)'] 3. X 에 Gen.. 2024. 4. 16.
[AI] 머신러닝 Unsupervised _평균군집 K-Means Clustering Unsupervised Learning 은 y(정답) 없이 인공지능을 학습 시키는 것 이다. (비지도 학습) 평균군집 K-Means는 - 군집 중심점(centroid)라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택한다 - 군집 중심점은 서택된 포인트의 평군 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택한다 - 이 과정을 반복하다가 더 이상 중심점의 이동이 없으면 반복을 멈추고 해당 중심점에 속하는 포인트들을 군집화 한다 Choosing the right number of clusters 몇개로 분휴 할지는 어떻게 결정할까? K의 갯수를 정하는 방법 클러스팅이 잘 되었다 라는 것은 가까운 데이터끼리 잘 뭉쳐 있다는 것이다 센터가 원소들과의 거리가 멀수록 값이 커진.. 2024. 4. 15.
[AI] 머신러닝 Supervised. 분류 알고리즘 Classidication - LogisticRegression, KNeighbors, SVM(SVC), DecisionTree supercised (정답을 알려주면서 학습하는 것 )의 classidication 분류 알고리즘 4가지 - LogisticRegression from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.25, random_state= 1) from sklearn.linear_model import LogisticRegression classifier = LogisticRegression(random_state=N) classifier.fit(X_train, y_train) y_pred = classifier.predict(X_test) - K-.. 2024. 4. 15.
[AI] 머신 러닝 데이터의 불균형 샘플링하는 방법 _ SMOTE를 활용한 오버샘플링 SMOTE를 활용한 오버샘플링 시점 : 피처스케일링을 하기 전, X와 y 를 나누고 난 직후에 하는 것이 가장 바람직하다 샘플링에는 - 언더 샘플링 - 오버샘플링 : 적은 데이터 세트를 증식하여 학습을 위한 충분한 데이터를 확보하는 방법 이 있다. 일반적으로 언더샘플링보다 오버샘플링이 예측 성능상 더 유리한 경우가 많아 주로 사용된다. 1. y의 데이터의 불균형 정도를 확인한다 y.value_counts() >>> class 0 262 1 130 Name: count, dtype: int64 import seaborn as sb sb.countplot(data=df, x='class') plt.show() 2. 1 인 데이터가 적으므로, up sampling 기법으로 데이터를 늘려준다 - imblearn.. 2024. 4. 15.
[AI] 머신 러닝 LogisticRegressiond의 Confusion Matrix 성능 평가, 시본(seaborn)으로 분류 결과표 만들기 시작하기 전 임폴트 라이브러리! # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sb 이번 포스팅에서 사용 할 데이터 df df = pd.read_csv('Social_Network_Ads.csv') df.head() 전 포스팅 내용 ============================= 1. 데이터에 NaN이 있는지 확인해야한다 2. X와 y 값 분리해주기 3. 로지스틱 리그레션은 피처 스케일링을 해주어야 한다 4. 인공지능에 넣어 줄 train과 test를 만들어주자 5. 모델링을 선택하여 인공지능 만들어서 값 예측하기 ===============.. 2024. 4. 15.