본문 바로가기

MACHINE | DEEP LEARNING/Machine Learning Project16

[AI] 머신러닝 Feature Scaling(StandardScaler(), MinMaxScaler()) / Dataset을 Training과 Test로 나누는 방법 원본 데이터 X, y로 분리 -> X, y의 문자열 데이터 레이블, 원핫 인코딩으로 변경한 상태이다 y # array([0, 1, 0, 0, 1, 1, 0, 1]) X >>> array([[1.0e+00, 0.0e+00, 0.0e+00, 4.4e+01, 7.2e+04], [0.0e+00, 0.0e+00, 1.0e+00, 2.7e+01, 4.8e+04], [0.0e+00, 1.0e+00, 0.0e+00, 3.0e+01, 5.4e+04], [0.0e+00, 0.0e+00, 1.0e+00, 3.8e+01, 6.1e+04], [1.0e+00, 0.0e+00, 0.0e+00, 3.5e+01, 5.8e+04], [1.0e+00, 0.0e+00, 0.0e+00, 4.8e+01, 7.9e+04], [0.0e+00, 1.. 2024. 4. 12.
[AI] 머신러닝 문자열 데이터를 숫자로 바꾸는 방법_Label Encoding, One Hot Encoding 데이터를 확인하여, 숫자가 아닌 데이터 중에서 카테고리로 판단되는 데이터는 숫자로 바꿔줄 수 있다. 문자열 컬럼의 유니크 갯수를 확인한다 문자열의 갯수가 2개 이면 , 0과 1로만 바꿔도 되니까, 이때는 '레이블 인코딩'만 사용하면 된다 하지만, 문자열의 갯수가 3개 이상이면, '원 핫 인코딩'을 사용하여, 0과 1로 표현가능하도록 변경한다 * 컴퓨터에서는 0과 1이 가장 이상적인 숫자이다 기초데이터 : 원본 데이터를 X , y 값으로 분리한 상태 X >>> CountryAge Salary 0France44.072000.0 1Spain27.048000.0 2Germany30.054000.0 3Spain38.061000.0 5France35.058000.0 7France48.079000.0 8Germany.. 2024. 4. 12.
[AI] 머신러닝 import dataset, NaN 처리(dropna(), fillna()), X, y 데이터 분리 필요한 라이브러리 임폴트! # Data Preprocessing Template # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 머신러닝을 하기위해 필요한 데이터를 불러와야 한다 - pd.read_csv(' ') df = pd.read_csv('../data/Data.csv') df 문자열로 되어 있는 컬럼 데이터 확인하기 df['Country'].nunique() # 3 sorted(df['Country'].unique()) # 알파벳 순으로 정렬하기 위한 sorted() # ['France', 'Germany', 'Spain'] df['Purchased'].nunique() #.. 2024. 4. 12.
[AI] 머신러닝_Supervised Learning, Training 과 Test 이론 머신 러닝으로 할 수 있는 것 - 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 - 의료 영상 이미지에 기반한, 종양 판단 - 의심되는 신용카드 거래 감지 - 블로그 글의 주제 분류 - 고객들을 취향이 비슷한 그룹으로 묶기 문제와 데이터 이해하기 - 가지고 이는 데이터가 내가 원하는 문제의 답을 가지고 있는가? - 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가 - 문제를 풀기에 충분한 데이터를 모았는가? - 머신러닝의 성과를 어떻게 측정할 것인가 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가_에 대한 부분은 항상 밑에 표를 머리 속으로 생각해야한다 Supervised Learning - 레이블을 가지고 학습시키는 방법인 지도 학습 -------------------------.. 2024. 4. 12.