본문 바로가기

분류 전체보기208

[AI] 머신러닝 Feature Scaling(StandardScaler(), MinMaxScaler()) / Dataset을 Training과 Test로 나누는 방법 원본 데이터 X, y로 분리 -> X, y의 문자열 데이터 레이블, 원핫 인코딩으로 변경한 상태이다 y # array([0, 1, 0, 0, 1, 1, 0, 1]) X >>> array([[1.0e+00, 0.0e+00, 0.0e+00, 4.4e+01, 7.2e+04], [0.0e+00, 0.0e+00, 1.0e+00, 2.7e+01, 4.8e+04], [0.0e+00, 1.0e+00, 0.0e+00, 3.0e+01, 5.4e+04], [0.0e+00, 0.0e+00, 1.0e+00, 3.8e+01, 6.1e+04], [1.0e+00, 0.0e+00, 0.0e+00, 3.5e+01, 5.8e+04], [1.0e+00, 0.0e+00, 0.0e+00, 4.8e+01, 7.9e+04], [0.0e+00, 1.. 2024. 4. 12.

[AI] 머신러닝 문자열 데이터를 숫자로 바꾸는 방법_Label Encoding, One Hot Encoding 데이터를 확인하여, 숫자가 아닌 데이터 중에서 카테고리로 판단되는 데이터는 숫자로 바꿔줄 수 있다. 문자열 컬럼의 유니크 갯수를 확인한다 문자열의 갯수가 2개 이면 , 0과 1로만 바꿔도 되니까, 이때는 '레이블 인코딩'만 사용하면 된다 하지만, 문자열의 갯수가 3개 이상이면, '원 핫 인코딩'을 사용하여, 0과 1로 표현가능하도록 변경한다 * 컴퓨터에서는 0과 1이 가장 이상적인 숫자이다 기초데이터 : 원본 데이터를 X , y 값으로 분리한 상태 X >>> CountryAge Salary 0France44.072000.0 1Spain27.048000.0 2Germany30.054000.0 3Spain38.061000.0 5France35.058000.0 7France48.079000.0 8Germany.. 2024. 4. 12.

[AI] 머신러닝 import dataset, NaN 처리(dropna(), fillna()), X, y 데이터 분리 필요한 라이브러리 임폴트! # Data Preprocessing Template # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 머신러닝을 하기위해 필요한 데이터를 불러와야 한다 - pd.read_csv(' ') df = pd.read_csv('../data/Data.csv') df 문자열로 되어 있는 컬럼 데이터 확인하기 df['Country'].nunique() # 3 sorted(df['Country'].unique()) # 알파벳 순으로 정렬하기 위한 sorted() # ['France', 'Germany', 'Spain'] df['Purchased'].nunique() #.. 2024. 4. 12.

[AI] 머신러닝_Supervised Learning, Training 과 Test 이론 머신 러닝으로 할 수 있는 것 - 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 - 의료 영상 이미지에 기반한, 종양 판단 - 의심되는 신용카드 거래 감지 - 블로그 글의 주제 분류 - 고객들을 취향이 비슷한 그룹으로 묶기 문제와 데이터 이해하기 - 가지고 이는 데이터가 내가 원하는 문제의 답을 가지고 있는가? - 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가 - 문제를 풀기에 충분한 데이터를 모았는가? - 머신러닝의 성과를 어떻게 측정할 것인가 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가_에 대한 부분은 항상 밑에 표를 머리 속으로 생각해야한다 Supervised Learning - 레이블을 가지고 학습시키는 방법인 지도 학습 -------------------------.. 2024. 4. 12.

[Python] 판다스 2차원 데이터, 데이터프레임(DataFrame) 판다스의 2차원 데이터 처리는, 데이터 프레임으로 한다 (DataFrame) 실제 데이터 분석에서는 CSV 파일을 판다스의 '데이터 프레임'으로 읽어와서 작업한다. 변수 명 df = 데이터프레임 약자로 저장 많이 한다 데이터프레임(DataFrame)을 레이블로 생성하기 import pandas as pd # We c# reate a dictionary of Pandas Series items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])} df .. 2024. 4. 11.

[Python] 판다스 시리즈 연산 _더하기, 빼기, 나누기, Boolean indexing (부등호 값 찾기) 판다스 시리즈 연산 _더하기, 빼기 연산 시리즈 데이터 index = ['apples', 'oranges', 'bananas'] data = [10, 6, 3,] fruits = pd.Series(index=index, data= data) fruits >>> apples 10 oranges 6 bananas 3 dtype: int64 - 더하기 : 전체 물품이 입고되었다 모든 물품 +5 해주자 fruits = fruits + 5 fruits >>> apples 15 oranges 11 bananas 8 dtype: int64 - 빼기 : 오렌지가 2개 팔렸다 오렌지만 -2 해주자 fruits['oranges'] = fruits['oranges'] -2 fruits >>> apples 15 oranges.. 2024. 4. 9.

이전 1 ··· 29 30 31 32 33 34 35 다음

티스토리툴바