목록분류 전체보기 (198)
개발학습일지
원본 데이터 X, y로 분리 -> X, y의 문자열 데이터 레이블, 원핫 인코딩으로 변경한 상태이다 y # array([0, 1, 0, 0, 1, 1, 0, 1]) X >>> array([[1.0e+00, 0.0e+00, 0.0e+00, 4.4e+01, 7.2e+04], [0.0e+00, 0.0e+00, 1.0e+00, 2.7e+01, 4.8e+04], [0.0e+00, 1.0e+00, 0.0e+00, 3.0e+01, 5.4e+04], [0.0e+00, 0.0e+00, 1.0e+00, 3.8e+01, 6.1e+04], [1.0e+00, 0.0e+00, 0.0e+00, 3.5e+01, 5.8e+04], [1.0e+00, 0.0e+00, 0.0e+00, 4.8e+01, 7.9e+04], [0.0e+00, 1..
데이터를 확인하여, 숫자가 아닌 데이터 중에서 카테고리로 판단되는 데이터는 숫자로 바꿔줄 수 있다. 문자열 컬럼의 유니크 갯수를 확인한다 문자열의 갯수가 2개 이면 , 0과 1로만 바꿔도 되니까, 이때는 '레이블 인코딩'만 사용하면 된다 하지만, 문자열의 갯수가 3개 이상이면, '원 핫 인코딩'을 사용하여, 0과 1로 표현가능하도록 변경한다 * 컴퓨터에서는 0과 1이 가장 이상적인 숫자이다 기초데이터 : 원본 데이터를 X , y 값으로 분리한 상태 X >>> CountryAge Salary 0France44.072000.0 1Spain27.048000.0 2Germany30.054000.0 3Spain38.061000.0 5France35.058000.0 7France48.079000.0 8Germany..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cm0zja/btsGx3JnQAo/7abzDemKidIelEgeV96XB1/img.png)
필요한 라이브러리 임폴트! # Data Preprocessing Template # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 머신러닝을 하기위해 필요한 데이터를 불러와야 한다 - pd.read_csv(' ') df = pd.read_csv('../data/Data.csv') df 문자열로 되어 있는 컬럼 데이터 확인하기 df['Country'].nunique() # 3 sorted(df['Country'].unique()) # 알파벳 순으로 정렬하기 위한 sorted() # ['France', 'Germany', 'Spain'] df['Purchased'].nunique() #..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/di5Hkb/btsGzbT6B59/M1xCuNqqaKsTwktFKYvAO1/img.png)
머신 러닝으로 할 수 있는 것 - 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 - 의료 영상 이미지에 기반한, 종양 판단 - 의심되는 신용카드 거래 감지 - 블로그 글의 주제 분류 - 고객들을 취향이 비슷한 그룹으로 묶기 문제와 데이터 이해하기 - 가지고 이는 데이터가 내가 원하는 문제의 답을 가지고 있는가? - 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가 - 문제를 풀기에 충분한 데이터를 모았는가? - 머신러닝의 성과를 어떻게 측정할 것인가 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가_에 대한 부분은 항상 밑에 표를 머리 속으로 생각해야한다 Supervised Learning - 레이블을 가지고 학습시키는 방법인 지도 학습 -------------------------..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/6DdLz/btsGq85mGLF/uypQVEkEgITPoDUsARoGE0/img.png)
판다스의 2차원 데이터 처리는, 데이터 프레임으로 한다 (DataFrame) 실제 데이터 분석에서는 CSV 파일을 판다스의 '데이터 프레임'으로 읽어와서 작업한다. 변수 명 df = 데이터프레임 약자로 저장 많이 한다 데이터프레임(DataFrame)을 레이블로 생성하기 import pandas as pd # We c# reate a dictionary of Pandas Series items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])} df ..
판다스 시리즈 연산 _더하기, 빼기 연산 시리즈 데이터 index = ['apples', 'oranges', 'bananas'] data = [10, 6, 3,] fruits = pd.Series(index=index, data= data) fruits >>> apples 10 oranges 6 bananas 3 dtype: int64 - 더하기 : 전체 물품이 입고되었다 모든 물품 +5 해주자 fruits = fruits + 5 fruits >>> apples 15 oranges 11 bananas 8 dtype: int64 - 빼기 : 오렌지가 2개 팔렸다 오렌지만 -2 해주자 fruits['oranges'] = fruits['oranges'] -2 fruits >>> apples 15 oranges..
판다스 용어 암기는 필수! 판다스의 1차원 데이터 => 시리즈(Serise) 이다 판다스 배우기 전까지의 인덱스라는 용어는 : 컴퓨터가 자동으로 매기는 0부터 시작하는 수 이자만 판다스에서는 인덱스라는 용어가 따로 존재한다. 판다스의 인덱스는, 왼쪽에 행부분에 붙어있는 글자이다 컴퓨터가 자동으로 매기는 인덱스 VS 판다스의 인덱스 index = ['eggs', 'apples', 'milk', 'bread'] data = [30, 6, 'Yes', 'No'] pd.Series(data = data) # 0 30 # 1 6 # 2 Yes # 3 No # dtype: object ^ 판다스의 1차원 데이터인 시리즈! 사람이 억세스 하기 편하게 인덱스 번호를 옆에 써준다 - 인덱스 정보 알기 : .index x..
1차원 배열의 연산 data = [10, 20, 5, 8, 10, 33, 56, 9, 11, 45, 87, 9, 22, 548, 362, 92] data 의 모든 정보에 +5 를 해라 - 넘파이가 아닌 기본 data 리스트를 사용한 1차원 배열 연산 new_data = [ ] # 새로운 리스트 생성 for item in data : # 데이터 안에서 하나씩 꺼내서 저장할 item 변수 생성 new_data.append(item+5) # item 변수에 +5를 하고 새로운 리스트에 더한 값을 넣어라 new_data # [15, 25, 10, 13, 15, 38, 61, 14, 16, 50, 92, 14, 27, 553, 367, 97] - 넘파이가 아닌 기본 data 리스트를 사용한 리스트 컴프레이션 ne..