[AI] 딥러닝 ANN 수치 예측 TensorFlow Regression 문제 모델링

딥러닝 텐서플로우 리그레션(수치예측) 문제 모델링

모델링 하기 전 데이터 전처리는 필수이다!

1. 데이터 확인 후 X, y 값 지정하기

# 기본 데이터 통계치 확인
df.describe()

# nan값 확인
df.isna().sum()
# nan 값 있으면 제거
df.dropna()

# 학습을 위해 X,y값 지정 (X값은 예측에 필요한 컬럼, y는 예측할 값)
X = df.loc[ : ,  '컬럼' : '컬럼' ]
y = df['컬럼']

2. 피처스케일링 _데이터 정규화하기

- y 값을 정규화 할 경우 에러 주의 해야한다

- 기본적으로 1개의 컬럼으로 y 값을 지정했을 경우 y는 1차원 데이터 시리즈로 되어있다

그래서 y를 피처스케일링 해주기 위해선 y.values.reshape( , )을 해줘야 한다

_ y.values => 판다스에는 reshape함수가 없어서 넘파이로 만들어서 reshape을 쓰는 것이다

from sklearn.preprocessing import MinMaxScaler

# X값 피처스케일링
scaler_X = MinMaxScaler()
X = scaler_X.fit_transform(X.values)

# y값 피처스케일링
scaler_y = MinMaxScaler()

# 이런식으로 코드를 작성하면 y는 2차원 데이터가 아닌 1차원 데이터이기 때문에 에러 발생
y = scaler_y.fit_transform(y.values)

# 그래서 reshape 하는 코드를 작성하면 시리즈는 reshape가 없기 때문에 또 에러 발생
y.reshape(500, 1) 
# (행, 열)

# y.values를 입력해 1차원 넘파이로 바꿔서 reshape 해야한다
y.values.reshape(500, 1)

# reshape한 결과를 scaler_y에 입혀 새로운 변수로 저장해 사용
y = scaler_y.fit_transform( y.values.reshape(500, 1) )

3. 트레이닝, 테스트 분리하기

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 50)

4. 모델링!

- 모델링 함수 생성하여 변수에 저장해 사용한다

import tensorflow.keras
from keras.models import Sequential
from keras.layers import Dense

# 모델링 함수 생성
def bulid_model() :
  model = Sequential()
  model.add(Dense(10, 'relu', input_shape=(X_train.shape[1],)))
  # input_shape= X_train 의 컬럼 수 이기 때문에 코드로 입력하여 적을 수 있다
  model.add(Dense(10, 'relu'))
  model.add(Dense(5, 'relu'))
  model.add(Dense(1, 'linear'))
  # 수치 예측 문제이기 때문에 linear 함수를 사용한다
  model.compile( optimizer='adam', loss='mse', metrics=['mse', 'mae'] )
  return model
  
# 변수에 저장해 사용
model = bulid_model()

5. 학습, 평가 _fit, evaluate

# 학습
model.fit(X_train, y_train, batch_size= 10, epochs= 20)

# 평가
model.evaluate(X_test, y_test)

y_pred = model.predict(X_test)
error = y_test - y_pred
(error ** 2).mean()

6. 예측값 plot으로 나타내기

# 실제값과 예측값을 plot 으로 나타내기
plt.plot(y_test)
plt.plot(y_pred)
plt.show()

7. 새로운 데이터로 실제 예측해보기

- 새로운 데이터 판다스 데이터프레임 또는 넘파이로 만들어 준다

- 학습시켜둔 scaler 와 인공지능 (model) 을 사용하여 예측한다

첫번째 고객은 여자이고, 나이는 38, 연봉은 90000, 카드빚은 2000, 순자산은 500000

new_data = [{ 'Gender':0, 'Age':38, 'Annual Salary':90000, 'Credit Card Debt':2000, 'Net Worth':500000 }]
df_new_data = pd.DataFrame(new_data)

# 피처스케일링
new_data = scaler_X.transform(df_new_data)

# 예측값 변수 저장
y_pred = model.predict(new_data)

# 예측값을 기존값으로 반환 : scaler_y 가 알아서 변환을 해뒀기 때문에 원상복구가 필요하다
scaler_y.inverse_transform(y_pred)

'MACHINE | DEEP LEARNING > Deep Learning Project' 카테고리의 다른 글

[AI] 딥러닝 epochs history 모델의 훈련 과정 시각화 _차트 (0)	2024.04.17
[AI] 딥러닝 미분 기울기의 이동 보폭 optimizer learning rate 셋팅 (0)	2024.04.17
[AI] 딥러닝 최적의 하이퍼 파라미터 찾기 _TensorFlow GridSearch (0)	2024.04.17
[AI] 딥러닝 인공지능 학습시킬 때 에포크(epoch)와 배치사이즈(batch_size) 설정 (0)	2024.04.17
[AI] 딥러닝 더미 베리어블 트랩 (Dummy variable trap) (0)	2024.04.17

개발학습일지

[AI] 딥러닝 ANN 수치 예측 TensorFlow Regression 문제 모델링

'MACHINE | DEEP LEARNING > Deep Learning Project' 카테고리의 다른 글

티스토리툴바

[AI] 딥러닝 ANN 수치 예측 TensorFlow Regression 문제 모델링

'MACHINE | DEEP LEARNING > Deep Learning Project' 카테고리의 다른 글

관련글

티스토리툴바