머신러닝 복습 2

데이터

So_Bee_93 2020. 6. 25. 19:33

<지극히 개인적인 포스팅>

이어서 들어가겠습니다

median_house_value은 머신러닝 구현으로 알기 위한 타겟팅 컬럼입니다.

이와 가장 상관성이 높은 다른 독립변수는 무엇이 있을 지 살펴 봤습니다 .

시각화 했을 때 median income 변수는 역시 상관성이 높군요

그런 그래프 상단의 이상한 데이터는 제외해야할듯 합니다.

그 외 각가의 독립변수들 끼리의 조합을 통해

영향을 줄 수 있는 새로운 독립변수를 만들었습니다.

이제 독립변수와 종속변수를 구분한 것 같으니 train set 과 test set으로 나누기 전에 타게팅 데이터는 따로

빼서 저장하겠습니다.

train set 데이터 정제과정입니다.

먼저 nan 값을 SimpleImputer 메소드로 중간값으로 처리하겠습니다.

ocean_proximuty는 텍스트형 범주 데이터이므로 이 또한 일단 따로 빼놓게 습니다.

그런다음 imputer 객채를 훈련시키고 훈련시킨 객채에 housing_num를 넣어서 변환시킵니다.

이를 이쁘게 데이터 프레임으로 만들었습니다.

이제 범주형 데이터를 처리할 차례입니다.

범주형 데이터는 더미변수화 하여 수치화하도록 하겠습니다.

OneHotEncoder 메소드를 불러와

더미변수화 하고 이를 numpy 배열로 만들기 위해 .toarry를 적용시켰습니다.

그 외 새로 만들었던 독립변수는 새로 데이터가 들어올 경우 한번에 처리하기 위해

사용자 정의 변환기를 만들었습니다.

사용자 정의 변환기를 만들고

이를 housing 데이터에 numpy로 붙였습니다.

넘파이로 붙인 데이터를 이쁘게 데이터 프레임으로 다시 만들었습니다.

파이프라인을 만들겠습니다. 파이프라인에 처음의 IMPUTER , 사용자정의변환기 , 정규화 식 을

정의합니다.

마지막으로 더미변수화 한것 또한 붙여 FULL파이프라인을 만듭니다.

저작자표시

내이름은~~~~혀어어언~~ 소비!!!

소비는 즐거워