데이터

핸즈온 머신러닝 연습 2장

So_Bee_93 2020. 6. 23. 17:28

<지극히 개인적인 포스팅>

 

 

핸즈온 머신러닝 연습 및 복습 

캘리포니아 주택 가격 모델 만들기 

 

(데이터를 갖고오는 것은 생략)

캘리포니아 주택 가격 데이터를 불러왔습니다.

 

 

 

 

주택 데이터 컬럼중 ocean_proximity의 경우 수치 데이터가 아닌 텍스트 범주형 데이터임을 확인했습니다.

 

 

 

컬럼별로 히스토그램을 살펴봤습니다. 

우리는 median_house_value를 예측하기 머신러닝 모델을 구현해야합니다.

해당 히스토그램을 살펴본 결과 주택 중간연도 수의 경우 최대 최소값을 한정했습니다.

중간 주택 가격 또한 마찬가지입니다. 

 

 

 

 

train 데이터와 test 데이터를 분류하였습니다.

 

 

 

 

median_income의 중요한 독립변수가 될 가능성이 높은데 히스토그램이 치우쳐 있습니다.

이를 test와 train변수로 나눌때 같은 비율로 나눠줘야 오차가 줄어들 것입니다. 

 

 

 

pd.cut을 이용해서 새로 범주를 구하고 살펴보았습니다.

 

 

 

새로 만든 범주로 히스토그램을 보니 아까보다는 나아졌네요

 

 

이를 바탕으로 test와 train 셋을 나눴습니다. 

비율이 그대로 적용된 걸 확인할 수 있습니다.

 

 

다음으로 데이터 이해를 위한 시각화를 살펴보았습니다.

 

 

주택가격은 지역과 인구밀도에 관련이 매우 크다는 사실을 알 수 있습니다. 

 

다음 포스팅에서는 이를 바탕으로 상관관계를 조사하고 

어느 변수가 상관성이 큰지를 파악한 다음 

머신러닝을 위한 데이터 정제를 포스팅하겠습니다.

'데이터' 카테고리의 다른 글

핸즈온 머신러닝 3장 복습  (0) 2020.07.13
2020 빅데이터 청년인재 연세대 과정 합격  (0) 2020.06.27
머신러닝 복습 3  (0) 2020.06.25
머신러닝 복습 2  (0) 2020.06.25
영화 평점 크롤링 연습  (0) 2020.06.22