이어서 들어가겠습니다 median_house_value은 머신러닝 구현으로 알기 위한 타겟팅 컬럼입니다. 이와 가장 상관성이 높은 다른 독립변수는 무엇이 있을 지 살펴 봤습니다 . 시각화 했을 때 median income 변수는 역시 상관성이 높군요 그런 그래프 상단의 이상한 데이터는 제외해야할듯 합니다. 그 외 각가의 독립변수들 끼리의 조합을 통해 영향을 줄 수 있는 새로운 독립변수를 만들었습니다. 이제 독립변수와 종속변수를 구분한 것 같으니 train set 과 test set으로 나누기 전에 타게팅 데이터는 따로 빼서 저장하겠습니다. train set 데이터 정제과정입니다. 먼저 nan 값을 SimpleImputer 메소드로 중간값으로 처리하겠습니다. ocean_proximuty는 텍스트형 범주 데..