데이터 9

사회조사분석사 2급 취득 후기 ,, 노하우 공유

안녕하세요 소비입니다 ! 오늘 소개드릴 글은 통계학 전공이나 분석에 관심이 있다면 한번쯤 들어봤을만한 자격증인 사회조사분석사입니다! 사실 저는 작년 이 때쯤에 취득을 했습니다만 필기 합격과 실기 합격이 2년 가까이 차이가 납니다 ㅋㅋㅋ 이유로는 고사장 지각부터 몇 번의 불합격 등등 별별 일을 다 겪으면서 겨우 취득한 자격증입니다 ㅠㅠ 대수롭지 않게 준비했다가 진짜 스트레스 많이 받았던 자격증... 하 기사 수준의 자격증이라 너무 만만히 볼 자격증까지는 아니구 어느정도 준비는 하셔야 되는 자격증입니다 :) 시험은 크게 필기와 실기로 나눠지는데요 필기는 각 과목 최소 점수 40점 평균60점 이상 시 합격 실기는 필답형(논술형)과 프로그램으로 2번에 나눠서 봐요 필기는 그냥 필기책 사서 풀면 끝! 고등학교 때..

데이터 2020.12.07

[과학기술정보통신부]AI 이노베이션 스퀘어 심화과정 합격

안녕하세요 소비입니다!! 오늘 소개드릴 글은 AI 이노베이션 스퀘어 심화과정 관련 글인데요! 해당 교육과정에 대해 잠시 알려드릴까 합니다 ~ AI 이노베이션 스퀘어는 과기부에서 주간하는 교육과정으로 무료로 들을 수 있는 수업이에요!! 거기에 프로젝트까지 하니 포폴과 수료증을 얻어갈 수 있는 교육과정입니다 :) 그리고 해당 괴정은 크게 3가지로 나눠져 있어요! 기본과정은 빅데이터 전반적인 것을 알려주고 고급과정은 언어,시각,음성 으로 나눠서 알려주는데 저는 고급과정 언어과정을 듣게 됐습니다 👍👍 (사실 저는 시각듣고 싶었는데 과정이 안열렸다는...ㅠㅠ) (스노우처럼 아기자기한거 만들고 싶은데 나중에 꼭 배워야겠어요🤔) BM과정은 이제 실습위주라고 생각하면 좋을 것 같습니다! 따단 합격문자 날라왔어요 ㅎㅎㅎ..

데이터 2020.10.05

핸즈온 머신러닝 3강 복습 2

지극히 개인적인! 복습을 위한 포스팅입니다 ! 이제는 다중 분류기를 만들어서 연습하겠습니다. 다중 분류기는 OvR(또는 OvA) 과 OvO 전략으로 나뉩니다. 전자의 경우 쉽게 말해 클래스를 2가지씩 뽑아 비교해가는 것입니다. 후가의 경우에는 클래스를 한번에 비교하는 것이라 생각하면 되겠습니다. 서포트 백터 머신의 경우 OvO를 선호합니다. 그러나 대부분의 이진분류 알고리즘에서는 OvR을 선호합니다 다중 분류기이기 때문에 클래스는 0~9까지 이므로 총 10개입니다. 저희는 서포트 백터 머신 분류기로 테스트 해보겠습니다. 이번에는 다`았습니다. decision_function 메소드를 호출했더니 샘플 한개당 10개의 점수를 반환합니다. 그리고 이중에서 가장 큰 점수인 5를 결과 값으로 반환했습니다 ! 파이..

데이터 2020.07.15

핸즈온 머신러닝 3장 복습

(지극히 개인적인 포스팅) 오늘은 머신러닝 분류기 모델을 만들어 보겠습니다 ! 먼저 예제로 갖고올 데이터 셋인 mnist 데이터를 불러오겠습니다 mnist 데이터는 이미지 데이터로 머신러닝을 이용해서 mnist의 이미지(숫자)를 분류해볼게요! mnist 데이터는 딕셔너리 형태처럼 구성되어 있습니다. 저희는 여기서 data 키와 target 키를 이용할게요 ! x에는 mnist의 데이터를 y에는 mnist의 타겟을 저장할게요 x를 살펴보니 70000,784로 되어 있네요 이는 총 7만건의 데이터가 있고 각각의 데이터는 784개의 특성으로 구성되어 있음을 얘기합니다 x안에 있는 데이터 중 한개를 살펴보니 위 그림과 같이 되어 있네요! 위 숫자가 총 784개가 있고 각각의 숫자는 픽셀을 의미합니다 ! 숫자로 ..

데이터 2020.07.13

2020 빅데이터 청년인재 연세대 과정 합격

안녕하세요 소비입니다! 오늘 포스팅 할 글은 데이터 공부하시는 분에게는 아마 유용한 정보이지 않을까 싶네요! 정보통신과학기술부가 주최하고 한국 데이터 산업진흥회가 주간하는 프로그램인 빅데이터 청년인재라는 프로그램입니다! 해당 프로그램은 각 대학과 정부가 연계해서 데이터 교육 및 취업까지 도와주는 프로그램입니다 물론 무료이구요 ^^ 각 대학 별로 배우는 과정이 다릅니다 상명대는 금융 빅 데이터 과정이고 고려대는 빅데이터 기반 정보 지능형 시스템 개발 과정 등 다 다르기 때문에 본인이 원하는 과정을 찾아 들으면 됩니다! 저는 연세대에서 하는 빅데이터 분석처리 과정을 신청했어요 사실 해당 대학교 교수님께서 직접 강의하시는 거라 프로그램 합격자 분들은 본인이 신청한 대학에 가서 직접 수업 들어야 되거든요 (맞아..

데이터 2020.06.27

머신러닝 복습 3

풀파이프 라인을 만들었으니 머신러닝 모형을 돌립시다 먼저 선형회귀모형입니다 이를 통해 돌린 예측값을 볼 수 있습니다. 평균제곱 오차를 보겠습니다 . 약 68628 달러만큼의 차이를 보이네요 그외 다른 머신러닝 모형 또한 학습시키며 비교하겠습니다. 의사결정나무 모형을 학습시킨후 똑같이 평균제곱 오차를 보겠습니다. 0 입니다. 100프로 맞다고 뜹니다. 그러나 이러한 경우는 과대적합된 경우일 확률이 크기 때문에 세부 튜닝이 필요할 것입니다. k fold 교차검증을 통해 세부 튜닝을 시킵니다. 평균이 71407로 선형회귀모델보다 안좋네요 구라였습니다. 마지막으로 그리드 서치를 통해 가장 최적의 파라미터 값을 추출하겠습니다. . 그리드 서치에 적용된 모델은 랜덤 포레스트 모형입니다. 가장 최적의 파라미터값을 얻..

데이터 2020.06.25

머신러닝 복습 2

이어서 들어가겠습니다 median_house_value은 머신러닝 구현으로 알기 위한 타겟팅 컬럼입니다. 이와 가장 상관성이 높은 다른 독립변수는 무엇이 있을 지 살펴 봤습니다 . 시각화 했을 때 median income 변수는 역시 상관성이 높군요 그런 그래프 상단의 이상한 데이터는 제외해야할듯 합니다. 그 외 각가의 독립변수들 끼리의 조합을 통해 영향을 줄 수 있는 새로운 독립변수를 만들었습니다. 이제 독립변수와 종속변수를 구분한 것 같으니 train set 과 test set으로 나누기 전에 타게팅 데이터는 따로 빼서 저장하겠습니다. train set 데이터 정제과정입니다. 먼저 nan 값을 SimpleImputer 메소드로 중간값으로 처리하겠습니다. ocean_proximuty는 텍스트형 범주 데..

데이터 2020.06.25

핸즈온 머신러닝 연습 2장

핸즈온 머신러닝 연습 및 복습 캘리포니아 주택 가격 모델 만들기 (데이터를 갖고오는 것은 생략) 캘리포니아 주택 가격 데이터를 불러왔습니다. 주택 데이터 컬럼중 ocean_proximity의 경우 수치 데이터가 아닌 텍스트 범주형 데이터임을 확인했습니다. 컬럼별로 히스토그램을 살펴봤습니다. 우리는 median_house_value를 예측하기 머신러닝 모델을 구현해야합니다. 해당 히스토그램을 살펴본 결과 주택 중간연도 수의 경우 최대 최소값을 한정했습니다. 중간 주택 가격 또한 마찬가지입니다. train 데이터와 test 데이터를 분류하였습니다. median_income의 중요한 독립변수가 될 가능성이 높은데 히스토그램이 치우쳐 있습니다. 이를 test와 train변수로 나눌때 같은 비율로 나눠줘야 오차가..

데이터 2020.06.23

영화 평점 크롤링 연습

영화 평점 크롤링 연습 urlopen과 beautifulsoup 모듈을 불러왔습니다. 2020-01-01 기준으로 전체 영화 평점 기준을 html로 불러왔어요 date 리스트를 새로 만들고 100일간의 날짜를 저장했습니다 영화 날짜, 평점, 제목으로 새로운 리스트를 만들고 날짜 별로 영화 제목과 평점을 크롤링했어요 ! 크롤링 후 전체 데이터를 보니 4580건의 데이터가 있더라구요 movie 데이터 프레임 안에 각각의 columns을 넣었습니다 피봇 테이블을 만들고 평점의 합을 내림차순으로 정리했습니다 영화 기생충의 평점을 시각화 하려고 기생충 영화 평점만을 불러왔습니다 기생충이 오스카 상을 받았던 그 주에 평점이 올라갔던 것을 확인할 수 있었습니다.

데이터 2020.06.22