개인분석 3

[Brightics | 프로젝트] 서울시 건강 고위험 지역 군집화 (2) 계층적 군집화(Hierarchical Clustering)

​ 지난 시간, 서울시 건강 고위험군 지역을 군집화하기 위해서 지표 선정을 위한 데이터를 수집해주었는데요 ! ​ 해당 포스팅은 아래 링크에서 확인하실 수 있습니다 :_: [Brightics | 프로젝트] 서울시 건강 고위험 지역 군집화 (1) 나만의 위험군 지표 선정하기 ​ 이번 시간은 개인프로젝트의 PART 2 ! 서울시 건강 고위험 최상위 지역군을 군집화해보는 시간이에요 . ​ ​ 먼저 건강 적신호의 최상위 군집을 군집화하기 위해선, '건강 고위험군'이 뭔지 ! uumini.tistory.com ​ 그럼 이제 본격적으로 지역 군집화 과정을 진행해보도록 할게요! ​ 들어가기 전에 한 가지 아쉬운 소식이 있는데요 ㅜㅜㅜ 지표 중 하나로 쓰기로 마음 먹었던 데이터가 아직까지 업로드 되지 않았더라구요 .....

[Brightics | 프로젝트] 코로나19 이후 건강실태 변화 확인하기 :: 시계열 자료 시각화

​ 저는 현재 "서울시 건강 고위험 지역 분류 기반, 포스트코로나 시대를 위한 현대인의 건강증진 방향 제시' 에 대한 개인분석을 진행 중인데요, ​ 이번 시간은 분석의 첫 번째 PART의 핵심 ! 현재 코로나19 이후 국민들의 건강실태가 얼만큼 변화하였는지를 데이터로 직접 확인해보도록 할게요 ➛➛➛ ​ ​ /* 속성 전처리 가이드 */ 먼저 select column 으로 null 값으로 구성된 칼럼들(2008년 2018년)은 drop 해줍니다. ​ 그리고 세종시의 2009,2010,2011 자료가 항상 누락되는 점을 확인할 수 있는데요, 이는 바로 세종시가 2012년 7월 출범했기 때문이겠죠 ! 그래서 특정 값이 아닌 측정되지 않음을 의미하는 0으로 대체해줍니다. ​ 이처럼 데이터 활용능력만이 아닌, 배..

[Brightics | 프로젝트] 결측치 처리의 모든 것 :: how to deal with missing value ?

이번 시간은 시각화 단계롤 넘어가기 전에, 전처리 단계 중 단계를 집중적으로 다루는 특 !! 별 !! 판 !! ​ "결측치 처리의 모든 것" ​ 시간을 준비해보았습니다. ​ ​ 저같은 경우에 파이썬이나 R과 같은 다른 툴로 분석을 처음 접할 때 데이터 전처리 단계에서 가장 처음으로 봉착한 난관이 결측치 처리였거든요 ㅠㅠ 지워야하는지 ,, 대체한다면 어떤 값으로 대체해야하는지 ,, ​ ​ 저와 같은 어려움을 겪고 계실 분들을 위해 제가 정리한 자료들로 같이 설명해드릴게요. 해당 설명은 데이터캠프 (https://www.datacamp.com/courses/dealing-with-missing-data-in-python) 강의 내용을 참고하였습니다 :) ​ ​ STEP 1. 결측값 확인하기 먼저, 결측값이 ..