대외활동 36

[Brightics | 프로젝트] 서울시 건강 고위험 지역 군집화 (2) 계층적 군집화(Hierarchical Clustering)

​ 지난 시간, 서울시 건강 고위험군 지역을 군집화하기 위해서 지표 선정을 위한 데이터를 수집해주었는데요 ! ​ 해당 포스팅은 아래 링크에서 확인하실 수 있습니다 :_: [Brightics | 프로젝트] 서울시 건강 고위험 지역 군집화 (1) 나만의 위험군 지표 선정하기 ​ 이번 시간은 개인프로젝트의 PART 2 ! 서울시 건강 고위험 최상위 지역군을 군집화해보는 시간이에요 . ​ ​ 먼저 건강 적신호의 최상위 군집을 군집화하기 위해선, '건강 고위험군'이 뭔지 ! uumini.tistory.com ​ 그럼 이제 본격적으로 지역 군집화 과정을 진행해보도록 할게요! ​ 들어가기 전에 한 가지 아쉬운 소식이 있는데요 ㅜㅜㅜ 지표 중 하나로 쓰기로 마음 먹었던 데이터가 아직까지 업로드 되지 않았더라구요 .....

[Brightics | 프로젝트] 서울시 건강 고위험 지역 군집화 (1) 나만의 위험군 지표 선정하기

​ 이번 시간은 개인프로젝트의 PART 2 ! 서울시 건강 고위험 최상위 지역군을 군집화해보는 시간이에요 . ​ ​ 먼저 건강 적신호의 최상위 군집을 군집화하기 위해선, '건강 고위험군'이 뭔지 ! 어떤 데이터로 이를 설명해야하는지 ! 가 저의 프로젝트의 가장 핵심이이라고 할 수 있어요! 데이터분석 과정에서 필요한 역량에 대해 떠올려보면, 물론 분석역량과 분석언어(r, python..)를 다루는 스킬들도 중요하지만 ​ 저는 개인적으로 분석과제를 수행할 때에 있어선 프로젝트 흐름의 유기성과 근거의 논리성을 갖추는게 간과하기 쉽지만 정말 정말 정말 .. 심혈을 기울여야하는 작업이라고 생각해요! 다른 사람과의 차별점 / 나만의 완성물을 얻는 것을 목표로 나의 논리가 다른 사람의 고개도 끄덕이게 만들 수 있는 ..

[Brightics | 프로젝트] 코로나19 이후 건강실태 변화 확인하기 :: 시계열 자료 시각화

​ 저는 현재 "서울시 건강 고위험 지역 분류 기반, 포스트코로나 시대를 위한 현대인의 건강증진 방향 제시' 에 대한 개인분석을 진행 중인데요, ​ 이번 시간은 분석의 첫 번째 PART의 핵심 ! 현재 코로나19 이후 국민들의 건강실태가 얼만큼 변화하였는지를 데이터로 직접 확인해보도록 할게요 ➛➛➛ ​ ​ /* 속성 전처리 가이드 */ 먼저 select column 으로 null 값으로 구성된 칼럼들(2008년 2018년)은 drop 해줍니다. ​ 그리고 세종시의 2009,2010,2011 자료가 항상 누락되는 점을 확인할 수 있는데요, 이는 바로 세종시가 2012년 7월 출범했기 때문이겠죠 ! 그래서 특정 값이 아닌 측정되지 않음을 의미하는 0으로 대체해줍니다. ​ 이처럼 데이터 활용능력만이 아닌, 배..

[Brightics | 프로젝트] 결측치 처리의 모든 것 :: how to deal with missing value ?

이번 시간은 시각화 단계롤 넘어가기 전에, 전처리 단계 중 단계를 집중적으로 다루는 특 !! 별 !! 판 !! ​ "결측치 처리의 모든 것" ​ 시간을 준비해보았습니다. ​ ​ 저같은 경우에 파이썬이나 R과 같은 다른 툴로 분석을 처음 접할 때 데이터 전처리 단계에서 가장 처음으로 봉착한 난관이 결측치 처리였거든요 ㅠㅠ 지워야하는지 ,, 대체한다면 어떤 값으로 대체해야하는지 ,, ​ ​ 저와 같은 어려움을 겪고 계실 분들을 위해 제가 정리한 자료들로 같이 설명해드릴게요. 해당 설명은 데이터캠프 (https://www.datacamp.com/courses/dealing-with-missing-data-in-python) 강의 내용을 참고하였습니다 :) ​ ​ STEP 1. 결측값 확인하기 먼저, 결측값이 ..

[Brightics | 프로젝트] 코로나19 이후 건강실태 변화 확인하기 :: 데이터 수집 + 로드 error 처리

다들 한 주동안 잘지내셨나요 ~? 드디어 9월 새학기가 시작되고 전 이번에도 어김없이 개강을 맞이하게 되었는데요. 수강신청도 하고 강의계획서도 읽어보고 ~ 정말 개강을 슬슬 실감하고 있어요. ​ ​ 지난 주 멘토님들의 조언을 얻고 한층 탄탄해진 계획을 바탕으로 이제 본격적으로 데이터를 만져보도록 하겠습니다 :) 이건 제가 지난 첫 계획에서 세운 타임라인인데요, 모든 데이터들을 한꺼번에 전처리하기 보다는 분석개요를 3개의 파트로 나눠서 파트 별로 순차적으로 진행하는게 흐름 상 좋을 것 같더라구요 ! ​ ​ 그래서 오늘과 다음 시간에는 2020 코로나 이후 국민들의 건강실태 파악하는 현황 분석을 PART 1 으로 잡고 진행해볼까합니다 ! ​ 데이터 수집 먼저, 제가 사용할 데이터는 2020년 질병관리청 지역..

[Brightics | 실습] 개인 데이터 분석 프로젝트 :: 주제 선정 w/ 지역건강조사

어느새 열심히 브라이틱스 서포터즈로 달려온 지 4개월이 지났는데요, 팀 분석 프로젝트와 두 차례에 걸친 홍보 UCC 제작을 마치고 벌!써! 마지막 활동을 앞두고 있어요. ​ 브라이틱스와 윰 서포터즈와 함께 하는 데린이 탈출 프로젝트 ! 그 대망의 마지막 활동은 바로 개.인. 분석 프로젝트입니다. 두 달 넘게 팀원들과 회의하며 팀 프로젝트를 꾸준히 진행해오다가 갑자기 혼자 모든 일을 진행하려니 꽤나 막막했습니다🥺 마지막 개인 분석만큼은 평소 관심분야의 데이터로 다양한 접근을 해보고 싶은 제 욕심이 컸기 때문인가봐요 허허 주제를 이것저것 선정하면서 쉬운 길로 가려는 제 자신과 타협하지 않으려 애썼답니다 ^^ ​ 아직까지 패드에 적응 못 한 내 글씨체 .. 자유주제인 만큼 떠오르는 아이디어를 틈틈히 적어주었어..

[Brightics | 실습] 브라이틱스 kaggle(캐글) 팀 프로젝트 총 정리

약 5주간 달려왔던 브라이틱스 팀 프로젝트 지난 주 모델링과 평가까지 무사히 프로젝트를 마칠 수 있었는데요, 하지만 서포터즈로서 미션은 아직 끝나지 않았다는 점 ! 프로젝트 결과보고서 / 실습 튜토리얼 영상 준비과정 / 썸네일 까지 모두 소개드리겠습니다. 프로젝트 결과 보고 먼저 지난 주 까지 마무리되었던 저희 프로젝트를 결과보고서로 정리해봤어요. 01. 데이터 소개 02. EDA 및 전처리 03. 모델링 04. 평가 및 결과 해석 순서로 4주간 회의했던 내용을 차곡차곡 담아보았답니다 EDA부터 결과 해석까지 정리된 보고서를 모두 보여드릴 순 없지만, 상세 내용이 궁금하시다면 제 블로그 + 저희 팀원들의 블로그를 방문하시면 자세한 이야기를 들을 수 있을 겁니다 :) https://blog.naver.co..

[Brightics | 실습] kaggle(캐글) 로 Housing Data 모델링하기 (4) 모델링 편

이번 차시는 바로 데이터분석, 머신러닝의 꽃이죠 ! 바로 분석모델을 선택해서, 다양한 모델링을 진행해보는 시간​입니다. 저희가 목표로 하는 '예측하기'는 바로 회귀모델을 사용하는데요, Brightics 에는 과연 어떤 분석방법들로 구현 가능할 지 같이 공부해보아요 ! ​ 이번 모델링 작업도 마찬가지로 조원들과 분석기법을 나누어 회의를 토해 결과를 공유해보기로 했어요 최고의 조원들과 완성한 캐글데이터 분석, 과연 얼만큼 잘 예측해냈을지 잘 따라와주세요 ◠‿◠ ​ 작업 확인하기 본격적인 모델링에 들어가기 앞서, 이제껏 완성된 전 작업들을 간단히 확인해주어요 ! 결측치들을 꼼꼼히 제거해주고 이상치들도 없애주었어요. 그리고 범주형 변수들도 연속형으로 인코딩해주었답니다. ..

[Brightics | 실습] kaggle(캐글) 로 Housing Data 시각화하기 (3) EDA + feature 선택 편

​ 이번에는 팀원들과 각자 feature를 맡아서 eda를 해오기로 했습니다. 저희가 선택한 캐글의 Housing data가 80개가 넘는 변수로 이루어지다보니 모든 변수들에 대한 eda를 혼자서 진행하기엔 무리가 있는 것 같더라구요 이럴 때 필요한 게 바로 팀워크 !! 팀원들과 함께 해서 더 쉽고 빠르게 진행할 수 있었어요 ​ 1. EDA : 시각화 + 이상치 확인 먼저 eda를 하기 위해 팀원들과 각자 15개의 칼럼을 맡아 Brightics를 이용한 시각화를 정리해보았습니다. 저 같은 경우에는 변수들의 분포를 먼저 확인한 다음에 -> 수치형인 경우엔 너무 치우쳐져있진 않은지, 범주형은 unique와 frequency 차원에서 메리트가 있는 친구인지 확인 ->..

[Brightics | 실습] kaggle(캐글) 로 Housing Price 예측하기 (2) 전처리 편

이젠 팀 프로젝트 두 번째 시간, 전처리 편입니다 ! ​ 팀원들과 각자 변수들을 꼼꼼히 살펴본 후 회의를 거쳐 전처리 방법을 하나로 통일시키는 방식으로 진행하였어요 ​ 0. 데이터 설명 + 불러오기 먼저, 사용할 데이터는 kaggle의 competition 대회 데이터 중 House Price 데이터에요 ! ​ 2021.08.03 - [삼성 Brightics] - [Brightics | 실습] 브라이틱스로 kaggle(캐글) 참여하기 (1) 기획 편 [Brightics | 실습] 브라이틱스로 kaggle(캐글) 참여하기 (1) 기획 편 브라이틱스와 함께 [Brightics | BASIC] , [Brightics | 실습] 을 중심으로 함께 공부해온지 벌써 8주, 2달이 흘렀는데요 각종 예제와 실습으로 실..