데이터분석 28

01. 데이터 사이언틱(Data-scientic)한 사고

01. 데이터 사이언틱(Data-scientic)한 사고 일을 시작하기 전, 그 일에 적합한 👩페르소나👩를 만드는 것. 그것이 난 첫째라고 생각한다. 어떤 사람으로 비추어질 것이냐, 어떤 사람으로 비추어지길 바라는가. 내가 설정하기에 달려있다. 대학에 들어오고 나서 데이터사이언티스트의 길을 가보고 싶다는 생각까지 그리 오래 걸리지 않았다. 수학을 좋아하고, 다각도의 해석을 시도하는 것을 좋아하고, 항상 아이디어가 넘쳐나는 나에 딱 어울리는 진로라고 생각했다. 그렇다면 데이터 사이언티스트로서의 나는 어떤 면모를 가진 사람이어야할까 ? 데이터 사이언틱한 사고를 가진 사람은 어떤 사람인가? 데이터 사이언틱한 사고 데이터 사이언틱한 사고라고 들어보았을까 다들 .. 당연히 안들어봤을 것이다. 내가 지어낸 말이니까..

[Brightics | 프로젝트] 보고서(Report)기능으로 분석 프로젝트 한 눈에 정리하기

안녕하세요 브라이틱스 서포터즈 2기 김유민입니다. 벌써 개인 분석 프로젝트의 마지막 포스팅이네요 ㅜㅁㅜ 개인 분석 주제를 어떤 걸로 잡아야하나, 어떤 내용으로 구성할까로 시작했던 고민들에 대한 하나 둘 씩 답을 내려가니, 어느덧 21주차 포스팅까지 왔는데요 ㅎㅎ 마지막 포스팅인 만큼, 제가 진행한 분석 과정을 총망라해보는 정리 time 을 가져봐야할 것 같아요 ! ​ 분석 내용과 결과물을 결과보고서로도 작성하여 제출할 예정이지만, Brightics 내에 도 레포트 작성 기능이 들어있다는 점 !! 오늘은 분석 보고서를 최종적으로 작성하기 전에, 미리 브라이틱스 레포트 기능으로 구현해보는 시간을 가져보겠습니다. ​ ​ 먼저, 제가 진행한 분석의 세부 절차를 다시 짚어보자면, 처음 목표로 세웠던 계획서와는 사..

[Brightics | 프로젝트] 소득수준이 높을수록 건강수준도 높을까? :: 상관성 분석

​ 벌써 20주차가 되어가는 브라이틱스 활동 ! 시간이 정말 빨리 흐르는 것 같습니다 🥺🥺 오늘은 더 힘차게 더 파이팅 넘치게 시작해볼까요 ?!!! 잠깐 정리를 해보자면 지난 시간까지 방법으로 1) 건강수준별로 지역 군집을 해석해보았고, 2) 지리적 위치가 건강수준에 미치는 영향을 확인해보았고, 3) 자치구 지역별 운동 인프라의 균형도를 파악​해보았습니다 . ​ 이번 시간에는, 건강수준에 영향을 미치는 요인으로 과연 소득수준, 경제수준이 과연 연관이 있을지 ! 상관분석을 통해 알아보고자 합니다. ​ ​ 따라서 추가적 데이터 수집 과정을 거쳤는데요 , ​ ​ 서울 열린 데이터 광장의 를 활용했습니다 . https://data.seoul.go.kr/dataList/11063/S/2/datasetView.do..

[Brightics | 프로젝트] 서울시 지도 시각화하기 : 브라이틱스 Map vs 파이썬 Forlium 비교

이번 시간은 지난 포스팅에서 예고한 대로 브라이틱스를 활용한 지도 시각화 방법을 공유해드릴까 합니다 !! ​ ​ 아무래도 도시 연구나 지역 간 비교를 할 때 직접 지도 위에서 수치를 나타내면 더 한 눈에 이해하기 쉽죠. 여러분들은 주로 어떤 방식으로 구현하고 계신가요 ?? ​ ​ 아마 많은 분들께서​ 파이썬 내장 라이브러리인 Forlium을 사용하실 것 같아요 . 저도 마찬가지구요 !! 그래서 이번 시간엔 동일한 분석과정에 대해서 파이썬의 Forlium 기능과 브라이틱스의 Map 기능을 동시에 보여드릴테니 선택은 여러분의 몫입니다 ㅎㅎ ~! ​ 파이썬 Forlium [ 사용 데이터 ] : 먼저 저는 지난 시간에 완성한 건강고위험군 군집을 사용할 예정이에요. 건강 고위험군으로 군집화한 지역을 지도 상에 나..

[Brightics | 프로젝트] 서울시 건강 고위험 지역 군집화 (1) 나만의 위험군 지표 선정하기

​ 이번 시간은 개인프로젝트의 PART 2 ! 서울시 건강 고위험 최상위 지역군을 군집화해보는 시간이에요 . ​ ​ 먼저 건강 적신호의 최상위 군집을 군집화하기 위해선, '건강 고위험군'이 뭔지 ! 어떤 데이터로 이를 설명해야하는지 ! 가 저의 프로젝트의 가장 핵심이이라고 할 수 있어요! 데이터분석 과정에서 필요한 역량에 대해 떠올려보면, 물론 분석역량과 분석언어(r, python..)를 다루는 스킬들도 중요하지만 ​ 저는 개인적으로 분석과제를 수행할 때에 있어선 프로젝트 흐름의 유기성과 근거의 논리성을 갖추는게 간과하기 쉽지만 정말 정말 정말 .. 심혈을 기울여야하는 작업이라고 생각해요! 다른 사람과의 차별점 / 나만의 완성물을 얻는 것을 목표로 나의 논리가 다른 사람의 고개도 끄덕이게 만들 수 있는 ..

[Brightics | 프로젝트] 코로나19 이후 건강실태 변화 확인하기 :: 시계열 자료 시각화

​ 저는 현재 "서울시 건강 고위험 지역 분류 기반, 포스트코로나 시대를 위한 현대인의 건강증진 방향 제시' 에 대한 개인분석을 진행 중인데요, ​ 이번 시간은 분석의 첫 번째 PART의 핵심 ! 현재 코로나19 이후 국민들의 건강실태가 얼만큼 변화하였는지를 데이터로 직접 확인해보도록 할게요 ➛➛➛ ​ ​ /* 속성 전처리 가이드 */ 먼저 select column 으로 null 값으로 구성된 칼럼들(2008년 2018년)은 drop 해줍니다. ​ 그리고 세종시의 2009,2010,2011 자료가 항상 누락되는 점을 확인할 수 있는데요, 이는 바로 세종시가 2012년 7월 출범했기 때문이겠죠 ! 그래서 특정 값이 아닌 측정되지 않음을 의미하는 0으로 대체해줍니다. ​ 이처럼 데이터 활용능력만이 아닌, 배..

[Brightics | 프로젝트] 결측치 처리의 모든 것 :: how to deal with missing value ?

이번 시간은 시각화 단계롤 넘어가기 전에, 전처리 단계 중 단계를 집중적으로 다루는 특 !! 별 !! 판 !! ​ "결측치 처리의 모든 것" ​ 시간을 준비해보았습니다. ​ ​ 저같은 경우에 파이썬이나 R과 같은 다른 툴로 분석을 처음 접할 때 데이터 전처리 단계에서 가장 처음으로 봉착한 난관이 결측치 처리였거든요 ㅠㅠ 지워야하는지 ,, 대체한다면 어떤 값으로 대체해야하는지 ,, ​ ​ 저와 같은 어려움을 겪고 계실 분들을 위해 제가 정리한 자료들로 같이 설명해드릴게요. 해당 설명은 데이터캠프 (https://www.datacamp.com/courses/dealing-with-missing-data-in-python) 강의 내용을 참고하였습니다 :) ​ ​ STEP 1. 결측값 확인하기 먼저, 결측값이 ..

[Brightics | 프로젝트] 코로나19 이후 건강실태 변화 확인하기 :: 데이터 수집 + 로드 error 처리

다들 한 주동안 잘지내셨나요 ~? 드디어 9월 새학기가 시작되고 전 이번에도 어김없이 개강을 맞이하게 되었는데요. 수강신청도 하고 강의계획서도 읽어보고 ~ 정말 개강을 슬슬 실감하고 있어요. ​ ​ 지난 주 멘토님들의 조언을 얻고 한층 탄탄해진 계획을 바탕으로 이제 본격적으로 데이터를 만져보도록 하겠습니다 :) 이건 제가 지난 첫 계획에서 세운 타임라인인데요, 모든 데이터들을 한꺼번에 전처리하기 보다는 분석개요를 3개의 파트로 나눠서 파트 별로 순차적으로 진행하는게 흐름 상 좋을 것 같더라구요 ! ​ ​ 그래서 오늘과 다음 시간에는 2020 코로나 이후 국민들의 건강실태 파악하는 현황 분석을 PART 1 으로 잡고 진행해볼까합니다 ! ​ 데이터 수집 먼저, 제가 사용할 데이터는 2020년 질병관리청 지역..

[Brightics | 실습] 개인 데이터 분석 프로젝트 :: 주제 선정 w/ 지역건강조사

어느새 열심히 브라이틱스 서포터즈로 달려온 지 4개월이 지났는데요, 팀 분석 프로젝트와 두 차례에 걸친 홍보 UCC 제작을 마치고 벌!써! 마지막 활동을 앞두고 있어요. ​ 브라이틱스와 윰 서포터즈와 함께 하는 데린이 탈출 프로젝트 ! 그 대망의 마지막 활동은 바로 개.인. 분석 프로젝트입니다. 두 달 넘게 팀원들과 회의하며 팀 프로젝트를 꾸준히 진행해오다가 갑자기 혼자 모든 일을 진행하려니 꽤나 막막했습니다🥺 마지막 개인 분석만큼은 평소 관심분야의 데이터로 다양한 접근을 해보고 싶은 제 욕심이 컸기 때문인가봐요 허허 주제를 이것저것 선정하면서 쉬운 길로 가려는 제 자신과 타협하지 않으려 애썼답니다 ^^ ​ 아직까지 패드에 적응 못 한 내 글씨체 .. 자유주제인 만큼 떠오르는 아이디어를 틈틈히 적어주었어..

[Brightics | 실습] 브라이틱스 kaggle(캐글) 팀 프로젝트 총 정리

약 5주간 달려왔던 브라이틱스 팀 프로젝트 지난 주 모델링과 평가까지 무사히 프로젝트를 마칠 수 있었는데요, 하지만 서포터즈로서 미션은 아직 끝나지 않았다는 점 ! 프로젝트 결과보고서 / 실습 튜토리얼 영상 준비과정 / 썸네일 까지 모두 소개드리겠습니다. 프로젝트 결과 보고 먼저 지난 주 까지 마무리되었던 저희 프로젝트를 결과보고서로 정리해봤어요. 01. 데이터 소개 02. EDA 및 전처리 03. 모델링 04. 평가 및 결과 해석 순서로 4주간 회의했던 내용을 차곡차곡 담아보았답니다 EDA부터 결과 해석까지 정리된 보고서를 모두 보여드릴 순 없지만, 상세 내용이 궁금하시다면 제 블로그 + 저희 팀원들의 블로그를 방문하시면 자세한 이야기를 들을 수 있을 겁니다 :) https://blog.naver.co..