다들 한 주동안 잘지내셨나요 ~?
드디어 9월 새학기가 시작되고 전 이번에도 어김없이 개강을 맞이하게 되었는데요.
수강신청도 하고 강의계획서도 읽어보고 ~ 정말 개강을 슬슬 실감하고 있어요.
지난 주 멘토님들의 조언을 얻고 한층 탄탄해진 계획을 바탕으로
이제 본격적으로 데이터를 만져보도록 하겠습니다 :)
이건 제가 지난 첫 계획에서 세운 타임라인인데요,
모든 데이터들을 한꺼번에 전처리하기 보다는 분석개요를 3개의 파트로 나눠서
파트 별로 순차적으로 진행하는게 흐름 상 좋을 것 같더라구요 !
그래서 오늘과 다음 시간에는
2020 코로나 이후 국민들의 건강실태 파악하는
현황 분석을 PART 1 으로 잡고 진행해볼까합니다 !
데이터 수집
먼저, 제가 사용할 데이터는
2020년 질병관리청 지역사회건강조사
:2020 한눈에 보기_1.본문 (1) 건강행태
:2020 한눈에 보기_1.본문 (4)코로나19
입니다.
이들을 브라이틱스 상에서 바로 사용할 수 있게 직.접.가공작업을 거친 후 저장해주었답니다 ^_<
사용할 데이터를 간단히 짚고 넘어가보자면,
Dailychange_corona10 : 코로나19 유행으로 인한 세부적인 일상생활 변화
2020healthbehavior_smoke : 평생 5갑 이상 피운 사람 중 현재 흡연하는 사람의 비율
2020healthbehavior_drink : 최근 1년동안 한 번의 술자리에서 남자는 7잔, 여자는 5잔 이상을 주2회 마신다고 응답한 고위험음주율
2020healthbehavior_activity : 최근 1주일 동안 중등도(평소보다 몸이 조금 힘들거나 숨이 약간 가쁜 정도) 신체활동을 1일 30분 이상, 주 5일 이상 실천한 중등도 이상 신체활동 실천율
2020healthbehavior_overweight : 자가보고 체질량지수가 25 이상인 비만율
2020healthbehavior_stress : 평소 일상생활 중 스트레스를 “대단히 많이 느낀다“ 또는 “많이 느끼는 편이다"에 응답한 스트레스 인지율
2020healthbehavior_depression : 최근 1년동안 연속적으로 2주 이상 일상생활에 지장이 있을 정도의 우울감(슬픔이나 절망감 등)을 경험한 우울감 경험률
로 정리해주었어요.
그럼 이제 Brightic Studio로 불러와볼까요 ?
데이터 불러오기 + 에러 사항 발생 ?!
새로운 모델을 만들어줍니다.
ERROR 01
LOAD 함수로는 EXCEL(엑셀) 파일을 불러올 수 없다 ! CSV파일만 가능
따라서 READ EXCEL 함수를 사용하던지 혹은 CSV 파일로 변환해주어야합니다.
이때, CSV 변환 시에 인코딩 형식을 UTF-8(BOM)로 해주어야합니다.
또한 load 함수가 아니라 바로
"Read Excel" 함수를 사용해도 물론 가능하답니다 !
ERROR 02
또한 칼럼명의 경우 오직 알파벳으로 시작해야만하며,
그 뒤로는 알파벳, 숫자, _ 기호를 사용할 수 있습니다.
이렇게 차근차근 하나씩 불러온 결과
위와 같이 필요한 데이터 셋을 모두 팔레트에 옮겨주었습니다.
데이터 둘러보기
그 후 총 7개의 데이터 셋의 분포를 잠깐 확인해줄게요.
각 변수들의 분포를 확인할 때에는 주로 Statistic Summary , String Summary를 써주었는데요,
이번엔 단 한번에 히스토그램과 요약통계량을 확인할 수 있는 <profile table>를 사용했답니다 .
정확히 변수의 개수, missing value 개수, 칼럼 별 요약통계량을 제공해주고 있어요.
⏰ ⏰ ⏰
이제 이를 바탕으로 null 값을 제거한 후 현황을 시각화하여 살펴보는 시간을 다음 시간에 가져보도록 하겠습니다 :)
*해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성된 포스팅 입니다.
게시글 관련 문의 및 소통을 원하신다면 아래 댓글로 남겨주세요
브라이틱스 사용 중 문의사항은
brightics@samsung.com으로 연락주세요 :)
'대외활동 > Brightics 서포터즈' 카테고리의 다른 글
[Brightics | 프로젝트] 코로나19 이후 건강실태 변화 확인하기 :: 시계열 자료 시각화 (0) | 2021.09.14 |
---|---|
[Brightics | 프로젝트] 결측치 처리의 모든 것 :: how to deal with missing value ? (0) | 2021.09.14 |
[Brightics | 실습] 개인 데이터 분석 프로젝트 :: 주제 선정 w/ 지역건강조사 (0) | 2021.08.31 |
[Brightics | 실습] 브라이틱스 kaggle(캐글) 팀 프로젝트 총 정리 (0) | 2021.08.24 |
[Brightics | 실습] kaggle(캐글) 로 Housing Data 모델링하기 (4) 모델링 편 (0) | 2021.08.17 |