대외활동/Brightics 서포터즈

[Brightics | 프로젝트] 서울시 건강 고위험 지역 군집화 (1) 나만의 위험군 지표 선정하기

케이와이엠 2021. 9. 21. 22:31

이번 시간은 개인프로젝트의 PART 2 !

서울시 건강 고위험 최상위 지역군을 군집화해보는 시간이에요 .

먼저 건강 적신호의 최상위 군집을 군집화하기 위해선,

'건강 고위험군'이 뭔지 !

어떤 데이터로 이를 설명해야하는지 !

가 저의 프로젝트의 가장 핵심이이라고 할 수 있어요!

데이터사이언티스트 요구역량(adsp 기출)

 

데이터분석 과정에서 필요한 역량에 대해 떠올려보면,

물론 분석역량과 분석언어(r, python..)를 다루는 스킬들도 중요하지만

 

저는 개인적으로 분석과제를 수행할 때에 있어선

프로젝트 흐름의 유기성근거의 논리성을 갖추는게

간과하기 쉽지만 정말 정말 정말 .. 심혈을 기울여야하는 작업이라고 생각해요!

다른 사람과의 차별점 / 나만의 완성물을 얻는 것을 목표로

나의 논리가 다른 사람의 고개도 끄덕이게 만들 수 있는 그런 프로젝트 말이죵

따라서 오늘은 건강지표를 프로젝트에 사용하실 분들을 위해서

제가 겪었던 고민과정들을 공유하면서

제가 생각내린 '건강 고위험군' 에 대한 정의사용한 데이터 지표을 소개해드릴까 합니당 ~~ 🔎🔎🔎


(1) 논문 참고하기

앞서 말했듯이 건강 적신호의 최상위 군집을 군집화하기 위해서

'건강 고위험군'에 대한 지표를 선정해야 했어요.

지표 구성을 위해서 여러 논문들과 레퍼런스들을 보았는데요

우리나라 여성과 남성의 건강: 기대수명, 사망률 및 주관적 건강 지표를 중심으로 김유미

 

🦅 매의 눈으로 서치해본 결과 ! 🦅

상당수의 논문들에서 우리 지역사회의 건강상태를 대표하는 주요 지표로서

기대수명, 사망통계, 주관적 건강지표를 사용하더라구요.

그 중 특히 사망 통계의 경우엔 연령표준화된 질환별 사망률이 활용되는 걸 볼 수 있었습니다.


(2) 유사한 연구 사전조사하기

또한 다른 방법으로는 사전조사를 통해 유사연구들을 확인해볼 수도 있을 거 같아요

그 중에 제 눈에 띈 것이 바로

'2021 사회안전지수' 인데요

참조 : 2021 사회안전지수 지표 구성

 

2020년 작년에 처음 발표된 사회안전지수는

머니투데이가 성신여대 데이터사이언스센터, 여론조사기관 케이스탯리서치, 온라인패널 조사기업 피앰아이와 공동으로

공개한 지역별 점수들이에요.

우리 사회의 안전과 불안감에 영향을 주는 생활안전뿐 아니라 경제활동, 건강보건, 주거환경 등 크게 4개 분야를 기준으로 산출했고 정부의 통계자료 등 객관적 지표와 주민 설문조사 등 주관적 지표를 모두 활용했습니다.

이 중에서 제가 참고한 분야는

바로 <건강보건> 분야 中 <건강> 파트랍니다.

참고로, 제가 살고 있는 서울시 동대문구의 경우

 

위와 같은 점수를 갖고 있네용 ㅎㅎㅎ

큼큼 그래서 저만의 지표를

위를 참고하여

건강보건 분야의 객관 - 주요질환 연령 표준화 사망률 (1)

주관 - 기대여명 (2), 주관적 건강상태(3)

를 변수로 채택하기로 했어요.

(1)주요질환 연령 표준화 사망률

2020년을 기준으로 연구를 시행하고 있는 관계로

2020 사망원인통계를 확인해야하는데 매년 9월 넷째주 화요일에 공개되나봐요 !

글을 쓰고 있는 시점이 .. 아직 주말이라 ㅠ 공개 후 확인해보겠습니다.

https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1B34E13

 

KOSIS

 

kosis.kr

(2) 기대여명

0세의 기대여명인 기대수명을 사용할까해요.

현재 수준의 사망률을 가정했을 때, 0세 출생자가 향후 생존할 것으로 기대되는 평균년수를 말하죠

- 서울시 기대수명 (구별) 통계

https://data.seoul.go.kr/dataList/10703/S/2/datasetView.do

(3) 주관적 건강 상태

주관적 건강상태는 <서울시민의 주관적 건강수준 인지율>을 가르키는 말 같아요.

여기엔 지난 포스팅에서 보았던 스트레스 인지율, 우울감 경험률도 연관이 있어 보여요/

참고로 이들은 지역사회건강조사 중 건강행태 분야에서 확인해줄 수 있는데요

그래서 저는 저 셋에 멈추지 않고 !!

저는 저만의 지표를 완성하기 위해서

(4)지역사회 건강 조사 중 건강행태 분야에 속하는 지표들을 모두 고려해주기로 결정했습니다.

그래서 앞서 조사했던 지역사회건강조사 결과들, 즉

서울시 비만율, 흡연율, 고위험음주율, 우울증경험률 등 여러 데이터셋을 수집한 다음

서울시 내 '구'단위로 이를 JOIN시켜 결합된 하나의 데이터셋을 완성시킬 예정이었어요.

그래서 서울시 열린광장에서 동일한 2020년도에 해당하는

데이터를 모으고 있다가,

유레카 !!

제가 정리하고싶었던 그.대.로 제공하는 데이터가 있는 거 아니겠어요 ㅠ ??!!

(출처 : 서울시 열린데이터광장 https://data.seoul.go.kr/dataList/10649/S/2/datasetView.do)

이렇게 수집한 자료들을 한 꺼번에 처리하기 위해서

아래와 같이 직접 .. 구별로 정리해주었답니다

잠깐

여기서 칼럼 소개 time ~

smoking : 현재 흡연율

drinkging : 고위험 음주율

activity : 증등도 이상 신체활동 실천율

walking : 걷기 실천율

stress: 스트레스 인지율

depression: 우울감 경험율

subjective_awarness: 양호한 주관적 건강수준 인지율

life_expectancy : 출생 시 기대수명

standardized_mortality : 연령별 표준화 사망률

자자

이렇게 저만의 지표들로 꾹꾹 담은 데이터셋이 준비되었답니다 ㅎㅎ

이렇게 알찬 데이터라니 ...

제가 저에게 주는 한가위 선물이랄까요 ?

🎁🎁🎁🎁

저는 이제 홀가분한 마음으로 남은 연휴를 즐겨보겠습니다 ㅎㅎ

다들 추석연휴기간 동안 맛있는거 ! 재밌는 거 ! 충분히 즐기시고

머리 속을 가~득 채우는 걱정들은 잠시 미뤄보자구용 ㅎㅎ


*해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성된 포스팅 입니다.

게시글 관련 문의 및 소통을 원하신다면 아래 댓글로 남겨주세요

브라이틱스 사용 중 문의사항은

brightics@samsung.com으로 연락주세요 :)