벌써 20주차가 되어가는 브라이틱스 활동 !
시간이 정말 빨리 흐르는 것 같습니다 🥺🥺
오늘은 더 힘차게 더 파이팅 넘치게 시작해볼까요 ?!!!
잠깐 정리를 해보자면 지난 시간까지 <군집화> 방법으로
1) 건강수준별로 지역 군집을 해석해보았고,
2) 지리적 위치가 건강수준에 미치는 영향을 확인해보았고,
3) 자치구 지역별 운동 인프라의 균형도를 파악해보았습니다 .
이번 시간에는, 건강수준에 영향을 미치는 요인으로 과연 소득수준, 경제수준이 과연 연관이 있을지 !
상관분석을 통해 알아보고자 합니다.
따라서 추가적 데이터 수집 과정을 거쳤는데요 ,
서울 열린 데이터 광장의 <자치구별 1인당 지역내총생산 및 수준지수> 를 활용했습니다 .
https://data.seoul.go.kr/dataList/11063/S/2/datasetView.do
데이터 전처리 과정을 뚝딱 뚝딱 거치고 완성된 데이터는 아래와 같습니다
join 함수를 사용해서 두 데이터를 자치구(region) 변수로 기준 삼아 합쳐주었습니다 !
그럼 마지막 열에 우리가 새로 불러온 지역내 총생산 관련 변수들이 추가된 게 보이죠 !
그럼 이제 상관관계를 확인해주기 위해서 Correlation함수를 활용해봅시다.
제가 알아볼 타켓변수는 '기대수명' 과 '자가 인식 수준' 에 해당하는 건강수준 지표에요.
따라서 기대수명, 자가인식수준, 그리고 1인당 GRDP에 대하여 상관 분석을 진행해보아요.
이때 저는 pearson 피어슨 상관계수를 활용해주었어요.
살펴본 결과, 자가 인식 수준과 1인당 GRDP의 상관계수는 0.37로 양의 상관관계를 확인했어요 !!
하지만, 가장 기대했던 기대수명과의 관계는 고작 0.02에 불과했네요 ..
그래서 다시 한 번 더 !! 기대수명을 한 번 카테고리로 나누어보기로 했어요.
임의적으로 중앙값(MEDIAN)을 참고하여
중앙값보다 크다면 [high] / 중앙값보다 작다면 [low]로 구분해 [life_ex_category]변수를 추가생성해주었습니다.
그 후 이 life_ex_category로 groupby해준 상관분석의 결과
오오오오 !!
high group에서는 0.68이라는 강한 양의 상관관계를 보였습니다.
1인당 지역내총생산이 많으면, 기대수명도 커진다를 입증해주는 것이죠.
반면 low group에서는 여전히 유의미하지 않은 계수가 나왔는데요
아마 저기 보이시는 큰 이상치의 영향을 받은 것 같아요.
저 노란색이 바로 중구에 해당하는 데요,
1인당 지역내총생산이 매우 큰 값으로 나오고 있어서 결과에 영향이 가는 같아 보입니다.
중구만 없으면 완전한 상관관계를 기대해볼 수 있을 것 같은데 말이죠 ㅠㅠ !!
중구를 만약 없애준다면 ?
0.22까지 상관계수가 향상되는 것을 볼 수 있습니다 !
그렇다면, 이 소득수준이 얼마나 건강수준, 특히 기대수명을 잘 설명하는지,
Regression 모델을 통해 알아보겠습니다.
[Linear Regression Train]
먼저 Train 데이터와 Test 데이터를 7:3 비율로 분할해주었습니다.
이제 train 데이터를 linear regresson train 함수에 넣어줍니다.
소득수준이 높을수록 기대수명도 높을지 확인해주기 위해선 !
1인당 gdpr을 Feature Columns에,
기대수명을 Label Column에 지정해줍니다.
[Linear Regression Prediction]
그 후 만든 train모델을 바탕으로 데이터를 예측해봅시다 !
run을 하면 예측값이 끝에 추가됩니다.
[Evaluate Regression]
마지막으로 예측값이 얼마나 일치하는지 평가해줍니다
오오
최종적으로 R제곱 값이 0.695에 달하는 모델이 만들어졌습니다 !!!
소득수준이 높을수록 기대수명도 높다는 가설에 힘을 실어주는 결과값이네요 ㅎㅎ
https://www.mk.co.kr/news/society/view/2018/03/193139/
출처 : 매일경제
위의 기사에서도 언급했다싶이 한국 건강 형평성 학회에서도 위와 같은 내용이 담긴
'17개 광역시도 및 252개 시·군·구별 건강 불평등 현황'을 발표한 적이 있다고하는데요,
소득수준에 따라 건강불평등이 일어나고 있는 현실을 직접 확인해볼 수 있었던 시간이었습니다 :)
벌써 마지막으로 향해가는 개인프로젝트 !!!
앞으로 잘 마무리할 수 있도록 정리작업에도 슬슬 돌입해야할 것 같네요
다들 그럼 다음 시간에 만나요
'대외활동 > Brightics 서포터즈' 카테고리의 다른 글
[Brightics | 프로젝트] 보고서(Report)기능으로 분석 프로젝트 한 눈에 정리하기 (0) | 2021.10.26 |
---|---|
[Brightics | Basic] 내 마음대로 데이터 정제(결합, 결측치, 이상치) :: 전처리 모음 (0) | 2021.10.18 |
[Brightics | 프로젝트] 서울시 운동 인프라 간단 파악 :: 텍스트 분석+ 지도 시각화시 에러 해결 (0) | 2021.10.12 |
[삼성 SDS] ProDS 자격증 합격 후기 / 공부방법 / 독학 후기 / 무료 인강 추천 (0) | 2021.10.05 |
[Brightics | 프로젝트] 서울시 지도 시각화하기 : 브라이틱스 Map vs 파이썬 Forlium 비교 (0) | 2021.10.05 |