회귀분석 4

04-2. Regression(회귀) - 로지스틱회귀

앞선 선형회귀에선 연속형 수치y값에 대한 예측이 진행되었다면, 로지스틱 회귀의 예측값은 수치가 아닌 범주(Category)이다. ❕ 로지스틱 회귀는 이항분포를 따른다 ❕ 이 범주(Category)는 연령, 신장, 몸무게 처럼 연속형 수치로 나타내 수 있는 것이 아니라 성별, 국가, 인종과 같은 범주형 값이고, 이때 로지스틱 회귀는 0또는 1의 값만을 갖게 된다. 여기서 0과 1은 수치적 의미를 갖는다기 보다 오직 범주를 구분하기 위한 0(해당 없음), 1(해당 있음)을 뜻한다. 다시 말해 로지스틱 회귀는 선형 회귀와 다르게 종속 변수(예측하고자 하는 값)가 Bernoulli Distribution = 이항 분포를 따르는 것이다. ❕ 로지스틱 회귀에서 로짓변환 ❕ 수치형 변수 또는 범주형 변수를 input..

04-1. Regression(회귀) - 선형회귀

❔ 회귀분석에서 '회귀'라는 말이 왜 들어가는 걸까 ❔ 먼저 회귀분석이 뭔지부터 짚고 넘어가자. 회귀분석의 예제와 기법에 익숙한 사람이라면 한 번도 의문을 가지지 않았을지도 모른다. 단순히 각자가 이해한 회귀분석의 의미를 이름과 연결시켰을 테니까 말이다. 하지만 이 '회귀'라는 단어가 들어가게끔 회귀분석을 설명해보자. 단어 그대로 리터럴리하게 ! 회귀라는 말은 돌아올 회, 돌아갈 귀 를 사용해 어딘가로 '되돌아간다'는 뜻이다. 회귀분석의 기원은 영국의 우생학자인 프랜시스 갤턴(Francis Galton)이 내세운 평균으로의 회귀(Regression toward the mean) 에서 왔다. 갤턴은 아버지의 키와 아들의 키 사이의 관계를 조사한 결과, 키가 큰 아버지를 둔 아들은 아버지보단 키가 작고, 키..

[Brightics | 실습] kaggle(캐글) 로 Housing Data 모델링하기 (4) 모델링 편

이번 차시는 바로 데이터분석, 머신러닝의 꽃이죠 ! 바로 분석모델을 선택해서, 다양한 모델링을 진행해보는 시간​입니다. 저희가 목표로 하는 '예측하기'는 바로 회귀모델을 사용하는데요, Brightics 에는 과연 어떤 분석방법들로 구현 가능할 지 같이 공부해보아요 ! ​ 이번 모델링 작업도 마찬가지로 조원들과 분석기법을 나누어 회의를 토해 결과를 공유해보기로 했어요 최고의 조원들과 완성한 캐글데이터 분석, 과연 얼만큼 잘 예측해냈을지 잘 따라와주세요 ◠‿◠ ​ 작업 확인하기 본격적인 모델링에 들어가기 앞서, 이제껏 완성된 전 작업들을 간단히 확인해주어요 ! 결측치들을 꼼꼼히 제거해주고 이상치들도 없애주었어요. 그리고 범주형 변수들도 연속형으로 인코딩해주었답니다. ..

[Brightics | 실습] 흡연자 수와 코로나 사망자 수의 관계 파악하기 :: 회귀분석

​ 안녕하세요 ! 이번주는 개인 분석 미션의 마지막 주차 활동이 될 것 같은데요 ! 지난 시간까지 따릉이 데이터로 이용자와 이용 시간 분석을 EDA 시각화 작업으로 보여드렸어요. 오늘은 새로운 주제 로 돌아왔습니다. ​ 아직까지 코로나 역학 연구가 한창일텐데요 , 항상 코로나 원인 분석을 다룰 때면 "~~~한 사람이 코로나에 감염될 위험 더 높아 .."라는 뉴스를 많이들 접해보셨을 거에요. 오늘 저는 과연 흡연율이 높을 수록, 코로나로 인해 사망할 위험이 더 높은지 브라이틱스를 활용해서 분석 실습을 진행해보고자 합니다. ​ 주제 선정 및 DATA 수집 저는 작년 한 해 보건복지부에서 주관하는 금연서포터즈 14기로 활동했었는데요, 코로나 19의 고위험군으로 흡연자가 포함된다는 사실을 ..