대외활동/Brightics 서포터즈

[Brightics | 실습] 브라이틱스로 kaggle(캐글) 참여하기 (1) 기획 편

케이와이엠 2021. 8. 3. 18:30

브라이틱스와 함께 [Brightics | BASIC] , [Brightics | 실습] 을 중심으로

함께 공부해온지 벌써 8주, 2달이 흘렀는데요 

 

각종 예제와 실습으로 실력을 조금 쌓았으니,

데이터 분석에 관심이 있는 사람이라면 한 번씩은 도전해봤을 법한 Kaggle데이터도 도전해봅시다.

kaggle (캐글) 소개

여기서 잠깐, 캐글에 대해 간단히 알려드릴게요 .

 

Kaggle데이터 분석 경진 대회를 주최하는 플랫폼입니다.📊📈 개인 및 단체에서 해결하고 싶은 과제와 데이터를 등록하면, 캐글에 가입한 우리들이 모델을 개발하고 결과를 등록하는거죠. 

메뉴란에는 competition (현재 진행 중인 대회 소개) / dataset (개인,기업이 제공하는 다양한 데이터 저장소) / code (각자 사용한 코드 공유) / discussion / courses 가 있습니다.

이 중 competition 에 참여해보기로 해요 ! competition은 연구 목적, 학습 목적으로 다양하며 $100부터 많게는 $1,500,000까지 상금도 주어진답니다 🧐

(사이트 주소 참조: https://www.kaggle.com/ )

팀 프로젝트

이번 8주차 활동부터 팀 프로젝트가 시작됩니당

 

지난 홍보 ucc영상을 같이 제작했던 우리 4조 포춘이들과 함께 분석까지 파고들어보겠어요 !

팀 미션

- Brightics 홍보 ucc 기획 및 제작 (완료)

- 팀 분석 프로젝트 진행

- 프로젝트 영상 제작

브라이틱스 일정

그리고 분석과 더불어 프로젝트 영상도 마지막 주차에 제작할 예정입니다 ㅎㅎ

유튜브에도 업로드 될텐데요, 해당 영상을 통해 Brightics로 분석하는 방법을 많은 분들이 쉽게 따라할 수 있도록 만들어보려고 해요.

1. 분석 주제 선정 및 개요

저희 조가 선택한 캐글 데이터 분석 주제는 Bostion House Prices 예측하기입니다 .

데이터 셋은 kaggle competition 중 현재 진행되고 있는 데이터로 선택했어요 !

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

 

House Prices - Advanced Regression Techniques | Kaggle

 

www.kaggle.com

 

조원들과 주제 선정을 위해 회의를 하면서

1) 사람들의 관심을 불러일으킬 흥미로운 주제인가

2) 브라이틱스가 가진 함수들로 구현해낼 수 있는 데이터 구조인가를 중점으로 고민했던 것 같아요 .

그래서 선택한 게 바로 집 값 예측입니다 !

다들 미래에 어떤 집에서 살고 싶은지 생각해본 적 있지 않으신가요 ?!

어떤 위치, 어떤 집 구조, 어떤 주변 환경에서 집 값이 높아지는지 예측해보면 어떨까 해서 해당 컴피티션을 선택했어요.

2. 데이터 설명

House Price 캐글 데이터 셋에 대해 잠깐 설명해드리자면 ,

regression 분석이 요해지는 competition이라 train data와 test data로 나누어져 있습니다.

ㄴ물론 train data에만 우리가 궁금해하는 <sale price 집 값 >이 포함되어있겠죠 ?

이 데이터는 미국 중서부 아이오와(Iowa) 주에 있는 도시 에임스(Ames)의 주거 주택을 설명하는 변수를 포함하고 있어요.

거주형태, 주택 건설 연도, 층 수, 레일 로드와의 접근성, 지하실 수, 층별 면적, 침실'주방'화장실 개수 등의 81개의 열로 이루어진 Dataset입니다.

 

 

 

id와 saleprice 를 제외하면 79개 열로 되어있네요!

3. 프로젝트 개요 & 주차별 일정 소개

[목표]

프로젝트는 각종 집 값에 영향을 주는 feature들과의 상관관계를 파악해 , Sale Price를 예측해는 것이 목표입니다.

[개요]

1) feature들을 자세히 살펴본 후, 전처리와 eda 과정을 거쳐 79개의 변수들 중 유의미한 변수를 찾아내는 <feature engineering>

2) 선택된 feature를 바탕으로 5가지의 회귀 모델링 실시 ex) 랜덤 포레스트, 그래디언트 부스팅 , 리니얼 리그레션 등

3) 다양한 알고리즘을 사용한 후, 가장 성능이 좋은 모델을 선택해 영상 제작

이런 식으로 진행될 예정이에요 !

8주차 주제선정 및 분석 프로젝트 계획서 작성 및 제출 프로젝트 기획서
9주차 데이터 확보, Data Structure 파악 & 전처리  
10주차 EDA를 통해 유의미한 Feature들 파악, 리포트 작성  
11주차 변수 선책, 최적의 모델링(Parameter 설정) 결과 보고서
12주차 영상 제작 및 편집 티칭 영상 영상본

주차별 일정은 위와 같이 5주에 걸쳐 계획해보았습니다 ㅎㅎ


여기까지 앞으로 저희 조가 분석해 볼 프로젝트 주제와 기획과정에 대한 소개였습니당

다음 포스팅부터 본격적으로 분석에 돌입할테니 차근 차근 저희와 함께 KAGGLE competition 참여해봐요