EDA 2

[Brightics | 실습] kaggle(캐글) 로 Housing Data 시각화하기 (3) EDA + feature 선택 편

​ 이번에는 팀원들과 각자 feature를 맡아서 eda를 해오기로 했습니다. 저희가 선택한 캐글의 Housing data가 80개가 넘는 변수로 이루어지다보니 모든 변수들에 대한 eda를 혼자서 진행하기엔 무리가 있는 것 같더라구요 이럴 때 필요한 게 바로 팀워크 !! 팀원들과 함께 해서 더 쉽고 빠르게 진행할 수 있었어요 ​ 1. EDA : 시각화 + 이상치 확인 먼저 eda를 하기 위해 팀원들과 각자 15개의 칼럼을 맡아 Brightics를 이용한 시각화를 정리해보았습니다. 저 같은 경우에는 변수들의 분포를 먼저 확인한 다음에 -> 수치형인 경우엔 너무 치우쳐져있진 않은지, 범주형은 unique와 frequency 차원에서 메리트가 있는 친구인지 확인 ->..

[Brightics | 실습] 서울시 공유 자전거 이용자 & 이용시간 분석:: EDA, Chart 생성, 레포트 작성

2021.06.15 - [삼성 Brightics] - [Brightics | 실습] 브라이틱스로 본 서울시 공유 자전거 현황 :: 데이터 전처리편 개인미션 2주차 ! 저번 시간까지 데이터 전처리와 업로드 단계를 모두 마쳤습니다. 이젠 데이터를 샅샅이 따져보는 EDA시간을 가져볼까해요. 그리고 알아낸 통계값들은 보기 좋게 차트로 정리해서 Brightics 만의 레포트 기능까지 완성해보려고 합니다. 오늘도 얼른 시작해보겠습니다. 혹시 잊으신 분들을 위해, 다시 한번 더 말씀드리자면 ! 저는 서울시 공공자전거인 따릉이의 현황을 데이터로 분석해보고자 해요. 이를 통해서 시간, 요일별 이용량 그리고 성별 연령별 비교를 통한 따릉이 유저들을 알아내보고자 합니다 :) 지난 시간까지의 내용은 아래에서 확인하실 수 있어..