데이터분석 28

[Brightics | 실습] kaggle(캐글) 로 Housing Data 모델링하기 (4) 모델링 편

이번 차시는 바로 데이터분석, 머신러닝의 꽃이죠 ! 바로 분석모델을 선택해서, 다양한 모델링을 진행해보는 시간​입니다. 저희가 목표로 하는 '예측하기'는 바로 회귀모델을 사용하는데요, Brightics 에는 과연 어떤 분석방법들로 구현 가능할 지 같이 공부해보아요 ! ​ 이번 모델링 작업도 마찬가지로 조원들과 분석기법을 나누어 회의를 토해 결과를 공유해보기로 했어요 최고의 조원들과 완성한 캐글데이터 분석, 과연 얼만큼 잘 예측해냈을지 잘 따라와주세요 ◠‿◠ ​ 작업 확인하기 본격적인 모델링에 들어가기 앞서, 이제껏 완성된 전 작업들을 간단히 확인해주어요 ! 결측치들을 꼼꼼히 제거해주고 이상치들도 없애주었어요. 그리고 범주형 변수들도 연속형으로 인코딩해주었답니다. ..

[Brightics | 실습] kaggle(캐글) 로 Housing Data 시각화하기 (3) EDA + feature 선택 편

​ 이번에는 팀원들과 각자 feature를 맡아서 eda를 해오기로 했습니다. 저희가 선택한 캐글의 Housing data가 80개가 넘는 변수로 이루어지다보니 모든 변수들에 대한 eda를 혼자서 진행하기엔 무리가 있는 것 같더라구요 이럴 때 필요한 게 바로 팀워크 !! 팀원들과 함께 해서 더 쉽고 빠르게 진행할 수 있었어요 ​ 1. EDA : 시각화 + 이상치 확인 먼저 eda를 하기 위해 팀원들과 각자 15개의 칼럼을 맡아 Brightics를 이용한 시각화를 정리해보았습니다. 저 같은 경우에는 변수들의 분포를 먼저 확인한 다음에 -> 수치형인 경우엔 너무 치우쳐져있진 않은지, 범주형은 unique와 frequency 차원에서 메리트가 있는 친구인지 확인 ->..

[Brightics | 실습] kaggle(캐글) 로 Housing Price 예측하기 (2) 전처리 편

이젠 팀 프로젝트 두 번째 시간, 전처리 편입니다 ! ​ 팀원들과 각자 변수들을 꼼꼼히 살펴본 후 회의를 거쳐 전처리 방법을 하나로 통일시키는 방식으로 진행하였어요 ​ 0. 데이터 설명 + 불러오기 먼저, 사용할 데이터는 kaggle의 competition 대회 데이터 중 House Price 데이터에요 ! ​ 2021.08.03 - [삼성 Brightics] - [Brightics | 실습] 브라이틱스로 kaggle(캐글) 참여하기 (1) 기획 편 [Brightics | 실습] 브라이틱스로 kaggle(캐글) 참여하기 (1) 기획 편 브라이틱스와 함께 [Brightics | BASIC] , [Brightics | 실습] 을 중심으로 함께 공부해온지 벌써 8주, 2달이 흘렀는데요 각종 예제와 실습으로 실..

[Brightics | 실습] 브라이틱스로 kaggle(캐글) 참여하기 (1) 기획 편

브라이틱스와 함께 [Brightics | BASIC] , [Brightics | 실습] 을 중심으로 함께 공부해온지 벌써 8주, 2달이 흘렀는데요 각종 예제와 실습으로 실력을 조금 쌓았으니, 데이터 분석에 관심이 있는 사람이라면 한 번씩은 도전해봤을 법한 Kaggle데이터도 도전해봅시다. ​ kaggle (캐글) 소개 여기서 잠깐, 캐글에 대해 간단히 알려드릴게요 . Kaggle 은 데이터 분석 경진 대회를 주최하는 플랫폼입니다.📊📈 개인 및 단체에서 해결하고 싶은 과제와 데이터를 등록하면, 캐글에 가입한 우리들이 모델을 개발하고 결과를 등록하는거죠. ​ 메뉴란에는 competition (현재 진행 중인 대회 소개) / dataset (개인,기업이 제공하는 다양한 데이터 저장소) / code (각자 사용..

[Brighitcs | UCC] 특종! 브라이틱스 서포터즈 홍보 UCC 영상 공개

약 3주동안 진행되었던 브라이틱스 홍보 UCC 영상 제작 프로젝트 ! 팀원들과 직접 기획부터 촬영 그리고 금손 서연피디님의 편집까지 저희가 하나부터 열까지 영상 제작에 많은 힘을 들였는데요 ​ 드디어 제작한 홍보 영상이 YOUTUBE에 업로드되었어요 지금 바로 시청해보실까요 ? https://www.youtube.com/watch?v=HIWsljz597A 조원들과 언제 업로드되지 ~ 하며 업로드되기만을 기다렸는데 드디어 오늘 !! 이렇게 올라오게 되었네요. 정말 열심히 준비했으니 다들 한 번 씩 봐주시고 좋아요 / 댓글 부탁드립니다 ! ​ ​ 그리고 홍보영상 외에도 브라이틱스 채널에 유익한 영상들이 많으니 많은 이용 부탁드려요 ㅎㅎ https://www.youtube.com/channel/UCglq4GN..

[삼성 SDS] ProDS 자격증 :: 삼성 SDS & 멀티캠퍼스 주관 데이터 분석 자격증 추천

안녕하세요 ~! 7월 중순이 다가고 있는 지금, 다들 알찬 방학 보내고 계신가요 ? 방학 때만 되면 스멀스멀 올라오는 그 놈 .. 바로 '자격증' 고민인데요 ! ㅋㅋㅋㅋㅋㅋ ​ 아무리 데이터 분석은 실무다 ! 경험이다 ! 라고 해도 . 나를 증명할 수 있는 객관적인 증서가 있으면 든든하잖아요~ 자격증이 점점 모든 지원자들의 공통문항이 되어가고 있어 슬프기도 하지만 ㅠㅠ 자격증이야 말로 이 분야에 내가 얼마나 관심을 갖고 준비해왔는지 ! 를 알릴 수 있는 좋은 친구라고 생각해요. ​ 그런 의미에서 오늘 소개해드릴 데이터 분석 자격증은 바로 ProDS 자격증입니다. 데이터 분석 자격증으로 adsp, adp, sqld, 빅데이터분석기사 등 여러가지 들어보셨을 텐데요, 아래 사항들을 꼼꼼히 읽어보고 ProDS에..

[Brighitcs | UCC] 오케이 컷! 📸 FOURTUNE의 홍보영상 촬영 ~편집 스토리

지난 시간까지 Brightics 홍보 ucc 제작 기획과 대본 작성까지, 촬영을 위한 만반의 준비를 모두 끝냈는데요. 드디어 7월 11일 ! 촬영 날이 밝았습니다. [스튜디오 촬영 날] ​ ​스튜디오는 신용산역에서 도보 5분거리에 있는 곳이었어요 커튼 색도 다양했고, 특히 소파나 의자가 스타일별로 여러개 놓여있어서 좋았던 것 같아요. ​ 저 오른쪽 ㅋㅋㅋ 라탄 의자를 모두가 탐내했었는데요 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 급 휴양지 컨셉으로 변질될까봐 고이 그 자리에 놔두었어요 ​ 이 날 처음 본 팀원들 !! 다들 관심사가 비슷해서인지 쉽게 친해진 것 같아요 ㅎㅎ 가영님은 촬영 장비 준비로 바쁘시구 (정말 수고많으셨어요오오 +_+) 출연진 셋이 마지막 대본리딩을 진행했는데 어찌나 웃기던지 ㅠㅠㅠㅠ 서로의 발연기에 웃지..

[Brighitcs | UCC] FOURTUNE(4조)과 함께하는 홍보영상 기획 스토리

드디어 6월 개인 미션들이 차츰 마무리되고 7월 일정의 하이라이트인 이 시작되었어요. 브라이틱스를 알리는 일이라면 뭐든지 하는 우리 서포터즈들 !! 이젠 SNS에 이어 유투브까지 도전해보렵니다 ㅎㅎ 기획부터 영상 촬영 그리고 편집까지 저희 조원분들과 으쌰으쌰 손으로 직.접. 천연 핸드메이드로 진행하고 있답니다. ​ [팀 소개 TIME] ​ 이번 홍보 UCC 제작 미션은은 팀으로 진행되기 때문에 팀원들과 먼저 메일로 연락을 주고 받았어요 코로나로 인해서 팀원분들과 메신저로 대화하고 있지만 ㅠㅠ 온라인상으로 열심히 회의하며, 화면 너머로도 느껴지는 서로의 열쩡 ! 열쩡! 으로 아주 순조롭게 흘러가고 있답니다. ​ 그렇게 탄생한 저희 팀 이름은 바로 FOURTUNE 입니다 ! 저희 팀이 Brightics 서포..

[Brightics | 실습] 스포티파이(spotify) 데이터로 음악 취향 고르기 :: 군집분석(k-means)

안녕하세요 ! 브라이틱스 서포터즈 2기 김유민입니다. 저번 시간 회귀분석으로 진행한 코로나19 데이터 실습 내용은 잘 보셨나요? 우리가 앞으로 공부할 머신러닝의 방법에는 예측이 가능한 지도 학습 / 라벨링이 되어 있지 않아 직접 데이터로부터 패턴을 찾아내는 비지도학습이 있는데요. 지도학습에는 회귀(regression)과 분류(classification) 그리고 비지도학습에는 군집(clustering)이 대표적입니다. 따라서 이번 시간에는 머신러닝의 '비지도 학습' 중 하나인 'k-means'로 실습을 진행해보겠습니다. 오늘의 주제는 바로 ! 스포티파이 (spotify) 데이터 입니다 ! 주제 선정 및 DATA 수집 SPOTIFY, 스포티파이는 전 세계 최대의 음원 스트리밍 서비스입니다. 스포티파이는 대부..

[Brightics | 실습] 흡연자 수와 코로나 사망자 수의 관계 파악하기 :: 회귀분석

​ 안녕하세요 ! 이번주는 개인 분석 미션의 마지막 주차 활동이 될 것 같은데요 ! 지난 시간까지 따릉이 데이터로 이용자와 이용 시간 분석을 EDA 시각화 작업으로 보여드렸어요. 오늘은 새로운 주제 로 돌아왔습니다. ​ 아직까지 코로나 역학 연구가 한창일텐데요 , 항상 코로나 원인 분석을 다룰 때면 "~~~한 사람이 코로나에 감염될 위험 더 높아 .."라는 뉴스를 많이들 접해보셨을 거에요. 오늘 저는 과연 흡연율이 높을 수록, 코로나로 인해 사망할 위험이 더 높은지 브라이틱스를 활용해서 분석 실습을 진행해보고자 합니다. ​ 주제 선정 및 DATA 수집 저는 작년 한 해 보건복지부에서 주관하는 금연서포터즈 14기로 활동했었는데요, 코로나 19의 고위험군으로 흡연자가 포함된다는 사실을 ..