대외활동/Brightics 서포터즈

[Brightics | Basic ] 브라이틱스로 데이터 수집하기 :: 공공 데이터, 캐글 데이터 수집

케이와이엠 2021. 6. 22. 23:04

이번 시간은, 브라이틱스와 함께 하는 데이터 분석의 Basic 단계를 설명해드리는 두 번째 시간입니다.

첫 시간에는 간략히 데이터 분석 프로세스를 소개해드리고, 모델링 작업과 친해지는 시간을 가졌었죠 !

통계 기법과 머신러닝 기법들에 익숙해지기 위해선 모델을 만들어보고 계속해서 접해보는 것이 중요하다 생각해서 첫 시간으로 소개해드렸어요.

그리고 지금부터는 분석 프로세스의 순서대로 데이터 수집부터 시작하여 전처리, eda, 모델링, 기계학습 까지 진행해보고자 합니다.


 

 

오늘은 데이터 분석을 하고자 마음 먹었을 때 !!! 초보자들이라면 한 번쯤은 겪어보았을 고민

데이터 자료는 어디서 가져와야하지 ? ... 직접 수집하기엔 시간이 부족한데


대체 어디서 내가 원하는 자료들을 쏙쏙 뽑아낼 수 있느냐 말입니다 ....

저도 교내 특강 시간에 처음 R프로그래밍으로 분석과제를 받았을 때 어디서부터 시작해야 할지 정말 막막했던 경험이 있는데요. 그런 여러분에게 적절한 데이터 수집 방법과 링크를 알려드리겠습니다 !

데이터 수집, 어디서 부터 시작하지 ?

우리는 데이터 분석을 하기 전에 우리가 분석하고 싶은 대상의 주제를 정해야겠죠?

분석을 통해 알고 싶은 사실이나 예측하고 싶은 내용이 무엇인지에 따라서

어떤 종류의 데이터를, 얼만큼, 어느 시기에 모아야할지가 결정되니 말이죠.

하지만, 한낱 ... 뽀시래기에 불과한 우리 ....

머신러닝과 딥러닝 등에 쓰이는 많은 양의 데이터를 직접 수집하기에는 한계가 너무 많아요.

그리고 원하는 정보만 딱 ! 나와있는 데이터셋을 구하기도 하늘에 별따기 라는 점 ..!!

그런 여러분들을 위한 이미 모아져 있는 데이터셋을 직접 다운받아 사용할 수 있도록 오픈소스 데이터들을 소개해드리겠습니다.

 

공공데이터 

공공데이터란, 국민 그리고 개인이라면 누구나 저작권이나 특허 등에 구애받지 않고 쉽게 데이터를 이용할 수 있도록 만들어진 데이터입니다. 현재 “공공데이터 개방”은 『공공데이터법(2013년 제정)』이 근거 법률로서, 공공기관이 보유한 공공데이터를 국민들에게 개방함으로써 “국민의 편익 향상과 일자리 창출”을 위해 제정된 법입니다.

『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』

 

(1) 공공데이터 포털

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

 

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다.

www.data.go.kr

ㄴ 공공기관에서 수집하고 관리하고 있는 공공데이터들을 수집해둔 공간입니다. 『공공데이터 포털(data.go.kr)』은 현재 대한민국 정부에서 제공하는 개방형 데이터입니다. 직접 개인이 얻고자 하는 데이터를 검색하여 원하는 데이터를 수집할 수 있습니다.

데이터가 파일데이터인 경우 포털사이트에서 직접 CSV, TXT, Xlsx 형태로 다운로드 가능하고, 오픈API인 경우 활용 신청을 통해 인증키를 발급 후 자유롭게 이용할 수 있습니다. 오픈 API는 실시간으로 업데이트가 빈번히 일어나며 대용량 데이터를 담고 있습니다.

(2) KOSIS 국가통계포털

https://kosis.kr/index/index.do

 

KOSIS 국가통계포털

내가 본 통계표 최근 본 통계표 25개가 저장됩니다. 닫기

kosis.kr

ㄴ국가통계포털은 통계청에서 제공하는 ONE-STOP 통계 서비스입니다. 현재 경제, 사회, 환경, 보건 등 30개 분야에 걸쳐 국내 통계를 제공하고 있고 e-지방지표와 국제지표 또한 제공하고 있습니다. 분야별로 정말 상세한 지표를 제공하고 있으니 적극 활용해보시는거 추천드려요 !

저 같은 경우에는 국가통계포텔에서 제공하는 보건, 복지 분야의 통계자료를 활용한 경험이 많은데요,

와 이런 자료까지 있어? 할 정도로 세세히 제공하고 있으니 혹시 원하는 자료가 나오지 않는다! 하면 검색해보시길 추천드려요.

(3) 서울 열린데이터 광장

https://data.seoul.go.kr/

 

서울 열린데이터광장

모든 서울시민을 위한 공공데이터 열린데이터광장에서 서울시와 연계 기관이 공개한 공공데이터를 확인하실 수 있습니다. 서울시와 관련된 다양한 공공데이터를 확인해 보세요.

data.seoul.go.kr

ㄴ서울 열린데이터 광장은, 서울시와 연계된 데이터들로 서울시와 관련된 데이터만을 제공하고 있어요.

서울시의 모든 행정, 경제, 문화, 산업 분야의 내용이 .. 없는 게 없으니 ㅠㅠ 정말 소중한 사이트라고 할 수 있겠네요.

(4) 경제협력개발기구(OECD) 데이터베이스

https://data.oecd.org/

 

OECD data

Find, compare and share OECD data.

data.oecd.org

국내 데이터 뿐만 아니라, 각국의 데이터를 파악하고 싶을 땐 OECD 제공 공공데이터를 확인해보시는 것도 좋아요.

각국의 경제, 교육, 인구, 직업, 금융현황 등을 한번에 비교할 수 있을 거에요.

(5) 캐글(Kaggle)

https://www.kaggle.com/

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

그리고 우리의 든든한 친구 캐글 !!!!

캐글은 이미 저희와 같은 분석가분들이 특정 주제들로 데이터를 모아두고 분석을 진행하고, 이를 공유해둔 사이트에요.

데이터 분석 입문자라면 이미 정형화되어 있는 간단한 데이터셋을 선택해서 연습해보셔도 좋고,

실력자분들이라면 복잡한 변수들로 구성된 데이터셋 중 흥미로운 주제를 선택해서 풀어나가도 좋을 것 같네요

(6) 깃허브(Github)

또한, 깃허브에도 공공 오픈 데이터셋과 해당 데이터셋의 licencse 라이센스가 함께 올라와있어요.

https://github.com/awesomedata/awesome-public-datasets

 

awesomedata/awesome-public-datasets

A topic-centric list of HQ open datasets. Contribute to awesomedata/awesome-public-datasets development by creating an account on GitHub.

github.com


이렇게나 많은 사이트가 저희를 데이터 분석으로 이끌어주고 있습니다.

데이터 수집 정도야 이제 1초만에 뚝딱이겠는데요,

저는 이들 중 어느 데이터 셋으로 데이터분석을 시작해볼까 하다가 기말고사가 끝나 행복한 상태인 만큼 !!

캐글의 World Happiness Report 2021 데이터셋을 다운받아볼까합니다 !!

이때 항상 라이센스를 확인해주세요 !!

** kaggle의 CC0 1.0 Universal (CC0 1.0) Public Domain Dedication**

: 저작권자의 허락을 구하지 않아도 이 저작물을 상업적인 목적을 포함 모든 목적으로 복사, 수정, 배포, 실연하실 수 있습니다.

 

이제 Brighitcs 에서 데이터를 가져와볼게요 .

 

 

model 을 'new'버튼을 통해 새로 생성해줍니다.

-> 오른쪽 상단에 팔레트에서 load함수 클릭

-> Local PC에서 해당 데이터를 불러와주세요 !

이런 오류가 떠도 당황하지 마세요!

※ File Name allows only the following characters: "a-z", "A-Z", "0-9", "_", ".".

파일 이름을 후다닥 고치고 와주세요 .

 그 다음 delimeter가 comma 로 구분되었으니 여기 체크 !

그리고 업로드 전 마지막으로 사용할 칼럼들을 선택해줄 수 있어요 :)

그럼 짠 ! 하고 데이터 업로드가 완료된답니다 !


오늘은 데이터 분석을 시작하시는 분들에게 조금이나마 가이드라인을 제공하기 위해서 데이터 수집 링크들을 공유해보았는데요, 시작이 반이다 ! 라고 하잖아요 ㅎㅎ 이로써 첫 걸음을 떼었으니 열심히 앞으로 나아가봅시다 !

다음 basic단계로는 데이터를 결합, 변경, 파생변수 생성 등 pre-processing 과정을 정리해볼게요 :)