회고/공모전

[빅콘테스트] 2022 빅콘테스트 데이터분석 퓨처스 부문 :: 최우수상 수상후기

케이와이엠 2023. 11. 17. 19:50

공모전을 참 열심히 참가하던 2022-2024년도 시절을 회상하며 .. 공모전 후기글을 정리해볼까한다. 

너무 오래 전 일이긴 하지만 지금이라도 쓰지않으면 오만년이 흘러가버릴 것 같아서 ㅎㅎ 

이때까지 수상한 데이터/AI 경진대회가 총 7개 정도 되는데, 전부 다 아카이빙하기보다 유의미한 성적/의미가 있는 대회만 선정해서 후딱 정리해볼까한다! 

 

그래서 처음 작성할 공모전은 바로 2022 빅콘테스트이다. 이렇게 대규모 대회에 나가본 것도 처음이고, 대용량 데이터를 핸들링해본 것도 처음이라 모든게 재밌었던 대회라 기억에 남는다. 

1. 공모전 개요

약 2개월정도의 준비기간이 주어졌고, 우리 팀은 이 중에서도 퓨처스 부문 <FINDA 앱 사용성 데이터를 통한 대출신청 예측 분석> 문제를 선정하게 되었다. 우선 가장 도메인 특화된 주제라 생각해서 고르기도 했고, 당시 학회원들이 해당 대회 참가자를 모집하고 있던 터라 대회마니아(?)로서 지원하게 되었다. 근데 웃겼던 점은 항상 같이 하던 대회 메이트들이 있는데 모집해 보니 또 똑같은 학회원들끼리 뭉치게 됐던 것 ... ㅋㅋㅋㅋㅋㅋ 우린 이때 참 겹치는 활동이 많았네 떠올려보니 ㅠㅠ (잘지내지 얘드라..)

 

데이터는 대출비교 플랫폼 FINDA에서 제공해주었고, FINDA의 유저 데이터, 앱 로그 데이터를 바탕으로 고객의 대출 신청여부를 예측하는 binary classification 과제를 수행하면 된다. 실제 금융앱 데이터를 다뤄볼 수 있다는 점이 흥미롭게 다가왔고, 단순히 모델링 성능 스코어 싸움이 아닌 비즈니스 인사이트를 가미한 지표 싸움이 될 것 같다는 점에서도 아이디어에 자신 있는 내게 승산있는 대회라고 생각했다. 

 

정리하자면, 1) 대출신청여부 예측 모델링 생성 2) FINDA유저 세그먼트 생성 및 특성 도출 2가지가 메인 과제였고, 
모든 팀원이 모든 프로세스를 함께 토론하며 각 단계별로 모두가 힘을 합쳐 진행했다. 

 

 

 2. 분석 과정 

 

구체적인 진행과정은 아래 깃허브에 정리해두었다. 

https://github.com/miniminii/2022_BigContest_Futures

 

GitHub - miniminii/2022_BigContest_Futures: 2022 빅콘테스트 앱 데이터를 통한 대출신청 예측분석 최우수상

2022 빅콘테스트 앱 데이터를 통한 대출신청 예측분석 최우수상 (2022.09~2022.12) - miniminii/2022_BigContest_Futures

github.com

 

우선 래퍼 방식으로 특성을 하나씩 추가해가면서 or 제거해가면서 성능이 좋은 조합을 찾아나갔다. 

그리고 불균형 데이터 처리에 성능이 잘나오는 앙상블 모델을 사용해가며 모델링을 진행해주었다. 

또, 군집화를 위해선 분석 주체성을 높일 수 있는 k-means기법을 선택해 총 6가지 세그먼트를 제안하였다. 

 

3. 수상 포인트

1. 우선, 차별화된 결측치 처리라고 생각한다. 

모델링보다, 정성적인 요소가 평가에 크게 반영될 수 밖에 없다고 생각한다. missing 값이 많았다보니, 이걸 얼마나 좋은 아이디어로 대체하였는지, 해당 기법이 타당한지, 논리는 무엇인지, 다른 방법은 따져보았는지 등 우리만의 고민의 흔적을 잘 담아서 어필할 수 있었다. 이렇게 까지 해야하나 싶을 정도로 지표 한개한개 팀원들과 토론하며 결정하였다. 

 

2. 실이용자 구분 

전체 데이터셋이 400만 행이었다. 따라서 raw data를 그대로 돌리게 될 경우 서버 할당량이 많아 모델이 빨리 돌아가지 못하는 문제 or gpu가 터지는 문제가 발생했다. 따라서 데이터를 줄여야하는 상황을 마주했는데, 이때 우리조가 꺼낸 카드는 실이용자와 fake 이용자를 구분해내는 것이었다. 따라서 변수들을 eda한 결과를 바탕으로, 신뢰도가 낮아보이는 유저 집단을 filtering하여 최종적으로 약 100만명을 제외시킨 데이터셋으로 분석을 진행하여 모델링 속도와 성능을 개선할 수 있었다. 

 

3. 꼼꼼한 분석 리포팅 

나는 우리 조의 명불허전 메인 장점은 리포트에 있다고 생각한다. 대회도 최종적으론 보고서를 제출하게 되어있다. 그리고 그걸 검토하는 사람 또한 기계가 아닌 실무자 = 사람이다. 그래서 보기 좋은 떡이 맛도 좋다고 .. 시각화, 사용 기법, 모델링 순서, 참고 자료, appendix까지 80페이지가 넘은 ppt를 보기 좋게 제작하려고 노력했다. 우리의 분석 인사이트가 사소한 내용이라도 보고서에 누락되지 않도록 아득바득 넣으려고 애썼다. 거기에 가독성 좋게끔 그래프나, 뉴스기사도 넣고, eda도 넣고, 도표로 장표 완성하기 ..까지.. 내가 ppt에 진심이라 그런걸 수도 있지만, ppt에 오랜 시간 투자하는거 정말 추천한다.

 

4. 회고

 

취준을 하고 있는 지금에서야 이 대회가 얼마나 소중한 경험이었는지 체감할 수 있었다. 금융업의 실제 앱로그 데이터로 모델링을 수행하고, 고객 세그먼트를 만드는게 얼마나 fit한 업무인지, 그래서 나는 이런 경험도 있습니다!!! 를 어필할 수 있는 얼마나 고마운 대회인지 .. 잘 느끼고 있다. 그리고 데이터분석으로의 취업이 아무래도 금융업에서의 TO가 많다보니 이 대회를 계속 언급할 수 밖에 없는 것 같다. 당시에는 조금은 기계적으로? 모델 만들기에 재미가 있었다면 지금에서는 유관 업무라는 점이 참 신기하다. 역시 사람일은 모르는거라고 .. 과거의 나에게 참 고마워지는 대회이다 ^^ 그리고 꼼꼼한 분석 결과 리포팅의 중요성도 알게 되었다. 분석도 결국 남을 데이터로 설득하는 업무이기 때문에, 얼마나 설명력을 잘 담은 보고서인지가 핵심이라 생각한다.