데이터 스터디/Stats\ML

01. 데이터 사이언틱(Data-scientic)한 사고

케이와이엠 2022. 1. 24. 17:48

01. 데이터 사이언틱(Data-scientic)한 사고

 

 

일을 시작하기 전, 그 일에 적합한 👩페르소나👩를 만드는 것. 그것이 난 첫째라고 생각한다. 

어떤 사람으로 비추어질 것이냐, 어떤 사람으로 비추어지길 바라는가.

내가 설정하기에 달려있다.  

 

대학에 들어오고 나서 데이터사이언티스트의 길을 가보고 싶다는 생각까지 그리 오래 걸리지 않았다. 

수학을 좋아하고, 다각도의 해석을 시도하는 것을 좋아하고, 항상 아이디어가 넘쳐나는 나에 딱 어울리는 진로라고 생각했다.

 

그렇다면 데이터 사이언티스트로서의 나는 어떤 면모를 가진 사람이어야할까 ?

데이터 사이언틱한 사고를 가진 사람은 어떤 사람인가?


데이터 사이언틱한 사고


 

데이터 사이언틱한 사고라고 들어보았을까 다들 .. 

당연히 안들어봤을 것이다. 내가 지어낸 말이니까 ....하하.... 

표기 상 data scientific 이 맞지만 난 왠지 사이언틱이란 말을 쓰고 싶다.

'-틱(tic)'이라는 접미사가 한글에 자주 사용되곤 하니까.

 

일단 데이터 사이언틱한 사고를 정의내리기 앞서 데이터 사이언스의 정의부터 살펴보자.

 

데이터사이언스

위키백과에 따르면, 데이터 사이언스는  "정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다." 

 

이들의 핵심은, 내가 갖고 있는 데이터를 활용해 내가 모르는 다른 데이터 예측할 수 있는 논리를 갖추는 과정이다.

그리고 그 과정에서의 핵심과제는 인사이트를 바탕으로 논리에 부합하는 적합한 모델을 만드는 것이고, 이때 적합한 모델이란 활용 목적 성능을 만족하는 모델을 말한다.  

 

예를 들자면,

- 지난 2019~2020 기온데이터(갖고 있는 데이터)를 이용해 2022 기온(모르는 데이터)을 예측할 수 있다. (예측, LSTM) 

- 뉴스(갖고 있는 데이터) 토픽에 대한 새로운 기사(모르는 데이터)를 자동 요약 및 문장 생성을 할 수 있다. (자연어처리) 

- 사용자의 영상 시청 기록 데이터(갖고 있는 데이터)를 이용해 다음에 시청할 영상(모르는 데이터)을 추천할 수 있다. (추천시스템)

 

이러한 과정을 바탕으로 데이터사이언스의 과제는 진행된다. 

 

그리고 이 과정에 대한 방법론으로

1)  머신러닝, 딥러닝, 자연어처리, 컴퓨터비전 등이 있고

혹자는

2) 데이터 생성, 데이터 시각화, 데이터 엔지니어링 등으로 나눌 수도 있을 것이다. 

 

하지만 가장 세부적으로 나눈 지도가 있었으니,,, 바로 IBM Watson CTO였던 '스와미 챈드라세카란(Swami Chandrasekaran)'이 만든 '데이터 사이언스 커리큘럼 지도(Curriculum via Metromap, 2013)' 이다. 

 

 

데이터 사이언스 커리큘럼 지도 (출처: nirvacana.com)

 

무궁무진하고도 복잡 정교한 데이터 사이언스의 세계를 10개의 카테고리로 정말 잘 정리했다는 생각이 든다. 이 그림을 학회 첫 세션에서 마주하게 되었는데 숨이 턱 막혀서 ,, 그만둘까는 생각이 바로 떠올랐다 ,,, 그치만 아직까지 잘 버티고 있고^^ 위 항목을 모두 다 알아야만 하는 것은 아니라고 생각한다! 자신이 가장 잘하고 관심있는 분야를 선택하기로 하자. 

 

더불어 자세한 분야 소개는 data science & machine learning in production.  옆 링크를 추천한다. (나도 추천받은 곳이다)

 

GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in pr

📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production. - GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their...

github.com

 

 

------------------------------------📝💡📚📰📁📋💻🔎📝📊🎨-------------------------------------------

 

 

 

슬슬 내가 생각하는 데이터사이언틱한 사고를 말해보고 싶은데 , 

이번엔 데이터 사이언스를 검색해본 사람이라면 봤을 법한 다이어그램 2가지를 소개하겠다.

데이터 사이언스 벤다이어그램 (출처: towardsdatascience.com) / ADsP 데이터 사이언티스트의 요구역량

왼쪽은 '드류 콘웨이(Drew Conway)''가 만든 '데이터 사이언스 벤다이어그램(The Data Science Venn Diagram, 2010)' 이다.

그림을 해석하자면,  

  • ⭐ 수학/통계학+도메인 지식 = 전통적인 연구 (Traditional Research)
  • ⭐ 컴퓨터과학+도메인지식 = 소프트웨어 개발 (Software Development)
  • ⭐ 수학/통계학+컴퓨터과학 = 기계학습 (Machine Learning)
  • 🌟 수학/통계학+컴퓨터과학+도메인지식 = 데이터 사이언스 (Data Science)

 

나는 이 그림이 데이터사이언스에 대한 기회는 모두에게 동등하게 열려있다는 의미로 다가왔다.

나같이 통계학을 전공수업으로 배우고 있는 사람일 경우, 컴퓨터과학과 도메인 지식을 넓혀나간다면 전문가가 될 수 있다는 것이다. 반대로 넘사 코딩 실력을 갖고 있는 컴퓨터과학 전공생들도 수학/통계학적 지식과 도메인 지식이 뒷받침되어야 한다. 물론, 그 외의 다른 전공생들(=특정 도메인 지식 혹은 비지니스적 사고를 가진 자)들 또한 비전공자라고 낙담해 할 필요 없다 !!!!! 그들도 수학/통계학과 컴퓨터과학을 배워 데이터 사이언스를 할 수 있다 !! 

 

-----------------------

 

오른쪽은 ADsP 자격증에서 소개하는 데이터 사이언티스트의 요구역량이다. 이 그림에서 나는 데이터 사이언티스트를 다시 한 번 정의내릴 수 있었다. "데이터(IT전문성)를 활용해 인사이트(통계적 접근)를 뽑아내서 비즈니스 차원(컨설팅)으로 확대하는 능력을 지닌 사람" 이라는 것. 

여기서 내가 주목하고 싶은 것은 Hard Skill과 Soft Skill이다.

  •  하드스킬 빅데이터 이론적 지식 분석 기술 (전문성)
  •  소프트스킬 통찰력 있는 분석 설득력 있는 전달 다분야간 협력 (인문학적 소양)

수승화강(水昇火降), 즉 “머리는 차갑게 가슴은 뜨겁게행동해야 한다. 데이터 기반 의사결정을 위해선 냉철하고 이성적인 판단능력과 따뜻하고 인간적인 소양이 필요한듯 하다. 

 

 

------------------------------------📝💡📚📰📁📋💻🔎📝📊🎨-------------------------------------------

 

 

 

내가 생각하는 데이터 사이언틱(Data-scientic)한 사고는 여기서 탄생한다. 

- 데이터 사이언스에 대한 순수한 호기심

- 직접 짠 코드로 얻은 수치, 데이터 기반 의사결정 능력

- 전문성과 인간다움이 적절히 섞인 융합형 인재(hybrid)

- 누군가의 가슴을 뛰게 만드는 작품을 만들고자 하는 공감능력

- 마지막으로 나의 작품을 왜곡없이, 그리고 진실되게 말하는 전달력, 언변 능력

 

다시 한 번 말하지만, 결국 사람이 하는 일이고 사람과 하는 일이다.

이제 더 큰 꿈을 가져봐/ 깨져도 그 조각은 크니까

지금까지 내가 느낀 나의 모습은, 배우고 싶은 야망은 넘치지만 실천하지 않는 것(게으린 것), 내 생각과 결과물을 공유할 때 과도하게 긴장한다 것, 나도 모르게 생긴 열등감 때문에 남들 시선을 신경쓰는 것,, 모두 고쳐야하는 점들이다.  

본격적으로 정리를 하기 앞서,

마인드 컨트롤을 하고 싶어서 첫 글로 이 글을 쓰게 되었다 .

 

해야하니까, 알아야하니까 가 아니라

하고 싶어서, 알고 싶어서, 궁금해서 행동으로 옮기는 내가 됐으면 좋겠다.