MINI's STAT.ION

06. Gradient Descent

앞서서 Loss Function에 대해 알아보았다. 이젠 Regression과 Classification 모델들의 Loss Function을 Optimization 하는 방법을 알아보자. *최적화(optimization) 란 어떤 목적함수(objective function)의 함수값을 최적화(최대화 또는 최소화)시키는 파라미터(변수) 조합을 찾는 문제를 말한다. 06. Gradient Descent 만약 선형모형처럼 손실함수가 1차함수, 2차함수로 간단히 표현되는 경우라면 한 파라미터에 대해 미분해서 0이 되는 지점을 찾아 최소값을 바로 찾을 수 있다. 하지만, 우리가 마주치는 손실함수(cross entropy 등)는 간단한 형태가 아니어서 미분방정식을 푸는데 한계가 있다. 명확한 해답이 없기에 수치적 ..

데이터 스터디/Stats\ML 2022.02.27

05. Loss function(손실함수) - 회귀&분류

05. Loss function(손실함수) - 회귀&분류 이때까지 입이 닳도록 말해온 것이 바로, 예측값과 실제값 사이의 차이, 즉 LOSS를 최소화하는 방향으로 학습은 진행되어야한다. loss function과 cost function, 그리고 이들을 아우르는 objective function은 이전 글에서 다룬 적도 있다. [물음표/느낌표] 01. cost function과 loss function 차이 [물음표/느낌표] 01. cost function과 loss function 차이 우리는 앞서 머신러닝에선 손실, 즉 loss function을 최소화하는 방향으로 학습해야한다는 것을 알았다. 이때 많이들 혼란스러워하는 용어가 바 uumini.tistory.com 정리하자면, 통계적 머신러닝의 목적은..

데이터 스터디/Stats\ML 2022.02.19

04-2. Regression(회귀) - 로지스틱회귀

앞선 선형회귀에선 연속형 수치y값에 대한 예측이 진행되었다면, 로지스틱 회귀의 예측값은 수치가 아닌 범주(Category)이다. ❕ 로지스틱 회귀는 이항분포를 따른다 ❕ 이 범주(Category)는 연령, 신장, 몸무게 처럼 연속형 수치로 나타내 수 있는 것이 아니라 성별, 국가, 인종과 같은 범주형 값이고, 이때 로지스틱 회귀는 0또는 1의 값만을 갖게 된다. 여기서 0과 1은 수치적 의미를 갖는다기 보다 오직 범주를 구분하기 위한 0(해당 없음), 1(해당 있음)을 뜻한다. 다시 말해 로지스틱 회귀는 선형 회귀와 다르게 종속 변수(예측하고자 하는 값)가 Bernoulli Distribution = 이항 분포를 따르는 것이다. ❕ 로지스틱 회귀에서 로짓변환 ❕ 수치형 변수 또는 범주형 변수를 input..

데이터 스터디/Stats\ML 2022.02.18

04-1. Regression(회귀) - 선형회귀

❔ 회귀분석에서 '회귀'라는 말이 왜 들어가는 걸까 ❔ 먼저 회귀분석이 뭔지부터 짚고 넘어가자. 회귀분석의 예제와 기법에 익숙한 사람이라면 한 번도 의문을 가지지 않았을지도 모른다. 단순히 각자가 이해한 회귀분석의 의미를 이름과 연결시켰을 테니까 말이다. 하지만 이 '회귀'라는 단어가 들어가게끔 회귀분석을 설명해보자. 단어 그대로 리터럴리하게 ! 회귀라는 말은 돌아올 회, 돌아갈 귀 를 사용해 어딘가로 '되돌아간다'는 뜻이다. 회귀분석의 기원은 영국의 우생학자인 프랜시스 갤턴(Francis Galton)이 내세운 평균으로의 회귀(Regression toward the mean) 에서 왔다. 갤턴은 아버지의 키와 아들의 키 사이의 관계를 조사한 결과, 키가 큰 아버지를 둔 아들은 아버지보단 키가 작고, 키..

데이터 스터디/Stats\ML 2022.02.12

[?!] cost function과 loss function 차이

[물음표/느낌표] 01. cost function과 loss function 차이 우리는 앞서 머신러닝에선 손실, 즉 loss function을 최소화하는 방향으로 학습해야한다는 것을 알았다. 이때 많이들 혼란스러워하는 용어가 바로 cost function과 loss function인 듯하다. 거기에 더해 objective function도 낄 수 있겠다. 다 똑같은 말들이라고 해도, 디테일의 차이를 잊지 말자굽쇼잉. 사소한 용어라도 확실하게 짚고 넘어가보자. 일단 손실 함수(Loss Function)와 비용 함수(Cost Function)은 혼용해서 사용 가능하다. 다만 사소한 차이가 있다함은, 손실 함수(Loss Function) : 개별적인 차이를 정의 비용 함수(Cost Function) : 손실..

데이터 스터디/Stats\ML 2022.02.11

03 + 머신러닝의 목표

03 + 머신러닝의 목표 머신러닝에서의 가장 중요한 목표는 "generalization 일반화" 이다. generalization, 즉 일반화는 이전에 '관측되지 않은' 데이터에 대해 높은 성능으로 적용할 수 있는 능력을 말한다. 그리고 이를 다른 말로 풀어써보자면, 만약 성능측정의 지표로 error rate을 사용한다고 했을 때, E_gen(=train에 사용하지 않은 이외의 모든 data들) = 0 이 됐을 때를 목표로 한다는 것이다. 하지만, 우리는 E_gen(=generaization error)를 갖고 있는 데이터로 측정할 수 없기 때문에(전체 데이터는 모르는 상태이기 때문) better proxy로서 E_test(=test error)를 사용한다. 따라서 목표는 E_gen=0 에서 다시 E_t..

데이터 스터디/Stats\ML 2022.02.09

03. '통계적' 머신러닝(statistical machine learning)

03. 머신러닝 vs 전통적인 통계학 vs '통계적' 머신러닝 사실 머신러닝에 대해 배울 때 꼭 짚고 넘어가야 할 부분이 바로 머신러닝 vs 전통적인 통계학 vs '통계적'머신러닝이다. 통계를 왜 배우는가, 통계가 머신러닝과 어떤 연관이 있는가. 먼저 머신러닝 방법과 전통적인 통계학은 그들의 목적에서 차이가 있다. 머신러닝 방법은 특정한 분포나 가설을 통해 실패할 확률(손실함수, 혹은 손실함수를 제곱합/평균낸 비용함수)을 최소화하는데에 목적이 있다. 이들의 목표는 바로 일반화(generalization)이고 이를 위해 오버피팅을 방지하는 '정규화(regularization)'과정을 거치거나 언더피팅을 방지하는 '최적화(optimization)'방법을 고민하게 된다. 따라서 모델이 갖는 신뢰도나 정교한 가..

데이터 스터디/Stats\ML 2022.02.09

02. 머신러닝 vs 딥러닝

머신러닝을 배워보기 전에, 머신러닝과 꼭 같이 불려다니는 분야인 '딥러닝'과 비교해보는 시간을 가져보겠다. 머신러닝과 딥러닝의 차이는 무엇일까? 먼저 둘의 공통점을 살펴보자. 둘은 모두 AI(인공지능)의 하위분야로서 아래와 같은 집합그림으로 표현가능하다. AI는 인간다운 사고를 하는 컴퓨터를 통해 구현하는 기술인데, 우리는 AI를 또 다른 말로 computational rationality로 표현하기도 한다. rationality란 기대되는 효용성(expected utility)를 최대화하는 것이다. 효용성은 주식 투자 = 저위험 고수익 , 자율주행자동차 = 고안전, 고정확도 등이 될 것이다. * Computational rationality is the study of computational prin..

데이터 스터디/Stats\ML 2022.02.04

01. 데이터 사이언틱(Data-scientic)한 사고

01. 데이터 사이언틱(Data-scientic)한 사고 일을 시작하기 전, 그 일에 적합한 👩페르소나👩를 만드는 것. 그것이 난 첫째라고 생각한다. 어떤 사람으로 비추어질 것이냐, 어떤 사람으로 비추어지길 바라는가. 내가 설정하기에 달려있다. 대학에 들어오고 나서 데이터사이언티스트의 길을 가보고 싶다는 생각까지 그리 오래 걸리지 않았다. 수학을 좋아하고, 다각도의 해석을 시도하는 것을 좋아하고, 항상 아이디어가 넘쳐나는 나에 딱 어울리는 진로라고 생각했다. 그렇다면 데이터 사이언티스트로서의 나는 어떤 면모를 가진 사람이어야할까 ? 데이터 사이언틱한 사고를 가진 사람은 어떤 사람인가? 데이터 사이언틱한 사고 데이터 사이언틱한 사고라고 들어보았을까 다들 .. 당연히 안들어봤을 것이다. 내가 지어낸 말이니까..

데이터 스터디/Stats\ML 2022.01.24

[삼성 SDS] Brightics 서포터즈 2기 활동, CLOSE합니다 ...☆ (활동 마지막 이야기)

2021.06.29 - [삼성 Brightics] - [Brightics | 실습] 스포티파이(spotify) 데이터로 음악 취향 고르기 :: 군집분석(k-means) Brightics 서포터즈 활동 CLOSE합니다. 아뇨... CLOSE to Brightics 합니다... 브라이틱스와 한 단계 더 가까워지겠습니다 ^_^ 하루종일 브라이틱스 얘기만 하겠습니다 오늘은 정말 안올 것만 같던 브라이틱스와의 마지막 ! 포스팅을 하는 날이에요 ㅠㅠ 지난 시간까지 진행했던 개인 분석 프로젝트 마무리 과정부터 전반적인 서포터즈활동을 총 정리해보는 시간을 가져볼까합니다. 지난 6월부터 10월까지 한 주도 빠짐없이 브라이틱스 활동을 진행해왔는데요, 저 중에 마지막 수료식 !! 이 생략이 되어버려 내심 아쉬운 것..

대외활동/Brightics 서포터즈 2021.11.02

MINI's STAT.ION

전체 글 102

티스토리툴바

« 2024/09 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30