정규화 3

08-1. 정규화 : L2 정규화, Ridge regression

07. 과적합(Overfitting)과 정규화(Regularization) 07. 과적합(Overfitting)과 정규화(Regularization) ❕ 오버피팅을 조심하자 ❕ (feature 수가 너무 많아서와 같은 이유로) 모델이 복잡해 variance가 커진 것을 오버피팅 overfitting 이라고 부른다. 우리가 모.. uumini.tistory.com 앞서 오버피팅과 정규화의 원리에 대해 알아보았다. 이번엔 정규화 중 L2-norm 형식을 살펴보자. ❕ 정규화 (1) - L2 정규화 : Ridge regression ❕ L2 정규화는 "회귀 계수 β에 대한 제곱값"에 대한 제약조건을 취한 것이다. 그리고 이를 선형 회귀모델에 적용한 것이 Ridge regression이다. Ridge regre..

07. 과적합(Overfitting)과 정규화(Regularization)

07. 과적합(Overfitting)과 정규화(Regularization) ❕ 오버피팅을 조심하자 ❕ (feature 수가 너무 많아서와 같은 이유로) 모델이 복잡해 variance가 커진 것을 오버피팅 overfitting 이라고 부른다. 우리가 모델링을 할 때 가장 두려워하는 것이 바로 오버피팅일 것이다. train set에만 정확하고 최종적인 목표인 test set에서는 성능이 낮게 나오면 말짱도루묵이기 때문이다. 물론 train set에서 성능이 잘나오면 엄청나게 나쁜 모델이 탄생하진 않겠지만 그래도 우리의 목표는 test set에도 만족하는 일반화를 이루어내야한다는 점 !! 여기서 짚고 넘어가야 할 점은, 우리의 손실함수인 mse를 최소화하려고 할 때 bias와 variance 사이에 trade..

03 + 머신러닝의 목표

03 + 머신러닝의 목표 머신러닝에서의 가장 중요한 목표는 "generalization 일반화" 이다. generalization, 즉 일반화는 이전에 '관측되지 않은' 데이터에 대해 높은 성능으로 적용할 수 있는 능력을 말한다. 그리고 이를 다른 말로 풀어써보자면, 만약 성능측정의 지표로 error rate을 사용한다고 했을 때, E_gen(=train에 사용하지 않은 이외의 모든 data들) = 0 이 됐을 때를 목표로 한다는 것이다. 하지만, 우리는 E_gen(=generaization error)를 갖고 있는 데이터로 측정할 수 없기 때문에(전체 데이터는 모르는 상태이기 때문) better proxy로서 E_test(=test error)를 사용한다. 따라서 목표는 E_gen=0 에서 다시 E_t..