반응형
5. Regularization
목차
5-1. 정규화
1. 과대적합
2. 비용 함수
3. 정규화된 선형 회귀
4. 정규화된 로지스틱 회귀
5. 릿지 회귀, 라쏘 회귀, 엘라스틱넷
5-2. 성능 측정법
5-1. 정규화
1. 과대적합
과대적합(overfitting)
모델이 훈련 데이터에는 너무 잘 맞지만 일반성이 떨어지는 현상
예시
- 만일 특성(feature)이 매우 많아지면, 훈련된 모델은 학습 데이터 셋에 매우 잘 맞을지 모름
- 그러나 새로운 데이터 샘플로 일반화되지 않을 수 있음
- 예로, 새로운 집 면적에 대해 집 값을 예측을 선형회귀를 이용한다고 하자.
-
- 왼쪽부터 순서대로 과소적합(underfitting), 알맞은 모델, 과대적합(overfitting)된 모델이다
-
- 또한 로지스틱 회귀(분류)에서도 아래와 같이 과소적합/알맞은 모델/과대적합이 일어날 수 있다
과대적합 해결법
- 특성 개수 줄이기
- 유지할 특성을 직접 선택
- 모델 선택 알고리즘
- 정규화(Regularization)
- 모든 특성은 유지한 채 파라미터 θj의 값을 줄임
- 특성이 많을 때 잘 작동되며, 각 특성은 y를 예측하는데 영향을 덜 끼치게 된다
Normalization vs. Regularization : 둘 다 정규화로 번역되나 뜻이 다름
- Normalization(Feature Scaling)
- 값의 범위(scale)을 0~1사이로 바꾸는 것으로
- 학습 전에 scaling함
- 머신러닝에서 scale이 큰 feature의 영향이 커지는 것을 방지,
- 딥러닝에서 지역 최소값에 빠질 위험 감소시킴.
- Regularization
- weight를 조정하여 규제(제약)을 거는 기법.
- Overfitting을 막기 위해 사용함
- L1 규제(라쏘), L2 규제(릿지) 등의 종류가 있음
2. 비용함수
정규화의 배경

- 오른쪽의 식이 과대적합을 일으키므로, θ3x3+θ4x4를 제거하자
- 즉, θ3&θ4를 매우 작게 만들자
- 이는 기존의 비용함수에 두 항을 넣어서 실현시킬 수 있다
- minθ[12m∑mi=1(hθ(xi)−yi)2+1000θ23+1000θ24]
- 위의 식이 최소가 되는 θ를 찾도록 학습되므로, θ3&θ4를 매우 작게 만들 수 있다.
- θ3&θ4 앞에 각각 1000과 같이 큰 수를 곱해 비용함수에 영향을 적게 주도록 하자
정규화
J(θ)=[12mm∑i=1(hθ(xi)−yi)2+λn∑j=1θ2j]
- θ1,θ2,...,θn을 작게 하면
- 모델 단순화
- 과대적합 완화
- 주의할 점은, θ0은 θ0=x0=1이므로 작게하는 대상에 포함되지 않는다
- 정규화
- 특성: x1,x2,...,x100
- 파라미터: θ1,θ2,...,θ100
- 주의사항
- bias term(θ0)은 정규화하지 않는다: 정규화 시 j=1부터
- 비용함수에만 Regularization Term을 넣고 예측(prediction, hypothesis)시에는 RT를 넣지 않는다
- RT는 λ∑nj=1θ2j을 말함
- 목표
- 정규화가 적용된 선형회귀에서는 위의 식을 최소화하는 θ를 계산하게 됨: minθJ(θ)
MSE만 사용한 결과와, MES+RT를 같이 사용한 경우 비교
- 식에서 λ가 미치는 영향; λ∑nj=1θ2j
- λ가 매우 크다면(예: λ=1010),
- 뒤에 곱해지는 ∑nj=1θ2j이 작아야 비용함수가 작아지는 방향으로 학습되므로 모든 θ는 0에 수렴한다
-
3. 정규화된 선형 회귀
비용함수
- J(θ)=[12m∑mi=1(hθ(xi)−yi)2+λ∑nj=1θ2j]
- λ∑nj=1θ2j의 편미분 과정
- ∂∂θjλ∑nj=1θ2j=2λθj
- 앞에 12m과 곱해져 최종적으로 더해지는 값은 12m∗2λθj= λmθj임
- minθJ(θ)
경사 하강법
- 수렴할 때까지 아래 식 반복
- θ0=θ0−α1m∑mi=1(hθ(xi)−yi)xi0
- θj=θj−α[1m∑mi=1(hθ(xi)−yi)xij+λmθj]
- =θj(1−αλm)−α1m∑mi=1(hθ(xi)−yi)xij
4. 정규화된 로지스틱 회귀
가설
hw(x)=g(θ0+θ1x1+θ2x21+θ3x21x2+θ4x21x22+θ5x21x22+θ6x31x2+...)
비용함수
- J(θ)=−[1m∑mi=1yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]+RT : cost function(cross entropy)
- RT=λ2m∑nj=1θ2j : regularization term
-
비용함수만 사용한 경우(초록색 선), 비용함수+RT 경우(파란색 선)
경사하강법
- 수렴할 때 까지 아래 식 반복
- θ0=θ0−α1m∑mi=1(hθ(xi)−yi)xi0
- ∂∂θ0J(θ)
- =α1m∑mi=1(hθ(xi)−yi)xi0
- θj=θj−α[1m∑mi=1(hθ(xi)−yi)xij+λmθj]
- ∂∂θjJ(θ)
- =1m∑mi=1(hθ(xi)−yi)xij+λmθj
- 단, hθ(x)=11+e−θTx
5. 릿지회귀, 라쏘회귀, 엘라스틱넷
선형회귀버전
회귀 | 비용함수 |
릿지 회귀 (Ridge, or Tikhonov Regularization) |
J(θ)=MSE(θ)+λ12∑nj=1θ2j |
라쏘 회귀 (Least absolute shrinkage &selection operator) |
J(θ)=MSE(θ)+λ∑nj=1|θj| |
엘라스틱넷(Elastic net) | J(θ) =MSE(θ)+rλ∑nj=1|θj|+(1−r)λ12∑nj=1θ2j |
선택요령
- 보통 선형회귀 vs. 릿지 vs. 라쏘 vs. 엘라스틱 넷
- 보통 규제가 없는 선형회귀는 피함, 릿지가 일반적으로 선호됨
- 릿지 < 라쏘, 엘라스틱넷
- 실제 영향력 있는 특성이 몇 개뿐이라고 생각 될 때
- 불필요한 특성의 파라미터를 강하게 0로 만듦
- 라쏘 < 엘라스틱넷
- 특성의 개수 > 훈련 데이터 개수 일 때
- 몇몇 특성이 서로 강하게 연관되어 있을 때
반응형
'인공지능(AI) > 머신러닝(ML)' 카테고리의 다른 글
머신러닝의 종류: 지도학습과 비지도학습 (0) | 2022.10.12 |
---|---|
앙상블(Ensemble) 기법 (1) | 2022.07.15 |
[핸즈온 머신러닝] 6장. 서포트 벡터 머신 (0) | 2021.12.05 |
[핸즈온 머신러닝] 4장. 로지스틱 회귀(분류) (0) | 2021.12.03 |
[핸즈온 머신러닝] 3장. 다항 선형 회귀 (0) | 2021.12.01 |