[핸즈온 머신러닝] 3장. 다항 선형 회귀

3. Linear Regression with multiple variables

3-1. 다항 선형 회귀

1. 다항 선형 회귀란?

단항 선형 회귀(이전 게시글 참고)

https://codingsmu.tistory.com/111

[핸즈온 머신러닝] 2장. 단항 선형 회귀

2. Linear Regression with one variable 목차 1. 선형회귀란? 2. 모델설계 3. 비용 함수 4. 경사 하강법 1. 선형회귀란? 회귀(Regression) 연속적인 종속 변수와 한 개 이상의 독립 변수 사이의 관계를 추정하..

codingsmu.tistory.com

다항 선형 회귀란?

Multivariate linear regression
두 개 이상의 특성을 추가하고, 확장된 특성을 포함한 데이터셋에 선형 모델을 훈련시키는 것
단항 선형 회귀(hθ(x)=θ0+θ1x $h_{θ} (x) = θ_{0} + θ_{1} x$ ) vs. 다항 선형 회귀(아래 식)
- $h_\theta(x) = \theta_0 + \theta_1x + \theta_2x_2$
- $h_\theta(x) = \theta_0 + \theta_1x + \theta_2x_1^2$
- $h_\theta(x) = \theta_0 + \theta_1x + \theta_2x_2 + \theta_3x_3 + ...$

2. 두 개 이상의 특성

기호 정리

n = 특성의 개수
$x^{(i)}$ = i번째 학습 예제의 입력(특성) $1<=i<=m$
$x^{(i)}_j$ = i번째 학습 예제의 j번째 특성의 값 $1<=j<=n$
예시
- 집면적(제곱피트) 방 개수 층 수 연식 매매가(1000달러)
  
  1500 4 25 1 2500
  
  2500 8 26 1 3500
- 특성 개수(n) : 4개 -> x1(집면적), x2(방 개수), x3(층 수), x4(연식)
- $x^{(2)}$ = $\begin{bmatrix} 1500 \\ 4 \\ 25 \\ 1 \\ 2500 \end{bmatrix}$
- $x^{(2)}_3 =26$

Hypothesis

단항 선형 회귀: $h_\theta(x) = \theta_0 + \theta_1x$
다항 선형 회귀: $h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_3 + \theta_4x_4$
예시(위의 테이블 참고)
- $h_\theta(x) = 80 + 0.1x + 0.01x_2 + 3x_3 - 2x_4$

행렬과 벡터 곱으로 표현하기

hθ(x)=θ0+θ1x+θ2x2+θ3x3+θ4x4=θTx
- 즉, $h_\theta(x) = \theta^Tx$
- 유도과정은 아래 참고
- 더보기

3. 경사하강법

다항 선형 회귀에 대한 경사 하강법

가설(Hypothesis): $h_\theta(x) = \theta_0 + \theta_1x +... + \theta_nx_n$
파라미터(Parameter): $\theta_0, \theta_1, ..., \theta_n$
비용함수(Cost function)
- $J(\theta_0, \theta_1, ..., \theta_n)=\frac{1}{2m} \sum_{i=1}^{m} (h_{\theta}(x^i)-y^i)^2$
- $J(\theta)$ 로도 표현
경사하강법(Gradient descent)
- 수렴할 때까지 아래 식을 반복
- $\theta_j = \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta_0, \theta_1, ..., \theta_n)$

n=1일 때 경사하강법(단항선형회귀) vs. n>=1일 때 경사하강법(다항)

더보기

경사하강법에 대한 조언

Feature scaling(feature normalization)
- 여러 특성들을 유사한 크기로 맞추자
- scaling 전(좌), scaling 후(우)
- 예1) 모든 특성 값의 범위를 대략 −1<=xi<=1 범위로 만들자
  - $x_1$ : 면적(0~2000 $ft^2$ ) , $x_2$ : 방 개수(1~5개)
  - $x_1=\frac{area(ft^2)}{2000}$ , $x_2=\frac{rooms}{5}$
- 예2) Mean Normalization: $x_i$ 대신 $x_i - \mu$ 로 대체하여, 특성들의 평균을 대략 0으로 만들자
  - 단, $x_0=1$ 에는 적용하지 않음
  - $x_1=\frac{area-1000}{2000}$ , $x_2=\frac{rooms-2}{5}$
  - 단, $\mu_i$ 는 $x_i$ 의 평균
  - 따라서 $-0.5<=x_i<=0.5, -0.5<=x_2<=0.5$
경사하강법 디버깅하기
- 경사하강법 디버깅이란, 경사하강법이 잘 작동하는지 확인하는 것으로 학습율(learning rate)을 결정하는 방법이다
- $\theta_j = \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)$
- - $J(\theta)$ 는 매반복마다 줄어들어야 함
  - 수렴했음을 감지하는 규칙의 예) 1회 반복시 $J(\theta)$ 의 감소폭이 $10^{-3}$ 이하면 수렴했다고 봄
- 경사하강법이 잘 작동하고 있지 않은 경우
  - - learning rate $\alpha$ 가 너무 큰 경우-> 수렴하지 못함 -> 더 작은 $\alpha$ 를 사용하자
    - 충분히 작은 $\alpha$ 를 사용하고 있는 경우, $J(\theta)$ 는 매 반복마다 줄어드는건 확실함
    - 그러나 $\alpha$ 가 너무 작은 경우, 경사하강법은 너무 느리게 수렴하게 됨
  - α에 따른 반복횟수-J의 관계
    - 너무 작은 $\alpha$ : 느린 수렴
    - 너무 큰 $\alpha$ : $J(\theta)$ 가 줄어들지 않을 수 있고, 아예 수렴하지 않을 수도 있음
    - 보통 주로 쓰는 $\alpha$ 는 ..., 0.0001, 0.001, 0.01, 0.1, 1, ... 로 상황에 맞게 적절히 쓰면 된다

4. 특성과 다항 회귀

(예)집값 예측

$h_\theta(x)= \theta_0+\theta_1*(width)+\theta_2*(depth)$
면적: $x=(width)*(depth)$
$h_\theta(x)= \theta_0+\theta_1*x$

다항회귀

더 loose한 h(x) : 초록색/ 더 fit한 h(x): 파란색
$h_\theta(x)= \theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3=\theta_0+\theta_1(size)+\theta_2(size)^2+\theta_3(size)^3$
특성 선택하기

3-2. 정규 방정식

정규방정식(Normal equation)이란?

$\theta$ 를 구하는 방법은 크게 수치적 방법(Numerical solution)과 해석적 방법(Analytical solution)이 있다. 앞서 배운 경사하강법은 수치적 방법에 해당하며, 지금부터 배울 정규 방정식은 해석적 방법에 해당한다 식은 아래와 같이 쓴다

$NormalEquation= \theta = (X^TX)^{-1}X^Ty$

예제(m=4)

$x_0$	집면적 (제곱피트)	방 개수	층 수	연식	매매가(1000달러)
1	1500	4	25	1	2500
1	2500	8	26	1	3500
1	2400	5	10	3	3000
1	1400	3	13	12	1500
	...	...	...	...	...

$y$ = $\begin{bmatrix} 2500 \\ 3500 \\ 3000 \\ 1500 \\ ... \end{bmatrix}$
$X$ = $\begin{bmatrix} 1 && 1500 && 4 && 25 && 1 \\ 1 && 2500 && 8 && 26 && 1 \\ 1 && 2400 && 5 && 10 && 3 \\ 1 && 1400 && 3 && 13 && 12 \\ 1 && ... && ... && ... && ... \end{bmatrix}$

θ=(XTX)−1XTy 유도 과정
- $X\theta=y$ , 양변에 $X^T$ 곱하기
- $X^TX\theta=yX^T$ , 좌변에 $X^TX$ 를 없애기 위해 $(X^TX)^{-1}$ 양변에 곱하기
- $(X^TX)^{-1}X^TX\theta=yX^T(X^TX)^{-1}$ , 이 경우 $(X^TX)^{-1}X^TX = 1$ 임
- $\theta = (X^TX)^{-1}X^Ty$

m개 학습 데이터, n개 특성인 경우

$y$ = $\begin{bmatrix} y^{(1)} \\ . \\ . \\ . \\ y^{(m)} \end{bmatrix}$
$X$ = $\begin{bmatrix} 1 && x^{(1)}_1 && x^{(1)}_2 && x^{(1)}_3 && ... && x^{(1)}_n \\ ... && ... && ... && ... && ... && ... \\ 1 && x^{(m)}_1 && x^{(m)}_2 && x^{(m)}_3 && ... && x^{(m)}_n \end{bmatrix}$
$(X^TX)^{-1}$ 계산 시 시간복잡도
- $X^T=((n+1)*m)$ 이고, $X=(m*(n+1))$ 이므로
- $X^TX = O((n+1)(n+1)) = O(n^2 + 2n +1) = O(n^2)$
- $(X^TX)^{-1}$ 즉, inverse 계산까지 수행 시 총 시간복잡도는 $O(n^3)$ 가 걸리게 된다

경사하강법 vs. 정규방정식(m개 학습 데이터, n개 특성인 경우)

	경사하강법	정규방정식
장점	n이 매우 크더라도 잘 수행됨( $n=10^6$ )	$\alpha$ (learning rate)를 따로 선택할 필요가 없음 반복 수행이 필요 없음
단점	$\alpha$ (learning rate)를 따로 선택해주어야 함 수렴할 때까지 반복 수행이 필요함	$(X^TX)^{-1}$ 의 시간복잡도 $O(n^3)$ 의 큰 연산이 필요 n이 클 경우 연산이 느려짐 (n>10000, n이 4정도면 괜찮음)

'인공지능(AI) > 머신러닝(ML)' 카테고리의 다른 글

[핸즈온 머신러닝] 6장. 서포트 벡터 머신 (0)	2021.12.05
[핸즈온 머신러닝] 4장. 로지스틱 회귀(분류) (0)	2021.12.03
[핸즈온 머신러닝] 2장. 단항 선형 회귀 (0)	2021.11.18
[핸즈온 머신러닝] 1장. 머신러닝 소개 (0)	2021.11.16
경사하강법과 손실함수 (0)	2021.05.21

3. Linear Regression with multiple variables
목차
3-1. 다항 선형 회귀
1. 다항 선형 회귀란?
2. 두 개 이상의 특성
3. 경사하강법
4. 특성과 다항 회귀
3-2. 정규 방정식
정규방정식(Normal equation)이란?

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[핸즈온 머신러닝] 3장. 다항 선형 회귀

3. Linear Regression with multiple variables

목차

3-1. 다항 선형 회귀

3-2. 정규 방정식

3-1. 다항 선형 회귀

1. 다항 선형 회귀란?

2. 두 개 이상의 특성

3. 경사하강법

4. 특성과 다항 회귀

3-2. 정규 방정식

정규방정식(Normal equation)이란?

'인공지능(AI) > 머신러닝(ML)' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

집면적(제곱피트)	방 개수	층 수	연식	매매가(1000달러)
1500	4	25	1	2500
2500	8	26	1	3500