전체 글

전체 글

    [핸즈온 머신러닝] 5. 정규화

    [핸즈온 머신러닝] 5. 정규화

    5. Regularization 목차 5-1. 정규화 1. 과대적합 2. 비용 함수 3. 정규화된 선형 회귀 4. 정규화된 로지스틱 회귀 5. 릿지 회귀, 라쏘 회귀, 엘라스틱넷 5-2. 성능 측정법 5-1. 정규화 1. 과대적합 과대적합(overfitting) 모델이 훈련 데이터에는 너무 잘 맞지만 일반성이 떨어지는 현상 예시 만일 특성(feature)이 매우 많아지면, 훈련된 모델은 학습 데이터 셋에 매우 잘 맞을지 모름 그러나 새로운 데이터 샘플로 일반화되지 않을 수 있음 예로, 새로운 집 면적에 대해 집 값을 예측을 선형회귀를 이용한다고 하자. 왼쪽부터 순서대로 과소적합(underfitting), 알맞은 모델, 과대적합(overfitting)된 모델이다 또한 로지스틱 회귀(분류)에서도 아래와 같이..

    [핸즈온 머신러닝] 6장. 서포트 벡터 머신

    [핸즈온 머신러닝] 6장. 서포트 벡터 머신

    6. Support Vector Machine 목차 1. 분류 문제 최적화 2. 라지 마진이란? 3. 라지 마진 분류의 수학적 개념 4. 커널1 5. 커널2 6. 실전 SVM 1. 분류 문제 최적화 다른 관점에서 보는 로지스틱 회귀 $y=1 \to h_\theta(x) = 1$, 즉 $\theta^T x >> 0$ 이길 원함 $y=0 \to h_\theta(x) = 0$, 즉 $\theta^T x = 0$} \\ 0 & \text{otherwise} \end{cases} $ 로지스틱 회귀에는 확률개념을 사용하지만, SVM에는 사용하지 않음 로지스틱 회귀 : $H_\theta(x) = P(y=1 | x_j \theta)$ SVM의 경우 svm.predict(x)는 있으나 svm.decisionfunctio..

    [핸즈온 머신러닝] 4장. 로지스틱 회귀(분류)

    [핸즈온 머신러닝] 4장. 로지스틱 회귀(분류)

    4. Logistic Regression(Classification) 목차 4-1. 로지스틱 회귀(분류)와 모델 설계 1. 로지스틱 회귀(분류) 2. 가설 설계 3. 결정 경계 4-2. 비용 함수 1. 로지스틱 회귀와 비용함수 2. 단순화된 비용 함수와 경사 하강법 3. 고급 최적화 기법 4. 크로스 엔트로피 4-3. 다중 레이블 분류: one-vs-all 4-1. 로지스틱 회귀(분류)와 모델 설계 1. 로지스틱 회귀(분류) 로지스틱 회귀(logistic regression)란? 샘플이 특정 클래스에 속할 확률을 추정 추정된 확률이 50%이상이면 샘플이 해당 클래스에 속한다고 예측함 예시: 스팸/햄 메일, 악성/양성 종양 분류기의 종류 이진 분류기(Binary Classifier) 두 개 클래스를 구분 ..

    [핸즈온 머신러닝] 3장. 다항 선형 회귀

    [핸즈온 머신러닝] 3장. 다항 선형 회귀

    3. Linear Regression with multiple variables 목차 3-1. 다항 선형 회귀 1. 다항 선형 회귀란? 2. 2개 이상의 특성 3. 경사하강법 4. 특성과 다항 회귀 3-2. 정규 방정식 3-1. 다항 선형 회귀 1. 다항 선형 회귀란? 단항 선형 회귀(이전 게시글 참고) https://codingsmu.tistory.com/111 [핸즈온 머신러닝] 2장. 단항 선형 회귀 2. Linear Regression with one variable 목차 1. 선형회귀란? 2. 모델설계 3. 비용 함수 4. 경사 하강법 1. 선형회귀란? 회귀(Regression) 연속적인 종속 변수와 한 개 이상의 독립 변수 사이의 관계를 추정하.. codingsmu.tistory.com 다항 ..

    [핸즈온 머신러닝] 2장. 단항 선형 회귀

    [핸즈온 머신러닝] 2장. 단항 선형 회귀

    2. Linear Regression with one variable 목차 1. 선형회귀란? 2. 모델설계 3. 비용 함수 4. 경사 하강법 1. 선형회귀란? 회귀(Regression) 연속적인 종속 변수(y)와 한 개 이상의 독립 변수(x) 사이의 관계를 추정하는 통계적인 과정 종속 변수 : y, 결과 변수 독립 변수: x, (입력) 특성 관계: 모델(model), 가설(hypothesis) 회귀의 종류 특성의 개수에 따라 단항 선형 회귀: 특성 개수 한 개 다항 선형 회귀: 특성 개수 두 개 이상 정규화 방법에 따라 릿지 회귀 라쏘 회귀 엘라스틱넷 선형 회귀(Linear Regression) 특성의 가중치 합과 편향(bias) 상수를 더해 결과 변수를 예측하는 과정 단항 $\hat{y} = h_\th..

    [핸즈온 머신러닝] 1장. 머신러닝 소개

    [핸즈온 머신러닝] 1장. 머신러닝 소개

    Introduction. Machine Learning 목차 1. 머신러닝이란? 2. 머신러닝은 왜 필요한가? 3. 머신러닝의 종류 4. 머신러닝의 주요 도전 과제 5. 테스트와 검증 1. 머신러닝이란? 머신러닝이란? 데이터로부터 학습하도록 컴퓨터를 프로그래밍하는 과학, 기술 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구분야(by Arthur Samuel, 1959, 기계학습 용어 대중화) 머신러닝의 예 : 스팸 필터(Spam Filter) 사용자가 스팸(Spam) 메일과 보통(Ham) 메일의 샘플을 사용해 스팸 메일을 구별하는 법을 배울 수 있는 머신러닝 프로그램 훈련 세트(Training set) : 학습을 위해 시스템을 사용하는 샘플 훈련 예제(Training example) ..

    네트워크 플로우(Network Flow)

    네트워크 플로우(Network Flow)

    네트워크 플로우(Network Flow)란? 특정한 지점에서 다른 지점으로 데이터가 얼마나 많이 흐르고 있는가를 측정하는 알고리즘으로 네트워크 데이터 전송, 교통 체증 등 다양한 분야에서 활용되고 있음 최대 유량(Maximum Flow)이란? 최대 유량이란 가중치가 있는 방향그래프(Weighted Directed Graph) G와 시작 노드 S, 도착 노드E 가 주어졌을 때, 각 엣지의 용량(Capacity)를 고려하여 S에서 E로 흘려보낼 수 있는 유량의 최대값을 말하는 것이다. 이 때, G의 각 에지 가중치를 용량(capacity)라고 하며 (u,v)의 용량을 c(u,v)라고 쓴다. 예로, 아래와 같은 그래프 G가 있다고 할 때, A에서 D로 최대한 많은 유량을 보내려고 할 때 가장 합리적인 양은 가..

    이분 매칭(Bipartite Matching)

    이분 매칭(Bipartite Matching)

    이전 게시글인 에 이어지는 알고리즘 개념 글입니다 https://codingsmu.tistory.com/109 이분 매칭(Bipartite Matching)이란? 네트워크 플로우의 개념중에서 이분 그래프(Bipartite Graph)에서의 최대 유량(maximum flow)을 구하는 경우로, 에지의 용량(capacity)이 전부 1인 이분 그래프에서의 최대유량(maximum flow)을 구하는 문제는 이분 그래프에서의 최대 매칭(maximium matching)과 동치이다. 이때 매칭은, 서로 다른 그룹에 놓인 두 정점을 짝지어주는 의미로 이분그래프에서 최대 매칭을 최대 유량 알고리즘인 디닉 혹은 에드몬드 카프 알고리즘을 이용해 구해줄 수 있으나, DFS를 이용하여 O(V*E)시간에 쉽게 구현할 수 있다..