인공지능(AI)/머신러닝(ML)
머신러닝의 종류: 지도학습과 비지도학습
머신러닝의 종류: 지도학습과 비지도학습 1. 머신러닝 시스템의 종류 데이터에 레이블(label)의 유무, 학습하는 동안 감독 형태/정보량으로 구분 기준을 둘 경우 머신러닝은 크게 지도학습과 비지도 학습으로 나뉘게 됩니다. 2. 지도 학습(Supervised Learning) 훈련 데이터에 레이블(label)이 주어지는 경우로, 다음과 같이 학습 데이터 셋이 구성되어 있다고 볼 수 있습니다. $Given = \{(x^{(1)}, y^{(1)}), \dots, (x^{(N)}, y^{(N)})\}$ 지도학습의 목표는 학습데이터에는 없는 새로운 데이터 x가 들어왔을 때 y를 올바르게 예측하는 것입니다. $Goal= Learn \ a \ rule \ (𝑓: 𝑥 \to 𝑦) $ 지도학습에는 크게 이산적인(Disc..
앙상블(Ensemble) 기법
Intro. 앙상블(Ensemble) 기법이란 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법을 말합니다. 이는 강력한 하나의 모델을 사용하는 대신, 보다 약한 모델 여러 개를 조합하여 더 정확한 예측에 도움을 주는 방식입니다. 앙상블 기법은 일반적으로 보팅(Voting), 배깅(Bagging), 부스팅(Boosting) 세 가지 유형으로 나눌 수 있습니다. 보팅(Voting) 보팅이라는 표현에서 알 수 있듯이, 서로 다른 알고리즘을 가진 분류기 중 투표를 통해 최종 예측 결과를 결정하는 방식입니다. 알고리즘에는 흔히 알고 있는 결정 트리(Decision tree)나 KNN(K-Nearest Neighbor), 로지스틱(Logistic) 같은 걸 의미합니다. 보팅은 ..
[핸즈온 머신러닝] 5. 정규화
5. Regularization 목차 5-1. 정규화 1. 과대적합 2. 비용 함수 3. 정규화된 선형 회귀 4. 정규화된 로지스틱 회귀 5. 릿지 회귀, 라쏘 회귀, 엘라스틱넷 5-2. 성능 측정법 5-1. 정규화 1. 과대적합 과대적합(overfitting) 모델이 훈련 데이터에는 너무 잘 맞지만 일반성이 떨어지는 현상 예시 만일 특성(feature)이 매우 많아지면, 훈련된 모델은 학습 데이터 셋에 매우 잘 맞을지 모름 그러나 새로운 데이터 샘플로 일반화되지 않을 수 있음 예로, 새로운 집 면적에 대해 집 값을 예측을 선형회귀를 이용한다고 하자. 왼쪽부터 순서대로 과소적합(underfitting), 알맞은 모델, 과대적합(overfitting)된 모델이다 또한 로지스틱 회귀(분류)에서도 아래와 같이..
[핸즈온 머신러닝] 6장. 서포트 벡터 머신
6. Support Vector Machine 목차 1. 분류 문제 최적화 2. 라지 마진이란? 3. 라지 마진 분류의 수학적 개념 4. 커널1 5. 커널2 6. 실전 SVM 1. 분류 문제 최적화 다른 관점에서 보는 로지스틱 회귀 $y=1 \to h_\theta(x) = 1$, 즉 $\theta^T x >> 0$ 이길 원함 $y=0 \to h_\theta(x) = 0$, 즉 $\theta^T x = 0$} \\ 0 & \text{otherwise} \end{cases} $ 로지스틱 회귀에는 확률개념을 사용하지만, SVM에는 사용하지 않음 로지스틱 회귀 : $H_\theta(x) = P(y=1 | x_j \theta)$ SVM의 경우 svm.predict(x)는 있으나 svm.decisionfunctio..
[핸즈온 머신러닝] 4장. 로지스틱 회귀(분류)
4. Logistic Regression(Classification) 목차 4-1. 로지스틱 회귀(분류)와 모델 설계 1. 로지스틱 회귀(분류) 2. 가설 설계 3. 결정 경계 4-2. 비용 함수 1. 로지스틱 회귀와 비용함수 2. 단순화된 비용 함수와 경사 하강법 3. 고급 최적화 기법 4. 크로스 엔트로피 4-3. 다중 레이블 분류: one-vs-all 4-1. 로지스틱 회귀(분류)와 모델 설계 1. 로지스틱 회귀(분류) 로지스틱 회귀(logistic regression)란? 샘플이 특정 클래스에 속할 확률을 추정 추정된 확률이 50%이상이면 샘플이 해당 클래스에 속한다고 예측함 예시: 스팸/햄 메일, 악성/양성 종양 분류기의 종류 이진 분류기(Binary Classifier) 두 개 클래스를 구분 ..
[핸즈온 머신러닝] 3장. 다항 선형 회귀
3. Linear Regression with multiple variables 목차 3-1. 다항 선형 회귀 1. 다항 선형 회귀란? 2. 2개 이상의 특성 3. 경사하강법 4. 특성과 다항 회귀 3-2. 정규 방정식 3-1. 다항 선형 회귀 1. 다항 선형 회귀란? 단항 선형 회귀(이전 게시글 참고) https://codingsmu.tistory.com/111 [핸즈온 머신러닝] 2장. 단항 선형 회귀 2. Linear Regression with one variable 목차 1. 선형회귀란? 2. 모델설계 3. 비용 함수 4. 경사 하강법 1. 선형회귀란? 회귀(Regression) 연속적인 종속 변수와 한 개 이상의 독립 변수 사이의 관계를 추정하.. codingsmu.tistory.com 다항 ..
[핸즈온 머신러닝] 2장. 단항 선형 회귀
2. Linear Regression with one variable 목차 1. 선형회귀란? 2. 모델설계 3. 비용 함수 4. 경사 하강법 1. 선형회귀란? 회귀(Regression) 연속적인 종속 변수(y)와 한 개 이상의 독립 변수(x) 사이의 관계를 추정하는 통계적인 과정 종속 변수 : y, 결과 변수 독립 변수: x, (입력) 특성 관계: 모델(model), 가설(hypothesis) 회귀의 종류 특성의 개수에 따라 단항 선형 회귀: 특성 개수 한 개 다항 선형 회귀: 특성 개수 두 개 이상 정규화 방법에 따라 릿지 회귀 라쏘 회귀 엘라스틱넷 선형 회귀(Linear Regression) 특성의 가중치 합과 편향(bias) 상수를 더해 결과 변수를 예측하는 과정 단항 $\hat{y} = h_\th..
[핸즈온 머신러닝] 1장. 머신러닝 소개
Introduction. Machine Learning 목차 1. 머신러닝이란? 2. 머신러닝은 왜 필요한가? 3. 머신러닝의 종류 4. 머신러닝의 주요 도전 과제 5. 테스트와 검증 1. 머신러닝이란? 머신러닝이란? 데이터로부터 학습하도록 컴퓨터를 프로그래밍하는 과학, 기술 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구분야(by Arthur Samuel, 1959, 기계학습 용어 대중화) 머신러닝의 예 : 스팸 필터(Spam Filter) 사용자가 스팸(Spam) 메일과 보통(Ham) 메일의 샘플을 사용해 스팸 메일을 구별하는 법을 배울 수 있는 머신러닝 프로그램 훈련 세트(Training set) : 학습을 위해 시스템을 사용하는 샘플 훈련 예제(Training example) ..