머신러닝의 종류: 지도학습과 비지도학습
1. 머신러닝 시스템의 종류
데이터에 레이블(label)의 유무, 학습하는 동안 감독 형태/정보량으로 구분 기준을 둘 경우 머신러닝은 크게 지도학습과 비지도 학습으로 나뉘게 됩니다.
2. 지도 학습(Supervised Learning)
훈련 데이터에 레이블(label)이 주어지는 경우로, 다음과 같이 학습 데이터 셋이 구성되어 있다고 볼 수 있습니다.
$Given = \{(x^{(1)}, y^{(1)}), \dots, (x^{(N)}, y^{(N)})\}$
지도학습의 목표는 학습데이터에는 없는 새로운 데이터 x가 들어왔을 때 y를 올바르게 예측하는 것입니다.
$Goal= Learn \ a \ rule \ (𝑓: 𝑥 \to 𝑦) $
지도학습에는 크게 이산적인(Discrete) 값을 예측하는 분류(Classification) 테스크와 연속적인(Continuous) 값을 예측하는 회귀(Regression) 테스크가 있습니다.
대표적인 분류 테스크 예시로는 스팸 메세지를 필터링 해주는 스팸필터를, 회귀 테스크 예시로는 중고차 가격 예측 등이 있습니다.
지도학습 알고리즘 종류는 다음과 같이 6가지를 대표적으로 들 수 있습니다.
1. K-최근접 이웃(K-Nearest Neighbors, KNN)
2. 선형 회귀(Linear Regression)
3. 로지스틱 회귀(Logistic Regression)
4. 서포트 벡터 머신(Support Vector Machine, SVM)
5. 결정 트리와 랜덤 포레스트(Decision Tree, Random Forests)
6. 신경망(Neural network, NN)
3. 비지도 학습(Unsupervised Learning)
훈련 데이터에 레이블(label)이 없는경우로, 다음과 같이 학습 데이터 셋이 구성되어 있다고 볼 수 있습니다.
$Given = \{(x^{(1)}), \dots, (x^{(N)}\}$
비지도학습의 목표는 데이터를 설명할 수 있고, 요약할 수 있는 잠재적인 구조, 즉 숨겨진 패턴을 찾아 학습하는 것입니다.
지도학습의 대표적인 예시로는 군집화(Clustering)를 들 수 있습니다. 군집화란 개체들이 주어졌을 때 동일한 성질을 지녔다고 생각되는 개체들을 몇 개의 부분 그룹(Cluster)로 나누는 과정을 의미합니다. 크게 centroid/distribution/density 기반의 방법들이 있습니다.
다음으로 차원 축소(Dimensionality Reduction)를 들 수 있습니다. 차원 축소란 기존의 피처(feature)가 많은 데이터 즉, 차원이 높은 데이터를 저차원(low-dimension)으로 축소하는 것을 말합니다. 차원 축소 방법으로 주성분 분석법(Principal Component Analysis, PCA), t-SNE를 들 수 있습니다.
'인공지능(AI) > 머신러닝(ML)' 카테고리의 다른 글
앙상블(Ensemble) 기법 (1) | 2022.07.15 |
---|---|
[핸즈온 머신러닝] 5. 정규화 (0) | 2021.12.05 |
[핸즈온 머신러닝] 6장. 서포트 벡터 머신 (0) | 2021.12.05 |
[핸즈온 머신러닝] 4장. 로지스틱 회귀(분류) (0) | 2021.12.03 |
[핸즈온 머신러닝] 3장. 다항 선형 회귀 (0) | 2021.12.01 |