인공지능(AI)

    [NLP] 단어 표현 방법 : Bag-of-Word Model(Bow)

    Bag-of-Word(BoW) Model 기계학습 알고리즘(MLA)을 자연어 처리 테스크에 사용할 때, 입력값인 텍스트는 그 자체로는 사용할 수 없다. 이산적인(discrete)한 텍스트 즉, 문자열을 연속적인(continuous) 모델이 연산할 수 있도록 숫자로 바꾸어주는 과정이 필요하다. 만약 문서 분류 작업(document classification task)을 수행한다고 했을 때, 각 문서는 예측 알고리즘의 input 값에 해당하며 분류 즉, 클래스 레이블이 output값이다. 알고리즘은 input값을 숫자로 이루어진 벡터들로 받으며, 따라서 문서를 고정된 크기의 벡터로 변환하는 작업이 필요하다 기계학습을 위해 텍스트로 이루어진 문서들을 백터화하는 간단하고 효과적인 방법은 Bag-of-Words ..

    [ML] 사이킷런 클래스 SGDClassifier : 선형분류

    [ML] 사이킷런 클래스 SGDClassifier : 선형분류

    SGDClassifier란? SGD(Stochastic Gradient Descent)를 이용한 정규화된 선형 분류 모델 계산값을 기반으로 계산값이 0보다 작으면 -1, 0보다 크면 1로 분류한다 이진 선형 분류기는 선, 평면, 초평면을 이용해 2개의 클래스를 구분하는 분류기이다 SGD(Stochastic Gradient Descent)란? NN(Neural Network)의 가중치(Weight)를 조정하는 과정에서 보통 경사하강법(Gradient Descent)을 사용한다. 이는 네트워크의 파라미터를 p라고 했을 때, 네트워크에서 내놓는 결과값과 실제 값 사이의 차이를 정의하는 손실 함수(loss function, 혹은 비용함수(cost fuction))의 값을 최소화하기 위해 기울기를 이용하는 것이다..

    [ML] 모델 성능을 측정하는 네가지 지표

    [ML] 모델 성능을 측정하는 네가지 지표

    기계학습(ML : Mahine Learning) 모델의 성능을 측정하는 통계적 지표로는 다음과 같이 네 가지 종류가 존재한다 인식 성능 측정 Accuracy: 정확도 혼동 행렬(Confusion Matrix)을 이용한 방식 (또는 오차행렬이라고 부름) Recall : 재현율 Precision : 정밀도(정확율) F1-score : Recall, Precision의 산술평균 각 지표에 대한 공식을 알아보도록 하자 인식 성능 측정 Accuracy (정확도) 가장 보편적으로 간단하게 성능을 측정하는 방법으로 공식은 아래와 같다 Accuracy = (올바르게 예측된 데이터 수) / (전체 데이터 수) Accuracy의 문제점 데이터에 따라 매우 잘못된 통계 결과가 나올 수 있는데 예로 y label이 심각한 불..

    경사하강법과 손실함수

    경사하강법과 손실함수

    선형 회귀(Linear Regression) 선형 회귀는 머신러닝 알고리즘 중 가장 간단하면서도 딥러닝의 기초가 되는 개념이다 1차 함수로 이해하는 선형 회귀 $y=ax+b$ : 선형 회귀는 1차 함수로 표현 가능하다. 위와 같이 1차 함수의 기울기(slope)는 a이고, 절편(intercept)은 b이다 선형 회귀는 기울기와 절편을 찾는 것이 목표 고등과정에서 배운 1차 함수의 경우 x에 따른 y값을 찾는데 집중한 반면, 선형 회귀에서는 이와 반대로 x, y가 주어졌을 때 기울기 a와 절편 b를 찾는데 집중한다. 그래프를 통한 선형 회귀의 문제 해결 과정 이해 그래프에 찍힌 (x,y)좌표로 기울기와 절편을 추정하여 1차 함수를 추정해내는 것으로 선형 회귀로 만든 모델 또한 이런 모델을 통해 새로운 점에..

    [논문리뷰] Transformer(Attention is All you Need) 이해하기

    [논문리뷰] Transformer(Attention is All you Need) 이해하기

    본 글은 동빈나님의 와 유원준 외 1명님의 을 참고하여 작성했습니다 목차 서론 딥러닝 기반의 기계 번역 발전 과정 기존 Seq2Seq 모델들의 한계점 Seq2Seq with Attention Decoder 어텐션 시각화 본론 Transformer 트랜스포머의 동작 원리 인코더 임베딩 멀티헤드 어텐션,피드 포워드 잔여학습, 정규화 인코더와 디코더 1-1. 딥러닝 기반의 기계 번역 발전 과정 2021 기준으로 최신 고성능 모델들은 대부분 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 트랜스포머를 기점으로 다양한 NLP Task들은 RNN을 사용하지 않고 어텐션(Attention) 기법을 사용하여 입력 시퀀스 전체에서 정보를 추출하는 방향으로 연구가 발전하게 됨 GPT, Generative Pr..

    [NLP 개념] 언어모델(Language Model)

    [NLP 개념] 언어모델(Language Model)

    언어모델이란? 단어들로 이루어진 문장에 대한 확률을 계산하는 일종의 언어에 대한 확률분포함수(Probability Distribution Function, PDF) 현재의 자연어 처리(Natural Language Processing, NLP)가 대세가 되기 전 가장 많이 사용된 개념으로, 처음에 Model을 구성하고 나면 그 다음부터는 굉장히 빠르게 문장의 확률을 계산, 현재 문장 다음에 올 단어를 예측 할 수 있으나 Out of vocabulary(OOV) 가 스무딩(Smoothing)과 같은 해결법에도 불구하고 큰 문제점으로 작용한다는 단점을 가지고 있다 하지만 NLP의 기본개념으로 언어모델을 필수로 꼽으므로 이번 게시글에서 다뤄보도록 하자 아래와 같이 영어문장이 있다고 하자 I don't like..

    [ML] 은닉 마르코프 모델 : Hidden Markov Models(HMM)

    [ML] 은닉 마르코프 모델 : Hidden Markov Models(HMM)

    ratgos님의 blog 게시글을 참고하여 작성되었습니다 Hidden Markov Models 은닉 마르코프 모델, 혹은 은닉 마코프 모델이라고 불리는 HMM은 순차적인 데이터를 다루는데 강점을 지닌 모델로 개체명 인식(NER), 품사 태깅(POS tagging)등 단어의 연쇄로 나타나는 언어구조 처리에 과거 많은 주목을 받았던 기법이다 마코프 체인(Markov chain) : HMM이 전제로 한 모델 Markov chain은 Markov Property을 지닌 이산확률과정을 가리키며, 러시아어 문헌에 나오는 글자들의 순서에 관한 모델을 구축하기위해 처음 제안된 개념이다 한 상태의 확률은 단지 그 이전 상태에만 의존한다는 것이 Markov chain의 핵심이다 즉, 한 상태에서 다른 상태로의 전이는 그동..

    05 Probability

    05 Probability

    1. 확률의 기초(Probability) 1.1 확률변수 1.2 확률변수와 확률분포 1.3 이항분포, 다항분포, 정규분포 1.4 조건부 확률과 베이즈 정리 1.5 기댓값과 분산 1. 확률의 기초(Probability) 1.1 확률변수 용어 정의 표본 공간(sample space) : 어떤 사건에서 발생할 수 있는 모든 경우의 수 확률변수(random variable) : 어떤 사건을 실수 표현으로 매핑하는 일종의 함수 사상(outcomes) : 표본 공간의 각각의 원소를 말함 용어 사용 예 시행(Experiment) : 두 개의 동전 던지기 사상(Outcomes): HH, HT, TH, TT 표본 공간(Sample space): {HH, HT, TH, TT} 사건(Event) 예1. 두 동전이 모두 앞면..