NLP

    [LM 평가지표] Perplexity, PPL

    유원준님의 딥러닝을 이용한 자연어 처리 입문의 펄플렉서티(Perplexity, PPL) 글을 요약한 게시글입니다 언어모델의 평가 방법(Evaluation metric of Language Model), Perplexity PPL은 문장의 길이로 정규화된 문장 확률의 역수로, 문장 W의 길이가 N이라고 했을 때, PPL은 아래와 같다 $PPL(W)=P(w_1,w_2, \cdots, w_N)^{-\frac{1}{N}} = \sqrt{\frac{1}{P(w_1,w_2, \cdots, w_N)}}^N$ 문장의 확률에 체인룰(chain rule)을 적용하면 아래와 같다 $PPL(W)=\sqrt{\frac{1}{P(w_1,w_2, \cdots, w_N)}}^N=\sqrt{\frac{1}{\Pi_{i=1}^N P(w..

    [논문리뷰] Transformer(Attention is All you Need) 이해하기

    [논문리뷰] Transformer(Attention is All you Need) 이해하기

    본 글은 동빈나님의 와 유원준 외 1명님의 을 참고하여 작성했습니다 목차 서론 딥러닝 기반의 기계 번역 발전 과정 기존 Seq2Seq 모델들의 한계점 Seq2Seq with Attention Decoder 어텐션 시각화 본론 Transformer 트랜스포머의 동작 원리 인코더 임베딩 멀티헤드 어텐션,피드 포워드 잔여학습, 정규화 인코더와 디코더 1-1. 딥러닝 기반의 기계 번역 발전 과정 2021 기준으로 최신 고성능 모델들은 대부분 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 트랜스포머를 기점으로 다양한 NLP Task들은 RNN을 사용하지 않고 어텐션(Attention) 기법을 사용하여 입력 시퀀스 전체에서 정보를 추출하는 방향으로 연구가 발전하게 됨 GPT, Generative Pr..

    [NLP 개념] 언어모델(Language Model)

    [NLP 개념] 언어모델(Language Model)

    언어모델이란? 단어들로 이루어진 문장에 대한 확률을 계산하는 일종의 언어에 대한 확률분포함수(Probability Distribution Function, PDF) 현재의 자연어 처리(Natural Language Processing, NLP)가 대세가 되기 전 가장 많이 사용된 개념으로, 처음에 Model을 구성하고 나면 그 다음부터는 굉장히 빠르게 문장의 확률을 계산, 현재 문장 다음에 올 단어를 예측 할 수 있으나 Out of vocabulary(OOV) 가 스무딩(Smoothing)과 같은 해결법에도 불구하고 큰 문제점으로 작용한다는 단점을 가지고 있다 하지만 NLP의 기본개념으로 언어모델을 필수로 꼽으므로 이번 게시글에서 다뤄보도록 하자 아래와 같이 영어문장이 있다고 하자 I don't like..