'인공지능(AI)' 카테고리의 글 목록 (6 Page)

[NLP 개념] 언어모델(Language Model)

2021.05.03

언어모델이란? 단어들로 이루어진 문장에 대한 확률을 계산하는 일종의 언어에 대한 확률분포함수(Probability Distribution Function, PDF) 현재의 자연어 처리(Natural Language Processing, NLP)가 대세가 되기 전 가장 많이 사용된 개념으로, 처음에 Model을 구성하고 나면 그 다음부터는 굉장히 빠르게 문장의 확률을 계산, 현재 문장 다음에 올 단어를 예측 할 수 있으나 Out of vocabulary(OOV) 가 스무딩(Smoothing)과 같은 해결법에도 불구하고 큰 문제점으로 작용한다는 단점을 가지고 있다 하지만 NLP의 기본개념으로 언어모델을 필수로 꼽으므로 이번 게시글에서 다뤄보도록 하자 아래와 같이 영어문장이 있다고 하자 I don't like..

인공지능(AI)

[ML] 은닉 마르코프 모델 : Hidden Markov Models(HMM)

2021.03.18

ratgos님의 blog 게시글을 참고하여 작성되었습니다 Hidden Markov Models 은닉 마르코프 모델, 혹은 은닉 마코프 모델이라고 불리는 HMM은 순차적인 데이터를 다루는데 강점을 지닌 모델로 개체명 인식(NER), 품사 태깅(POS tagging)등 단어의 연쇄로 나타나는 언어구조 처리에 과거 많은 주목을 받았던 기법이다 마코프 체인(Markov chain) : HMM이 전제로 한 모델 Markov chain은 Markov Property을 지닌 이산확률과정을 가리키며, 러시아어 문헌에 나오는 글자들의 순서에 관한 모델을 구축하기위해 처음 제안된 개념이다 한 상태의 확률은 단지 그 이전 상태에만 의존한다는 것이 Markov chain의 핵심이다 즉, 한 상태에서 다른 상태로의 전이는 그동..

인공지능(AI)/인공지능기초수학

05 Probability

2020.12.17

1. 확률의 기초(Probability) 1.1 확률변수 1.2 확률변수와 확률분포 1.3 이항분포, 다항분포, 정규분포 1.4 조건부 확률과 베이즈 정리 1.5 기댓값과 분산 1. 확률의 기초(Probability) 1.1 확률변수 용어 정의 표본 공간(sample space) : 어떤 사건에서 발생할 수 있는 모든 경우의 수 확률변수(random variable) : 어떤 사건을 실수 표현으로 매핑하는 일종의 함수 사상(outcomes) : 표본 공간의 각각의 원소를 말함 용어 사용 예 시행(Experiment) : 두 개의 동전 던지기 사상(Outcomes): HH, HT, TH, TT 표본 공간(Sample space): {HH, HT, TH, TT} 사건(Event) 예1. 두 동전이 모두 앞면..

인공지능(AI)/자연어처리(NLP)

01 자연어처리 소개

2020.12.17

목차 1 자연어처리 소개 1.1 자연어처리 소개 1.2 자연어처리가 어려운 이유 1.3 한국어 자연어처리가 어려운 이유 1.4 자연어처리 연구의 패러다임 1.5 딥러닝을 사용하는 자연어처리 연구 1.6 딥러닝을 사용하는 다른 연구 분야와 자연어처리 비교 1.1 자연어처리 소개 1) 자연어처리란? 자연어란? 기계어의 반대말로, 사람들이 생활하며 자연스럽게 발생하여 쓰이는 언어 자연어 처리란? 자연어를 그대로 컴퓨터로 처리하는 학문 분야 1. 언어학적 측면 : 언어의 규칙성, 변화 양상 파악 2. 전산학적 측면 : 자연어를 입출력으로 사용하는 컴퓨터 프로그램에 사용되는 처리 과정 - 자연어이해(NLU) : 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정 - 자연어생성(NLG) : 컴퓨터..

인공지능(AI)/자연어처리(NLP)

08 텍스트 분류

2020.12.17

목차 8 텍스트 분류 8.1 텍스트 분류 정의 8.2 RNN을 사용한 텍스트 분류 8.1 텍스트 분류 정의 텍스트 분류란? 텍스트 데이터를 입력으로 받아 지정된 카테고리에 대한 수치를 출력하는 것 예) 카테고리 분류, 주제 분류, 감성 분석 텍스트 분류란? (확률 관점에서) 문장이 주어질 때(x), 문장이 속할 카테고리의(y) 확률 분포 함수(p) 근사화 - 문장 x , 단어1 x_1, ...., 단어n x_n - ML에서의 MLE를 보면 P_data(y|x) : x(SMS)가있을 때 y(SPAM/HAM)에 속할 확률 - y label이 주어지므로 supervised learning - 이를 신만이 아는 분포 p(y|x)로 approximate하는 방법은 세타를 이용하는 것 -> p(y|x,Θ) 8.2 ..

인공지능(AI)/자연어처리(NLP)

06 순환 신경망(RNN)

2020.12.16

목차 6.1 기본 순환 신경망 Vanilla recurrent neural network, RNN – 6.1.1 RNN 소개 – 6.1.2 RNN 구조 – 6.1.3 RNN 활용 사례 – 6.1.4 RNN 학습: Back-propagation through time(BPTT) 6.2 발전된 순환 신경망 Advanced RNN - 6.2.1 그라디언트 소실 문제 (gradient vanishing problem) - 6.2.2 Long short-term memory (LSTM) - 6.2.3 Gated recurrent unit (GRU) - 6.2.4 그라디언트 클리핑 (gradient clipping) 6.3 RNN 기반 자연어 생성 (PASS) 6.1.1 RNN 소개 : Recurrent neura..

인공지능(AI)/자연어처리(NLP)

05 어휘 분석

2020.12.16

목차 5.1 형태소 분석 5.1.1 형태소 분석 절차 5.1.2 영어 형태소 분석 5.1.3 한국어 형태소 분석 라이브러리 5.2 품사 태깅 5.2.1 품사 태깅이란? 5.2.2 형태론적 중의성 해결 방법 5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반 5.1 형태소 분석 어휘 분석 - 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구 형태소 분석 - 형태소를 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 5.1.1 형태소 분석 절차 형태소 분석 절차 1. 형태소로 분리 2. 형태론적 변형이 일어난 형태소의 원형 찾기 3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택 1. 형태소로 분리 - 처리 대상인 어절(단어)는 하나 이상의 형태소가 연결된..

인공지능(AI)/자연어처리(NLP)

04 텍스트의 전처리

2020.12.15

목차 4. 텍스트의 전처리 4.0 NLP 프로젝트 워크플로우 4.1 비정형 데이터내의 오류 4.2 텍스트 문서의 변환 4.3 띄어쓰기 교정 방법 4.4 철자 및 맞춤법 교정 방법 4.0 NLP 프로젝트 워크플로우 4.1 비정형 데이터내의 오류 비정형 데이터란? - 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화되지 않은 데이터 비정형 데이터의 정형화 - 분석을 위해서 정형화가 요구됨. 해당 과정을 전처리라고 함 - 세상에 존재하는 대부분의 가공되지 않은 데이터는 비정형 데이터의 형식이므로 해당 과정은 필수적 4.2 텍스트 문서의 변환 전처리 단계 1. 파일로부터 텍스트 추출 2. 문서파일 -> 문서 - 목표 어휘언어의 문자만 남김 - 특수 문자 및 불필..

티스토리툴바