인공지능(AI)

    01 자연어처리 소개

    01 자연어처리 소개

    목차 1 자연어처리 소개 1.1 자연어처리 소개 1.2 자연어처리가 어려운 이유 1.3 한국어 자연어처리가 어려운 이유 1.4 자연어처리 연구의 패러다임 1.5 딥러닝을 사용하는 자연어처리 연구 1.6 딥러닝을 사용하는 다른 연구 분야와 자연어처리 비교 1.1 자연어처리 소개 1) 자연어처리란? 자연어란? 기계어의 반대말로, 사람들이 생활하며 자연스럽게 발생하여 쓰이는 언어 자연어 처리란? 자연어를 그대로 컴퓨터로 처리하는 학문 분야 1. 언어학적 측면 : 언어의 규칙성, 변화 양상 파악 2. 전산학적 측면 : 자연어를 입출력으로 사용하는 컴퓨터 프로그램에 사용되는 처리 과정 - 자연어이해(NLU) : 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정 - 자연어생성(NLG) : 컴퓨터..

    08 텍스트 분류

    08 텍스트 분류

    목차 8 텍스트 분류 8.1 텍스트 분류 정의 8.2 RNN을 사용한 텍스트 분류 8.1 텍스트 분류 정의 텍스트 분류란? 텍스트 데이터를 입력으로 받아 지정된 카테고리에 대한 수치를 출력하는 것 예) 카테고리 분류, 주제 분류, 감성 분석 텍스트 분류란? (확률 관점에서) 문장이 주어질 때(x), 문장이 속할 카테고리의(y) 확률 분포 함수(p) 근사화 - 문장 x , 단어1 x_1, ...., 단어n x_n - ML에서의 MLE를 보면 P_data(y|x) : x(SMS)가있을 때 y(SPAM/HAM)에 속할 확률 - y label이 주어지므로 supervised learning - 이를 신만이 아는 분포 p(y|x)로 approximate하는 방법은 세타를 이용하는 것 -> p(y|x,Θ) 8.2 ..

    06 순환 신경망(RNN)

    06 순환 신경망(RNN)

    목차 6.1 기본 순환 신경망 Vanilla recurrent neural network, RNN – 6.1.1 RNN 소개 – 6.1.2 RNN 구조 – 6.1.3 RNN 활용 사례 – 6.1.4 RNN 학습: Back-propagation through time(BPTT) 6.2 발전된 순환 신경망 Advanced RNN - 6.2.1 그라디언트 소실 문제 (gradient vanishing problem) - 6.2.2 Long short-term memory (LSTM) - 6.2.3 Gated recurrent unit (GRU) - 6.2.4 그라디언트 클리핑 (gradient clipping) 6.3 RNN 기반 자연어 생성 (PASS) 6.1.1 RNN 소개 : Recurrent neura..

    05 어휘 분석

    05 어휘 분석

    목차 5.1 형태소 분석 5.1.1 형태소 분석 절차 5.1.2 영어 형태소 분석 5.1.3 한국어 형태소 분석 라이브러리 5.2 품사 태깅 5.2.1 품사 태깅이란? 5.2.2 형태론적 중의성 해결 방법 5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반 5.1 형태소 분석 어휘 분석 - 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구 형태소 분석 - 형태소를 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 5.1.1 형태소 분석 절차 형태소 분석 절차 1. 형태소로 분리 2. 형태론적 변형이 일어난 형태소의 원형 찾기 3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택 1. 형태소로 분리 - 처리 대상인 어절(단어)는 하나 이상의 형태소가 연결된..

    04 텍스트의 전처리

    04 텍스트의 전처리

    목차 4. 텍스트의 전처리 4.0 NLP 프로젝트 워크플로우 4.1 비정형 데이터내의 오류 4.2 텍스트 문서의 변환 4.3 띄어쓰기 교정 방법 4.4 철자 및 맞춤법 교정 방법 4.0 NLP 프로젝트 워크플로우 4.1 비정형 데이터내의 오류 비정형 데이터란? - 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화되지 않은 데이터 비정형 데이터의 정형화 - 분석을 위해서 정형화가 요구됨. 해당 과정을 전처리라고 함 - 세상에 존재하는 대부분의 가공되지 않은 데이터는 비정형 데이터의 형식이므로 해당 과정은 필수적 4.2 텍스트 문서의 변환 전처리 단계 1. 파일로부터 텍스트 추출 2. 문서파일 -> 문서 - 목표 어휘언어의 문자만 남김 - 특수 문자 및 불필..

    03 언어학의 기본 원리

    03 언어학의 기본 원리

    목차 3. 언어학의 기본 원리 3.1 언어학 개요 3.2 음절, 형태소, 어절, 품사 3.3 구구조와 의존 구조 3.4 의미론과 화용론 3.1 언어학 개요 언어학의 기본적인 원리 - 언어를 이루는 단위 : 음절, 형태소, 어절, 품사 - 언어의 구조 : 구구조(Phrase structure), 의존 구조 3.2 음절, 형태소, 어절, 품사 음절 : Syllable - 언어를 듣고 말할 때, 하나의 덩어리로 취급되는 가장 작은 발화의 단위 - 한국의 음절은 기본적으로 초성(자음), 중성(모음), 종성(자음)으로 이루어짐 - 말소리의 단위이므로 엄밀히 따지면 소리나는 대로 적었을 때의 한 글자를 의미 형태소 : Morpheme - 언어에서 의미를 갖는 가장 작은 단위 - 실질 형태소(어휘)와 형식 형태소(문..

    02 자연어처리를 위한 수학

    02 자연어처리를 위한 수학

    목차 1. 확률의 기초(Probability) 1.1 확률변수 1.2 확률변수와 확률분포 1.3 이항분포, 다항분포, 정규분포 1.4 조건부 확률과 베이즈 정리 1.5 기댓값과 분산 2. 최대 우도 추정과 최대 사후 확률 추정(MLE & MAP) 2.1 MLE 2.2 MAP 3. 정보이론과 엔트로피(Information theory & entropy) 3.1 정보량 3.2 엔트로피 3.3 KL-Divegence, Preplexity 1. 확률의 기초(Probability) 1.1 확률변수 용어 정의 표본 공간(sample space) : 어떤 사건에서 발생할 수 있는 모든 경우의 수 확률변수(random variable) : 어떤 사건을 실수 표현으로 매핑하는 일종의 함수 사상(outcomes) : 표본..

    04 Matrix Decompositions

    04 Matrix Decompositions

    (해당 강의노트는 Marc Peter Deisenroth, A. Aldo Faisal and Cheng Soon Ong, 『Mathematics for Machine Learning』을 기반으로 작성하였습니다) 목차 0. Introduction 1. Determinant & trace 2. Cholesky decomposition 3. Eigendecomposition: Eigenvalues & eigenvectors 4. Singular value decomposition (SVD) 0. Introduction 0.1 Matrix decomposition 선형대수학에서 두 방정식( A는 covariance matrix: 공분산 행렬로, 데이터를 표현) 1. linear equations, Chapter..