인공지능(AI)/자연어처리(NLP)

03 언어학의 기본 원리

계속지나가기 2020. 12. 15. 20:33
반응형

(본 강의 노트는 임희석 교수님의 <자연어처리 바이블> 책을 기반으로 하고 있습니다)

목차

3. 언어학의 기본 원리

3.1 언어학 개요

3.2 음절, 형태소, 어절, 품사

3.3 구구조와 의존 구조

3.4 의미론과 화용론


3.1 언어학 개요

언어학의 기본적인 원리

- 언어를 이루는 단위 : 음절, 형태소, 어절, 품사

- 언어의 구조 : 구구조(Phrase structure), 의존 구조

3.2 음절, 형태소, 어절, 품사

음절 : Syllable

- 언어를 듣고 말할 때, 하나의 덩어리로 취급되는 가장 작은 발화의 단위

- 한국의 음절은 기본적으로 초성(자음), 중성(모음), 종성(자음)으로 이루어짐

- 말소리의 단위이므로 엄밀히 따지면 소리나는 대로 적었을 때의 한 글자를 의미

형태소 : Morpheme

- 언어에서 의미를 갖는 가장 작은 단위

- 실질 형태소(어휘)와 형식 형태소(문법 형태소)로 나눔

- 자립 형태소와 의존 형태소로 나뉨

어절 

- 한 개 이상 형태소로 이루어져 구성된 단위

- 발화시에는 어절을 중심으로 끊어서 말함

- 글을 쓸 때 어절은 띄어쓰기 단위와 거의 일치

품사 : Part of Speech, POS

- 형태에 따라 가변어(용언)와 불변어(체언,수식언, 관계언, 독립언)로 나뉨

- 의미에 따라 명사,대명사,수사,관형사,부사,조사,감탄사,동사,형용사 9품사로 나뉨

 

 

3.3 구구조와 의존 구조

구구조 : Phrase structure

- 문장을 구성하는 요소들이 서로 끌어당겨 한 덩어리가 됨으로써 형성되는 일정한 구조

- 문장을 구성하는 2개 이상의 구성요소는 서로 선행 관계, 지배 관계를 맺음

- 구구조는 영어와 같이 단어의 배열이 정해져 있는 언어를 분석할 때 주로 사용

 

아래와 같이 Parse-tree / Bracketing으로 나타냄

 

의존 구조

- 그래프 기반 의존 구문 분석과 전이 기반 의존 구문분석 방법이 사용 됨

그래프 기반 의존 구문 분석

- more flexible

- 어떤 문장이 가질 수 있는 모든 의존 분석 결과 중 가장 높은 점수의 의존 트리를 선택

- 모든 경우의 수를 고려하여 전역 검색을 하기 때문에 속도가 느림

전이 기반 의존 구문분석 방법

- more straightful

- 선형적 탐색을 하기 때문에 근거리 의존관계를 찾는데 강하고 속도가 빠름

- 단, 문장을 전역적으로 확인하는 데 약함

 

 

3.4 의미론과 화용론

의미론

- 의미론은 단어, 문장, 발화에서 그 표현이 실제로 가리키는 지시체와의 의미 관계를 파악하는 것

- 문법적으로 옳은 문장이더라도 의미가 어색하면 그것은 언어라 할 수 없음

화용론

- 언어 사용자와 발화 맥락을 고려하는 연구

- 화행은 언어를 통해서 이루어지는 행위 : 약속, 사과, 충고 등이 언어를 통해 일어날 수 있음

 

 

 

 

 

반응형