05 어휘 분석 — 코딩스뮤

(본 강의 노트는 임희석 교수님의 <자연어처리 바이블> 책을 기반으로 하고 있습니다)

목차

5.1 형태소 분석

5.1.1 형태소 분석 절차

5.1.2 영어 형태소 분석

5.1.3 한국어 형태소 분석 라이브러리

5.2 품사 태깅

5.2.1 품사 태깅이란?

5.2.2 형태론적 중의성 해결 방법

5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반

5.1 형태소 분석

어휘 분석

- 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구

형태소 분석

- 형태소를 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것

5.1.1 형태소 분석 절차

형태소 분석 절차

1. 형태소로 분리

2. 형태론적 변형이 일어난 형태소의 원형 찾기

3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택

1. 형태소로 분리

- 처리 대상인 어절(단어)는 하나 이상의 형태소가 연결된 것

- 이를 형태소열이라고 부르기도 함(한국어는 = 한국어 + 는)

- 형태소 연결 시, 형태소의 변형이 일어나므로 복원이 필요함(나는(flying) = 날 + 는)

2. 형태론적 변형이 일어난 형태소의 원형 찾기

- 하나의 형태소는 하나 이상의 형태소와 품사의 쌍으로 표현됨

- 형태소와 그 형태소의 품사를 쌍으로 나타낸 것을 형태소 품사쌍이라고 함

- 예) 나 - 대명사_나, 명사_나, 동사_나, 보조용언_나

3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택

- 형태소품사쌍열 후보군(나 - 대명사_나, 명사_나, 동사_나, 보조용언_나) 중 선택

5.1.2 영어 형태소 분석

영어에서 최소 단위의 의미를 갖는 기본 단위는 단어

- 어간 추출(stemming), 표제어 추출(lemmatization)을 통해 쉽게 형태소 파악 가능

일반적으로 영어의 형태소는 접사

- 접미사, 접두사

접사 제거 시 의미가 바뀌는 단어들이 존재하며, 최소한의 의미를 가진 형태소를 찾아 원형 분석 필요함

5.1.3 한국어 형태소 분석 라이브러리

한국어 형태소 분석기의 오픈 라이브러리

- KoNLPy- 한나눔, 코모란, 미캡(성능이 좋아 주로 씀), 꼬꼬마, 트위터

- Khiii(Kakao Hangul Analyzer |||) - 딥러닝(CNN)을 이용한 형태소 분석기

- 기준,성능, 시간이 각각 다르므로 데이터에 맞는 분석기 활용

8품사의 줄임말

5.2 품사 태깅

5.2.1 품사 태깅이란?

품사

- 단어의 기능, 형태, 의미에 따라 나눈 것

태깅

- 같은 단어에 대해 의미가 다를 경우(중의성)을 해결하기 위해 부가적인 언어의 정보를 부착

5.2.2 형태론적 중의성 해결 방법(대학원 범위)

5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반

1) 규칙 기반의 접근법

- 언어 정보에서 생성되는 규칙 형태로 표현, 이를 적용하여 태깅을 수행

- 통계 기반 접근법으로 다루지 못하는 부분에 대해 교정 가능

- 긍정 정보, 부정 정보, 수정 정보를 이용하여 중의성을 해결하고 태깅을 부착하는 방법

2) 통계 기반의 접근법 : hidden markov model(HMM)

- 태그가 부착된 대량의 코퍼스가 주어지면 적합한 모델을 선정하고 코퍼스에서 추출된 통계정보를 이용

- 대량의 코퍼스에 태그가 부착되어야 하는 단점이 있으나 주어지면 통계정보 추출이 용이, 자동 추출 가능

- 대표적으로 어휘 확률만을 이용하는 방법인 은닉 마르코프 모델 접근법이 존재(딥러닝 이전의 성능이 가장 좋은 접근 방법)

주어진 문장에서 형태소의 품사 태그 정보를 숨긴채로 확률 정보를 이용하여 가장 가능성이 높은 경로를 찾음

품사 태깅을 위한 간단한 HMM 방법의 예

각 단계마다 확률 높은 것이 아닌, 총 확률이 제일 높은 path 고름

*요즘은 HMM을 잘 안씀

이유1. 딥러닝에서 attention방법을 현재는 주로 사용

이유2. 한국어에서는 잘 맞지 않음

이유3. 이해하기 어려운 개념임

3) 딥러닝 기반의 접근법(요즘 대세)

언어처리에 있어서 딥러닝의 효과

1. 데이터로부터 특징을 자동으로 학습

2. 폭넓은 문맥정보를 다룰 수 있음

3. 모델에 적합한 출력을 다루기 간단함

4. 언어가 아닌 이미지나 음성과 같은 모델들 간의 상호작용 가능, multi-modal 모델 구축 용이

'인공지능(AI) > 자연어처리(NLP)' 카테고리의 다른 글

08 텍스트 분류 (0)	2020.12.17
06 순환 신경망(RNN) (0)	2020.12.16
04 텍스트의 전처리 (0)	2020.12.15
03 언어학의 기본 원리 (0)	2020.12.15
02 자연어처리를 위한 수학 (0)	2020.12.11

티스토리툴바