05 어휘 분석

2020. 12. 16. 13:54·인공지능(AI)/자연어처리(NLP)

(본 강의 노트는 임희석 교수님의 <자연어처리 바이블> 책을 기반으로 하고 있습니다)

목차

5.1 형태소 분석

5.1.1 형태소 분석 절차

5.1.2 영어 형태소 분석

5.1.3 한국어 형태소 분석 라이브러리

 

5.2 품사 태깅

5.2.1 품사 태깅이란?

5.2.2 형태론적 중의성 해결 방법

5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반

5.1 형태소 분석

어휘 분석

- 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구

형태소 분석

- 형태소를 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것

5.1.1 형태소 분석 절차

형태소 분석 절차

1. 형태소로 분리

2. 형태론적 변형이 일어난 형태소의 원형 찾기

3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택

 

1. 형태소로 분리

- 처리 대상인 어절(단어)는 하나 이상의 형태소가 연결된 것

- 이를 형태소열이라고 부르기도 함(한국어는 = 한국어 + 는)

- 형태소 연결 시, 형태소의 변형이 일어나므로 복원이 필요함(나는(flying) = 날 + 는)

2. 형태론적 변형이 일어난 형태소의 원형 찾기

- 하나의 형태소는 하나 이상의 형태소와 품사의 쌍으로 표현됨

- 형태소와 그 형태소의 품사를 쌍으로 나타낸 것을 형태소 품사쌍이라고 함

- 예) 나 - 대명사_나, 명사_나, 동사_나, 보조용언_나

3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택

- 형태소품사쌍열 후보군(나 - 대명사_나, 명사_나, 동사_나, 보조용언_나) 중 선택

5.1.2 영어 형태소 분석

영어에서 최소 단위의 의미를 갖는 기본 단위는 단어

- 어간 추출(stemming), 표제어 추출(lemmatization)을 통해 쉽게 형태소 파악 가능

일반적으로 영어의 형태소는 접사

- 접미사, 접두사

접사 제거 시 의미가 바뀌는 단어들이 존재하며, 최소한의 의미를 가진 형태소를 찾아 원형 분석 필요함

5.1.3 한국어 형태소 분석 라이브러리

한국어 형태소 분석기의 오픈 라이브러리

- KoNLPy- 한나눔, 코모란, 미캡(성능이 좋아 주로 씀), 꼬꼬마, 트위터

- Khiii(Kakao Hangul Analyzer |||) - 딥러닝(CNN)을 이용한 형태소 분석기

- 기준,성능, 시간이 각각 다르므로 데이터에 맞는 분석기 활용

8품사의 줄임말


5.2 품사 태깅

5.2.1 품사 태깅이란?

품사

- 단어의 기능, 형태, 의미에 따라 나눈 것

태깅

- 같은 단어에 대해 의미가 다를 경우(중의성)을 해결하기 위해 부가적인 언어의 정보를 부착

5.2.2 형태론적 중의성 해결 방법(대학원 범위)

5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반

1) 규칙 기반의 접근법

- 언어 정보에서 생성되는 규칙 형태로 표현, 이를 적용하여 태깅을 수행

- 통계 기반 접근법으로 다루지 못하는 부분에 대해 교정 가능

- 긍정 정보, 부정 정보, 수정 정보를 이용하여 중의성을 해결하고 태깅을 부착하는 방법

2) 통계 기반의 접근법 : hidden markov model(HMM)

- 태그가 부착된 대량의 코퍼스가 주어지면 적합한 모델을 선정하고 코퍼스에서 추출된 통계정보를 이용

- 대량의 코퍼스에 태그가 부착되어야 하는 단점이 있으나 주어지면 통계정보 추출이 용이, 자동 추출 가능

- 대표적으로 어휘 확률만을 이용하는 방법인 은닉 마르코프 모델 접근법이 존재(딥러닝 이전의 성능이 가장 좋은 접근 방법)

주어진 문장에서 형태소의 품사 태그 정보를 숨긴채로 확률 정보를 이용하여 가장 가능성이 높은 경로를 찾음

품사 태깅을 위한 간단한 HMM 방법의 예

각 단계마다 확률 높은 것이 아닌, 총 확률이 제일 높은 path 고름

 

*요즘은 HMM을 잘 안씀

이유1. 딥러닝에서 attention방법을 현재는 주로 사용

이유2. 한국어에서는 잘 맞지 않음

이유3. 이해하기 어려운 개념임

3) 딥러닝 기반의 접근법(요즘 대세)

언어처리에 있어서 딥러닝의 효과

1. 데이터로부터 특징을 자동으로 학습

2. 폭넓은 문맥정보를 다룰 수 있음

3. 모델에 적합한 출력을 다루기 간단함

4. 언어가 아닌 이미지나 음성과 같은 모델들 간의 상호작용 가능, multi-modal 모델 구축 용이

 

반응형

'인공지능(AI) > 자연어처리(NLP)' 카테고리의 다른 글

08 텍스트 분류  (0) 2020.12.17
06 순환 신경망(RNN)  (0) 2020.12.16
04 텍스트의 전처리  (0) 2020.12.15
03 언어학의 기본 원리  (0) 2020.12.15
02 자연어처리를 위한 수학  (0) 2020.12.11
'인공지능(AI)/자연어처리(NLP)' 카테고리의 다른 글
  • 08 텍스트 분류
  • 06 순환 신경망(RNN)
  • 04 텍스트의 전처리
  • 03 언어학의 기본 원리
계속지나가기
계속지나가기
NLP Engineer
  • 계속지나가기
    코딩스뮤
    계속지나가기
  • 전체
    오늘
    어제
    • 코딩스뮤:)
      • Algorithm
        • 백준 문제풀이
        • 프로그래머스 문제풀이
        • 알고리즘 이론
        • 자료구조
        • SW Expert Academy
      • 인공지능(AI)
        • LLMs
        • 자연어처리(NLP)
        • 컴퓨터비전(CV)
        • 딥러닝(DL)
        • 머신러닝(ML)
        • 인공지능기초수학
        • 선형대수학
      • 컴퓨터 세팅
      • Computer Science
        • 유닉스프로그래밍
        • 프로그래밍언어론
        • 디자인패턴
        • 클린코드
        • SW 영어
        • 리눅스
        • 논리회로
      • Server
        • Docker
      • 바이브 코딩
        • 클로드 코드
  • 블로그 메뉴

    • 홈
    • Who Am I(CV)
    • 태그
  • 링크

    • 깃허브 주소
  • 공지사항

  • 인기 글

  • 태그

    ComputerVision
    손실함수
    언어모델
    패턴인식
    networkflow
    기계학습
    비용함수
    machinelearning
    MaximumFlow
    지도학습
    파이썬 클린코드
    f1-score
    에지검출
    DIP
    컴퓨터비전
    ML
    최대유량
    비지도학습
    디지털이미지처리
    NLP
    머신러닝
    알고리즘
    결정경계
    LM
    선형회귀
    군집화
    네트워크플로우
    DigitalImageProcessing
    SIFT
    경사하강법
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
계속지나가기
05 어휘 분석

티스토리툴바