계속지나가기
코딩스뮤
계속지나가기
전체 방문자
오늘
어제
  • 코딩스뮤:)
    • Algorithm
      • 백준 문제풀이
      • 프로그래머스 문제풀이
      • 알고리즘 이론
      • 자료구조
      • SW Expert Academy
    • 인공지능(AI)
      • LLMs
      • 자연어처리(NLP)
      • 컴퓨터비전(CV)
      • 딥러닝(DL)
      • 머신러닝(ML)
      • 인공지능기초수학
      • 선형대수학
    • 컴퓨터 세팅
    • Computer Science
      • 유닉스프로그래밍
      • 프로그래밍언어론
      • 디자인패턴
      • 클린코드
      • SW 영어
      • 리눅스
      • 논리회로
    • Server
      • Docker

블로그 메뉴

  • 홈
  • Who Am I(CV)
  • 태그

공지사항

인기 글

태그

  • machinelearning
  • 최대유량
  • ML
  • 비지도학습
  • 패턴인식
  • 파이썬 클린코드
  • 디지털이미지처리
  • 지도학습
  • NLP
  • 기계학습
  • 언어모델
  • 알고리즘
  • LM
  • networkflow
  • DigitalImageProcessing
  • MaximumFlow
  • SIFT
  • 컴퓨터비전
  • f1-score
  • 선형회귀
  • DIP
  • 군집화
  • 에지검출
  • ComputerVision
  • 결정경계
  • 머신러닝
  • 손실함수
  • 네트워크플로우
  • 경사하강법
  • 비용함수

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
계속지나가기

코딩스뮤

05 어휘 분석
인공지능(AI)/자연어처리(NLP)

05 어휘 분석

2020. 12. 16. 13:54
반응형

(본 강의 노트는 임희석 교수님의 <자연어처리 바이블> 책을 기반으로 하고 있습니다)

목차

5.1 형태소 분석

5.1.1 형태소 분석 절차

5.1.2 영어 형태소 분석

5.1.3 한국어 형태소 분석 라이브러리

 

5.2 품사 태깅

5.2.1 품사 태깅이란?

5.2.2 형태론적 중의성 해결 방법

5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반

5.1 형태소 분석

어휘 분석

- 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구

형태소 분석

- 형태소를 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것

5.1.1 형태소 분석 절차

형태소 분석 절차

1. 형태소로 분리

2. 형태론적 변형이 일어난 형태소의 원형 찾기

3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택

 

1. 형태소로 분리

- 처리 대상인 어절(단어)는 하나 이상의 형태소가 연결된 것

- 이를 형태소열이라고 부르기도 함(한국어는 = 한국어 + 는)

- 형태소 연결 시, 형태소의 변형이 일어나므로 복원이 필요함(나는(flying) = 날 + 는)

2. 형태론적 변형이 일어난 형태소의 원형 찾기

- 하나의 형태소는 하나 이상의 형태소와 품사의 쌍으로 표현됨

- 형태소와 그 형태소의 품사를 쌍으로 나타낸 것을 형태소 품사쌍이라고 함

- 예) 나 - 대명사_나, 명사_나, 동사_나, 보조용언_나

3. 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택

- 형태소품사쌍열 후보군(나 - 대명사_나, 명사_나, 동사_나, 보조용언_나) 중 선택

5.1.2 영어 형태소 분석

영어에서 최소 단위의 의미를 갖는 기본 단위는 단어

- 어간 추출(stemming), 표제어 추출(lemmatization)을 통해 쉽게 형태소 파악 가능

일반적으로 영어의 형태소는 접사

- 접미사, 접두사

접사 제거 시 의미가 바뀌는 단어들이 존재하며, 최소한의 의미를 가진 형태소를 찾아 원형 분석 필요함

5.1.3 한국어 형태소 분석 라이브러리

한국어 형태소 분석기의 오픈 라이브러리

- KoNLPy- 한나눔, 코모란, 미캡(성능이 좋아 주로 씀), 꼬꼬마, 트위터

- Khiii(Kakao Hangul Analyzer |||) - 딥러닝(CNN)을 이용한 형태소 분석기

- 기준,성능, 시간이 각각 다르므로 데이터에 맞는 분석기 활용

8품사의 줄임말


5.2 품사 태깅

5.2.1 품사 태깅이란?

품사

- 단어의 기능, 형태, 의미에 따라 나눈 것

태깅

- 같은 단어에 대해 의미가 다를 경우(중의성)을 해결하기 위해 부가적인 언어의 정보를 부착

5.2.2 형태론적 중의성 해결 방법(대학원 범위)

5.2.3 품사 태깅 접근법: 규칙, 통계, 딥러닝 기반

1) 규칙 기반의 접근법

- 언어 정보에서 생성되는 규칙 형태로 표현, 이를 적용하여 태깅을 수행

- 통계 기반 접근법으로 다루지 못하는 부분에 대해 교정 가능

- 긍정 정보, 부정 정보, 수정 정보를 이용하여 중의성을 해결하고 태깅을 부착하는 방법

2) 통계 기반의 접근법 : hidden markov model(HMM)

- 태그가 부착된 대량의 코퍼스가 주어지면 적합한 모델을 선정하고 코퍼스에서 추출된 통계정보를 이용

- 대량의 코퍼스에 태그가 부착되어야 하는 단점이 있으나 주어지면 통계정보 추출이 용이, 자동 추출 가능

- 대표적으로 어휘 확률만을 이용하는 방법인 은닉 마르코프 모델 접근법이 존재(딥러닝 이전의 성능이 가장 좋은 접근 방법)

주어진 문장에서 형태소의 품사 태그 정보를 숨긴채로 확률 정보를 이용하여 가장 가능성이 높은 경로를 찾음

품사 태깅을 위한 간단한 HMM 방법의 예

각 단계마다 확률 높은 것이 아닌, 총 확률이 제일 높은 path 고름

 

*요즘은 HMM을 잘 안씀

이유1. 딥러닝에서 attention방법을 현재는 주로 사용

이유2. 한국어에서는 잘 맞지 않음

이유3. 이해하기 어려운 개념임

3) 딥러닝 기반의 접근법(요즘 대세)

언어처리에 있어서 딥러닝의 효과

1. 데이터로부터 특징을 자동으로 학습

2. 폭넓은 문맥정보를 다룰 수 있음

3. 모델에 적합한 출력을 다루기 간단함

4. 언어가 아닌 이미지나 음성과 같은 모델들 간의 상호작용 가능, multi-modal 모델 구축 용이

 

반응형

'인공지능(AI) > 자연어처리(NLP)' 카테고리의 다른 글

08 텍스트 분류  (0) 2020.12.17
06 순환 신경망(RNN)  (0) 2020.12.16
04 텍스트의 전처리  (0) 2020.12.15
03 언어학의 기본 원리  (0) 2020.12.15
02 자연어처리를 위한 수학  (0) 2020.12.11
    '인공지능(AI)/자연어처리(NLP)' 카테고리의 다른 글
    • 08 텍스트 분류
    • 06 순환 신경망(RNN)
    • 04 텍스트의 전처리
    • 03 언어학의 기본 원리
    계속지나가기
    계속지나가기
    NLP Engineer

    티스토리툴바