03 언어학의 기본 원리

2020. 12. 15. 20:33·인공지능(AI)/자연어처리(NLP)

(본 강의 노트는 임희석 교수님의 <자연어처리 바이블> 책을 기반으로 하고 있습니다)

목차

3. 언어학의 기본 원리

3.1 언어학 개요

3.2 음절, 형태소, 어절, 품사

3.3 구구조와 의존 구조

3.4 의미론과 화용론


3.1 언어학 개요

언어학의 기본적인 원리

- 언어를 이루는 단위 : 음절, 형태소, 어절, 품사

- 언어의 구조 : 구구조(Phrase structure), 의존 구조

3.2 음절, 형태소, 어절, 품사

음절 : Syllable

- 언어를 듣고 말할 때, 하나의 덩어리로 취급되는 가장 작은 발화의 단위

- 한국의 음절은 기본적으로 초성(자음), 중성(모음), 종성(자음)으로 이루어짐

- 말소리의 단위이므로 엄밀히 따지면 소리나는 대로 적었을 때의 한 글자를 의미

형태소 : Morpheme

- 언어에서 의미를 갖는 가장 작은 단위

- 실질 형태소(어휘)와 형식 형태소(문법 형태소)로 나눔

- 자립 형태소와 의존 형태소로 나뉨

어절 

- 한 개 이상 형태소로 이루어져 구성된 단위

- 발화시에는 어절을 중심으로 끊어서 말함

- 글을 쓸 때 어절은 띄어쓰기 단위와 거의 일치

품사 : Part of Speech, POS

- 형태에 따라 가변어(용언)와 불변어(체언,수식언, 관계언, 독립언)로 나뉨

- 의미에 따라 명사,대명사,수사,관형사,부사,조사,감탄사,동사,형용사 9품사로 나뉨

 

 

3.3 구구조와 의존 구조

구구조 : Phrase structure

- 문장을 구성하는 요소들이 서로 끌어당겨 한 덩어리가 됨으로써 형성되는 일정한 구조

- 문장을 구성하는 2개 이상의 구성요소는 서로 선행 관계, 지배 관계를 맺음

- 구구조는 영어와 같이 단어의 배열이 정해져 있는 언어를 분석할 때 주로 사용됨

 

아래와 같이 Parse-tree / Bracketing으로 나타냄

 

의존 구조

- 그래프 기반 의존 구문 분석과 전이 기반 의존 구문분석 방법이 사용 됨

그래프 기반 의존 구문 분석

- more flexible

- 어떤 문장이 가질 수 있는 모든 의존 분석 결과 중 가장 높은 점수의 의존 트리를 선택

- 모든 경우의 수를 고려하여 전역 검색을 하기 때문에 속도가 느림

전이 기반 의존 구문분석 방법

- more straightful

- 선형적 탐색을 하기 때문에 근거리 의존관계를 찾는데 강하고 속도가 빠름

- 단, 문장을 전역적으로 확인하는 데 약함

 

 

3.4 의미론과 화용론

의미론

- 의미론은 단어, 문장, 발화에서 그 표현이 실제로 가리키는 지시체와의 의미 관계를 파악하는 것

- 문법적으로 옳은 문장이더라도 의미가 어색하면 그것은 언어라 할 수 없음

화용론

- 언어 사용자와 발화 맥락을 고려하는 연구

- 화행은 언어를 통해서 이루어지는 행위 : 약속, 사과, 충고 등이 언어를 통해 일어날 수 있음

 

 

 

 

 

반응형

'인공지능(AI) > 자연어처리(NLP)' 카테고리의 다른 글

08 텍스트 분류  (0) 2020.12.17
06 순환 신경망(RNN)  (0) 2020.12.16
05 어휘 분석  (0) 2020.12.16
04 텍스트의 전처리  (0) 2020.12.15
02 자연어처리를 위한 수학  (0) 2020.12.11
'인공지능(AI)/자연어처리(NLP)' 카테고리의 다른 글
  • 06 순환 신경망(RNN)
  • 05 어휘 분석
  • 04 텍스트의 전처리
  • 02 자연어처리를 위한 수학
계속지나가기
계속지나가기
NLP Engineer
  • 계속지나가기
    코딩스뮤
    계속지나가기
  • 전체
    오늘
    어제
    • 코딩스뮤:)
      • Algorithm
        • 백준 문제풀이
        • 프로그래머스 문제풀이
        • 알고리즘 이론
        • 자료구조
        • SW Expert Academy
      • 인공지능(AI)
        • LLMs
        • 자연어처리(NLP)
        • 컴퓨터비전(CV)
        • 딥러닝(DL)
        • 머신러닝(ML)
        • 인공지능기초수학
        • 선형대수학
      • 컴퓨터 세팅
      • Computer Science
        • 유닉스프로그래밍
        • 프로그래밍언어론
        • 디자인패턴
        • 클린코드
        • SW 영어
        • 리눅스
        • 논리회로
      • Server
        • Docker
      • 바이브 코딩
        • 클로드 코드
  • 블로그 메뉴

    • 홈
    • Who Am I(CV)
    • 태그
  • 링크

    • 깃허브 주소
  • 공지사항

  • 인기 글

  • 태그

    NLP
    f1-score
    ComputerVision
    언어모델
    선형회귀
    ML
    패턴인식
    machinelearning
    비용함수
    파이썬 클린코드
    networkflow
    손실함수
    컴퓨터비전
    경사하강법
    머신러닝
    디지털이미지처리
    네트워크플로우
    SIFT
    LM
    DigitalImageProcessing
    MaximumFlow
    비지도학습
    DIP
    알고리즘
    최대유량
    지도학습
    군집화
    기계학습
    에지검출
    결정경계
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
계속지나가기
03 언어학의 기본 원리

티스토리툴바