전체 글

전체 글

    경사하강법과 손실함수

    경사하강법과 손실함수

    선형 회귀(Linear Regression) 선형 회귀는 머신러닝 알고리즘 중 가장 간단하면서도 딥러닝의 기초가 되는 개념이다 1차 함수로 이해하는 선형 회귀 $y=ax+b$ : 선형 회귀는 1차 함수로 표현 가능하다. 위와 같이 1차 함수의 기울기(slope)는 a이고, 절편(intercept)은 b이다 선형 회귀는 기울기와 절편을 찾는 것이 목표 고등과정에서 배운 1차 함수의 경우 x에 따른 y값을 찾는데 집중한 반면, 선형 회귀에서는 이와 반대로 x, y가 주어졌을 때 기울기 a와 절편 b를 찾는데 집중한다. 그래프를 통한 선형 회귀의 문제 해결 과정 이해 그래프에 찍힌 (x,y)좌표로 기울기와 절편을 추정하여 1차 함수를 추정해내는 것으로 선형 회귀로 만든 모델 또한 이런 모델을 통해 새로운 점에..

    [논문리뷰] Transformer(Attention is All you Need) 이해하기

    [논문리뷰] Transformer(Attention is All you Need) 이해하기

    본 글은 동빈나님의 와 유원준 외 1명님의 을 참고하여 작성했습니다 목차 서론 딥러닝 기반의 기계 번역 발전 과정 기존 Seq2Seq 모델들의 한계점 Seq2Seq with Attention Decoder 어텐션 시각화 본론 Transformer 트랜스포머의 동작 원리 인코더 임베딩 멀티헤드 어텐션,피드 포워드 잔여학습, 정규화 인코더와 디코더 1-1. 딥러닝 기반의 기계 번역 발전 과정 2021 기준으로 최신 고성능 모델들은 대부분 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 트랜스포머를 기점으로 다양한 NLP Task들은 RNN을 사용하지 않고 어텐션(Attention) 기법을 사용하여 입력 시퀀스 전체에서 정보를 추출하는 방향으로 연구가 발전하게 됨 GPT, Generative Pr..

    [파이썬 클린코드] Ch04.SOLID 원칙

    해당 게시글은 책의 4장을 참고하여 작성되었습니다 Chapter 04. SOLID 원칙 SOLID란? 이해하기 쉽고 유연하며 유지 보수가 쉬운 SW 개발을 위한 다섯가지 SW 설계 원칙 약어원칙한글 명칭 SRP Single Responsibility Principle 단일 책임 원칙 OCP Open-Closed Principle 개방-폐쇄 원칙 LSP Liskov Substitution Principle 리스코프 치환 원칙 ISP Interface Segregation Principle 인터페이스 분리 원칙 DIP Dependency Inversion Principle 의존 역전 원칙 4장의 목표 SW 디자인에서 SOLID 원칙을 익힌다 SRP을 따르는 컴포넌트를 디자인한다 OCP을 통해 유지보수성을 뛰..

    [NLP 개념] 언어모델(Language Model)

    [NLP 개념] 언어모델(Language Model)

    언어모델이란? 단어들로 이루어진 문장에 대한 확률을 계산하는 일종의 언어에 대한 확률분포함수(Probability Distribution Function, PDF) 현재의 자연어 처리(Natural Language Processing, NLP)가 대세가 되기 전 가장 많이 사용된 개념으로, 처음에 Model을 구성하고 나면 그 다음부터는 굉장히 빠르게 문장의 확률을 계산, 현재 문장 다음에 올 단어를 예측 할 수 있으나 Out of vocabulary(OOV) 가 스무딩(Smoothing)과 같은 해결법에도 불구하고 큰 문제점으로 작용한다는 단점을 가지고 있다 하지만 NLP의 기본개념으로 언어모델을 필수로 꼽으므로 이번 게시글에서 다뤄보도록 하자 아래와 같이 영어문장이 있다고 하자 I don't like..

    [ML] 은닉 마르코프 모델 : Hidden Markov Models(HMM)

    [ML] 은닉 마르코프 모델 : Hidden Markov Models(HMM)

    ratgos님의 blog 게시글을 참고하여 작성되었습니다 Hidden Markov Models 은닉 마르코프 모델, 혹은 은닉 마코프 모델이라고 불리는 HMM은 순차적인 데이터를 다루는데 강점을 지닌 모델로 개체명 인식(NER), 품사 태깅(POS tagging)등 단어의 연쇄로 나타나는 언어구조 처리에 과거 많은 주목을 받았던 기법이다 마코프 체인(Markov chain) : HMM이 전제로 한 모델 Markov chain은 Markov Property을 지닌 이산확률과정을 가리키며, 러시아어 문헌에 나오는 글자들의 순서에 관한 모델을 구축하기위해 처음 제안된 개념이다 한 상태의 확률은 단지 그 이전 상태에만 의존한다는 것이 Markov chain의 핵심이다 즉, 한 상태에서 다른 상태로의 전이는 그동..

    Who Am I

    Who Am I

    안녕하세요:) 자연어처리 엔지니어를 목표로 공부하고 있는 학생입니다! 상명대학교에서 컴퓨터과학을 전공(2018.3~2022.8)하고, 재학 중에 좋은 기회로 NCSoft의 NLP센터, 기계번역데이터 팀에서 인턴(2021.1~7)을 하게 되어 자연어처리 분야에 뛰어들게 되었습니다. 현재 성균관대학교 인공지능학과에서 석사과정(2022.8~) 진행 중입니다. 자세한 소개는 아래의 사이트를 참고해주시면 감사하겠습니다 해당 티스토리는 2020년도부터 코딩스뮤라는 이름으로 기술 블로그로 운영되고 있습니다. CS와 PS 관련 게시글과 함께 AI 관련 게시글이 꾸준히 올라올 예정입니다. 게시글에 틀린 내용이 있거나 정정할 내용이 있으면 언제든지 댓글로 알려주세요! Github. LinkedIn. CV.

    [Python] BOJ 1300. k번째 수

    [Python] BOJ 1300. k번째 수

    www.acmicpc.net/problem/1300 1300번: K번째 수 세준이는 크기가 N×N인 배열 A를 만들었다. 배열에 들어있는 수 A[i][j] = i×j 이다. 이 수를 일차원 배열 B에 넣으면 B의 크기는 N×N이 된다. B를 오름차순 정렬했을 때, B[k]를 구해보자. 배열 A와 B www.acmicpc.net 문제 예제 해석 A : 3x3 1 2 3 1 1 2 3 2 2 4 6 3 3 6 9 B : len(B) = 9 = 3x3 1 2 2 3 3 4 6 6 9 출력값 : B[7] = 6 - 임의의 숫자 m을 골라서 k번째 숫자인지 판단해보는 문제 - m을 이분 탐색으로 찾아보자 : m은 O(logK) - m보다 작은 숫자의 개수를 어떻게 하면 빠르게 구할 수 있는가 - A[i][j]에서..

    [컴공 대학생] 데스크 셋업

    [컴공 대학생] 데스크 셋업

    Desktop & Laptop & iPad 1. iMac : 2019 27인치 5K (i7/SSD 256/RAM 32) SSD를 제외하고는 그래픽 카드를 포함하여 가장 고급형으로 구입 안드로이드 앱 빌드/인공지능 모델 학습용 등 무거운 작업을 돌려도 무리없음 2. iPad : Pro 4세대 (Wifi 128GB) 실버 쓰면서 공부하는 타입이라 패드 구입 단순 필기용도지만 주사율 120Hz가 매우 만족스러움 맥북의 보조모니터로 사용할 수 있는 sidecar 기능 잘 쓰고 있음 3. MacBook Air : 2021 13인치 (M1/SSD 256/RAM 16) 스페이스그레이스 데스크탑이 있기 때문에 노트북은 가벼운 용도로 사용하기 위해 엔트리 모델에 램만 업그레이드 하여 구입 아직까지 무거운 작업을 돌리지 ..