인공지능(AI)

    [주간 LLM] LLM Evaluation (2) - LLM-as-a-Judge

    [주간 LLM] LLM Evaluation (2) - LLM-as-a-Judge

    주간 LLM 은 매주 LLM 관련 최신 연구, 논문을 다루는 시리즈 입니다.2025.01 - 4주차는 LLM을 활용하여 LLM 성능을 평가 할 수 있는 model-based evaluation 기법에 대해 다룹니다. Overview최근 점점 더 다양한 영역에서 높은 성능을 내고 있는 LLM을 평가하는 것은 굉장히 어려운 과제 중 하나입니다. 이를 위해 다양한 벤치마크, 휴먼 평가를 수행하고 있으나, 모델의 광범위한 능력(broad capabilities)을 기존의 방법만으로 평가하기는 적합하지 않습니다. 이를 해결하기 위해, 역으로 LLM의 능력을 활용하여 LLM을 평가하는 방법론들이 최근 많이 연구되고 있습니다. 이 중  NeurIPS 2023에 소개된 "Judging LLM-as-a-Judge  wi..

    [주간 LLM] LLM Evaluation (1) - Ifeval

    [주간 LLM] LLM Evaluation (1) - Ifeval

    주간 LLM 은 매주 LLM 관련 최신 연구, 논문을 다루는 시리즈 입니다.2025.01 - 3주차는 LLM의 instruction-following 능력을 평가할 수 있는 ifeval benchmark에 대해 다룹니다.  Overview23년 11월에 Google과 Yale Univ에서 공개한 벤치마크 데이터 셋으로, LLM의 지시사항 준수 능력을 평가하기 위해 설계된 벤치마크로 검증 가능한 지시사항(verifiable instructions)을 포함합니다. 비교적 이전에 나온 논문이지만 LLM의 Instrcution 성능이 최근 더 중요해지면서 가장 유명한 LLM leaderboard 중 하나인, open llm leaderboard v2(24.10)에 추가된 벤치마크 입니다. 총 25개의 지시문 카..

    프롬프트 러닝, Prompt Learning이란?

    프롬프트 러닝, Prompt Learning이란?

    프롬프트(Prompt)란? ChatGPT를 사용해 과제나 리포트 작성을 할 때, 원하는 방향으로 답변이 나오도록 여러가지 입력을 준 경험이 한 번씩 있다면, "프롬프트를 잘 줘야 ChatGPT가 대답을 잘해줘"라는 말을 들은 경험도 있을겁니다. 여기서 말하는 프롬프트(Prompt)란 무엇일까요? 위의 경험에 빗대어 생각해보면, ChatGPT 즉, 인공지능 모델에 넣어주는 입력값이라 볼 수 있을 것입니다. 조금 더 자세하게 살펴보기위해 프롬프트의 사전적 정의를 확인해보겠습니다. " An act of assisting or encouraging a hesitating speaker." 그대로 번역하자면, "망설이는 화자(Speaker)를 돕거나(Assist) 격려(Encourage)하는 행동"이라는 뜻입니다..

    [NLTK] 자연어 처리를 위한 패키지

    [NLTK] 자연어 처리를 위한 패키지

    자연어처리(NLP, Natural Language Processing)를 위해서는 각 테스크에 맞는 전처리(preprocessing)과정이 필수적으로 필요합니다. 본 게시글에서는 전처리를 위한 패키지인 NLTK를 간단한 예제와 함께 알아보도록 하겠습니다. NLTK에서는 다양한 기능을 제공하지만, 본 글에서는 아래의 기능 위주로 다룹니다 Searching Text Word Statistics Searching Text NLTK에서 제공하는 텍스트 예제로 진행하기 위해, book을 불러오도록 하겠습니다. import nltk from nltk.book import * NLTK에서 book을 불러올 경우 아래의 9개의 책의 텍스트를 불러올 수 있습니다. text1에 저장된 Moby-Dick으로 nltk를 적용..

    simCLR을 통해 Contrastive Learning 이해하기

    simCLR을 통해 Contrastive Learning 이해하기

    해당 게시글은 Ekin Tiu님의 Understanding Contrastive Learning글을 참고하여 번역 및 요약한 글입니다. What is Contrastive Learning? Contrastive learning is a machine learning technique used to learn the general features of a dataset without labels by teaching the model which data points are similar or different. 예로, 고양이와 개에 대해 아무런 정보가 없는 어린아이에게 아래의 세 장의 사진을 보여준다고 생각해봅시다. 아이가 두 동물에 대한 사전지식이 없다고 해도 "뾰족한 귀", "긴 수염" 등의 특징을 통..

    머신러닝의 종류: 지도학습과 비지도학습

    머신러닝의 종류: 지도학습과 비지도학습

    머신러닝의 종류: 지도학습과 비지도학습 1. 머신러닝 시스템의 종류 데이터에 레이블(label)의 유무, 학습하는 동안 감독 형태/정보량으로 구분 기준을 둘 경우 머신러닝은 크게 지도학습과 비지도 학습으로 나뉘게 됩니다. 2. 지도 학습(Supervised Learning) 훈련 데이터에 레이블(label)이 주어지는 경우로, 다음과 같이 학습 데이터 셋이 구성되어 있다고 볼 수 있습니다. $Given = \{(x^{(1)}, y^{(1)}), \dots, (x^{(N)}, y^{(N)})\}$ 지도학습의 목표는 학습데이터에는 없는 새로운 데이터 x가 들어왔을 때 y를 올바르게 예측하는 것입니다. $Goal= Learn \ a \ rule \ (𝑓: 𝑥 \to 𝑦) $ 지도학습에는 크게 이산적인(Disc..

    End-to-End Memory Networks, 엔드-투-엔드 메모리 네트워크

    End-to-End Memory Networks, 엔드-투-엔드 메모리 네트워크

    End-to-End Memory Networks 2015년 NIPS에 FaceBook AI Research가 발표한 논문으로 당시 자연어처리 분야에서 가장 좋은 성능을 보여주었던 모델 중 하나입니다. 기존의 일반적인 신경망 모델과 다르게 메모리(Memory)라는 구조를 사용한다는 점이 가장 큰 특징입니다. Model Architecture(1): Single Layer 이해를 돕기 위해 먼저 본 논문에서 제안하는 모델의 싱글 레이어 구조를 살펴보도록 하겠습니다. 모델의 입력값으로는 Context 문장, Question 문장이 들어가고 학습시 업데이트 되는 파라미터는 Fig1.의 Embedding $A,B,C$와 Weight Vector $W$입니다. 모델의 학습 과정은 크게 다음과 같이 세 단계로 이루어..

    Few-shot Learning, 퓨샷 러닝

    Few-shot Learning, 퓨샷 러닝

    Few-shot Learning이란? 훈련 데이터(train data)의 수가 매우 제한적인 상황에서 모델을 개발하려는 기술 혹은 알고리즘을 의미합니다. 즉, 상대적으로 적은 훈련 데이터에서도 새로운 입력 값으로 주어지는 데이터(unseen data)를 잘 인식하고 분류하고자 하는 것입니다. 매우 많은 데이터로 모델을 구축하는 전통적인 인공지능 트랜드와는 달리, 매우 적은 데이터에서도 모델을 잘 구축하는 것이 핵심이라고 할 수 있습니다. 등장 배경 학습 데이터가 적은 상황에서는 딥러닝 모델의 구축 자체에 어려움이 있었고, 몇 장의 사진만을 보고 직관적으로 분류할 수 있는 사람과는 달리 인공지능 모델은 적게는 수천 개, 많게는 몇 십만 개에 달하는 사진이 필요했습니다. 이에 인공지능 개발자들은 소량의 데이..