인공지능(AI)/LLMs
[주간 LLM] LLM (1) - 딥시크(DeepSeek) 모델
주간 LLM 은 매주 LLM 관련 최신 연구, 논문을 다루는 시리즈 입니다.2025.02 - 1주차는 최근 주목받고 있는 오픈소스 LLM인 딥시크(DeepSeek)에 대해 다룹니다. Overview최근 중국의 AI 스타트업인 DeepSeek가 개발한 오픈소스 LLM이 세계적으로 주목받고 있습니다. 사실, DeepSeek에서 처음 공개한 모델은 23년 11월에 공개된 코딩 특화 모델 DeepSeek Coder이지만, DeepSeek의 이름이 주목받기 시작한 것은 작년 말인, 약 670B의 거대 언어모델인 DeepSeek-V3을 80억원에 불가한 획기적인 비용으로 개발했다는 사실이 알려지면서 입니다. 또한, 바로 저번달인 25년 1월에 DeepSeek-R1모델이 공개되면서 수천억원의 비용을 들여 모델을..
[주간 LLM] LLM Evaluation (2) LLM-as-a-Judge
주간 LLM 은 매주 LLM 관련 최신 연구, 논문을 다루는 시리즈 입니다.2025.01 - 4주차는 LLM을 활용하여 LLM 성능을 평가 할 수 있는 model-based evaluation 기법에 대해 다룹니다. Overview최근 점점 더 다양한 영역에서 높은 성능을 내고 있는 LLM을 평가하는 것은 굉장히 어려운 과제 중 하나입니다. 이를 위해 다양한 벤치마크, 휴먼 평가를 수행하고 있으나, 모델의 광범위한 능력(broad capabilities)을 기존의 방법만으로 평가하기는 적합하지 않습니다. 이를 해결하기 위해, 역으로 LLM의 능력을 활용하여 LLM을 평가하는 방법론들이 최근 많이 연구되고 있습니다. 이 중 NeurIPS 2023에 소개된 "Judging LLM-as-a-Judge wi..
![[주간 LLM] LLM Evaluation (1) - Ifeval](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdFJ7ZV%2FbtsLKIsKMAt%2FEtR0WKsmZWEnxzgcKm7Xjk%2Fimg.png)
[주간 LLM] LLM Evaluation (1) - Ifeval
주간 LLM 은 매주 LLM 관련 최신 연구, 논문을 다루는 시리즈 입니다.2025.01 - 3주차는 LLM의 instruction-following 능력을 평가할 수 있는 ifeval benchmark에 대해 다룹니다. Overview23년 11월에 Google과 Yale Univ에서 공개한 벤치마크 데이터 셋으로, LLM의 지시사항 준수 능력을 평가하기 위해 설계된 벤치마크로 검증 가능한 지시사항(verifiable instructions)을 포함합니다. 비교적 이전에 나온 논문이지만 LLM의 Instrcution 성능이 최근 더 중요해지면서 가장 유명한 LLM leaderboard 중 하나인, open llm leaderboard v2(24.10)에 추가된 벤치마크 입니다. 총 25개의 지시문 카..