인공지능(AI)/LLMs

    [주간 LLM] LLM Evaluation (1) - Ifeval

    [주간 LLM] LLM Evaluation (1) - Ifeval

    주간 LLM 은 매주 LLM 관련 최신 연구, 논문을 다루는 시리즈 입니다.2025.01 - 3주차는 LLM의 instruction-following 능력을 평가할 수 있는 ifeval benchmark에 대해 다룹니다.  Overview23년 11월에 Google과 Yale Univ에서 공개한 벤치마크 데이터 셋으로, LLM의 지시사항 준수 능력을 평가하기 위해 설계된 벤치마크로 검증 가능한 지시사항(verifiable instructions)을 포함합니다. 비교적 이전에 나온 논문이지만 LLM의 Instrcution 성능이 최근 더 중요해지면서 가장 유명한 LLM leaderboard 중 하나인, open llm leaderboard v2(24.10)에 추가된 벤치마크 입니다. 총 25개의 지시문 카..