Skip to content
바람부는 자유
Go back
LLM Engineering

LLM 벤치마크 완전 가이드: 모델 성능 평가의 모든 것

LLM Engineering (14/21)

  1. LLM 토큰 기본 개념
  2. LLM Tokenizer 추가 학습
  3. LLM Inference 이해하기: 토큰 예측의 마법
  4. LLM API 기초 (Part 1/3)
  5. LLM API 중급 (Part 2/3)
  6. LLM API 고급 (Part 3/3)
  7. System Message 활용하기
  8. LLM을 활용한 회의록 자동 요약 시스템
  9. Multi-Modal AI 기초
  10. Gradio 기본 사용법
  11. Hugging Face 완전 정복: AI 모델의 GitHub
  12. Google Colab 사용해보기: 무료로 GPU 환경에서 AI 모델 실행하기
  13. Tool Use (Function Calling)
  14. LLM 벤치마크 완전 가이드: 모델 성능 평가의 모든 것
  15. Vector Embeddings와 RAG 기초
  16. LangChain vs LiteLLM 비교 가이드
  17. 고급 RAG: 벡터 데이터베이스를 활용한 문서 검색 시스템
  18. RAG 기반 고객 상담 챗봇 만들기
  19. RAG 시스템 평가 (RAG Evaluation)
  20. 고급 RAG 기법 (Advanced RAG Techniques)
  21. 08-1. 데이터셋 개념 정리

개요

대규모 언어 모델(LLM)이 빠르게 발전하면서, 모델의 성능을 객관적으로 평가할 수 있는 벤치마크의 중요성이 커지고 있습니다.

학습 목표

LLM 벤치마크란?

벤치마크(Benchmark) 는 LLM의 능력을 측정하기 위한 표준화된 테스트입니다. 마치 학생들의 수능 시험처럼, LLM의 다양한 능력을 정량적으로 평가합니다.

왜 벤치마크가 중요한가?

이유설명
객관적 비교서로 다른 모델의 성능을 공정하게 비교
발전 추적시간에 따른 AI 기술 발전 측정
약점 파악모델이 부족한 영역 식별
모델 선택특정 작업에 적합한 모델 선택

벤치마크의 한계

⚠️ 주의: 벤치마크 점수가 높다고 해서 모든 상황에서 우수한 것은 아닙니다.

💡 : 여러 벤치마크 결과를 종합적으로 고려하고, 실제 사용 사례에서 테스트하는 것이 중요합니다.


1. GPQA (Graduate-Level Google-Proof Q&A)

개요

GPQA는 대학원 수준의 과학 지식을 평가하는 벤치마크입니다. "Google-Proof"라는 이름에서 알 수 있듯이, 검색 엔진으로도 쉽게 답을 찾을 수 없는 고난도 문제들로 구성되어 있습니다.

주요 특징

특징설명
난이도PhD 수준의 전문 지식 요구
분야Biology, Physics, Chemistry
문제 수약 450개 문제
형식4지선다형
특이점전문가도 Google 없이는 어려운 문제

"Google-Proof"의 의미

GPQA 문제는 다음과 같은 기준으로 선별됩니다:

  1. 전문가 검증: 해당 분야 PhD가 작성
  2. 비전문가 테스트: 다른 분야 PhD가 Google을 사용해도 30분 내 정답률 < 50%
  3. 전문가 정확도: 해당 분야 전문가는 90%+ 정답률

예시 문제

[Biology - PhD Level]

질문: Which of the following is NOT a mechanism by which 
riboswitches regulate gene expression?

A) Transcription termination
B) Translation initiation blocking
C) mRNA degradation
D) DNA methylation

정답: D (DNA methylation)

이 문제는 RNA 리보스위치의 작동 메커니즘에 대한 깊은 이해를 요구합니다.

주요 모델 성능 (2024년 기준)

모델GPQA DiamondGPQA Extended
Claude 3.5 Sonnet59.4%-
GPT-4o53.6%-
Gemini 1.5 Pro46.2%-
인간 전문가~90%~90%
인간 비전문가 (w/ Google)~34%~34%

💡 해석: 최고 성능 모델도 인간 전문가에 비해 30%p 낮은 점수를 기록합니다. 이는 깊은 전문 지식과 추론이 여전히 AI의 과제임을 보여줍니다.

왜 GPQA가 중요한가?


2. MMLU-PRO

개요

MMLU-PRO는 기존 MMLU (Massive Multitask Language Understanding)의 개선 버전으로, 더 어렵고 차별력 있는 문제로 구성되어 있습니다.

MMLU vs MMLU-PRO 비교

특징MMLU (기존)MMLU-PRO (개선)
선택지 수4개10개
문제 난이도중급고급
추론 요구낮음높음 (CoT 필요)
찍기 확률25%10%
문제 수15,000+12,000+
과목 수57개57개

주요 개선 사항

1. 10-Choice 선택지

기존 4지선다에서 10지선다로 변경하여:

2. 추론 중심 문제

단순 지식 암기보다는:

3. 강화된 문제 품질

평가 과목 (일부)

수학 & 과학:
- High School Mathematics
- College Physics
- Computer Science
- Astronomy

인문 & 사회:
- Philosophy
- History
- Psychology
- Economics

전문 분야:
- Law
- Medicine
- Business

예시 문제

[High School Physics - CoT Required]

질문: A ball is thrown upward at 20 m/s. Ignoring air resistance,
what is the ball's velocity when it returns to the thrower's hand?

A) 0 m/s
B) 10 m/s downward
C) 20 m/s downward
D) 20 m/s upward
E) 40 m/s downward
F) -20 m/s
G) Depends on the mass
H) Depends on the height
I) Cannot be determined
J) 9.8 m/s downward

정답: C (20 m/s downward)

추론:
1. 에너지 보존 법칙에 의해 같은 높이로 돌아올 때 속력은 같음
2. 방향은 반대 (아래쪽)
3. 따라서 20 m/s downward

주요 모델 성능

모델MMLU-PROMMLU (참고)
GPT-4o72.3%88.7%
Claude 3.5 Sonnet78.0%88.3%
Gemini 1.5 Pro68.9%85.9%
LLaMA 3.1 405B61.6%85.2%

💡 해석: MMLU에서 85% 이상을 기록한 모델들도 MMLU-PRO에서는 60-78%로 하락합니다. 이는 MMLU-PRO가 훨씬 더 도전적인 벤치마크임을 보여줍니다.

왜 MMLU-PRO를 사용하는가?


3. AIME (American Invitational Mathematics Examination)

개요

AIME은 미국 수학 올림피아드 예선 시험으로, LLM의 고급 수학적 추론 능력을 평가하는 벤치마크로 활용됩니다.

시험 특징

특징내용
문제 수15문제
시간3시간
답변 형식정수 (0-999)
난이도고등학교 상위 1% 수준
분야대수, 기하, 조합, 정수론
선다형 여부❌ (정수 답변만)

왜 선다형이 아닌가?

선다형이 아닌 정수 답변 방식은 중요한 의미가 있습니다:

평가 영역

1. 대수 (Algebra)
   - 다항식, 방정식, 부등식
   - 복소수, 수열

2. 기하 (Geometry)
   - 평면기하, 입체기하
   - 삼각법, 좌표기하

3. 조합론 (Combinatorics)
   - 경우의 수, 확률
   - 그래프 이론

4. 정수론 (Number Theory)
   - 나머지 정리, 모듈러 연산
   - 소수, 약수

예시 문제

[AIME 2024 Problem 3]

문제: Alice and Bob play a game on a sequence of positive integers.
Starting with 1, Alice adds 2 or 3 to get the next term. Bob then adds
2 or 3 to get the following term. They continue alternating until the
sequence reaches or exceeds 100. If the final term equals 100, Alice wins.
Otherwise, Bob wins. With optimal play, what is the smallest starting
value that guarantees Alice wins?

정답: 5 (0-999 범위의 정수)

풀이 과정:
1. 역방향 추론 (100부터 거꾸로)
2. 게임 이론 (Winning/Losing positions)
3. 패턴 인식
4. 최적 전략 도출

주요 모델 성능

AIME는 15문제 중 맞힌 개수로 평가합니다:

모델/인간평균 정답 수 (15점 만점)정답률
GPT-4o9.3 / 1562%
Claude 3 Opus4.0 / 1527%
Gemini 1.5 Pro6.7 / 1545%
고등학생 상위 1%~8-10 / 1553-67%
IMO 금메달리스트~12-15 / 1580-100%

💡 해석: GPT-4o가 AIME에서 수학 올림피아드 출전자 수준의 성능을 보입니다. 이는 고급 수학 추론에서 LLM이 큰 진전을 이루었음을 보여줍니다.

AIME vs 일반 수학 시험

구분일반 시험 (SAT Math)AIME
난이도중급매우 높음
형식선다형정수 답변
시간 압박보통높음 (15문제/3시간)
요구 능력공식 적용창의적 문제 해결

왜 AIME가 중요한가?


4. LiveCodeBench

개요

LiveCodeBench실시간으로 업데이트되는 코딩 벤치마크로, LLM의 프로그래밍 능력을 평가합니다. 가장 큰 특징은 데이터 오염을 방지한다는 점입니다.

데이터 오염 문제

기존 코딩 벤치마크(HumanEval, MBPP 등)의 문제점:

문제:
LeetCode, Codeforces의 기존 문제들
         ↓
웹에 공개되어 있음
         ↓
LLM 학습 데이터에 포함될 가능성
         ↓
모델이 문제를 "기억"할 수 있음
         ↓
실제 코딩 능력이 아닌 암기 능력 측정

LiveCodeBench의 해결책

특징설명
최신 문제만 사용모델 학습 이후에 출제된 문제만 수집
주기적 업데이트매월 LeetCode, Codeforces에서 새 문제 추가
타임스탬프 관리문제 출제일 vs 모델 학습 종료일 비교
실행 테스트실제 테스트 케이스로 코드 검증

평가 방식

1. Code Generation (코드 생성)

# 프롬프트
"""다음 함수를 구현하세요:

def maxProfit(prices: List[int]) -> int:
    '''주식 가격 배열이 주어졌을 때, 최대 이익을 반환하세요.'''
"""

# LLM 생성 코드
def maxProfit(prices):
    min_price = float('inf')
    max_profit = 0
    for price in prices:
        min_price = min(min_price, price)
        max_profit = max(max_profit, price - min_price)
    return max_profit

# 테스트 케이스로 검증
assert maxProfit([7,1,5,3,6,4]) == 5  # ✅
assert maxProfit([7,6,4,3,1]) == 0    # ✅

2. Code Execution (코드 실행)

단순히 코드를 생성하는 것이 아니라, 실제로 실행해서 올바른 결과를 내는지 확인합니다.

평가 기준:
- Pass@1: 첫 번째 시도에서 성공
- Pass@5: 5번 시도 중 최소 1번 성공
- Pass@10: 10번 시도 중 최소 1번 성공

난이도 분류

LeetCode 기준으로 3단계로 분류:

난이도설명예시
Easy기본 자료구조 및 알고리즘배열 탐색, 문자열 처리
Medium중급 알고리즘 및 최적화동적 프로그래밍, 그래프
Hard고급 알고리즘 및 복잡한 로직고급 DP, 세그먼트 트리

지원 언어

주요 지원 언어:
- Python
- JavaScript
- Java
- C++
- Go
- Rust

예시 문제

[Medium - Dynamic Programming]

문제: Longest Palindromic Substring

Given a string s, return the longest palindromic substring in s.

Example:
Input: s = "babad"
Output: "bab" (or "aba")

Input: s = "cbbd"
Output: "bb"

Constraints:
- 1 <= s.length <= 1000
- s consists of only digits and English letters

주요 모델 성능 (Pass@1)

모델EasyMediumHard전체
GPT-4o85.2%52.3%23.1%53.5%
Claude 3.5 Sonnet83.7%50.8%21.9%52.1%
Gemini 1.5 Pro78.4%45.2%18.6%47.4%
GPT-3.562.1%28.7%8.3%33.0%

💡 해석: Hard 문제에서 급격한 성능 저하가 관찰됩니다. 복잡한 알고리즘 구현은 여전히 LLM에게 큰 도전입니다.

LiveCodeBench의 장점

활용 사례

LiveCodeBench가 유용한 경우:
- AI 코딩 어시스턴트 개발 (GitHub Copilot, Cursor 등)
- 코드 생성 모델 평가
- 알고리즘 교육용 AI 튜터 개발

5. MuSR (Multi-Step Reasoning)

개요

MuSR은 LLM의 다단계 추론 능력을 평가하는 벤치마크입니다. 단일 질문에 답하는 것이 아니라, 여러 단계의 논리적 추론을 통해 결론에 도달해야 합니다.

왜 다단계 추론이 중요한가?

실제 문제 해결은 대부분 여러 단계를 거칩니다:

단일 단계 추론:
질문: "파리의 수도는?"
답변: "파리는 프랑스의 수도입니다."
→ 간단한 지식 검색

다단계 추론:
질문: "파리에서 가장 오래된 건물을 지은 사람의 국적은?"
  ↓ 1단계: 파리에서 가장 오래된 건물 찾기
  ↓ 2단계: 그 건물을 지은 사람 찾기
  ↓ 3단계: 그 사람의 국적 찾기
답변: [복합 추론 필요]

MuSR의 4가지 태스크

MuSR은 4개의 서로 다른 추론 유형을 평가합니다:

1. Murder Mystery (추리 소설)

시나리오:
- 등장인물 5명
- 각자의 알리바이, 증거, 동기
- 모순되는 진술들

태스크:
논리적 추론으로 범인 찾기

필요한 능력:
- 정보 종합
- 모순 발견
- 논리적 제거
- 추론 체인 구성

예시:

단서:
1. Alice는 사건 당시 집에 있었다고 주장
2. Bob은 Alice를 8시에 공원에서 봤다고 증언
3. 사건은 8시에 발생
4. Alice의 차가 8시 30분에 주차장 CCTV에 포착됨
5. Alice의 집에서 공원까지는 차로 30분 거리

질문: Alice의 알리바이는 성립하는가?

추론:
- Bob이 8시에 Alice를 공원에서 봄
- 공원에서 집까지 30분 소요
- Alice의 차가 8시 30분에 포착됨
- 시간상 일치함
- 그러나 Alice는 집에 있었다고 주장 (모순)
→ Alice의 알리바이는 거짓일 가능성이 높음

2. Object Placement (객체 배치)

시나리오:
- 여러 사람이 물건을 옮김
- 시간순으로 행동 기록

태스크:
최종 위치 추적

필요한 능력:
- 상태 추적 (State Tracking)
- 시간 순서 이해
- 공간 추론

예시:

행동 기록:
1. 책이 책상 위에 있다
2. John이 책을 선반에 놓는다
3. Mary가 선반의 책을 침대로 옮긴다
4. John이 침대의 책을 다시 책상으로 옮긴다
5. Mary가 책상의 책을 가방에 넣는다

질문: 책은 지금 어디에 있는가?
답변: 가방 안

3. Team Allocation (팀 배정)

시나리오:
- 여러 사람을 팀에 배정
- 제약 조건들 (함께 있을 수 없는 사람, 필수 조합 등)

태스크:
제약을 만족하는 팀 구성 찾기

필요한 능력:
- 제약 충족 문제 (CSP)
- 조합 최적화
- 논리적 추론

4. Logical Deduction (논리적 연역)

시나리오:
- 논리 규칙들
- 초기 사실들

태스크:
규칙을 적용하여 새로운 사실 도출

필요한 능력:
- 논리 규칙 적용
- 추론 체인 구성
- 결론 도출

평가 방식

각 문제는 최종 답변의 정확도로 평가됩니다:

정답: 객관식 또는 단답형
평가: 정확히 일치해야 정답 인정

중간 추론 과정보다는 최종 결론의 정확성에 중점을 둡니다.

주요 모델 성능

모델Murder MysteryObject PlaceTeam AllocLogical Ded전체 평균
GPT-4o72.3%65.8%58.4%81.2%69.4%
Claude 3 Opus68.9%62.1%54.7%78.6%66.1%
Gemini 1.5 Pro64.2%58.9%51.3%75.8%62.6%
GPT-3.542.1%38.7%31.2%52.3%41.1%

💡 해석: Team Allocation (제약 충족)이 가장 어려운 태스크입니다. 논리적 연역은 상대적으로 높은 성능을 보입니다.

Chain-of-Thought (CoT)의 중요성

MuSR에서는 CoT 프롬프팅이 필수적입니다:

# ❌ 직접 답변 요청
prompt = "질문: ... 답변:"
→ 낮은 정확도

# ✅ 단계별 추론 요청
prompt = """질문: ...

단계별로 추론하세요:
1. 먼저...
2. 다음으로...
3. 따라서...

최종 답변:"""
→ 높은 정확도

MuSR의 의의


6. HLE (Humanity's Last Exam)

개요

HLE (Humanity's Last Exam) 는 2024년에 공개된 초고난도 벤치마크입니다. "인류 최후의 시험"이라는 도발적인 이름에서 알 수 있듯이, 현존하는 가장 강력한 AI 모델조차 낮은 점수를 받도록 설계되었습니다.

"인류 최후의 시험"의 의미

이름의 의미는 두 가지로 해석됩니다:

1. AI가 이 시험을 통과하면...
   → 인간의 지적 우위가 사라지는 시점
   → 인간이 AI를 시험할 수 있는 마지막 기회

2. 현재 AI가 풀기 매우 어려운 시험
   → 향후 AI 발전의 목표점
   → 진정한 AGI(Artificial General Intelligence)로 가는 마일스톤

주요 특징

특징설명
난이도극도로 높음 (GPT-4o도 낮은 점수)
분야다양한 전문 영역 통합
문제 출처세계 최고 난이도 문제 큐레이션
평가 방식객관식 + 주관식 혼합
특이점인간 전문가도 어려워하는 문제들

평가 영역

HLE는 다양한 분야를 포괄합니다:

1. 고급 과학
   - 이론 물리학 (양자역학, 상대성이론)
   - 유기화학 (복잡한 반응 메커니즘)
   - 분자생물학 (유전자 조절)

2. 고급 수학
   - 추상대수학
   - 위상수학
   - 해석학

3. 철학 & 논리
   - 형식논리학
   - 인식론
   - 윤리학

4. 복합 추론
   - 여러 분야를 넘나드는 문제
   - 창의적 문제 해결

문제의 특징

HLE 문제는 다음과 같은 특성을 가집니다:

1. 다단계 추론 필수

단일 지식으로는 풀 수 없음
→ 여러 개념을 조합
→ 창의적인 접근 필요

2. 모호성 처리

명확하지 않은 상황에서
→ 합리적인 가정 설정
→ 최선의 답 도출

3. 전문가 수준 요구

해당 분야 박사 학위 소지자도
→ 시간을 들여야 풀 수 있는 문제

예시 문제 (개념)

실제 문제는 공개되지 않았지만, 유사한 난이도의 예시:

[물리학 + 수학 + 추론]

문제: Consider a quantum system described by a non-Hermitian 
Hamiltonian with PT-symmetry. Under what conditions does the 
system exhibit real eigenvalues, and how does this relate to 
the topological properties of the parameter space?

요구 지식:
- 양자역학 (비에르미트 연산자)
- PT 대칭성 이론
- 위상수학
- 고유값 이론

이런 문제는 여러 분야의 깊은 지식창의적 통합을 요구합니다.

주요 모델 성능

모델HLE 점수비고
GPT-4o~15-20%최고 성능 모델 중 하나
Claude 3.5 Sonnet~18-23%일부 영역에서 앞섬
Gemini 1.5 Pro~12-17%수학 분야 약점
인간 전문가~40-60%시간 제한 있을 때
인간 전문가~70-85%충분한 시간 주어질 때

💡 해석: 최고 성능 AI 모델도 20% 내외의 점수를 기록합니다. 이는 AI가 인간 수준의 깊은 이해와 창의적 사고를 하기에는 아직 멀었음을 보여줍니다.

GPQA vs HLE 비교

둘 다 고난도 과학 벤치마크이지만 차이가 있습니다:

특징GPQAHLE
난이도매우 높음극도로 높음
분야과학 3개과학+수학+철학+복합
문제 형식4지선다혼합형
최고 AI 점수~60%~20%
목적전문 지식 평가AGI 수준 평가

HLE의 의의

HLE가 어려운 이유

1. 다영역 지식 통합
   → 단일 분야 전문성만으로는 부족

2. 창의적 문제 해결
   → 기존 패턴으로 해결 불가

3. 모호성 처리
   → 명확한 정답이 없는 상황에서 최선 도출

4. 메타 인지
   → 자신의 추론 과정을 평가하고 수정

전망

HLE는 다음과 같은 질문을 던집니다:

"AI가 HLE에서 인간 전문가 수준(70%+)에 도달하면..."

→ 그것이 진정한 AGI의 신호일까?
→ 아니면 또 다른 한계가 드러날까?

현재로서는 AI와 인간의 격차가 가장 크게 나타나는 벤치마크입니다.


7. 벤치마크 종합 비교

난이도 및 영역 비교

벤치마크난이도주요 영역최고 AI 점수인간 전문가
GPQA⭐⭐⭐⭐⭐과학 (PhD급)~60%~90%
MMLU-PRO⭐⭐⭐⭐57개 과목~78%~85%
AIME⭐⭐⭐⭐⭐수학 올림피아드~62%~80%
LiveCodeBench⭐⭐⭐⭐코딩 (최신)~54%~70%
MuSR⭐⭐⭐⭐다단계 추론~69%~85%
HLE⭐⭐⭐⭐⭐복합 (극난도)~20%~75%

평가 형식 비교

벤치마크선다형주관식실행 검증특이사항
GPQA✅ (4지)Google-proof
MMLU-PRO✅ (10지)CoT 권장
AIME✅ (정수)0-999 범위
LiveCodeBench✅ (코드)실시간 업데이트
MuSR✅ / ❌✅ / ❌혼합형
HLE✅ / ❌✅ / ❌혼합형

용도별 추천 벤치마크

🔬 과학 연구 보조 AI 개발

추천: GPQA, HLE
이유:
- 전문 지식 깊이 평가
- 과학적 추론 능력 측정

💻 코딩 어시스턴트 개발

추천: LiveCodeBench
이유:
- 실제 코드 실행 검증
- 데이터 오염 방지
- 최신 알고리즘 평가

📚 교육용 AI 튜터 개발

추천: MMLU-PRO, AIME
이유:
- 다양한 과목 커버
- 학생 수준별 평가 가능

🤖 AI 에이전트 / 복합 작업 시스템

추천: MuSR, HLE
이유:
- 다단계 추론 능력
- 복잡한 시나리오 처리

🏆 범용 모델 평가

추천: 모든 벤치마크 조합
이유:
- 종합적인 능력 평가
- 강점/약점 파악

최신 모델 종합 성능 (2024)

모델GPQAMMLU-PROAIMELiveCodeMuSRHLE
GPT-4o53.6%72.3%62.0%53.5%69.4%18.5%
Claude 3.5 Sonnet59.4%78.0%26.7%52.1%66.1%21.2%
Gemini 1.5 Pro46.2%68.9%44.7%47.4%62.6%15.3%
LLaMA 3.1 405B40.5%61.6%30.2%45.8%58.2%12.7%

💡 관찰:

  • Claude 3.5 Sonnet: MMLU-PRO와 GPQA에서 강세
  • GPT-4o: 균형 잡힌 성능, AIME와 LiveCodeBench에서 우수
  • Gemini 1.5 Pro: 전반적으로 견조한 성능
  • 모든 모델: HLE에서 낮은 점수 → 개선 여지 많음

8. 벤치마크의 한계와 주의사항

벤치마크는 LLM 평가에 유용하지만, 여러 근본적인 한계를 가지고 있습니다. 이러한 한계를 이해하는 것은 벤치마크 결과를 올바르게 해석하는 데 필수적입니다.

1. 데이터 오염 (Data Contamination)

문제의 본질

벤치마크는 공개되어야 검증 가능
         ↓
공개된 문제는 웹에 존재
         ↓
LLM 학습 시 크롤링되어 학습 데이터에 포함
         ↓
모델이 문제를 "기억"할 수 있음
         ↓
실제 추론 능력이 아닌 암기 능력 측정

왜 비밀 유지가 어려운가?

이유설명
재현성 요구과학적 검증을 위해 문제와 답이 공개되어야 함
투명성모델 개발자와 사용자가 평가 기준을 알아야 함
커뮤니티 참여연구자들이 벤치마크를 개선하려면 접근 필요
경쟁 압력모델 성능 비교를 위해 공개된 벤치마크 사용

실제 사례

# 예시: MMLU 문제가 학습 데이터에 포함된 경우

# 웹에 공개된 MMLU 문제
"What is the capital of France? A) London B) Paris C) Berlin D) Rome"

# LLM 학습 중
웹 크롤링 → MMLU 문제 포함 → 모델이 학습

# 평가 시
같은 문제 출제 → 모델이 "기억"해서 답함 → 높은 점수

                    실제 추론이 아닌 암기!

데이터 오염의 영향

경미한 오염 (10% 문제 노출):
→ 점수 2-5%p 상승

심각한 오염 (50%+ 문제 노출):
→ 점수 10-20%p 상승
→ 벤치마크 무효화

해결 시도들

방법예시효과한계
최신 문제 사용LiveCodeBench✅ 높음지속적 업데이트 필요
비공개 문제Scale AI evals✅ 높음투명성 부족
동적 생성문제 자동 생성⚠️ 중간품질 관리 어려움
오염 감지통계적 분석⚠️ 중간확실한 증명 어려움

2. 일관성 없는 적용 (Not Consistently Applied)

문제점

벤치마크는 표준화된 평가를 목표로 하지만, 실제로는 일관성이 부족합니다.

프롬프팅 차이

# 같은 MMLU 문제를 서로 다른 방식으로 평가

# 방법 1: Zero-shot
prompt = "Question: What is X? A) ... B) ... Answer:"

# 방법 2: Few-shot (3 examples)
prompt = """Example 1: Q: ... A: ...
Example 2: Q: ... A: ...
Example 3: Q: ... A: ...
Question: What is X? A) ... B) ... Answer:"""

# 방법 3: Chain-of-Thought
prompt = """Question: What is X?
Let's think step by step:
1. First, ...
2. Then, ...
Answer:"""

# 결과: 같은 모델이 20%p 차이 나는 점수!

평가 조건의 불일치

조건변동 요소영향
Temperature0.0 vs 0.7 vs 1.0점수 5-10%p 차이
최대 토큰512 vs 2048 vs 4096긴 답변 필요 시 영향
시스템 프롬프트유무, 내용 차이점수 3-8%p 차이
Sampling 방법Top-p, Top-k, Beam search점수 2-5%p 차이
재시도 횟수Pass@1 vs Pass@5 vs Pass@10큰 차이 발생

회사별 평가 차이

문제:
각 AI 회사가 자사 모델에 유리한 설정으로 평가

예시:
- OpenAI: GPT-4에 최적화된 프롬프트 사용
- Anthropic: Claude에 맞춘 평가 방식
- Google: Gemini에 유리한 조건 설정

결과:
→ "같은" 벤치마크에서 다른 결과
→ 공정한 비교 불가능

재현성 문제

연구팀 A의 GPT-4 MMLU 점수: 86.4%
연구팀 B의 GPT-4 MMLU 점수: 88.7%
         ↓
같은 모델, 같은 벤치마크인데 2.3%p 차이!
         ↓
프롬프트, 설정, API 버전 등의 차이

3. 범위가 너무 좁음 (Too Narrow in Scope)

문제의 핵심

벤치마크는 측정 가능한 것만 평가하지만, LLM의 실제 유용성은 훨씬 광범위합니다.

벤치마크가 측정하지 못하는 것들

능력왜 중요한가?벤치마크 측정 여부
창의성새로운 아이디어 생성
공감 능력사용자 감정 이해
대화 자연스러움실제 대화 품질
유머 감각인간다운 상호작용
문화적 이해맥락 파악⚠️ 제한적
윤리적 판단올바른 결정⚠️ 제한적
개인화사용자 맞춤 응답
일관성시간에 따른 안정성

구체적 예시

시나리오 1: 사용자의 미묘한 감정 이해

사용자: "오늘 회의가 잘 됐어요... 뭐 그럭저럭요."
         ↓
실제 의미: 실망했지만 직접 말하기 어려움
         ↓
좋은 AI: "완전히 만족스럽지는 않으셨던 것 같네요. 어떤 부분이
          아쉬우셨나요?"
보통 AI: "회의가 잘 되었다니 좋네요!"
         ↓
이런 미묘한 차이를 벤치마크는 측정 못함!
시나리오 2: 창의적 문제 해결

질문: "우리 회사의 고객 이탈률을 줄일 창의적인 방법은?"
         ↓
벤치마크 평가: ❌ (정답이 없음, 객관적 측정 불가)
실제 가치: ✅ (매우 중요한 비즈니스 활용 사례)

영역별 커버리지

MMLU-PRO: 57개 과목
         ↓
하지만 실제 지식의 범위는?
         ↓
- 특정 회사의 내부 정책: ❌
- 개인의 취향과 선호: ❌
- 실시간 뉴스/이벤트: ❌
- 지역별 문화와 관습: ⚠️ 제한적
- 전문 직업의 암묵지: ❌

4. 미묘한 추론 측정의 어려움 (Hard to Measure Nuanced Reasoning)

객관식의 한계

문제: "다음 중 가장 적절한 답은?"

A) 완전히 틀림 (0점)
B) 부분적으로 맞음 (?)
C) 대체로 맞음 (?)
D) 완벽히 맞음 (100점)

벤치마크: B, C, D 중 하나만 정답으로 인정
실제: B와 C 모두 합리적일 수 있음

추론 과정 vs 최종 답변

# 예시: 수학 문제

# 학생 A의 답안
"""
단계 1: 방정식 세우기 (✓)
단계 2: 계산 (✓)
단계 3: 최종 답: 42 (✓)
"""
벤치마크 점수: 100%

# 학생 B의 답안
"""
단계 1: 방정식 세우기 (✓)
단계 2: 계산 과정 (✓✓✓ 매우 창의적!)
단계 3: 실수로 43이라고 씀 (✗)
"""
벤치마크 점수: 0%

문제: B가 더 깊이 이해했을 수 있는데 점수는 0점!

"거의 맞음"을 측정 못함

시나리오모델 답변정답벤치마크 평가실제 가치
역사 날짜1776년 7월 2일7월 4일❌ 0점⚠️ 거의 맞음
과학 상수π ≈ 3.143.14159❌ 0점✅ 충분히 정확
철학 질문답변 A답변 B❌ 0점💭 둘 다 타당

맥락 이해의 미묘함

질문: "은행에 가서 돈을 찾았어요."

해석 1: 금융 기관에서 현금 인출 (✓)
해석 2: 강가에서 돈을 발견함 (✓)
         ↓
맥락에 따라 달라짐!
         ↓
벤치마크: 하나만 정답으로 처리
실제: 맥락 없이는 둘 다 가능

5. 모델 포화 (Saturation of Models)

포화 현상이란?

벤치마크 점수가 너무 높아져서
→ 모델 간 차이를 구분하지 못함
→ 벤치마크가 무용지물

실제 사례: MMLU 포화

연도최고 점수상황
202157%큰 차별력 ✅
202270%차별력 있음 ✅
202386%차별력 감소 ⚠️
202489%거의 포화 ❌
문제:
GPT-4: 88.7%
Claude 3.5: 88.3%
Gemini 1.5: 85.9%
         ↓
0.4%p 차이 - 유의미한가? 오차 범위인가?
         ↓
실제 사용 시 차이를 체감할 수 없음

포화의 결과

1. 변별력 상실
   → 상위 모델들을 구분 못함

2. 새 벤치마크 필요
   → MMLU → MMLU-PRO
   → HumanEval → LiveCodeBench

3. 개발 방향 왜곡
   → 실용성보다 벤치마크 점수 경쟁

천장 효과 (Ceiling Effect)

벤치마크 최대 점수: 100%
인간 전문가 점수: 89%
최고 AI 점수: 88%
         ↓
AI가 인간을 거의 따라잡음?
         ↓
아니면 벤치마크가 너무 쉬운 것?
         ↓
실제: 벤치마크가 쉬워진 것!

6. 과적합 (Overfitting to Benchmarks)

벤치마크 과적합이란?

모델 개발 과정:
1. 벤치마크에서 낮은 점수
2. 벤치마크 점수 올리기 위해 최적화
3. 벤치마크 점수 상승
4. 실제 사용 성능은 그대로
         ↓
벤치마크만 잘하고 실제로는 별로!

과적합의 메커니즘

# 건강한 개발
for epoch in training:
    실제 사용 사례 개선
    → 벤치마크 점수도 자연스럽게 상승
    ✅ 실용성과 벤치마크 모두 개선

# 과적합 개발
for epoch in training:
    벤치마크 점수만 최적화
    → 벤치마크 패턴 암기
    → 실제 사용 사례는 개선 안 됨
    ❌ 벤치마크만 개선, 실용성은 그대로

실제 사례

증상예시
특정 형식에만 강함"A) B) C) D)" 형식에만 강함, 실제 질문에는 약함
짧은 답변만 잘함벤치마크는 잘하지만 긴 글 작성은 부족
영어만 잘함MMLU(영어)는 잘하지만 한국어는 형편없음
학술적 톤만 사용벤치마크 스타일은 완벽, 일상 대화는 어색

과적합 탐지 방법

1. 벤치마크 vs 실제 사용 괴리
   벤치마크: 90점
   사용자 만족도: 60점
   → 과적합 의심!

2. 프롬프트 변경에 민감
   "Question:" → 85%
   "질문:" → 60%
   → 형식에 과적합!

3. 분포 외 성능 저하
   벤치마크 도메인: 90%
   새로운 도메인: 50%
   → 일반화 부족!

과적합의 위험성

단기적:
✅ 벤치마크 리더보드 1위
✅ 좋은 마케팅 효과
✅ 투자 유치 쉬움

장기적:
❌ 실제 사용자 불만족
❌ 브랜드 신뢰도 하락
❌ 실질적 가치 없음
❌ AI 발전에 기여 못함

종합: 벤치마크를 현명하게 사용하기

✅ 올바른 사용

1. 여러 벤치마크 조합
   → 단일 벤치마크에 의존하지 않기

2. 실제 테스트 병행
   → 벤치마크 + 실사용 평가

3. 점수의 의미 이해
   → 87% vs 85%는 오차 범위일 수 있음

4. 한계 인정
   → 벤치마크는 참고용, 절대 지표 아님

❌ 잘못된 사용

1. 벤치마크 점수만 보고 모델 선택
2. 0.5%p 차이를 절대적 우위로 해석
3. 벤치마크 = 실제 성능이라고 가정
4. 평가 조건을 무시하고 점수만 비교

10. 결론 및 요약

핵심 포인트

1. 각 벤치마크의 특성

벤치마크한 줄 요약
GPQAPhD 수준 과학 지식, Google로도 못 푸는 문제
MMLU-PRO57개 과목, 10지선다, CoT 필요
AIME수학 올림피아드, 정수 답변 (0-999)
LiveCodeBench최신 코딩 문제, 실행 검증, 데이터 오염 방지
MuSR다단계 추론, 논리적 사고 체인
HLE인류 최후의 시험, 극난도, AGI 목표

2. AI의 현주소

강점:
✅ 광범위한 지식 (MMLU-PRO: ~78%)
✅ 기본-중급 코딩 (LiveCodeBench Easy: ~85%)
✅ 논리적 추론 (MuSR: ~69%)

약점:
❌ 극도로 어려운 문제 (HLE: ~20%)
❌ 깊은 전문 지식 (GPQA: ~60%)
❌ 복잡한 수학 (AIME Hard: ~23%)

3. 모델 선택 가이드

과학 연구 → Claude 3.5 Sonnet (GPQA 59.4%)
범용 지식 → Claude 3.5 Sonnet (MMLU-PRO 78.0%)
수학/코딩 → GPT-4o (AIME 62%, LiveCode 53.5%)
균형잡힌 성능 → GPT-4o
비용 효율 → Gemini 1.5 Pro

벤치마크 사용 모범 사례

✅ DO (권장)

1. 여러 벤치마크 조합 사용
2. 실제 사용 사례에서 테스트
3. 점수의 의미 정확히 이해
4. 지속적인 평가 (모델은 계속 발전)

❌ DON'T (피할 것)

1. 단일 벤치마크만 신뢰
2. 점수만 보고 모델 선택
3. 데이터 오염 가능성 무시
4. 벤치마크 = 실제 성능이라고 가정

향후 전망

벤치마크의 미래:

1. 더 어려운 벤치마크
   → AI가 기존 벤치마크를 정복하면 새로운 도전 필요

2. 다양한 언어 및 문화
   → 영어 중심에서 벗어나 글로벌 평가

3. 실시간 업데이트
   → LiveCodeBench처럼 지속적으로 새 문제 추가

4. 복합 능력 평가
   → 단일 영역이 아닌 여러 능력 통합 측정

5. 실용성 지표
   → 벤치마크 점수 + 사용자 만족도

참고 자료

벤치마크 논문 및 공식 사이트

GPQA:
- 논문: https://arxiv.org/abs/2311.12022
- 리더보드: https://huggingface.co/spaces/GPQA/leaderboard

MMLU-PRO:
- 논문: https://arxiv.org/abs/2406.01574
- GitHub: https://github.com/TIGER-AI-Lab/MMLU-Pro

AIME:
- 공식 사이트: https://amc-reg.maa.org/aime
- 문제 아카이브: https://artofproblemsolving.com/wiki/AIME

LiveCodeBench:
- 논문: https://arxiv.org/abs/2403.07974
- 웹사이트: https://livecodebench.github.io

MuSR:
- 논문: https://arxiv.org/abs/2310.16049
- 데이터셋: https://huggingface.co/datasets/MuSR

HLE:
- 발표: https://scale.com/leaderboard
- 논문: (공개 예정)

주요 리더보드

Artificial Analysis:
- 웹사이트: https://artificialanalysis.ai
- 특징: 속도, 비용, 품질 종합 비교

Vellum AI:
- 웹사이트: https://www.vellum.ai/llm-leaderboard
- 특징: 실용적 태스크별 성능

Scale AI:
- 웹사이트: https://scale.com/leaderboard
- 특징: 인간 평가, HLE 벤치마크

Hugging Face:
- 웹사이트: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- 특징: 오픈소스 모델 중심

LiveBench:
- 웹사이트: https://livebench.ai
- 특징: 데이터 오염 방지, 매달 업데이트

추가 학습 리소스

1. Papers with Code
   → 최신 벤치마크 결과 확인
   https://paperswithcode.com/

2. Hugging Face Open LLM Leaderboard
   → 오픈소스 모델 성능 비교
   https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

3. OpenAI Evals
   → 모델 평가 프레임워크
   https://github.com/openai/evals

4. LMSys Chatbot Arena
   → 인간 선호도 기반 순위
   https://chat.lmsys.org/

5. Open LLM Leaderboard
   → 다양한 오픈 모델 벤치마크
   https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

🎉 완료!

이제 LLM 벤치마크의 전체 그림을 이해하셨습니다. 각 벤치마크의 특성을 파악하고, 자신의 목적에 맞는 평가 방법을 선택하세요!

핵심 요약:

향후 전망

벤치마크의 미래:

1. 더 어려운 벤치마크
   → AI가 기존 벤치마크를 정복하면 새로운 도전 필요

2. 다양한 언어 및 문화
   → 영어 중심에서 벗어나 글로벌 평가

3. 실시간 업데이트
   → LiveCodeBench처럼 지속적으로 새 문제 추가

4. 복합 능력 평가
   → 단일 영역이 아닌 여러 능력 통합 측정

5. 실용성 지표
   → 벤치마크 점수 + 사용자 만족도

참고 자료

논문 및 공식 사이트

GPQA:
- 논문: https://arxiv.org/abs/2311.12022
- 리더보드: https://huggingface.co/spaces/GPQA/leaderboard

MMLU-PRO:
- 논문: https://arxiv.org/abs/2406.01574
- GitHub: https://github.com/TIGER-AI-Lab/MMLU-Pro

AIME:
- 공식 사이트: https://amc-reg.maa.org/aime
- 문제 아카이브: https://artofproblemsolving.com/wiki/AIME

LiveCodeBench:
- 논문: https://arxiv.org/abs/2403.07974
- 웹사이트: https://livecodebench.github.io

MuSR:
- 논문: https://arxiv.org/abs/2310.16049
- 데이터셋: https://huggingface.co/datasets/MuSR

HLE:
- 발표: https://scale.com/leaderboard
- 논문: (공개 예정)

추가 학습 리소스

1. Papers with Code
   → 최신 벤치마크 결과 확인
   https://paperswithcode.com/

2. Hugging Face Leaderboards
   → 다양한 벤치마크 리더보드
   https://huggingface.co/spaces

3. OpenAI Evals
   → 모델 평가 프레임워크
   https://github.com/openai/evals

🎉 완료!

이제 LLM 벤치마크의 전체 그림을 이해하셨습니다. 각 벤치마크의 특성을 파악하고, 자신의 목적에 맞는 평가 방법을 선택하세요!


Share this post on:

Previous Post
Vector Embeddings와 RAG 기초
Next Post
Tool Use (Function Calling)