Skip to content

feat: 벤치마크 평가 프레임워크 #3

@pola2025

Description

@pola2025

개요

autoresearch 루프의 메트릭 측정을 위한 벤치마크 평가 시스템.

설계

벤치마크 셋 구성

  • 한국어 이해: 10문제 (번역, 요약, 질의응답)
  • 영어 이해: 10문제 (reasoning, comprehension)
  • 코드 생성: 10문제 (Python/Rust 함수 작성, 버그 수정)
  • 총 30문제, 정답 포함 JSON 형식

평가 방식

  1. 정답 매칭: 정확도 0~1 (부분 매칭 포함)
  2. 자기평가: 모델이 자기 응답을 1~10 채점 (편향 보정 계수 적용)
  3. 응답 속도: tok/s 측정
  4. 종합 점수: accuracy * 0.5 + self_eval * 0.3 + speed_normalized * 0.2

파일 구조

benchmarks/
  korean.json
  english.json
  code.json
  evaluator.rs

의존성

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions