## 개요 autoresearch 루프의 메트릭 측정을 위한 벤치마크 평가 시스템. ## 설계 ### 벤치마크 셋 구성 - **한국어 이해**: 10문제 (번역, 요약, 질의응답) - **영어 이해**: 10문제 (reasoning, comprehension) - **코드 생성**: 10문제 (Python/Rust 함수 작성, 버그 수정) - 총 30문제, 정답 포함 JSON 형식 ### 평가 방식 1. **정답 매칭**: 정확도 0~1 (부분 매칭 포함) 2. **자기평가**: 모델이 자기 응답을 1~10 채점 (편향 보정 계수 적용) 3. **응답 속도**: tok/s 측정 4. **종합 점수**: `accuracy * 0.5 + self_eval * 0.3 + speed_normalized * 0.2` ### 파일 구조 ``` benchmarks/ korean.json english.json code.json evaluator.rs ``` ## 의존성 - #2 (autoresearch 루프 엔진)
개요
autoresearch 루프의 메트릭 측정을 위한 벤치마크 평가 시스템.
설계
벤치마크 셋 구성
평가 방식
accuracy * 0.5 + self_eval * 0.3 + speed_normalized * 0.2파일 구조
의존성