feat: 벤치마크 평가 프레임워크

## 개요

autoresearch 루프의 메트릭 측정을 위한 벤치마크 평가 시스템.

## 설계

### 벤치마크 셋 구성

- **한국어 이해**: 10문제 (번역, 요약, 질의응답)
- **영어 이해**: 10문제 (reasoning, comprehension)
- **코드 생성**: 10문제 (Python/Rust 함수 작성, 버그 수정)
- 총 30문제, 정답 포함 JSON 형식

### 평가 방식

1. **정답 매칭**: 정확도 0~1 (부분 매칭 포함)
2. **자기평가**: 모델이 자기 응답을 1~10 채점 (편향 보정 계수 적용)
3. **응답 속도**: tok/s 측정
4. **종합 점수**: `accuracy * 0.5 + self_eval * 0.3 + speed_normalized * 0.2`

### 파일 구조

```
benchmarks/
  korean.json
  english.json
  code.json
  evaluator.rs
```

## 의존성

- #2 (autoresearch 루프 엔진)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: 벤치마크 평가 프레임워크 #3

개요

설계

벤치마크 셋 구성

평가 방식

파일 구조

의존성

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

feat: 벤치마크 평가 프레임워크 #3

Description

개요

설계

벤치마크 셋 구성

평가 방식

파일 구조

의존성

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions