reasoning-eval/lm-eval.py at main · JackFram/reasoning-eval · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
import json
from pathlib import Path
import argparse
from utils import get_evaluator


"""
python lm-eval.py --model-path [model path on HF] --dataset-name [dataset name]

Supported models:
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

Supported datasets:
- AIME-2024
"""


if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="lm-eval args.")
    parser.add_argument(
        "-c",
        "--model-path",
        type=str,
        help="Checkpoint path",
        default="deepseek-ai/DeepSeek-R1-Distill-Qwen-14B",
    )
    parser.add_argument(
        "-d",
        "--dataset-name",
        type=str,
        help="Dataset name",
        default="AIME-2024",
    )
    parser.add_argument(
        "-o", "--sample-output-file", type=str, default="qwen-14b-aime.json"
    )

    args = parser.parse_args()

    output_info = {
        "instances": [],
        "model_name": args.model_path,
        "dataset_name": args.dataset_name,
    }

    evaluator = get_evaluator(
        model_name=args.model_path,
        dataset_name=args.dataset_name,
        tensor_parallel_size=4,
        verbose=True,
    )

    evaluator.evaluate_vllm(output_info=output_info, sample_output_file=args.sample_output_file)