Issues · aallan/vera-bench · GitHub

Labels Milestones

Track Harness/Codecov acquisition impact on vera-bench CI

#80

· aallan opened

on Jun 3, 2026

Per-test subprocess failures should capture error_message (Aver + AILANG)

#72

· aallan opened

on May 22, 2026

Prompt caching for other providers (OpenAI instrumentation, Moonshot Context Caching)

#61

· aallan opened

on Apr 18, 2026

Add MoonBit as a comparison language

#49

· aallan opened

on Apr 13, 2026

Refactor models.py to a provider registry

#45

· aallan opened

on Apr 9, 2026

Automated scheduled benchmark runs with structured storage

#31

· aallan opened

on Mar 30, 2026

Results dashboard (GitHub Pages or veralang.dev)

#30

· aallan opened

on Mar 30, 2026

Multi-turn and agentic evaluation modes

#29

· aallan opened

on Mar 30, 2026

Hugging Face dataset export

#27

· aallan opened

on Mar 30, 2026

Generate paper-quality figures (matplotlib/seaborn)

#26

· aallan opened

on Mar 30, 2026

Expand to 75+ problems (15 per tier)

#25

· aallan opened

on Mar 30, 2026

Run benchmark against multiple models (Opus, GPT-4o, DeepSeek, Gemini)

#24

· aallan opened

on Mar 30, 2026