LLM Agent Evaluation Dashboard

Browse evaluation results organized by agent, showing model, prompt, and whether the run used a local or cloud provider.

Claude Code 2 evaluations

Anthropic

Opus46

Elevator Prompt

View Report

Anthropic

Sonnet46

Elevator Prompt

View Report

Gemini CLI 1 evaluation

Google

gemini-3-pro-preview

Elevator Prompt

View Report

Mistral Vibe 9 evaluations

Unknown

devstral-2

Elevator Prompt

View Report

Local (LM Studio)

devstral-2-123b-instruct-2512

Elevator Prompt

View Report

Local (LM Studio)

devstral-2-123b-instruct-2512

Fib Prompt

View Report

Local (LM Studio)

devstral-small-linux

Elevator Prompt

View Report

Local (LM Studio)

mistralai-devstral-small-2-24b-instruct-2512-mlx

Elevator Prompt

View Report

Local (LM Studio)

mistralai-devstral-small-2-24b-instruct-2512-mlx

Fib Prompt

View Report

Local (LM Studio)

mistralai_devstral-small-2-24b-instruct-2512

Elevator Prompt

View Report

Local (LM Studio)

mistralai_devstral-small-2-24b-instruct-2512

Fib Prompt

View Report

Local (LM Studio)

mistralaidevstral-small-2-2512

Elevator Prompt

View Report

OpenCode CLI 17 evaluations

Local (LM Studio)

devstral-small-2-24b-instruct-2512_elevator_prompt_linux

View Report

Local (LM Studio)

devstral-small-2-24b-instruct-2512_elevator_prompt_mac

View Report

Local (LM Studio)

gemma-4-31b-it

Elevator Prompt

View Report

Unknown

glm-4_7-flash

Elevator Prompt

No Report

Local (LM Studio)

google_gemma-4-26b-a4b

Elevator Prompt

View Report

Local (LM Studio)

google_gemma-4-26b-a4b_elevator_prompt_strix

View Report

Groq

GPTOSS120B

Elevator Prompt

View Report

Groq

KimiK2Instruct0905

Elevator Prompt

View Report

Local (LM Studio)

mistralai_devstral-small-2-24b-instruct-2512

Elevator Prompt

View Report

Local (LM Studio)

mistralai_devstral-small-2-2512

Elevator Prompt

View Report

Local (LM Studio)

nvidia-nemotron-3-super-120b-a12b

Elevator Prompt

View Report

Unknown

nvidia-nemotron-3-super-120b-a12b

Fib Prompt

No Report

Local (LM Studio)

qwen3-coder-next

Elevator Prompt

View Report

Local (LM Studio)

qwen35-122b-a10bq3_k_s

Elevator Prompt

View Report

Local (LM Studio)

qwen35-27b

Elevator Prompt

View Report

Local (LM Studio)

qwenqwen35-9b

Elevator Prompt

View Report

Cerebras

ZAIGLM-47

Elevator Prompt

View Report

Pi Coding Agent 8 evaluations

Unknown

CPU_gpt-oss-120b

Elevator Prompt

No Report

Unknown

glm-4_7-flash

Elevator Prompt

No Report

Google-Gemini-Cli

google-gemini-cli_gemini-3-flash-preview

Elevator Prompt

View Report

Google-Gemini-Cli

google-gemini-cli_gemini-3-pro-preview

Elevator Prompt

View Report

Unknown

gpt-oss-120b

Elevator Prompt

No Report

Unknown

mistralai_devstral-small-2-2512

Fib Prompt

No Report

Unknown

nvidia-nemotron-3-super-120b-a12b

Elevator Prompt

No Report

Unknown

nvidia-nemotron-3-super-120b-a12b

Fib Prompt

No Report