Home Dashboard Blog GitHub

Benchmark Results

Config: default (summarization memory) · Model: Claude Sonnet · 6 tasks · March 2026

Steps per task

Token usage

Metrics overview

Input vs output tokens

Task results

Task	Status	Tests	Steps	Input tokens	Output tokens

Agent trajectory

Built by MD Rabbi · AgentForge v0.1.0