AI & Tech

VAKRA Benchmark: Dissecting the Failure Modes of AI Agents

An executable evaluation environment with 8,000+ APIs across 62 domains exposes critical weaknesses in today's leading AI models

Elena Volkov··7 min read·
Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents
Summary
  • VAKRA is an executable AI agent benchmark featuring 8,000+ APIs across 62 domains.
  • Most leading AI models scored poorly on multi-step workflows requiring 3–7 reasoning steps.
  • Initialization failure, error accumulation, and tool selection confusion were identified as the primary failure patterns.

How Well Do AI Agents Hold Up in the Real World?

A new benchmark has emerged as a significant reference point in the evaluation of artificial intelligence (AI) agents. VAKRA, introduced via the Hugging Face Blog, is a tool-grounded executable benchmark designed to simulate enterprise environments, revealing that most leading AI models struggle severely with multi-step workflow completion. Built on more than 8,000 locally hosted APIs backed by real databases spanning 62 domains, VAKRA goes beyond simple knowledge testing to measure agents' practical tool-use capabilities and compositional reasoning skills.

Why Existing Benchmarks Fall Short

Conventional AI evaluation methods have largely focused on isolated skills—solving math problems, writing code, summarizing text. But real enterprise environments demand something entirely different. Agents must call multiple APIs in sequence, retrieve information from unstructured documents, and make decisions under natural-language constraints.

VAKRA was designed to bridge this gap. It presents tasks requiring agents to execute 3–7 step reasoning chains that combine structured API calls with unstructured data retrieval. A key differentiator is that it analyzes full execution traces, assessing not just whether an agent reached the right answer but how it got there.

Four Core Capabilities and Task Structure

VAKRA organizes evaluation tasks around four capability axes.

Capability 1: API Chaining Using Business Intelligence APIs

This includes 2,077 test instances across 54 domains, using tools from the SLOT-BIRD and SEL-BIRD collections. Agents must execute 1–12 sequential tool calls to arrive at the final answer. For example, answering "Which football team has a build-up play speed of 31, dribbling of 53, and passing of 32?" requires a precise 5-step API chain: data initialization → three filtering steps → team name extraction. The correct answer was FC Barcelona.

The SLOT-BIRD collection provides 7 generic data manipulation tools (filtering, sorting), while SEL-BIRD extends this with more specialized functions, including flattening categorical arguments into separate functions. Each instance is provided with an average of 4 get functions.

MCP Server and Efficient Data Transfer Architecture

The MCP (Model Context Protocol) servers supporting this task include a special tool: get_data(tool_universe_id=id). Agents must call this first to initialize the data source. The tool returns only a lightweight preview of the data, storing the full dataset server-side to avoid large data transfers over the MCP protocol—a deliberate design choice to prevent inefficiency.

Model Performance: Why Are Scores So Low?

According to industry reports, leading large language models (LLMs) are performing poorly on VAKRA overall. This represents a fundamentally different challenge from simple Q&A or code generation. Three major failure patterns have been identified.

First, initialization failure: agents attempt to use data manipulation tools without first calling get_data, or pass an incorrect tool_universe_id.

Second, error accumulation across steps: errors in early stages of a multi-step chain propagate forward, resulting in a wrong final answer. Agents frequently fail to verify whether intermediate results are anomalous.

Third, tool selection confusion: the coexistence of similarly named tools across SLOT-BIRD and SEL-BIRD leads agents to frequently select the wrong tool for a given context.

Historical Thread: The Evolution of AI Agent Evaluation

The paradigm for evaluating AI agents has shifted dramatically over the past several years.

  • 2020–2022: Knowledge-based benchmarks like MMLU and HumanEval dominated. Single question, single answer.
  • 2023: The rise of AutoGPT and LangChain sparked interest in tool-using agents. Early tool-use benchmarks like ToolBench and APIBench emerged.
  • 2024: Multi-step agent benchmarks like AgentBench and τ-bench proliferated—but most remained confined to simulated environments.
  • 2025–2026: Evaluation evolved toward executable benchmarks using real APIs and databases. VAKRA sits at the forefront of this wave.

This shift reflects a structural transition in how AI is measured—from "does it know?" to "can it do?"

GenerationRepresentative BenchmarksEvaluation MethodLimitation
1st Gen (2020–2022)MMLU, HumanEvalSingle Q&A, code generationDisconnected from real usage
2nd Gen (2023–2024)ToolBench, AgentBenchTool calls, multi-stepLimited to simulated environments
3rd Gen (2025–2026)VAKRA, τ-benchExecutable APIs, real DBsHigh evaluation complexity

Comparison with Competing Benchmarks

AttributeVAKRAAgentBenchToolBenchτ-bench
Number of APIs8,000+Limited16,000+Moderate
Number of Domains628ManyLimited
Executable EnvironmentYesPartialNoYes
Document + API IntegrationYesNoNoPartial
Reasoning Chain Depth3–7 steps1–3 steps1–2 stepsVaries
Enterprise Environment SimulationHighMediumLowMedium

[Expert Analysis] Outlook and Implications

The structural vulnerabilities in agents exposed by VAKRA are unlikely to be resolved in the short term. Current LLM architectures are optimized to generate responses in a single forward pass, making them inherently weak at "reflective execution"—the ability to verify intermediate results and adjust strategy on the fly.

Several directions are likely to gain prominence. First, reinforcement learning (RL)-based agent training is expected to expand. Using tool-use success or failure as a reward signal is being actively explored by multiple research institutions. Second, executable benchmarks are likely to become the new standard. Evaluation approaches using real APIs, like VAKRA, are expected to be adopted by more companies and research organizations. Third, agent orchestration layers are expected to rise in importance. Architectures where multiple agents collaborate or a separate validation module checks intermediate steps could become mainstream.

The VAKRA leaderboard is currently open, and researchers and companies can submit their models for evaluation. The competition over AI agents' real-world capabilities has entered a new phase.

Share

댓글 (85)

대전의비평가방금 전

읽기 좋은 기사입니다. VAKRA 관련 용어 설명이 친절해서 좋았습니다. 전문가 의견도 더 듣고 싶습니다.

새벽의펭귄방금 전

북마크해두겠습니다. Benchmark: 관련 용어 설명이 친절해서 좋았습니다.

진지한토끼방금 전

잘 보고 있습니다.

구름위구름방금 전

언론이 이래야죠.

오후의크리에이터방금 전

읽기 좋은 기사입니다. VAKRA이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.

햇살의별방금 전

참고가 됩니다. Benchmark:의 전문가 코멘트가 설득력 있었습니다. 생각이 바뀌었습니다.

진지한고양이방금 전

유익한 기사네요. Dissecting이 앞으로 어떻게 전개될지 주목해야겠습니다.

호기심많은구름방금 전

AI-에이전트에 대해 처음 접하는 정보가 있었습니다. 잘 정리된 기사네요.

구름위돌고래방금 전

깔끔한 기사입니다. VAKRA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

바람의피아노5분 전

깔끔한 기사입니다. Benchmark:이 앞으로 어떻게 전개될지 주목해야겠습니다. 생각이 바뀌었습니다.

느긋한아메리카노5분 전

출퇴근길에 항상 읽고 있습니다.

도서관의탐험가5분 전

매일 여기서 뉴스 보고 있어요.

조용한드럼5분 전

VAKRA 주제로 시리즈 기사가 나오면 좋겠습니다. 나중에 다시 읽어볼 만합니다.

가을의러너5분 전

요즘 이 매체 기사가 제일 읽기 좋아요.

부지런한녹차5분 전

참고가 됩니다. Dissecting이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

솔직한커피5분 전

AI-에이전트의 전문가 코멘트가 설득력 있었습니다.

조용한부엉이5분 전

VAKRA의 향후 전망이 궁금합니다. 나중에 다시 읽어볼 만합니다.

새벽의사자12분 전

북마크해두겠습니다. Benchmark: 관련 배경 설명이 이해하기 쉬웠습니다. 주변에도 공유해야겠어요.

다정한여우12분 전

Dissecting의 전문가 코멘트가 설득력 있었습니다.

비오는날고양이12분 전

깔끔한 기사입니다. AI-에이전트의 향후 전망이 궁금합니다.

별빛의리더12분 전

VAKRA 관련 배경 설명이 이해하기 쉬웠습니다. 후속 기사 부탁드립니다.

저녁의기타12분 전

Benchmark: 관련 통계가 의외였습니다. 후속 기사 부탁드립니다.

별빛의독자12분 전

Dissecting 주제로 시리즈 기사가 나오면 좋겠습니다. 생각이 바뀌었습니다.

현명한비평가12분 전

댓글 보는 재미도 있네요.

재빠른달12분 전

기사 잘 읽었습니다.

진지한여우12분 전

Benchmark:에 대해 처음 접하는 정보가 있었습니다.

햇살의커피30분 전

이런 시각도 있었군요. Dissecting 관련 통계가 의외였습니다. 주변에도 공유해야겠어요.

유쾌한해30분 전

참고가 됩니다. AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다. 다른 시각의 분석도 읽어보고 싶습니다.

호기심많은강아지30분 전

VAKRA 관련 해외 동향도 궁금합니다.

맑은날해30분 전

Benchmark:에 대해 처음 접하는 정보가 있었습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

밝은돌고래30분 전

Dissecting에 대해 주변 사람들과 이야기 나눠볼 만합니다.

똑똑한해30분 전

읽기 좋은 기사입니다. AI-에이전트 주제로 시리즈 기사가 나오면 좋겠습니다.

구름위달30분 전

VAKRA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

도서관의사색가30분 전

Benchmark: 관련 배경 설명이 이해하기 쉬웠습니다.

공원의비평가1시간 전

북마크해두겠습니다. Dissecting 주제로 시리즈 기사가 나오면 좋겠습니다.

햇살의사색가1시간 전

이런 시각도 있었군요. AI-에이전트이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

저녁의고양이1시간 전

좋은 정리입니다. VAKRA이 앞으로 어떻게 전개될지 주목해야겠습니다.

가을의비평가1시간 전

Benchmark:에 대해 주변 사람들과 이야기 나눠볼 만합니다.

산속의부엉이1시간 전

Dissecting에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 잘 정리된 기사네요.

인천의달1시간 전

읽기 좋은 기사입니다. AI-에이전트 기사에서 언급된 사례가 흥미로웠습니다.

활발한라떼1시간 전

깔끔한 기사입니다. VAKRA이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

인천의강아지1시간 전

북마크해두겠습니다. Benchmark:에 대해 더 알고 싶어졌습니다.

햇살의크리에이터1시간 전

좋은 정리입니다. Dissecting에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 주변에도 공유해야겠어요.

맑은날고양이2시간 전

AI-에이전트에 대해 더 알고 싶어졌습니다.

꼼꼼한다람쥐2시간 전

VAKRA에 대해 처음 접하는 정보가 있었습니다. 전문가 의견도 더 듣고 싶습니다.

구름위녹차2시간 전

정리가 깔끔하네요.

인천의피아노2시간 전

Dissecting 기사에서 언급된 사례가 흥미로웠습니다.

용감한고양이2시간 전

흥미로운 주제입니다. AI-에이전트에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 다른 시각의 분석도 읽어보고 싶습니다.

현명한바이올린2시간 전

북마크해두겠습니다. VAKRA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

느긋한분석가2시간 전

Benchmark:에 대해 주변 사람들과 이야기 나눠볼 만합니다. 다른 시각의 분석도 읽어보고 싶습니다.

카페의펭귄2시간 전

잘 읽었습니다. Dissecting 관련 배경 설명이 이해하기 쉬웠습니다. 주변에도 공유해야겠어요.

현명한기타3시간 전

AI-에이전트 관련 통계가 의외였습니다.

열정적인아메리카노3시간 전

VAKRA 관련 통계가 의외였습니다. 좋은 기사 감사합니다.

햇살의펭귄3시간 전

좋은 정리입니다. Benchmark:의 향후 전망이 궁금합니다.

밝은워커3시간 전

핵심만 잘 정리해주시네요.

비오는날달3시간 전

AI-에이전트에 대해 처음 접하는 정보가 있었습니다.

활발한드리머3시간 전

VAKRA 관련 해외 동향도 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

꼼꼼한커피3시간 전

깔끔한 기사입니다. Benchmark: 관련 배경 설명이 이해하기 쉬웠습니다.

따뜻한바이올린3시간 전

이런 시각도 있었군요. Dissecting에 대해 처음 접하는 정보가 있었습니다. 생각이 바뀌었습니다.

새벽의러너3시간 전

AI-에이전트이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

별빛의돌고래5시간 전

흥미로운 주제입니다. VAKRA 관련 데이터가 인상적이었습니다.

바닷가의탐험가5시간 전

Benchmark:에 대해 주변 사람들과 이야기 나눠볼 만합니다. 전문가 의견도 더 듣고 싶습니다.

바람의고양이5시간 전

읽기 좋은 기사입니다. Dissecting 기사에서 언급된 사례가 흥미로웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

부지런한토끼5시간 전

유익한 기사네요. AI-에이전트 관련 배경 설명이 이해하기 쉬웠습니다. 후속 기사 부탁드립니다.

맑은날드럼5시간 전

VAKRA이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

바람의탐험가5시간 전

Benchmark: 관련 용어 설명이 친절해서 좋았습니다.

겨울의강아지5시간 전

Dissecting에 대해 주변 사람들과 이야기 나눠볼 만합니다. 계속 지켜봐야겠습니다.

오후의탐험가5시간 전

AI-에이전트 주제로 시리즈 기사가 나오면 좋겠습니다.

재빠른바람8시간 전

깔끔한 기사입니다. VAKRA에 대해 더 알고 싶어졌습니다.

대전의바람8시간 전

Benchmark: 관련 데이터가 인상적이었습니다.

제주의에스프레소8시간 전

Dissecting이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

냉철한별8시간 전

몰랐던 사실을 알게 됐습니다. AI-에이전트 관련 데이터가 인상적이었습니다. 후속 기사 부탁드립니다.

새벽의구름8시간 전

VAKRA에 대해 주변 사람들과 이야기 나눠볼 만합니다. 좋은 기사 감사합니다.

서울의사색가8시간 전

좋은 정보 감사합니다.

새벽의여행자8시간 전

읽기 좋은 기사입니다. Dissecting 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.

유쾌한러너8시간 전

잘 읽었습니다. AI-에이전트 관련 해외 동향도 궁금합니다. 후속 기사 부탁드립니다.

바닷가의바이올린8시간 전

VAKRA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 생각이 바뀌었습니다.

따뜻한여행자

흥미로운 주제입니다. Benchmark:에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 전문가 의견도 더 듣고 싶습니다.

공원의부엉이

이런 시각도 있었군요. Dissecting에 대해 더 알고 싶어졌습니다.

도서관의기록자

좋은 기사 감사합니다.

바닷가의라떼

잘 읽었습니다. VAKRA 기사에서 언급된 사례가 흥미로웠습니다. 생각이 바뀌었습니다.

다정한커피

흥미로운 주제입니다. Benchmark: 관련 용어 설명이 친절해서 좋았습니다.

겨울의별

유익한 기사네요. Dissecting에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

다정한라떼

AI-에이전트 관련 배경 설명이 이해하기 쉬웠습니다. 후속 기사 부탁드립니다.

홍대의리더

친구한테도 추천했습니다.

More in AI & Tech

Latest News