IA y Tecnología

VAKRA Benchmark: Diseccionando los Modos de Fallo de los Agentes de IA

Un entorno de evaluación ejecutable con más de 8,000 APIs en 62 dominios expone debilidades críticas en los principales modelos de IA actuales

Elena Volkov·2026년 4월 15일 수 03:07·7 min de lectura·

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

Resumen

•VAKRA es un benchmark ejecutable de agentes de IA con más de 8,000 APIs en 62 dominios.
•La mayoría de los modelos de IA líderes obtuvieron puntuaciones bajas en flujos de trabajo de múltiples pasos de 3 a 7 razonamientos.
•El fallo de inicialización, la acumulación de errores y la confusión en la selección de herramientas fueron identificados como los principales patrones de fallo.

¿Qué tan bien resisten los agentes de IA en el mundo real?

Un nuevo benchmark ha surgido como referencia significativa en la evaluación de agentes de inteligencia artificial (IA). VAKRA, introducido a través del blog de Hugging Face, es un benchmark ejecutable basado en herramientas diseñado para simular entornos empresariales, revelando que la mayoría de los modelos de IA líderes tienen serias dificultades para completar flujos de trabajo de múltiples pasos. Construido sobre más de 8,000 APIs alojadas localmente respaldadas por bases de datos reales que abarcan 62 dominios, VAKRA va más allá de las pruebas de conocimiento simples para medir las capacidades prácticas de uso de herramientas de los agentes y sus habilidades de razonamiento composicional.

¿Por qué los benchmarks existentes son insuficientes?

Los métodos de evaluación de IA convencionales se han centrado principalmente en habilidades aisladas: resolver problemas matemáticos, escribir código, resumir texto. Pero los entornos empresariales reales demandan algo completamente diferente. Los agentes deben llamar a múltiples APIs en secuencia, recuperar información de documentos no estructurados y tomar decisiones bajo restricciones expresadas en lenguaje natural.

VAKRA fue diseñado para cerrar esta brecha. Presenta tareas que requieren que los agentes ejecuten cadenas de razonamiento de 3 a 7 pasos que combinan llamadas a APIs estructuradas con recuperación de datos no estructurados. Un diferenciador clave es que analiza trazas de ejecución completas, evaluando no solo si un agente llegó a la respuesta correcta, sino cómo lo hizo.

Cuatro capacidades principales y estructura de tareas

VAKRA organiza las tareas de evaluación en torno a cuatro ejes de capacidad.

Capacidad 1: Encadenamiento de APIs usando APIs de Business Intelligence

Esto incluye 2,077 instancias de prueba en 54 dominios, usando herramientas de las colecciones SLOT-BIRD y SEL-BIRD. Los agentes deben ejecutar entre 1 y 12 llamadas a herramientas secuenciales para llegar a la respuesta final. Por ejemplo, responder "¿Qué equipo de fútbol tiene una velocidad de juego de construcción de 31, dribling de 53 y pase de 32?" requiere una cadena de API de 5 pasos precisa: inicialización de datos → tres pasos de filtrado → extracción del nombre del equipo. La respuesta correcta era el FC Barcelona.

La colección SLOT-BIRD proporciona 7 herramientas genéricas de manipulación de datos, mientras que SEL-BIRD la extiende con funciones más especializadas. Cada instancia tiene en promedio 4 funciones get.

Servidor MCP y arquitectura eficiente de transferencia de datos

Los servidores MCP (Model Context Protocol) que soportan esta tarea incluyen una herramienta especial: get_data(tool_universe_id=id). Los agentes deben llamarla primero para inicializar la fuente de datos. La herramienta devuelve solo una vista previa ligera de los datos, almacenando el conjunto de datos completo en el servidor para evitar transferencias de datos grandes, una elección de diseño deliberada para prevenir la ineficiencia.

Rendimiento de los modelos: ¿Por qué las puntuaciones son tan bajas?

Según informes del sector, los principales modelos de lenguaje grande (LLM) están teniendo un rendimiento deficiente en VAKRA en general. Esto representa un desafío fundamentalmente diferente a la simple pregunta-respuesta o generación de código. Se han identificado tres patrones de fallo principales.

Primero, fallo de inicialización: los agentes intentan usar herramientas de manipulación de datos sin llamar primero a get_data, o pasan un tool_universe_id incorrecto.

Segundo, acumulación de errores en múltiples pasos: los errores en las etapas iniciales de una cadena de múltiples pasos se propagan, resultando en una respuesta final incorrecta.

Tercero, confusión en la selección de herramientas: la coexistencia de herramientas con nombres similares en SLOT-BIRD y SEL-BIRD lleva frecuentemente a los agentes a seleccionar la herramienta incorrecta.

Hilo histórico: La evolución de la evaluación de agentes de IA

2020–2022: Benchmarks basados en conocimiento como MMLU y HumanEval. Pregunta única, respuesta única.
2023: El auge de AutoGPT y LangChain impulsó el interés en agentes que usan herramientas.
2024: Benchmarks de agentes de múltiples pasos como AgentBench y τ-bench se multiplicaron.
2025–2026: La evaluación evolucionó hacia benchmarks ejecutables con APIs reales. VAKRA lidera esta tendencia.

Generación	Benchmarks representativos	Método	Limitación
1ª Gen (2020–2022)	MMLU, HumanEval	Q&A único, código	Desconectado del uso real
2ª Gen (2023–2024)	ToolBench, AgentBench	Llamadas a herramientas, multipasos	Entornos simulados
3ª Gen (2025–2026)	VAKRA, τ-bench	APIs ejecutables, BDs reales	Alta complejidad de evaluación

Comparación con benchmarks competidores

Atributo	VAKRA	AgentBench	ToolBench	τ-bench
Número de APIs	8,000+	Limitado	16,000+	Moderado
Número de dominios	62	8	Muchos	Limitado
Entorno ejecutable	Sí	Parcial	No	Sí
Integración doc + API	Sí	No	No	Parcial
Profundidad de cadena	3–7 pasos	1–3 pasos	1–2 pasos	Varía

[Análisis de expertos] Perspectivas e implicaciones

Las vulnerabilidades estructurales en los agentes expuestas por VAKRA es probable que no se resuelvan a corto plazo. Se espera que el entrenamiento de agentes basado en aprendizaje por refuerzo (RL) se expanda, usando el éxito o fracaso en el uso de herramientas como señal de recompensa. Los benchmarks ejecutables tienen alta probabilidad de convertirse en el nuevo estándar, y las capas de orquestación de agentes ganarán importancia, con arquitecturas donde múltiples agentes colaboran o un módulo de validación separado verifica los pasos intermedios.

El leaderboard de VAKRA está actualmente abierto para envíos. La competencia por las capacidades del mundo real de los agentes de IA ha entrado en una nueva fase.

#VAKRA #AI-에이전트 #LLM #벤치마크 #도구사용 #추론모델 #멀티스텝

아침의에스프레소방금 전

구독 중인데 만족합니다.

제주의리더방금 전

Benchmark:의 향후 전망이 궁금합니다. 주변에도 공유해야겠어요.

인천의판다방금 전

잘 읽었습니다. los에 대해 더 알고 싶어졌습니다. 좋은 기사 감사합니다.

현명한연구자방금 전

잘 읽었습니다. AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다.

똑똑한독자방금 전

VAKRA 관련 배경 설명이 이해하기 쉬웠습니다.

햇살의기타방금 전

요즘 이 매체 기사가 제일 읽기 좋아요.

똑똑한아메리카노방금 전

los이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

해운대의라떼5분 전

댓글 보는 재미도 있네요.

열정적인강아지5분 전

VAKRA의 전문가 코멘트가 설득력 있었습니다. 나중에 다시 읽어볼 만합니다.

신중한관찰자5분 전

Benchmark: 관련 배경 설명이 이해하기 쉬웠습니다. 계속 지켜봐야겠습니다.

별빛의사색가5분 전

잘 읽었습니다. los의 전문가 코멘트가 설득력 있었습니다. 잘 정리된 기사네요.

별빛의리더5분 전

AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다.

꼼꼼한구름5분 전

북마크해두겠습니다. VAKRA에 대해 주변 사람들과 이야기 나눠볼 만합니다.

여름의첼로12분 전

Benchmark: 관련 해외 동향도 궁금합니다.

느긋한펭귄12분 전

다양한 주제를 다뤄주셔서 좋습니다.

공원의드럼12분 전

AI-에이전트에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

재빠른돌고래12분 전

좋은 정보 감사합니다.

현명한분석가12분 전

몰랐던 사실을 알게 됐습니다. Benchmark:에 대해 더 알고 싶어졌습니다.

서울의판다12분 전

los 관련 해외 동향도 궁금합니다.

현명한판다30분 전

좋은 정리입니다. AI-에이전트 관련 통계가 의외였습니다. 좋은 기사 감사합니다.

대전의워커30분 전

유익한 기사네요.

가을의고양이30분 전

Benchmark:에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

새벽의여행자30분 전

los 관련 배경 설명이 이해하기 쉬웠습니다.

해운대의고양이30분 전

몰랐던 사실을 알게 됐습니다. AI-에이전트이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.

강남의시민30분 전

VAKRA 관련 해외 동향도 궁금합니다.

오후의에스프레소1시간 전

정리가 깔끔하네요.

산속의토끼1시간 전

los의 향후 전망이 궁금합니다.

비오는날판다1시간 전

AI-에이전트이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

가을의사색가1시간 전

북마크해두겠습니다. VAKRA의 향후 전망이 궁금합니다.

신중한판다1시간 전

Benchmark:의 전문가 코멘트가 설득력 있었습니다. 좋은 기사 감사합니다.

부산의별1시간 전

다른 기사도 기대하겠습니다.

바닷가의라떼2시간 전

AI-에이전트의 향후 전망이 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

제주의첼로2시간 전

북마크해두겠습니다. VAKRA이 앞으로 어떻게 전개될지 주목해야겠습니다.

가을의펭귄2시간 전

Benchmark:이 앞으로 어떻게 전개될지 주목해야겠습니다.

바닷가의고양이2시간 전

los에 대해 처음 접하는 정보가 있었습니다.

맑은날크리에이터2시간 전

AI-에이전트에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

서울의시민2시간 전

VAKRA 관련 통계가 의외였습니다. 좋은 기사 감사합니다.

바람의판다2시간 전

Benchmark: 관련 통계가 의외였습니다. 나중에 다시 읽어볼 만합니다.

별빛의녹차3시간 전

잘 읽었습니다. los 관련 데이터가 인상적이었습니다.

유쾌한아메리카노3시간 전

AI-에이전트에 대해 주변 사람들과 이야기 나눠볼 만합니다.

서울의워커3시간 전

좋은 정리입니다. VAKRA 관련 데이터가 인상적이었습니다.

바닷가의크리에이터3시간 전

Benchmark: 관련 배경 설명이 이해하기 쉬웠습니다.

구름위사자3시간 전

깔끔한 기사입니다. los 관련 해외 동향도 궁금합니다. 다른 시각의 분석도 읽어보고 싶습니다.

제주의펭귄3시간 전

AI-에이전트 관련 데이터가 인상적이었습니다. 후속 기사 부탁드립니다.

성수의사색가5시간 전

VAKRA에 대해 더 알고 싶어졌습니다.

맑은날비평가5시간 전

몰랐던 사실을 알게 됐습니다. Benchmark: 기사에서 언급된 사례가 흥미로웠습니다. 잘 정리된 기사네요.

똑똑한부엉이5시간 전

좋은 기사 감사합니다.

용감한강아지5시간 전

흥미로운 주제입니다. AI-에이전트에 대해 처음 접하는 정보가 있었습니다. 계속 지켜봐야겠습니다.

유쾌한라떼5시간 전

참고가 됩니다. VAKRA 관련 데이터가 인상적이었습니다.

따뜻한드럼5시간 전

잘 보고 있습니다.

부지런한독자8시간 전

참고가 됩니다. los 기사에서 언급된 사례가 흥미로웠습니다.

겨울의워커8시간 전

기사 잘 읽었습니다.

대전의바람8시간 전

북마크해두겠습니다. VAKRA 관련 용어 설명이 친절해서 좋았습니다.

호기심많은돌고래8시간 전

몰랐던 사실을 알게 됐습니다. Benchmark: 주제로 시리즈 기사가 나오면 좋겠습니다.

아침의기타8시간 전

읽기 좋은 기사입니다. los 기사에서 언급된 사례가 흥미로웠습니다.

새벽의리더8시간 전

AI-에이전트 관련 용어 설명이 친절해서 좋았습니다. 후속 기사 부탁드립니다.

해운대의여행자

VAKRA 관련 용어 설명이 친절해서 좋았습니다. 주변에도 공유해야겠어요.

가을의별

Benchmark:의 향후 전망이 궁금합니다. 생각이 바뀌었습니다.

아침의커피

잘 읽었습니다. los의 전문가 코멘트가 설득력 있었습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

신중한달

이런 시각도 있었군요. AI-에이전트에 대해 처음 접하는 정보가 있었습니다.

서울의라떼

깔끔한 기사입니다. VAKRA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 좋은 기사 감사합니다.

별빛의고양이

몰랐던 사실을 알게 됐습니다. Benchmark:이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.

Más en IA y Tecnología

Últimas noticias

Especial

ICIJ investiga las estrategias de precios y patentes de Merck con Keytruda

El ICIJ revela las estrategias de precios y patentes de Merck con Keytruda en la investigación Cancer Calculus.

31분 전

MIDDLE EAST LIVE 17 April: Israel-Lebanon ceasefire begins

Global

Entra en vigor la tregua de 10 días entre Israel y Líbano; la ONU espera que abra negociaciones

Un alto el fuego de 10 días entre Israel y Líbano entró en vigor el 17 de abril a medianoche.

7시간 전

Especial

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착

JWST가 성간 혜성 3I/ATLAS에서 메테인을 최초 직접 검출, 외계 행성계 내부 조성 단서 확보.

8시간 전

Economía

달러 패권 흔들린다…옐런·경제학자들 잇따라 경고

옐런 전 재무장관, 트럼프의 연준 압박을 '바나나 공화국'식이라 비판.

8시간 전

Global

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

10시간 전

The nation’s cartoonists on the week in politics

Global

Los caricaturistas de EE.UU. retratan la semana política en Washington

Los caricaturistas políticos de todo EE.UU. documentan la era mediante sátira semanal.

10시간 전

Economía

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

11시간 전

david altrath documents the jungle suspended inside london's barbican conservatory

Cultura y Arte

Cuando la jungla devoró el hormigón: la paradoja del Conservatorio Barbican de Londres

El fotógrafo Altrath capta en una nueva serie la paradoja espacial del Conservatorio Barbican de Londres.

11시간 전

ArayoNews

VAKRA Benchmark: Diseccionando los Modos de Fallo de los Agentes de IA

¿Qué tan bien resisten los agentes de IA en el mundo real?

¿Por qué los benchmarks existentes son insuficientes?

Cuatro capacidades principales y estructura de tareas

Rendimiento de los modelos: ¿Por qué las puntuaciones son tan bajas?

Hilo histórico: La evolución de la evaluación de agentes de IA

Comparación con benchmarks competidores

[Análisis de expertos] Perspectivas e implicaciones

댓글 (62)

Más en IA y Tecnología

애플 맥북 네오 4월 물량 완판...신규 주문 5월로 밀려

OpenAI, 생명과학 전용 추론 AI 'GPT-Rosalind' 출시… 신약 개발 패러다임 흔든다

EU, Anthropic의 Claude Mythos AI 사이버 위협 놓고 직접 협의 개시

퍼플렉시티, Mac 전용 AI 에이전트 'Personal Computer' 정식 출시

글로벌 금융당국, Anthropic 'Mythos' AI 사이버 위협에 일제히 긴급 대응

앤스로픽, 런던에 800명 규모 사무소 확보…미 국방부 갈등 속 유럽 거점 구축

Últimas noticias

ICIJ investiga las estrategias de precios y patentes de Merck con Keytruda

Entra en vigor la tregua de 10 días entre Israel y Líbano; la ONU espera que abra negociaciones

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착

달러 패권 흔들린다…옐런·경제학자들 잇따라 경고

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

Los caricaturistas de EE.UU. retratan la semana política en Washington

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

Cuando la jungla devoró el hormigón: la paradoja del Conservatorio Barbican de Londres