AI·테크

VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다

8,000개 이상의 API와 62개 도메인으로 구성된 실행 가능 평가 환경, 현존 모델 대부분 저조한 성적

Elena Volkov··7분 읽기·
Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents
요약
  • VAKRA는 8,000개 이상의 API와 62개 도메인으로 구성된 AI 에이전트 실행 가능 벤치마크다.
  • 현존 주요 AI 모델 대부분이 3~7단계 다단계 워크플로우에서 저조한 성능을 기록했다.
  • 초기화 실패, 오류 누적, 도구 선택 혼동이 에이전트의 주요 실패 패턴으로 분석됐다.

AI 에이전트, 실전에서 얼마나 버티나

인공지능(AI) 에이전트 평가 분야에서 새로운 기준점이 등장했다. Hugging Face 블로그를 통해 공개된 VAKRA는 기업 환경을 모사한 도구 기반 실행 가능 벤치마크(tool-grounded executable benchmark)로, 현재 주요 AI 모델들이 다단계 워크플로우(multi-step workflow) 수행에서 심각한 한계를 드러내고 있음을 보여준다. 8,000개 이상의 로컬 호스팅 API와 62개 도메인에 걸친 실제 데이터베이스를 기반으로 설계된 이 벤치마크는, 단순 지식 평가를 넘어 에이전트의 실질적인 도구 사용 능력과 복합적 추론(compositional reasoning) 역량을 측정한다.

VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다
VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다

왜 기존 벤치마크로는 부족한가

기존 AI 평가 방식은 독립된 단일 기술—수학 풀기, 코드 작성, 텍스트 요약—을 개별적으로 측정하는 데 머물렀다. 그러나 실제 기업 환경에서 AI 에이전트에게 요구되는 것은 전혀 다르다. 여러 API를 순서대로 호출하고, 비정형 문서에서 정보를 검색하며, 자연어로 표현된 제약 조건 아래서 결정을 내려야 한다.

VAKRA는 이 간극을 메우기 위해 설계됐다. 에이전트가 3~7단계의 추론 체인(reasoning chain)을 거쳐 구조화된 API 호출과 비정형 데이터 검색을 결합해야 하는 태스크를 제시한다. 전체 실행 트레이스(execution trace)를 분석해 에이전트가 '정답'에 도달했는지뿐 아니라 '어떻게' 도달했는지까지 평가한다는 점이 핵심 차별점이다.

4가지 핵심 역량과 테스트 구조

VAKRA는 네 가지 능력 축을 중심으로 평가 태스크를 구성한다.

역량 1: 비즈니스 인텔리전스 API 체이닝(API Chaining)

54개 도메인에 걸쳐 2,077개의 테스트 인스턴스를 포함한다. SLOT-BIRD와 SEL-BIRD 컬렉션의 도구를 활용하며, 1~12회의 연속적인 도구 호출을 통해 최종 답을 도출해야 한다. 예를 들어 '빌드업 플레이 속도 31, 드리블 53, 패싱 32인 축구팀은?'이라는 질문에 답하려면 데이터 초기화 → 필터링 3회 → 팀명 추출로 이어지는 5단계 API 체인을 정확히 실행해야 한다. 정답은 FC 바르셀로나였다.

SLOT-BIRD 컬렉션은 필터링·정렬 등 범용 데이터 조작을 위한 7개 도구를 제공하며, SEL-BIRD는 이를 확장해 카테고리형 인수를 별도 함수로 분리하는 등 더 세분화된 도구 체계를 갖춘다. 각 인스턴스는 평균 4개의 get 함수를 제공받는다.

MCP 서버와 효율적 데이터 전송 구조

이 태스크를 지원하는 MCP(Model Context Protocol) 서버는 get_data(tool_universe_id=id)라는 특수 도구를 포함한다. 에이전트는 반드시 이 도구를 첫 번째로 호출해 데이터 소스를 초기화해야 하며, 이 도구는 데이터의 경량 미리보기만 반환하고 전체 데이터셋은 서버 측에 보관한다. 이는 MCP 프로토콜 상에서 대용량 데이터를 비효율적으로 전송하는 문제를 방지하기 위한 설계다.

VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다
VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다

현존 모델들의 성적: 왜 저조한가

관련 업계 보도에 따르면, 현재 주요 대규모 언어 모델(LLM)들은 VAKRA에서 전반적으로 낮은 성능을 보이고 있다. 이는 단순 질의응답이나 코드 생성과는 본질적으로 다른 도전을 의미한다. 에이전트가 실패하는 주요 패턴은 크게 세 가지로 분류된다.

첫째, 초기화 실패: get_data 호출 없이 직접 데이터 조작 도구를 사용하려 하거나, 잘못된 tool_universe_id를 전달하는 경우다.

둘째, 중간 단계 오류 누적: 다단계 체인에서 앞 단계의 오류가 이후 단계로 전파되어 최종 오답으로 이어지는 패턴이다. 에이전트는 중간 결과의 이상 여부를 스스로 검증하지 못하는 경우가 많다.

셋째, 도구 선택 혼동: SLOT-BIRD와 SEL-BIRD 간 유사한 이름의 도구가 혼재하면서, 에이전트가 맥락에 맞지 않는 도구를 선택하는 오류가 빈번하게 발생한다.

이 흐름은 언제부터? — AI 에이전트 평가의 진화

AI 에이전트 평가 패러다임은 지난 수년간 급속히 변해왔다.

  • 2020~2022년: MMLU, HumanEval 등 지식 기반 벤치마크가 지배. 단일 질문-단일 답변 구조.
  • 2023년: AutoGPT, LangChain의 등장과 함께 도구 사용 에이전트에 대한 관심 폭발. ToolBench, APIBench 등 초기 도구 사용 평가 등장.
  • 2024년: AgentBench, τ-bench 등 멀티스텝 에이전트 평가 확산. 그러나 대부분 시뮬레이션 환경에 한정.
  • 2025~2026년: 실제 API와 데이터베이스를 사용하는 실행 가능 벤치마크로 진화. VAKRA는 이 흐름의 최전선에 위치한다.

이 변화는 AI가 '알고 있는가'에서 '할 수 있는가'로 평가 기준이 이동하는 구조적 전환을 반영한다.

세대대표 벤치마크평가 방식한계
1세대 (2020~2022)MMLU, HumanEval단일 Q&A, 코드 생성실제 사용 환경과 괴리
2세대 (2023~2024)ToolBench, AgentBench도구 호출, 멀티스텝시뮬레이션 환경 한정
3세대 (2025~2026)VAKRA, τ-bench실행 가능 API, 실제 DB평가 복잡성 높음

VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다
VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다

경쟁 벤치마크와의 비교

항목VAKRAAgentBenchToolBenchτ-bench
API 수8,000+제한적16,000+중간
도메인 수628다수제한
실행 가능 환경일부아니오
문서+API 결합아니오아니오일부
추론 체인 깊이3~7단계1~3단계1~2단계다양
기업 환경 모사높음중간낮음중간

[전문가 분석] 향후 전망과 시사점

VAKRA가 드러낸 에이전트의 구조적 취약점은 단기간에 해결되기 어려울 가능성이 높다. 현재의 LLM 아키텍처는 단일 순전파(forward pass)에서 응답을 생성하도록 최적화되어 있어, 중간 단계 결과를 검증하며 전략을 수정하는 '반성적 실행(reflective execution)' 능력이 본질적으로 취약하다.

몇 가지 방향성이 주목받을 가능성이 높다. 첫째, 강화학습(RL) 기반 에이전트 훈련이 확산될 것으로 보인다. 도구 사용 성공/실패를 보상 신호로 삼아 에이전트를 훈련하는 접근법이 현재 여러 연구기관에서 활발히 탐색되고 있다. 둘째, 실행 가능 벤치마크가 새로운 표준으로 자리잡을 가능성이 높다. VAKRA처럼 실제 API를 사용하는 평가 방식은 더 많은 기업과 연구기관에서 채택할 것으로 예상된다. 셋째, 에이전트 오케스트레이션 레이어의 중요성이 부각될 것으로 전망된다. 단일 모델의 한계를 보완하기 위해 여러 에이전트가 협업하거나, 중간 단계를 검증하는 별도 모듈을 두는 아키텍처가 주류가 될 가능성이 있다.

VAKRA 리더보드는 현재 공개되어 있으며, 연구자와 기업은 자체 모델을 제출해 평가를 받을 수 있다. AI 에이전트의 '실전 능력'을 둘러싼 경쟁이 새로운 국면에 접어든 셈이다.

VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다
VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다

VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다
VAKRA 벤치마크: AI 에이전트의 실패 패턴을 해부하다

공유

댓글 (47)

유쾌한강아지방금 전

친구한테도 추천했습니다.

겨울의구름방금 전

읽기 좋은 기사입니다. 벤치마크: 주제로 시리즈 기사가 나오면 좋겠습니다. 계속 지켜봐야겠습니다.

부산의워커방금 전

객관적인 시각이 돋보이는 기사입니다.

솔직한커피방금 전

유익한 기사네요. AI-에이전트에 대해 처음 접하는 정보가 있었습니다. 생각이 바뀌었습니다.

호기심많은판다방금 전

요즘 이 매체 기사가 제일 읽기 좋아요.

오후의돌고래5분 전

벤치마크:의 전문가 코멘트가 설득력 있었습니다.

바람의구름5분 전

AI의 향후 전망이 궁금합니다.

신중한여우5분 전

이런 시각도 있었군요. AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다.

봄날의피아노5분 전

VAKRA에 대해 처음 접하는 정보가 있었습니다. 계속 지켜봐야겠습니다.

햇살의바이올린5분 전

벤치마크: 주제로 시리즈 기사가 나오면 좋겠습니다.

인천의연구자12분 전

이런 시각도 있었군요. AI 관련 데이터가 인상적이었습니다. 계속 지켜봐야겠습니다.

바닷가의펭귄12분 전

AI-에이전트 기사에서 언급된 사례가 흥미로웠습니다.

아침의비평가12분 전

기사 퀄리티가 좋습니다.

새벽의독자12분 전

벤치마크: 관련 통계가 의외였습니다.

현명한별12분 전

좋은 정리입니다. AI 기사에서 언급된 사례가 흥미로웠습니다.

인천의러너30분 전

AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다. 계속 지켜봐야겠습니다.

강남의첼로30분 전

VAKRA에 대해 더 알고 싶어졌습니다. 나중에 다시 읽어볼 만합니다.

솔직한펭귄30분 전

이런 시각도 있었군요. 벤치마크:에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

차분한녹차30분 전

AI이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

부산의라떼1시간 전

깔끔한 기사입니다. AI-에이전트 관련 배경 설명이 이해하기 쉬웠습니다.

서울의크리에이터1시간 전

VAKRA 기사에서 언급된 사례가 흥미로웠습니다. 전문가 의견도 더 듣고 싶습니다.

진지한기록자1시간 전

북마크해두겠습니다. 벤치마크:이 앞으로 어떻게 전개될지 주목해야겠습니다. 나중에 다시 읽어볼 만합니다.

따뜻한토끼1시간 전

AI에 대해 더 알고 싶어졌습니다.

오후의관찰자1시간 전

읽기 좋은 기사입니다. AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다.

솔직한여우2시간 전

VAKRA 관련 용어 설명이 친절해서 좋았습니다.

조용한바람2시간 전

벤치마크:에 대해 처음 접하는 정보가 있었습니다. 생각이 바뀌었습니다.

새벽의고양이2시간 전

AI 관련 용어 설명이 친절해서 좋았습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

현명한독자2시간 전

참고가 됩니다. AI-에이전트 관련 용어 설명이 친절해서 좋았습니다. 주변에도 공유해야겠어요.

부지런한구름2시간 전

VAKRA 관련 데이터가 인상적이었습니다.

꼼꼼한여행자3시간 전

벤치마크: 관련 배경 설명이 이해하기 쉬웠습니다.

햇살의리더3시간 전

정리가 깔끔하네요.

서울의관찰자3시간 전

몰랐던 사실을 알게 됐습니다. AI-에이전트에 대해 주변 사람들과 이야기 나눠볼 만합니다.

홍대의첼로3시간 전

VAKRA의 전문가 코멘트가 설득력 있었습니다. 좋은 기사 감사합니다.

유쾌한돌고래5시간 전

흥미로운 주제입니다. 벤치마크:의 전문가 코멘트가 설득력 있었습니다. 잘 정리된 기사네요.

활발한바이올린5시간 전

잘 읽었습니다. AI에 대해 주변 사람들과 이야기 나눠볼 만합니다.

열정적인여행자5시간 전

AI-에이전트 관련 데이터가 인상적이었습니다.

용감한독자5시간 전

흥미로운 주제입니다. VAKRA 주제로 시리즈 기사가 나오면 좋겠습니다. 계속 지켜봐야겠습니다.

제주의녹차5시간 전

벤치마크: 관련 해외 동향도 궁금합니다.

똑똑한기타8시간 전

AI에 대해 주변 사람들과 이야기 나눠볼 만합니다.

대전의커피8시간 전

참고가 됩니다. AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다.

진지한해8시간 전

흥미로운 주제입니다. VAKRA에 대해 처음 접하는 정보가 있었습니다. 주변에도 공유해야겠어요.

해운대의판다8시간 전

흥미로운 주제입니다. 벤치마크: 관련 통계가 의외였습니다. 전문가 의견도 더 듣고 싶습니다.

성수의사색가8시간 전

이런 시각도 있었군요. AI이 앞으로 어떻게 전개될지 주목해야겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

꼼꼼한사색가

AI-에이전트에 대해 주변 사람들과 이야기 나눠볼 만합니다. 좋은 기사 감사합니다.

부산의비평가

잘 읽었습니다. VAKRA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

활발한커피

벤치마크:에 대해 주변 사람들과 이야기 나눠볼 만합니다.

제주의별

AI 관련 해외 동향도 궁금합니다. 다른 시각의 분석도 읽어보고 싶습니다.

AI·테크 더보기

최신 뉴스