AI・テック

VAKRAベンチマーク：AIエージェントの失敗パターンを解剖する

62ドメインにわたる8,000以上のAPIで構成された実行可能評価環境が、現在の主要AIモデルの重大な弱点を露わにする

Elena Volkov·2026년 4월 15일 수 03:07·7分で読めます·

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

要約

•VAKRAは62ドメインにわたる8,000以上のAPIを持つAIエージェント実行可能ベンチマークだ。
•主要AIモデルの大半が3〜7ステップのマルチステップワークフローで低い成績を記録した。
•初期化の失敗、エラー蓄積、ツール選択の混乱がエージェントの主要な失敗パターンとして分析された。

AIエージェントは実戦でどこまで通用するか

人工知能（AI）エージェント評価分野に新たな基準点が登場した。Hugging Faceブログを通じて公開されたVAKRAは、企業環境を模倣したツールベースの実行可能ベンチマーク（tool-grounded executable benchmark）であり、現在の主要AIモデルの多くがマルチステップワークフロー（multi-step workflow）の実行において深刻な限界を抱えていることを明らかにした。8,000以上のローカルホスティングAPIと62ドメインにわたる実際のデータベースを基盤に設計されたこのベンチマークは、単純な知識評価を超え、エージェントの実質的なツール使用能力と複合的推論（compositional reasoning）能力を測定する。

なぜ既存のベンチマークでは不十分なのか

従来のAI評価手法は、数学の問題解決、コード生成、テキスト要約といった個別スキルを独立して測定することにとどまっていた。しかし実際の企業環境でAIエージェントに求められるのはまったく異なる。複数のAPIを順番に呼び出し、非構造化文書から情報を検索し、自然言語で表現された制約条件のもとで判断を下さなければならない。

VAKRAはこのギャップを埋めるために設計された。エージェントが3〜7ステップの推論チェーン（reasoning chain）を経て、構造化されたAPI呼び出しと非構造化データ検索を組み合わせなければならないタスクを提示する。完全な実行トレース（execution trace）を分析し、エージェントが「正解」に到達したかどうかだけでなく「どのように」到達したかまで評価する点が核心的な差別化要素だ。

4つのコア能力とテスト構造

VAKRAは4つの能力軸を中心に評価タスクを構成する。

能力1：ビジネスインテリジェンスAPIチェイニング（API Chaining）

54ドメインにわたる2,077のテストインスタンスを含む。SLOT-BIRDとSEL-BIRDコレクションのツールを活用し、1〜12回の連続ツール呼び出しを通じて最終回答を導き出す必要がある。例えば「ビルドアッププレイスピード31、ドリブル53、パッシング32のサッカーチームは？」という質問に答えるには、データ初期化→フィルタリング3回→チーム名抽出という5ステップのAPIチェーンを正確に実行しなければならない。正解はFCバルセロナだった。

SLOT-BIRDコレクションはフィルタリング・ソートなど汎用データ操作のための7つのツールを提供し、SEL-BIRDはこれを拡張してカテゴリ引数を別関数に分離するなど、より細分化されたツール体系を持つ。各インスタンスには平均4つのget関数が提供される。

MCPサーバーと効率的なデータ転送構造

このタスクをサポートするMCP（Model Context Protocol）サーバーにはget_data(tool_universe_id=id)という特殊なツールが含まれる。エージェントは必ずこのツールを最初に呼び出してデータソースを初期化しなければならない。このツールはデータの軽量プレビューのみを返し、完全なデータセットはサーバー側に保持することで、MCPプロトコル上での大容量データの非効率な転送を防ぐ設計となっている。

現在のモデルの成績：なぜ低いのか

業界報道によると、現在の主要大規模言語モデル（LLM）はVAKRAで全体的に低いパフォーマンスを示している。これは単純なQ&Aやコード生成とは本質的に異なる課題を意味する。エージェントが失敗する主要なパターンは大きく3つに分類される。

第一に、初期化の失敗：get_dataを呼び出さずに直接データ操作ツールを使用しようとする、または誤ったtool_universe_idを渡すケース。

第二に、中間ステップでのエラー蓄積：マルチステップチェーンで前のステップのエラーが後続ステップに伝播し、最終的に誤答につながるパターン。エージェントは中間結果の異常を自己検証できないことが多い。

第三に、ツール選択の混乱：SLOT-BIRDとSEL-BIRD間で類似した名前のツールが混在し、エージェントがコンテキストに合わないツールを選択する誤りが頻繁に発生する。

この流れはいつから？ — AIエージェント評価の進化

2020〜2022年：MMLU、HumanEvalなどの知識ベースベンチマークが主流。単一質問・単一回答構造。
2023年：AutoGPT、LangChainの登場とともにツール使用エージェントへの関心が爆発。ToolBench、APIBenchなど初期ツール使用評価が登場。
2024年：AgentBench、τ-benchなどマルチステップエージェント評価が普及。ただし大半はシミュレーション環境に限定。
2025〜2026年：実際のAPIとデータベースを使用する実行可能ベンチマークへと進化。VAKRAはこの潮流の最前線に位置する。

世代	代表的ベンチマーク	評価方式	限界
第1世代（2020〜2022）	MMLU, HumanEval	単一Q&A、コード生成	実際の使用環境と乖離
第2世代（2023〜2024）	ToolBench, AgentBench	ツール呼び出し、マルチステップ	シミュレーション環境限定
第3世代（2025〜2026）	VAKRA, τ-bench	実行可能API、実際のDB	評価複雑性が高い

競合ベンチマークとの比較

項目	VAKRA	AgentBench	ToolBench	τ-bench
API数	8,000以上	限定的	16,000以上	中程度
ドメイン数	62	8	多数	限定
実行可能環境	あり	一部	なし	あり
文書+API統合	あり	なし	なし	一部
推論チェーン深度	3〜7ステップ	1〜3ステップ	1〜2ステップ	様々
企業環境再現度	高	中	低	中

[専門家分析] 今後の展望と示唆

VAKRAが露わにしたエージェントの構造的脆弱性は、短期間での解決が難しい可能性が高い。現在のLLMアーキテクチャは単一フォワードパスで応答を生成するよう最適化されており、中間ステップの結果を検証しながら戦略を修正する「反省的実行（reflective execution）」能力が本質的に弱い。

今後注目される方向性としては、まず強化学習（RL）ベースのエージェント訓練の拡散が挙げられる。ツール使用の成功・失敗を報酬シグナルとしてエージェントを訓練するアプローチが、複数の研究機関で活発に探求されている。次に、実行可能ベンチマークが新たな標準として定着する可能性が高い。そして、エージェントオーケストレーションレイヤーの重要性が高まり、複数のエージェントが協働するか、中間ステップを検証する別モジュールを持つアーキテクチャが主流になる可能性がある。

VAKRAリーダーボードは現在公開されており、研究者や企業は自社モデルを提出して評価を受けることができる。AIエージェントの「実戦能力」をめぐる競争が新たな局面に入った。

#VAKRA #AI-에이전트 #LLM #벤치마크 #도구사용 #추론모델 #멀티스텝

맑은날첼로방금 전

이런 시각도 있었군요. VAKRA 관련 배경 설명이 이해하기 쉬웠습니다. 생각이 바뀌었습니다.

맑은날러너방금 전

AI-에이전트 주제로 시리즈 기사가 나오면 좋겠습니다.

강남의관찰자방금 전

흥미로운 주제입니다. VAKRA 관련 데이터가 인상적이었습니다.

꼼꼼한피아노방금 전

AI-에이전트 관련 배경 설명이 이해하기 쉬웠습니다.

구름위독자방금 전

몰랐던 사실을 알게 됐습니다. VAKRA이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 다른 시각의 분석도 읽어보고 싶습니다.

유쾌한첼로방금 전

참고가 됩니다. AI-에이전트 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

대전의탐험가방금 전

깔끔한 기사입니다. VAKRA에 대해 처음 접하는 정보가 있었습니다. 후속 기사 부탁드립니다.

성수의부엉이5분 전

AI-에이전트이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

용감한독자5분 전

읽기 좋은 기사입니다. VAKRA에 대해 주변 사람들과 이야기 나눠볼 만합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

비오는날고양이5분 전

AI-에이전트에 대해 처음 접하는 정보가 있었습니다. 주변에도 공유해야겠어요.

산속의리더5분 전

VAKRA 기사에서 언급된 사례가 흥미로웠습니다.

구름위시민5분 전

AI-에이전트에 대해 더 알고 싶어졌습니다.

솔직한별5분 전

VAKRA 관련 용어 설명이 친절해서 좋았습니다.

별빛의러너12분 전

AI-에이전트에 대해 주변 사람들과 이야기 나눠볼 만합니다. 좋은 기사 감사합니다.

용감한돌고래12분 전

참고가 됩니다. VAKRA의 전문가 코멘트가 설득력 있었습니다.

한밤의러너12분 전

AI-에이전트 주제로 시리즈 기사가 나오면 좋겠습니다. 계속 지켜봐야겠습니다.

가을의여우12분 전

참고가 됩니다. VAKRA 관련 배경 설명이 이해하기 쉬웠습니다. 후속 기사 부탁드립니다.

솔직한피아노12분 전

AI-에이전트에 대해 처음 접하는 정보가 있었습니다. 계속 지켜봐야겠습니다.

도서관의크리에이터12분 전

VAKRA에 대해 처음 접하는 정보가 있었습니다. 나중에 다시 읽어볼 만합니다.

새벽의리더12분 전

잘 보고 있습니다.

성수의분석가30분 전

잘 읽었습니다. VAKRA이 앞으로 어떻게 전개될지 주목해야겠습니다. 나중에 다시 읽어볼 만합니다.

똑똑한탐험가30분 전

AI-에이전트에 대해 더 알고 싶어졌습니다. 후속 기사 부탁드립니다.

도서관의사자30분 전

언론이 이래야죠.

공원의크리에이터30분 전

요즘 이 매체 기사가 제일 읽기 좋아요.

바람의리더30분 전

VAKRA 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

바닷가의아메리카노30분 전

깔끔한 기사입니다. AI-에이전트 기사에서 언급된 사례가 흥미로웠습니다.

산속의라떼1시간 전

VAKRA에 대해 더 알고 싶어졌습니다. 다른 시각의 분석도 읽어보고 싶습니다.

서울의사자1시간 전

유익한 기사네요. AI-에이전트에 대해 처음 접하는 정보가 있었습니다.

홍대의기록자1시간 전

VAKRA에 대해 더 알고 싶어졌습니다.

냉철한펭귄1시간 전

몰랐던 사실을 알게 됐습니다. AI-에이전트의 전문가 코멘트가 설득력 있었습니다.

재빠른강아지1시간 전

VAKRA의 향후 전망이 궁금합니다.

산속의기타1시간 전

AI-에이전트이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.

차분한달2시간 전

댓글 보는 재미도 있네요.

아침의다람쥐2시간 전

유익한 기사네요.

활발한시민2시간 전

VAKRA의 전문가 코멘트가 설득력 있었습니다. 생각이 바뀌었습니다.

카페의기타2시간 전

AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다.

솔직한펭귄2시간 전

VAKRA의 향후 전망이 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

비오는날에스프레소2시간 전

유익한 기사네요. AI-에이전트 주제로 시리즈 기사가 나오면 좋겠습니다. 좋은 기사 감사합니다.

현명한사색가2시간 전

좋은 정리입니다. VAKRA 관련 배경 설명이 이해하기 쉬웠습니다.

조용한러너3시간 전

AI-에이전트 관련 데이터가 인상적이었습니다. 나중에 다시 읽어볼 만합니다.

오후의구름3시간 전

VAKRA에 대해 처음 접하는 정보가 있었습니다. 계속 지켜봐야겠습니다.

맑은날관찰자3시간 전

이런 시각도 있었군요. AI-에이전트 관련 데이터가 인상적이었습니다. 잘 정리된 기사네요.

냉철한러너3시간 전

흥미로운 주제입니다. VAKRA에 대해 더 알고 싶어졌습니다.

따뜻한아메리카노3시간 전

몰랐던 사실을 알게 됐습니다. AI-에이전트 기사에서 언급된 사례가 흥미로웠습니다. 좋은 기사 감사합니다.

부지런한러너3시간 전

VAKRA 관련 통계가 의외였습니다. 다른 시각의 분석도 읽어보고 싶습니다.

꼼꼼한커피5시간 전

AI-에이전트에 대해 주변 사람들과 이야기 나눠볼 만합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

도서관의워커5시간 전

VAKRA에 대해 주변 사람들과 이야기 나눠볼 만합니다.

저녁의분석가5시간 전

AI-에이전트 관련 데이터가 인상적이었습니다.

제주의드럼5시간 전

좋은 정리입니다. VAKRA 관련 데이터가 인상적이었습니다. 주변에도 공유해야겠어요.

저녁의탐험가5시간 전

AI-에이전트에 대해 처음 접하는 정보가 있었습니다.

차분한라떼5시간 전

VAKRA의 전문가 코멘트가 설득력 있었습니다.

강남의부엉이5시간 전

AI-에이전트에 대해 주변 사람들과 이야기 나눠볼 만합니다.

용감한별8시간 전

이런 시각도 있었군요. VAKRA이 앞으로 어떻게 전개될지 주목해야겠습니다. 전문가 의견도 더 듣고 싶습니다.

호기심많은여행자8시간 전

유익한 기사네요. AI-에이전트 기사에서 언급된 사례가 흥미로웠습니다.

봄날의관찰자8시간 전

참고가 됩니다. VAKRA 관련 배경 설명이 이해하기 쉬웠습니다.

부지런한라떼8시간 전

깔끔한 기사입니다. AI-에이전트이 앞으로 어떻게 전개될지 주목해야겠습니다.

아침의에스프레소8시간 전

VAKRA에 대해 주변 사람들과 이야기 나눠볼 만합니다. 생각이 바뀌었습니다.

조용한부엉이8시간 전

AI-에이전트의 향후 전망이 궁금합니다.

유쾌한바람

참고가 됩니다. VAKRA 관련 용어 설명이 친절해서 좋았습니다.

별빛의크리에이터

AI-에이전트 관련 배경 설명이 이해하기 쉬웠습니다. 계속 지켜봐야겠습니다.

판교의돌고래

VAKRA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

판교의크리에이터

AI-에이전트에 대해 주변 사람들과 이야기 나눠볼 만합니다. 다른 시각의 분석도 읽어보고 싶습니다.

여름의해

VAKRA 관련 해외 동향도 궁금합니다.

신중한돌고래

AI-에이전트의 전문가 코멘트가 설득력 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

AI・テックの記事をもっと見る

ArayoNews

VAKRAベンチマーク：AIエージェントの失敗パターンを解剖する

AIエージェントは実戦でどこまで通用するか

なぜ既存のベンチマークでは不十分なのか

4つのコア能力とテスト構造

現在のモデルの成績：なぜ低いのか

この流れはいつから？ — AIエージェント評価の進化

競合ベンチマークとの比較

[専門家分析] 今後の展望と示唆

댓글 (64)

AI・テックの記事をもっと見る

애플 맥북 네오 4월 물량 완판...신규 주문 5월로 밀려

OpenAI, 생명과학 전용 추론 AI 'GPT-Rosalind' 출시… 신약 개발 패러다임 흔든다

EU, Anthropic의 Claude Mythos AI 사이버 위협 놓고 직접 협의 개시

퍼플렉시티, Mac 전용 AI 에이전트 'Personal Computer' 정식 출시

글로벌 금융당국, Anthropic 'Mythos' AI 사이버 위협에 일제히 긴급 대응

앤스로픽, 런던에 800명 규모 사무소 확보…미 국방부 갈등 속 유럽 거점 구축

最新ニュース

ICIJ、メルクのキイトルーダ価格戦略と特許乱用疑惑を報道

イスラエル・レバノン10日間停戦が発効、国連「交渉の糸口に」

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착

달러 패권 흔들린다…옐런·경제학자들 잇따라 경고

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

米国の政治漫画家たちが描く今週のワシントン

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

ジャングルがコンクリートを飲み込んだ日——ロンドン・バービカン温室の逆説