VAKRA ukazuje, kde sa enterprise AI agenti lámu medzi API a dokumentmi
IBM Research a Hugging Face rozobrali benchmark VAKRA, ktorý preveruje agentov v prostrediach bližších podnikovým workflowom než klasickým demo úlohám. Výsledok je nepríjemný: aj silné modely často zlyhávajú práve v reťazení nástrojov, mapovaní schém a práci s viacerými zdrojmi naraz.