OpenAI rozširuje Codex na dlhšie workflow a prácu naprieč nástrojmi
OpenAI výrazne rozširuje Codex: z asistenta pri písaní kódu ho tlačí k agentovi, ktorý vie pracovať s počítačom, webom, obrázkami aj opakovateľnými úlohami.
Tag
Všetky publikované články, v ktorých sa téma agenti objavuje ako dôležitý kontext. Aktuálne 66 textov v archíve.
OpenAI výrazne rozširuje Codex: z asistenta pri písaní kódu ho tlačí k agentovi, ktorý vie pracovať s počítačom, webom, obrázkami aj opakovateľnými úlohami.
Ollama v preview prepája svoj lokálny stack s frameworkom MLX a sľubuje výrazne rýchlejšie spúšťanie modelov na Apple Silicon. Pre používateľov Macov je dôležité, že lokálne agentické workflow sa tým posúvajú z hobby režimu bližšie k serióznej práci.
Artificial Analysis spustil AA-AgentPerf, nový benchmark pre AI hardvér a inferenčné stacky. Namiesto krátkych dotazov používa reálne agentické trajektórie s dlhým kontextom, takže lepšie ukazuje, čo infraštruktúra zvládne v produkcii.
Anthropic uviedol Claude Opus 4.7 ako všeobecne dostupný model so silnejším softvérovým inžinierstvom, lepším videním a vyššou spoľahlivosťou pri dlhších úlohách. Dôležité nie je len skóre, ale aj posun v tom, koľko práce môžu firmy modelu reálne odovzdať bez mikromanažmentu.
Nová práca na kontinuálnych multi-timescale agentoch ukazuje, že pridané moduly na self-monitoring či seba-predikciu neprinášajú samy osebe merateľný zisk. Zlepšenie sa objaví až vtedy, keď sú tieto signály priamo zapojené do rozhodovacej cesty agenta.
ArcDeck je multiagentový systém, ktorý pri prevode vedeckého článku do slidov najprv rekonštruuje logiku argumentu a až potom skladá osnovu a vizuály. Signálom je, že lepší výsledok neprichádza len z väčšieho modelu, ale zo štruktúry workflow.
Nový paper ukazuje, že samostatné moduly seba-monitorovania agentom veľmi nepomáhajú. Zisk sa objavuje až vtedy, keď sa ich výstupy napoja priamo na rozhodovaciu cestu.
VAKRA chce merať agentov v prostredí, kde nestačí pekná ukážka ani jeden tool call. Benchmark kombinuje tisíce lokálnych API, databázy a dokumenty, aby bolo vidieť, kde sa agent láme pri viac-krokovom rozhodovaní a reálnom vykonávaní úloh.
OpenAI rozširuje Agents SDK o natívne sandboxy, model-native harness a prenosnú vrstvu pre pracovný priestor. Signál je jasný: rozhodovať nebude len model, ale to, ako bezpečne a spoľahlivo vie agent pracovať so súbormi, nástrojmi a dlhšími úlohami.
Cloudflare spúšťa beta verziu Registrar API a chce dostať registráciu domén priamo do agentických workflowov. Praktický význam je väčší, než vyzerá: agenti už nemajú iba navrhovať názvy, ale vedieť ich aj okamžite overiť a kúpiť bez opustenia vývojového prostredia.
Cloudflare rozšíril svoju ponuku pre AI agentov o Browser Run, preview platformu Project Think a Registrar API. Spoločný odkaz je zreteľný: ďalšia vlna agentov sa nebude lámať len na kvalite modelu, ale na tom, či vedia bezpečne pracovať s webom, vykonávať kód, pamätať si stav a dokončiť reálne workflow.
Amazon SageMaker JumpStart rozšíril katalóg o modely NVIDIA Nemotron-3-Super-120B, Qwen3.5-9B a Qwen3.5-27B. Pre enterprise trh je dôležité, že AWS nepredáva len infraštruktúru, ale čoraz viac aj kurátorovaný výber modelov pre konkrétne úlohy.