ServiceNow testuje, ako hlasoví agenti zvládajú prepínanie jazykov
Benchmark na Hugging Face ukazuje, že rozpoznávanie reči v dvojjazyčných kontaktných centrách zostáva pre hlasových agentov slabým miestom.
Kategória
Výskumné práce, metódy, reprodukovateľné výsledky a posuny v bezpečnosti modelov.
Benchmark na Hugging Face ukazuje, že rozpoznávanie reči v dvojjazyčných kontaktných centrách zostáva pre hlasových agentov slabým miestom.
Nový arXiv preprint navrhuje anchor-conditioned fine-tuning pre generovanie krajinných obrázkov. Model nedostáva iba textový prompt, ale aj číselný vektor kompozície, ktorý má lepšie zachytiť horizont, dominantný objekt či priestorové rozloženie scény.
NIST upozorňuje, že konečný zoznam guardrailov nemôže byť univerzálne odolný voči protivníckym promptom. Práca Apostola Vassileva podporuje prechod k nepretržitému monitorovaniu, red teamingu a prevádzkovej odolnosti.
Nová práca z MIT analyzuje, ako adversariálne fine-tuningové postupy ovplyvňujú vision transformery pri rozmazaní, zaostrení a iných obrazových poruchách. Zlepšenie robustnosti sa podľa autorov neprenáša automaticky na nevidené typy porúch.
Nový preprint hodnotí všeobecných kódovacích agentov na optogenetickom výskumnom potrubí s veľkými dátami. Výsledok je triezvy: agenti zvládajú niektoré samostatné kroky, ale zlyhávajú pri end-to-end vedeckom úsudku.
OpenAI otvorilo Economic Research Exchange, program pre externé empirické projekty o tom, ako AI mení produktivitu, pracovné miesta, firmy a verejné inštitúcie.
Stanford HAI opisuje veľkú štúdiu algoritmického náboru: pri 4 miliónoch žiadostí mala spoločná závislosť firiem od jedného dodávateľa zvýrazniť rasové rozdiely a systémové odmietanie rovnakých kandidátov.
Metóda SGBR-HC vyberá približne dvadsať pásiem pre hyperspektrálnu klasifikáciu a zároveň ukazuje, že náhodné delenie pixelov môže nafúknuť presnosť o desiatky percentuálnych bodov. Dôležitý je preto priestorovo oddelený test.
Preprint predstavuje AFSAT, plnohodnotnejšiu verziu GPU solvera pre pseudo-booleovské SAT úlohy. Autori opisujú, ako JAX, dávkové lokálne hľadanie a upravená diskrétna Fourierova transformácia zlepšujú stabilitu, pamäť aj škálovanie.
Štúdia na siedmich jazykových modeloch ukazuje, že pri riadení správania modelu nestačí sledovať iba smer zásahu. Uhol nesie väčšinu konceptovej informácie, no veľkosť skrytého stavu rozhoduje o stabilite a vedľajších účinkoch.
Nová štúdia skúma dataset z prerušeného experimentu na r/ChangeMyView, kde neoznačené AI účty vstupovali do živých debát. Autori analyzujú identitu, autoritatívne signály a rétorické taktiky a tvrdia, že samotné pravidlá o zverejnení AI pôvodu nemusia stačiť.
Preprint TimeClaw navrhuje harness pre všeobecných LLM agentov, ktorí majú analyzovať časové rady v kontexte reálnych workflowov. Namiesto čisto textového uvažovania pridáva vykonateľné temporálne nástroje, pamäť a opakovateľné analytické rutiny.