Preprint skúma, či multimodálne modely stačia na asistívne aplikácie v reálnom svete
Štúdia o MLLM v asistívnej AI upozorňuje, že vizuálne porozumenie, kontext a viacjazyčnosť musia fungovať spoľahlivo naraz, nie iba v izolovaných benchmarkoch.
Tag
Všetky publikované články, v ktorých sa téma multimodálne modely objavuje ako dôležitý kontext. Aktuálne 14 textov v archíve.
Štúdia o MLLM v asistívnej AI upozorňuje, že vizuálne porozumenie, kontext a viacjazyčnosť musia fungovať spoľahlivo naraz, nie iba v izolovaných benchmarkoch.
PaddlePaddle zverejnil na Hugging Face novú generáciu univerzálneho OCR modelu PP-OCRv6. Rodina cieli na praktické čítanie textu v dokumentoch, obrazovkách aj scénach a škáluje od 1,5 po 34,5 milióna parametrov.
Ai2 a Hugging Face predstavili MolmoMotion, súbor modelov, dát a benchmarkov pre predpovedanie 3D pohybu podľa jazykových inštrukcií. Cieľom je lepšie prepájať vizuálne vnímanie, plánovanie a robotické akcie.
AWS sprístupnilo rodinu modelov Gemma 4 v službe Amazon Bedrock. Pre vývojárov je dôležité najmä spojenie otvorených váh, dlhého kontextu, volania funkcií a spravovanej infraštruktúry s podnikovými kontrolami.
Nová práca z MIT analyzuje, ako adversariálne fine-tuningové postupy ovplyvňujú vision transformery pri rozmazaní, zaostrení a iných obrazových poruchách. Zlepšenie robustnosti sa podľa autorov neprenáša automaticky na nevidené typy porúch.
Nový príspevok NVIDIA na Hugging Face opisuje Nemotron 3.5 Content Safety, rodinu modelov pre nastaviteľné posudzovanie textu aj obrazu. Dôležitá je najmä možnosť prispôsobiť bezpečnostné pravidlá podnikovým a regionálnym požiadavkám.
AWS opisuje, ako využiť Amazon Nova 2 Lite na detekciu objektov v obraze. Príklad kombinuje Bedrock, Lambda a API Gateway a ukazuje trend, v ktorom multimodálne modely nahrádzajú časť úzko špecializovaných vision pipeline.
Nový benchmark od Apple skúša posunúť hodnotenie video-jazykových modelov od offline otázok k priebežným asistentom. Sleduje nielen správnosť odpovedí, ale aj načasovanie, stabilitu a schopnosť reagovať počas živého prúdu obrazov.
Nový benchmark sa zameriava na artefakty v generovaných videách: časové nekonzistencie, deformácie štruktúry a nesúlad medzi scénou a významom.
AWS ukazuje MLLM-as-a-judge pre úlohy, kde model odpovedá na obrázky, dokumenty alebo grafy. Cieľom je overovať, či textový výstup naozaj sedí so zdrojovým obrazom.
Nový preprint tvrdí, že multimodálne modely vedia priestorovo uvažovať spoľahlivejšie vtedy, keď si scénu preložia do kódu s kockami, guľami a valcami, než keď majú odpovedať priamo na zdanlivo jednoduché otázky o obraze.
Apple ukazuje, že pri titulkovaní obrázkov nestačí tlačiť len na dĺžku a detail. BalCapRL kombinuje viac cieľov naraz, aby multimodálne modely menej halucinovali a písali použiteľnejšie popisy.