Apple ukazuje, že počet anotátorov má závisieť od metriky
Výskum Apple Machine Learning skúma učenie z rozdelení ľudských štítkov. Ukazuje, že niektoré metriky sa nasýtia pri desiatich anotátoroch, iné potrebujú dvadsať až päťdesiat.
Tag
Všetky publikované články, v ktorých sa téma NLP objavuje ako dôležitý kontext. Aktuálne 5 textov v archíve.
Výskum Apple Machine Learning skúma učenie z rozdelení ľudských štítkov. Ukazuje, že niektoré metriky sa nasýtia pri desiatich anotátoroch, iné potrebujú dvadsať až päťdesiat.
Nový arXiv preprint predstavuje AfriSUD, kolekciu syntakticky anotovaných dát pre deväť afrických jazykov. Práca je dôležitá pre hodnotenie NLP modelov mimo jazykov, ktoré dominujú dnešným benchmarkom.
Preprint katalogizuje textové a rečové dáta, modely a benchmarky pre dve západoafrické jazyky. Ukazuje, že aj pri desiatkach miliónov hovoriacich zostáva praktická infraštruktúra pre NLP nerovnomerná a krehká.
Výskumníci pripravili reprodukovateľný Universal Dependencies štýl pipeline pre grécke parlamentné texty v katharevouse. Spája OCR rekonštrukciu, LLM asistovanú anotáciu, validáciu a pevné benchmarky.
Nový paper pripomína, že veľké jazykové modely nemusia mať pevné chápanie abstraktných významov. Na úlohe ReCAM zaostávajú aj za staršími fine-tuned modelmi.