Preprint sprísňuje testovanie detektorov lží v jazykových modeloch
Nová práca upozorňuje, že detektory lží pre veľké jazykové modely sa nedajú hodnotiť iba na modeloch, ktoré sa naoko správajú nepravdivo. Autori preto navrhujú testbedy, kde je najprv overené, čomu model skutočne verí.