AWS ukazuje SFT a DPO pre presnejšie volanie nástrojov agentmi
AWS zverejnil praktický postup, ako na SageMaker AI dolaďovať malý jazykový model na tool-calling pomocou SFT a DPO a merať výsledok na datasete When2Call.
Tag
Všetky publikované články, v ktorých sa téma DPO objavuje ako dôležitý kontext. Aktuálne 3 textov v archíve.
AWS zverejnil praktický postup, ako na SageMaker AI dolaďovať malý jazykový model na tool-calling pomocou SFT a DPO a merať výsledok na datasete When2Call.
Dharma-AI opisuje, ako sa dá Direct Preference Optimization použiť na potláčanie opakovacích slučiek v OCR modeloch, nie iba na ladenie chatbotových odpovedí.
Nový preprint ξ-DPO tvrdí, že pri direct preference optimization vie nahradiť ťažko čitateľnú margin schému interpretovateľnejším pomerovým cieľom. Pre tímy, ktoré dolaďujú modely na ľudských preferenciách, to môže znamenať menej slepého skúšania a ľahšie prenositeľné nastavenia.