Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Rafailov, Sharma, Mitchell, Ermon, Manning, Finn

paper completed ai-ml

Year 2023

External Link https://arxiv.org/pdf/2305.18290

DPO preference optimization alignment from:language-models

Notes

Bypasses reward modeling entirely. Simpler alignment, same results.

View Resource All Media More in Ai-Ml