Vincent Kanka, Debabrata Das, and Akhil Reddy Bairi. “Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning”. Journal of Artificial Intelligence Research and Applications 4, no. 1 (May 6, 2024): 733–769. Accessed January 15, 2025. https://aimlstudies.co.uk/index.php/jaira/article/view/353.