Vincent Kanka, Debabrata Das and Akhil Reddy Bairi (2024) “Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning”, Journal of Artificial Intelligence Research and Applications, 4(1), pp. 733–769. Available at: https://aimlstudies.co.uk/index.php/jaira/article/view/353 (Accessed: 15 January 2025).