Vincent Kanka, Debabrata Das, & Akhil Reddy Bairi. (2024). Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning. Journal of Artificial Intelligence Research and Applications, 4(1), 733-769. https://aimlstudies.co.uk/index.php/jaira/article/view/353