Vincent Kanka, Debabrata Das, and Akhil Reddy Bairi. 2024. “Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning”. Journal of Artificial Intelligence Research and Applications 4 (1): 733-69. https://aimlstudies.co.uk/index.php/jaira/article/view/353.