Vincent Kanka, Debabrata Das, Akhil Reddy Bairi. Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning. J. of Artificial Int. Research and App. [Internet]. 2024 May 6 [cited 2025 Jan. 15];4(1):733-69. Available from: https://aimlstudies.co.uk/index.php/jaira/article/view/353