[1]

Vincent Kanka, Debabrata Das, and Akhil Reddy Bairi, “Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning”, J. of Artificial Int. Research and App., vol. 4, no. 1, pp. 733–769, May 2024, Accessed: Jan. 15, 2025. [Online]. Available: https://aimlstudies.co.uk/index.php/jaira/article/view/353