Vincent Kanka, et al. “Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning”. Journal of Artificial Intelligence Research and Applications, vol. 4, no. 1, May 2024, pp. 733-69, https://aimlstudies.co.uk/index.php/jaira/article/view/353.