[1]

Vincent Kanka et al. 2024. Direct Preference Optimization (DPO) for Improving Logical Consistency and Decision-Making in LLM Reasoning. Journal of Artificial Intelligence Research and Applications. 4, 1 (May 2024), 733–769.