結果 : direct preference optimization loss function