結果 : reinforcement learning cost function