結果 : q learning update function