結果 : q learning example problem