1. Apa bedanya dengan Q-Learning?
Q-Learning (Off-Policy): Agent itu nekat. Saat belajar, dia mengasumsikan di
masa depan dia AKAN MELAKUKAN YANG TERBAIK (Greedy),
padahal kenyataannya dia mungkin masih suka eksplorasi (ngawur).
"Ah, nanti aku pasti lewat jalan pintas, jadi aman." (Padahal nanti kepeleset).
SARSA (On-Policy): Agent itu realistis (atau penakut). Dia belajar dari
APA YANG BENAR-BENAR DIA LAKUKAN selanjutnya, termasuk kebodohannya sendiri
saat eksplorasi.
"Aku tau aku kadang ceroboh, jadi mending jangan lewat pinggir jurang."