1. Apa itu R-Learning?
Algoritma RL populer seperti Q-Learning menggunakan Discount Factor ($\gamma$). Ini cocok untuk tugas Episodic (ada tamatnya, misal Game Catur). $\gamma$ membuat agent lebih peduli reward jangka pendek daripada masa depan yang jauh.
Tapi bagaimana untuk tugas Continuing yang jalan selamanya? (Misal: Mengatur AC ruangan server 24/7). Jika pakai Discount Factor, reward masa depan nilainya jadi 0 (karena $0.9^{1000} \approx 0$).
R-Learning hadir sebagai solusi. Dia tidak memaksimalkan "Total Discounted Reward", tapi "Average Reward per Step" ($\rho$). Tujuannya: Menjaga rata-rata perfoma setinggi mungkin sepanjang masa.