R-Learning - Materi Statistik & AI

1. Apa itu R-Learning?

Algoritma RL populer seperti Q-Learning menggunakan Discount Factor ($\gamma$). Ini cocok untuk tugas Episodic (ada tamatnya, misal Game Catur). $\gamma$ membuat agent lebih peduli reward jangka pendek daripada masa depan yang jauh.

Tapi bagaimana untuk tugas Continuing yang jalan selamanya? (Misal: Mengatur AC ruangan server 24/7). Jika pakai Discount Factor, reward masa depan nilainya jadi 0 (karena $0.9^{1000} \approx 0$).

R-Learning hadir sebagai solusi. Dia tidak memaksimalkan "Total Discounted Reward", tapi "Average Reward per Step" ($\rho$). Tujuannya: Menjaga rata-rata perfoma setinggi mungkin sepanjang masa.

2. Discounted vs Average

t=1

+10

t=2

+10

t=...

...

t=∞

+10

Discounted (Q-Learning)

Reward di $t=\infty$ dikali $\gamma^\infty \approx 0$.
Jadi dia CUEK dengan masa depan yang sangat jauh.

Average (R-Learning)

Semua reward nilainya SAMA PENTING.
Kita ingin rata-rata reward ($\rho$) stabil di angka tinggi (misal +10 terus).

3. Rumus Update R-Learning

Mirip Q-Learning, tapi kita buang $\gamma$ dan kita kurangi reward dengan rate rata-rata ($\rho$).

$$ R(s,a) \leftarrow R(s,a) + \alpha [ r - \rho + \max R(s', a') - R(s,a) ] $$

Dan kita juga update nilai Average Reward ($\rho$) jika aksi yang diambil adalah eksplorasi (Max):

$$ \rho \leftarrow \rho + \beta [ r - \rho + \max R(s', a') - \max R(s, a) ] $$

$R(s,a)$: Nilai aksi relatif terhadap rata-rata.
$\rho$ (Rho): Taksiran reward rata-rata sistem saat ini.

4. Contoh Penggunaan

Manajemen Inventori: Toko buka selamanya, gimana jaga stok biar gak kosong tapi gak numpuk.
High Frequency Trading: Trading saham jalan terus, kita mau profit rata-rata per jam maksimum.
Pengatur Lalu Lintas: Lampu merah di perempatan biar antrian rata-rata minimum selamanya.