1. Weight Initialization (Awal yang Baik)
Jika kita menginisialisasi bobot (weights) dengan angka 0, Neural Network mati (Symmetry problem). Jika terlalu besar, gradien meledak (Exploding Gradient).
Xavier / Glorot Init
Cocok untuk fungsi aktivasi Sigmoid / Tanh.
Menjaga variansi sinyal tetap sama dari layer ke layer. $$ W \sim \mathcal{N}(0, \frac{2}{n_{in} + n_{out}}) $$
He Initialization
Wajib untuk ReLU.
Didesain khusus untuk mengatasi sifat ReLU yang "mematikan" setengah neuron. $$ W \sim \mathcal{N}(0, \frac{2}{n_{in}}) $$