Part 11: Transformers

"Attention Is All You Need" - Awal Mula ChatGPT

1. Mengapa RNN Ditinggalkan?

RNN (dan LSTM) bekerja secara Sekuensial (Berurutan). Kata ke-100 tidak bisa diproses sebelum kata ke-99 selesai.

Kelemahan Fatal RNN:
  • Tidak bisa diparallelkan (Lambat dilatih di GPU).
  • Ingatan jangka panjang masih terbatas walaupun pakai LSTM.

2. Self-Attention (Mekanisme "Perhatian")

Bayangkan kalimat: "Bank itu memberikan pinjaman uang." vs "Bank sungai itu meluap." Kata "Bank" memiliki arti beda tergantung konteks.

Self-Attention memungkinkan setiap kata untuk "melihat" ke semua kata lain dalam kalimat sekaligus dan memutuskan mana yang relevan.

Self-Attention Mechanism

"Saya memberikan apel hijau itu kepada kuda."

Saat memproses kata "memberikan", AI memberikan "perhatian" (bobot) tinggi ke:
Siapa? (Saya), Apa? (Apel), Ke Siapa? (Kuda).
Kata "hijau" kurang relevan untuk aksi "memberikan".

Attention(Q, K, V) = softmax($\frac{QK^T}{\sqrt{d_k}}$)V

Rumus legendaris dari paper "Attention Is All You Need" (2017).

3. Parallelization (Kecepatan Cahaya)

Karena Transformer tidak butuh urutan (pakai Positional Encoding), dia bisa membaca 1 buku tebal sekaligus. Ini membuat training model raksasa (GPT-4, Claude, Gemini) menjadi mungkin.

RNN (Lama)

Langkah demi langkah... (Lama)

Transformer (Baru)

BUM! Sekaligus! (Cepat)

Model Sudah Jadi, Tapi Susah Dilatih?

Punya arsitektur canggih (Transformer/CNN) belum menjamin sukses. Kadang training macet atau lambat. Rahasianya ada di teknik "Advanced Training": Normalization & Initialization.

Lanjut ke Part 12: Normalization