Part 8: How Does a CNN Work?

Membedah Komponen Utama: Convolution & Pooling

1. Convolution Layer (Si Mata Elang)

Inti dari CNN adalah operasi Konvolusi. Bayangkan sebuah "Filter" (kaca pembesar) kecil berukuran 3x3 yang bergerak menyapu (sliding) seluruh gambar dari kiri atas ke kanan bawah.

Input Image (5x5)
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
0
0
1
1
0

Kotak Kuning = Filter (Kernel) sedang "melihat" area ini.

Feature Map (Output)

Operasi Matematika:

$$ \sum (Input \times Filter) $$

Filter mengalikan nilai pixel input dengan bobotnya sendiri, lalu menjumlahkannya. Ini menghasilkan Satu Angka baru di Feature Map.

Tujuan: Filter bertugas mencari pola spesifik (Garis vertikal, lengkungan, mata, dll).

2. Pooling Layer (Si Peringkas)

Setelah Konvolusi, data masih terlalu besar. Kita perlu Mengecilkan Ukuran (Downsampling) tapi tetap menyimpan informasi penting. Teknik paling populer: Max Pooling.

Input (4x4)
1
9
2
4
5
6
1
8
3
2
1
0
1
0
2
3
Max Pool (2x2)
Output (2x2)
9
8
3
3

Hanya mengambil nilai Tertinggi dari setiap area warna. "Jika ada fitur kuat (nilai 9), simpan. Sisanya buang."

3. Arsitektur Lengkap CNN

Jika kita gabungkan semuanya seperti sandwich, inilah bentuk CNN modern:

1. Input Image: Gambar mentah (misal: Foto Kucing).
Feature Extraction
Block 1: Conv2D $\to$ ReLU $\to$ MaxPool
Mendeteksi fitur sederhana (Garis, Sudut).
Feature Extraction
Block 2: Conv2D $\to$ ReLU $\to$ MaxPool
Mendeteksi fitur kompleks (Mata, Telinga, Bentuk Wajah).
Classifier
Flatten $\to$ Dense (Fully Connected) $\to$ Softmax
Mengambil fitur yang sudah diekstrak untuk mengambil keputusan akhir: "Ini 95% Kucing, 5% Anjing".

CNN Hebat, Tapi...

CNN jago melihat gambar statis. Tapi bagaimana jika datanya berupa Urutan Waktu (Kalimat, Suara, Harga Saham)? CNN tidak punya memori masa lalu. Kita butuh RNN.

Lanjut ke Part 9: Sequences (RNN & LSTM)