Part 7: Why Do We Need Convolution?

Kenapa Neural Network Biasa (MLP) Gagal Memahami Gambar?

1. Masalah "Mencairkan" Gambar

Neural Network biasa (Fully Connected) membutuhkan input berupa vektor 1 dimensi (garis lurus). Untuk memasukkan gambar 2D, kita harus "meratakan" (flatten) pixel-nya.

Gambar 2D

Hidung di ATAS Mulut

Flatten

[Pixel 1, Pixel 2, ..., Pixel N]

Hubungan Spasial HILANG!

Saat diratakan, AI tidak lagi tahu bahwa pixel hidung itu "dekat" dengan pixel mulut. Struktur spasial hancur.

2. Ledakan Parameter (Komputasi Berat)

Mari berhitung matematika sederhana.

Studi Kasus: Gambar 1000x1000 Pixel

Total Input Pixel = $1.000 \times 1.000 = 1.000.000$ (1 Juta Input).
Jika Layer Pertama punya 1.000 Neuron saja.
Total Bobot (Weights) = $1.000.000 \text{ (Input)} \times 1.000 \text{ (Neuron)}$.
= 1 Milyar Parameter! 🤯

Hanya untuk 1 layer! Ini akan membakar memori komputer dan sangat lambat (Overfitting parah).

3. Spatial Invariance (Objek Bisa Dimana Saja)

Jika kita melatih Neural Network biasa untuk mengenali kucing di Pojok Kiri Atas, dia tidak akan mengenali kucing yang sama jika dipindah ke Pojok Kanan Bawah.

Kenapa? Karena bobot yang belajar "Kiri Atas" berbeda dengan bobot "Kanan Bawah".

Neural Network Biasa

Harus belajar Ulang untuk setiap posisi.

Tidak Efisien

Convolution (CNN)

Belajar fitur "Kucing" sekali, bisa mendeteksi Dimana Saja.

Efisien (Weight Sharing)

Solusinya? CONVOLUTION.

Kita butuh metode yang bisa menscan gambar seperti senter, mempertahankan struktur spasial, dan hemat parameter.

Lanjut ke Part 8: How Does a CNN Work?

Part 6: Overfitting Lanjut ke Part 8: CNN Mechanics