Ukuran Pemusatan (Central Tendency)

Mencari satu nilai yang dapat mewakili seluruh data.

Rata-rata

Mean

Nilai rata-rata aritmatika dari sekumpulan data. Paling umum digunakan, tapi sensitif terhadap outlier (data ekstrim).

Rumus

$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$

Contoh Masalah: Jika ada 5 karyawan dengan gaji 5 juta, dan 1 CEO dengan gaji 1 Miliar. Rata-rata gaji akan terlihat sangat besar, padahal mayoritas hanya 5 juta.

Nilai Tengah

Median

Nilai yang berada tepat di tengah setelah data diurutkan dari terkecil ke terbesar. Tahan (robust) terhadap outlier.

Tips ML: Gunakan Median untuk mengisi missing values jika data memiliki banyak outlier (skewed distribution).
Terbanyak

Mode (Modus)

Nilai yang paling sering muncul dalam data. Satu-satunya ukuran pemusatan yang bisa digunakan untuk data kategorikal.

Contoh: "Warna mobil paling laris adalah Hitam". (Hitam adalah mode).

Implementasi Python

import numpy as np
from scipy import stats

data = [10, 12, 12, 13, 12, 11, 14, 100] # Perhatikan angka 100 (Outlier)

# 1. Mean
mean_val = np.mean(data)
print(f"Mean: {mean_val}") 
# Output: 23.0 (tertarik ke arah 100)

# 2. Median
median_val = np.median(data)
print(f"Median: {median_val}")
# Output: 12.0 (lebih merepresentasikan data mayoritas)

# 3. Mode
mode_val = stats.mode(data)
print(f"Mode: {mode_val.mode[0]}")
# Output: 12 (karena muncul 3 kali)