Fondasi utama sebelum melangkah ke algoritma Machine Learning.
Statistik bukan sekadar menghitung rata-rata. Dalam konteks Machine Learning, statistik adalah alat untuk:
Seluruh kelompok yang ingin kita pelajari. (Contoh: Semua pengguna internet di Indonesia).
Sebagian kecil dari populasi yang kita ambil datanya untuk dianalisis. (Contoh: 1000 responden survei).
Mengetahui tipe data sangat krusial untuk Feature Engineering. Algoritma ML memperlakukan tipe data berbeda dengan cara yang berbeda.
| Kategori Besar | Sub-Kategori | Penjelasan | Contoh |
|---|---|---|---|
| Numerik (Kuantitatif) | Diskrit | Nilai bulat, hasil hitungan. Tidak bisa desimal. | Jumlah anak, jumlah mobil, ranking. |
| Kontinu | Nilai bisa berapapun dalam rentang (termasuk desimal). Hasil pengukuran. | Tinggi badan, berat badan, gaji, suhu. | |
| Kategorikal (Kualitatif) | Nominal | Label tanpa urutan. | Warna mata (Biru, Coklat), Gender (L/P), Kota. |
| Ordinal | Label dengan urutan atau tingkatan jelas. | Tingkat kepuasan (Puas, Netral, Kecewa), Ukuran Baju (S, M, L). |
Dalam Python, kita biasanya menggunakan pandas untuk menangani tipe data ini.
import pandas as pd
import numpy as np
# Membuat dataset contoh
data = {
'Nama': ['Andi', 'Budi', 'Citra'], # Kategorikal (Nominal)
'Usia': [25, 30, 22], # Numerik (Diskrit)
'Gaji': [5.5, 8.2, 4.8], # Numerik (Kontinu - Juta)
'Pendidikan': ['S1', 'S2', 'SMA'], # Kategorikal (Ordinal)
'Kepuasan': [4, 5, 3] # Numerik/Ordinal (Skala Likert)
}
df = pd.DataFrame(data)
# Cek tipe data pandas
print(df.dtypes)
# Output:
# Nama object (String/Kategorikal)
# Usia int64 (Numerik Diskrit)
# Gaji float64 (Numerik Kontinu)
# Pendidikan object
# Kepuasan int64