Pengantar Statistik & Tipe Data

Fondasi utama sebelum melangkah ke algoritma Machine Learning.

Apa itu Statistik?

Statistik bukan sekadar menghitung rata-rata. Dalam konteks Machine Learning, statistik adalah alat untuk:

  • Memahami Data: Melihat pola, outlier, dan distribusi.
  • Mengambil Keputusan: Apakah model A lebih baik dari model B secara signifikan?
  • Prediksi: Estimasi nilai masa depan berdasarkan data masa lalu.
Populasi

Seluruh kelompok yang ingin kita pelajari. (Contoh: Semua pengguna internet di Indonesia).

Sampel

Sebagian kecil dari populasi yang kita ambil datanya untuk dianalisis. (Contoh: 1000 responden survei).

Tipe Data dalam Statistik

Mengetahui tipe data sangat krusial untuk Feature Engineering. Algoritma ML memperlakukan tipe data berbeda dengan cara yang berbeda.

Kategori Besar Sub-Kategori Penjelasan Contoh
Numerik (Kuantitatif) Diskrit Nilai bulat, hasil hitungan. Tidak bisa desimal. Jumlah anak, jumlah mobil, ranking.
Kontinu Nilai bisa berapapun dalam rentang (termasuk desimal). Hasil pengukuran. Tinggi badan, berat badan, gaji, suhu.
Kategorikal (Kualitatif) Nominal Label tanpa urutan. Warna mata (Biru, Coklat), Gender (L/P), Kota.
Ordinal Label dengan urutan atau tingkatan jelas. Tingkat kepuasan (Puas, Netral, Kecewa), Ukuran Baju (S, M, L).

Implementasi Python

Dalam Python, kita biasanya menggunakan pandas untuk menangani tipe data ini.

import pandas as pd
import numpy as np

# Membuat dataset contoh
data = {
    'Nama': ['Andi', 'Budi', 'Citra'],          # Kategorikal (Nominal)
    'Usia': [25, 30, 22],                       # Numerik (Diskrit)
    'Gaji': [5.5, 8.2, 4.8],                    # Numerik (Kontinu - Juta)
    'Pendidikan': ['S1', 'S2', 'SMA'],          # Kategorikal (Ordinal)
    'Kepuasan': [4, 5, 3]                       # Numerik/Ordinal (Skala Likert)
}

df = pd.DataFrame(data)

# Cek tipe data pandas
print(df.dtypes)
# Output:
# Nama           object  (String/Kategorikal)
# Usia            int64  (Numerik Diskrit)
# Gaji          float64  (Numerik Kontinu)
# Pendidikan     object
# Kepuasan        int64