Mengenal Clustering: Teknik Pengelompokan Data dalam Dunia Data Mining dan Kecerdasan Buatan

Apa Itu Clustering?

Clustering adalah metode pengelompokan data berdasarkan kesamaan tertentu tanpa adanya label sebelumnya. Artinya, algoritma clustering bekerja secara unsupervised learning, berbeda dengan supervised learning seperti klasifikasi yang membutuhkan data berlabel.

Tujuan utama dari clustering adalah untuk mengelompokkan data sedemikian rupa sehingga:

  • Data dalam satu kelompok (cluster) memiliki kemiripan tinggi satu sama lain.
  • Data antar kelompok memiliki perbedaan yang signifikan.

Contoh Sederhana:

Bayangkan kamu memiliki data pelanggan dari toko online: usia, jumlah pembelian, dan frekuensi belanja. Dengan clustering, kita bisa menemukan segmen pelanggan seperti:

  • Pelanggan muda yang sering belanja dengan nominal kecil,
  • Pelanggan senior dengan frekuensi rendah namun belanja besar.

Hubungan Clustering dengan Data Mining dan AI

Dalam data mining, clustering digunakan untuk menemukan struktur atau pola tersembunyi dalam data besar. Misalnya dalam segmentasi pelanggan, deteksi anomali, atau pengelompokan dokumen.

Dalam konteks AI, khususnya pada machine learning, clustering merupakan bagian dari unsupervised learning. Ini berarti model belajar sendiri dari data tanpa supervisi manusia.

 Sederhananya: 

AI โ†’ Machine Learning โ†’ Unsupervised Learning โ†’ Clustering

Clustering menjadi landasan dalam berbagai aplikasi modern seperti:

  • Sistem rekomendasi,
  • Pengenalan pola gambar,
  • Analisis perilaku pengguna,
  • Bioinformatika,
  • dan masih banyak lagi.

๐Ÿ” Studi Kasus: Segmentasi Pelanggan dengan Model Fuzzy RFM

Model Fuzzy RFM digunakan untuk mengukur perilaku pelanggan berdasarkan:

  • Recency (R): Kapan terakhir kali pelanggan melakukan transaksi.
  • Frequency (F): Seberapa sering mereka melakukan transaksi.
  • Monetary (M): Berapa total nilai uang yang mereka belanjakan.

Pembagian kelas/segmen pada Fuzzy RFM:
Setelah nilai RFM dinormalisasi atau difuzzyfikasi, pelanggan dikelompokkan ke dalam misalnya 27 segmen:

1. Level 1 (R rendah, F rendah, M rendah)

2. Level 2 (R rendah, F rendah, M sedang)

...

27. Level 27 (R tinggi, F tinggi, M tinggi)

Proses klasisfikasi dengan Fuzzy RFM ini tidak kepada setiap pelanggan yang ada, tetapi ke setiap pusat cluster / centroid hasil dari perhitungan mengunakan metode / algoritma clusetering.

Dataset yang digunakan adalah dataset yang tersedia secara online untuk kebutuhan eksperimen semata yaitu data transaksi dari bulan desember 2010 sampai desember 2011. Berikut sumber dataset yang digunakan:

https://archive.ics.uci.edu/dataset/352/online+retail

Dataset

Dataset ini diolah lagi sehingga menjadi 3 parameter RFM. Khusus untuk parameter Recency, titik tanggal hitung adalah tanggal 1 januari 2012. Misalnya tanggal terbaru transaksi seorang pelanggan itu tanggal 9 desember 2011, maka untuk mendapatkan parameter recency dihitung dengan : 1 januari 2012 dikurangi 9 desember 2011 = 23. Maka parameter Recency untuk pelanggan ini adalah 23.

๐Ÿ“Œ 1. K-Means

Konsep:

  • Mengelompokkan pelanggan berdasarkan kedekatan ke pusat cluster (centroid).
  • Harus menentukan jumlah cluster (k) di awal.

Kelebihan:

  • Cepat dan efisien untuk data berukuran besar.

Berikut adalah hasil perhitungan dan visualisasi data dari K-Means: https://tanmarajo.my.id/clustering/kmeans

๐Ÿ“Œ 2. Fuzzy C-Means

Konsep:

  • Mirip K-Means, tetapi tiap pelanggan bisa memiliki keanggotaan ke lebih dari satu cluster.
  • Hasilnya berupa matriks keanggotaan fuzzy.

Kelebihan:

  • Lebih fleksibel dan realistis pada kasus pelanggan yang perilakunya โ€œambangโ€.

Berikut adalah hasil perhitungan dan visualisasi data dari Fuzzy C-Means: https://tanmarajo.my.id/clustering/fuzzy-cluster-means

๐Ÿ“Œ 3. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)

Konsep:

  • Clustering berbasis kepadatan dan hierarki.
  • Tidak perlu menentukan jumlah cluster.
  • Dapat mendeteksi noise atau outlier.

Kelebihan:

  • Cocok untuk data yang tidak berdistribusi secara merata dan bentuk cluster yang kompleks.

Penerapan pada Fuzzy RFM:
Jika ada pelanggan dengan perilaku sangat ekstrem (misalnya F dan M tinggi sekali, tetapi hanya satu transaksi), HDBSCAN bisa mengidentifikasi mereka sebagai anomali atau membentuk cluster khusus.

Berikut adalah hasil perhitungan dan visualisasi data dari HDBSCAN: https://tanmarajo.my.id/clustering/hdbscan

Cluster -1 adalah noise atau data yang tidak terdapat dalam cluster manapun.

๐Ÿ“Œ 4. BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

Konsep:

  • Cocok untuk data berukuran sangat besar.
  • Membangun pohon fitur (CF tree) dan melakukan clustering secara bertahap.

Kelebihan:

  • Cepat dan efisien untuk dataset besar.

Penerapan pada Fuzzy RFM:
BIRCH dapat digunakan untuk menyegmentasi jutaan pelanggan secara cepat berdasarkan nilai fuzzy RFM tanpa harus memuat seluruh data ke memori.

Berikut adalah hasil perhitungan dan visualisasi data dari BIRCH: https://tanmarajo.my.id/clustering/birch

๐Ÿ“Œ 5. Gaussian Mixture Models (GMM) dengan Variational Inference

Konsep:

  • Asumsinya data berasal dari beberapa distribusi normal (Gaussian).
  • Variational Inference digunakan untuk memperkirakan distribusi parameter secara efisien.

Kelebihan:

  • Mampu menangkap bentuk cluster yang overlap dan tidak bundar.

Penerapan pada Fuzzy RFM:
Jika segmen pelanggan memiliki pola RFM yang tidak homogen (misal loyal tapi monetary-nya tidak terlalu tinggi), GMM mampu mengakomodasi ketidakpastian tersebut dengan model probabilistik.

Berikut adalah hasil perhitungan dan visualisasi data dari GMM-VI: https://tanmarajo.my.id/clustering/gmm-vi

๐Ÿ“Œ 6. OPTICS (Ordering Points To Identify the Clustering Structure)

Konsep:

  • Serupa dengan DBSCAN tetapi tidak perlu memilih radius tetap.
  • Memberikan struktur urutan dan visualisasi dendrogram-like.

Kelebihan:

  • Bisa mengidentifikasi cluster dengan kepadatan berbeda-beda.

Penerapan pada Fuzzy RFM:
Misal terdapat segmen pelanggan yang sangat aktif tapi kecil jumlahnya โ€” OPTICS mampu mengenalinya sebagai cluster tersendiri dibanding metode lain yang mungkin menyatukannya.

Berikut adalah hasil perhitungan dan visualisasi data dari OPTICS: https://tanmarajo.my.id/clustering/optics

Cluster -1 adalah noise, yaitu data yang tidak termasuk ke cluster manapun.


๐Ÿ“Œ 7. Spectral Clustering dengan Approximate Nearest Neighbors

Konsep:

  • Membangun graf keterhubungan antar data lalu memproyeksikan ke ruang berdimensi rendah.
  • Approximate Nearest Neighbors (ANN) dipakai untuk mempercepat pencarian tetangga terdekat.

Kelebihan:

  • Efektif untuk data dengan bentuk cluster non-linier.

Penerapan pada Fuzzy RFM:
Jika pelanggan memiliki relasi kompleks seperti perilaku R tinggi tapi F dan M saling bertolak belakang, Spectral Clustering bisa mengelompokkan berdasarkan struktur relasional, bukan sekadar jarak.

Berikut adalah hasil perhitungan dan visualisasi data dari SPECTRAL CLSUTERING: https://tanmarajo.my.id/clustering/spectral-ann

Setelah kita melihat hasil masing-masing metode clustering, maka kita perlu melakukan evaluasi perbandingan metodenya. Disini kita akan melakukan evaluasi metric dengan 3 cara, yaitu : 
1.  Silhouette Score 

Silhouette Score Comparison

2.  Davies-Bouldin Index 

Davies-Bouldin Index

3.  Calinski-Harabasz Index 

Calinski-Harabasz Index
Tabel perbandingan evaluasi metric:
image.png 20.06 KB

1. ๐Ÿ“ Silhouette Coefficient (Silhouette Score)

๐Ÿ“˜ Definisi:

Silhouette Coefficient merupakan ukuran evaluasi clustering yang menggabungkan dua aspek utama:

  • Kekompakan (cohesion): seberapa dekat suatu titik data dengan titik lain dalam cluster yang sama.
  • Pemisahan (separation): seberapa jauh titik data tersebut dari titik-titik di cluster terdekat lainnya.

๐Ÿ“ Rumus:
Rumus Silhouette

๐Ÿ“Š Interpretasi:
Interpretasi Silhouette

๐Ÿ“Œ Kelebihan:

  • Memberikan informasi granular per data point.
  • Sangat baik untuk menentukan jumlah cluster optimal (k).

2. ๐Ÿ“ Daviesโ€“Bouldin Index (DBI)

๐Ÿ“˜ Definisi:

Daviesโ€“Bouldin Index mengukur rata-rata dari rasio jarak intra-cluster terhadap jarak antar-cluster, dan digunakan untuk mengevaluasi seberapa baik cluster dipisahkan dan seberapa kompak.

๐Ÿ“ Rumus:
Rumus DBI

๐Ÿ“Š Interpretasi:

  • Semakin rendah nilai DBI, semakin baik hasil clustering.
  • Nilai rendah berarti cluster saling berjauhan dan setiap cluster relatif rapat (kompak).

๐Ÿ“Œ Kelebihan:

  • Tidak memerlukan label.
  • Cepat dihitung dan sensitif terhadap separasi antar cluster.

3. ๐Ÿ“ˆ Calinskiโ€“Harabasz Index (Variance Ratio Criterion)

๐Ÿ“˜ Definisi:

Calinskiโ€“Harabasz Index mengukur rasio antara variansi antar-cluster (inter-cluster dispersion) terhadap variansi dalam cluster (intra-cluster dispersion).

๐Ÿ“ Rumus:
Rumus CH

๐Ÿ“Š Interpretasi:

  • Semakin besar nilai CH, semakin baik cluster terbentuk.
  • Nilai tinggi mengindikasikan bahwa cluster memiliki pusat yang saling berjauhan dan tiap cluster relatif homogen.

๐Ÿ“Œ Kelebihan:

  • Baik untuk data dengan distribusi linier atau isotropik.
  • Efektif untuk evaluasi otomatis jumlah cluster (k).

๐Ÿ“š Tabel Ringkasan Akademik
Ringkasan

โœ๏ธ Catatan Akademik

  • Ketiga metrik ini sering digunakan secara komplementer, karena masing-masing memiliki sensitivitas yang berbeda terhadap bentuk dan distribusi cluster.
  • Metrik ini sangat berguna ketika tidak tersedia label (ground truth), seperti pada segmentasi pelanggan menggunakan RFM.
  • Evaluasi clustering menggunakan ketiga metrik ini sangat direkomendasikan dalam kajian berbasis unsupervised learning dan data mining.

Semoga bermanfaat.

Wassalaam..



Penulis

  • SELAMAT MULIYADI HARJONO
    SELAMAT MULIYADI HARJONO
    Ketua HMSI 2024-2025
    Nama saya Selamat M. Harjono biasa dipanggil memet. Saya kuliah di Universitas Dumai mengambil jurusan Sistem Informasi karena saya tertarik terhadap teknologi khususnya dibidang IT. Lihat Profil
Ikuti Media Sosial Penulis