Clustering adalah metode pengelompokan data berdasarkan kesamaan tertentu tanpa adanya label sebelumnya. Artinya, algoritma clustering bekerja secara unsupervised learning, berbeda dengan supervised learning seperti klasifikasi yang membutuhkan data berlabel.
Tujuan utama dari clustering adalah untuk mengelompokkan data sedemikian rupa sehingga:
Data dalam satu kelompok (cluster) memiliki kemiripan tinggi satu sama lain.
Data antar kelompok memiliki perbedaan yang signifikan.
Contoh Sederhana:
Bayangkan kamu memiliki data pelanggan dari toko online: usia, jumlah pembelian, dan frekuensi belanja. Dengan clustering, kita bisa menemukan segmen pelanggan seperti:
Pelanggan muda yang sering belanja dengan nominal kecil,
Pelanggan senior dengan frekuensi rendah namun belanja besar.
Hubungan Clustering dengan Data Mining dan AI
Dalam data mining, clustering digunakan untuk menemukan struktur atau pola tersembunyi dalam data besar. Misalnya dalam segmentasi pelanggan, deteksi anomali, atau pengelompokan dokumen.
Dalam konteks AI, khususnya pada machine learning, clustering merupakan bagian dari unsupervised learning. Ini berarti model belajar sendiri dari data tanpa supervisi manusia.
Sederhananya:
AI โ Machine Learning โ Unsupervised Learning โ Clustering
Clustering menjadi landasan dalam berbagai aplikasi modern seperti:
Sistem rekomendasi,
Pengenalan pola gambar,
Analisis perilaku pengguna,
Bioinformatika,
dan masih banyak lagi.
๐ Studi Kasus: Segmentasi Pelanggan dengan Model Fuzzy RFM
Model Fuzzy RFM digunakan untuk mengukur perilaku pelanggan berdasarkan:
Recency (R): Kapan terakhir kali pelanggan melakukan transaksi.
Frequency (F): Seberapa sering mereka melakukan transaksi.
Monetary (M): Berapa total nilai uang yang mereka belanjakan.
Pembagian kelas/segmen pada Fuzzy RFM: Setelah nilai RFM dinormalisasi atau difuzzyfikasi, pelanggan dikelompokkan ke dalam misalnya 27 segmen:
1. Level 1 (R rendah, F rendah, M rendah)
2. Level 2 (R rendah, F rendah, M sedang)
...
27. Level 27 (R tinggi, F tinggi, M tinggi)
Proses klasisfikasi dengan Fuzzy RFM ini tidak kepada setiap pelanggan yang ada, tetapi ke setiap pusat cluster / centroid hasil dari perhitungan mengunakan metode / algoritma clusetering.
Dataset yang digunakan adalah dataset yang tersedia secara online untuk kebutuhan eksperimen semata yaitu data transaksi dari bulan desember 2010 sampai desember 2011. Berikut sumber dataset yang digunakan:
Dataset ini diolah lagi sehingga menjadi 3 parameter RFM. Khusus untuk parameter Recency, titik tanggal hitung adalah tanggal 1 januari 2012. Misalnya tanggal terbaru transaksi seorang pelanggan itu tanggal 9 desember 2011, maka untuk mendapatkan parameter recency dihitung dengan : 1 januari 2012 dikurangi 9 desember 2011 = 23. Maka parameter Recency untuk pelanggan ini adalah 23.
๐ 1. K-Means
Konsep:
Mengelompokkan pelanggan berdasarkan kedekatan ke pusat cluster (centroid).
๐ 3. HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)
Konsep:
Clustering berbasis kepadatan dan hierarki.
Tidak perlu menentukan jumlah cluster.
Dapat mendeteksi noise atau outlier.
Kelebihan:
Cocok untuk data yang tidak berdistribusi secara merata dan bentuk cluster yang kompleks.
Penerapan pada Fuzzy RFM: Jika ada pelanggan dengan perilaku sangat ekstrem (misalnya F dan M tinggi sekali, tetapi hanya satu transaksi), HDBSCAN bisa mengidentifikasi mereka sebagai anomali atau membentuk cluster khusus.
Cluster -1 adalah noise atau data yang tidak terdapat dalam cluster manapun.
๐ 4. BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
Konsep:
Cocok untuk data berukuran sangat besar.
Membangun pohon fitur (CF tree) dan melakukan clustering secara bertahap.
Kelebihan:
Cepat dan efisien untuk dataset besar.
Penerapan pada Fuzzy RFM: BIRCH dapat digunakan untuk menyegmentasi jutaan pelanggan secara cepat berdasarkan nilai fuzzy RFM tanpa harus memuat seluruh data ke memori.
๐ 5. Gaussian Mixture Models (GMM) dengan Variational Inference
Konsep:
Asumsinya data berasal dari beberapa distribusi normal (Gaussian).
Variational Inference digunakan untuk memperkirakan distribusi parameter secara efisien.
Kelebihan:
Mampu menangkap bentuk cluster yang overlap dan tidak bundar.
Penerapan pada Fuzzy RFM: Jika segmen pelanggan memiliki pola RFM yang tidak homogen (misal loyal tapi monetary-nya tidak terlalu tinggi), GMM mampu mengakomodasi ketidakpastian tersebut dengan model probabilistik.
๐ 6. OPTICS (Ordering Points To Identify the Clustering Structure)
Konsep:
Serupa dengan DBSCAN tetapi tidak perlu memilih radius tetap.
Memberikan struktur urutan dan visualisasi dendrogram-like.
Kelebihan:
Bisa mengidentifikasi cluster dengan kepadatan berbeda-beda.
Penerapan pada Fuzzy RFM: Misal terdapat segmen pelanggan yang sangat aktif tapi kecil jumlahnya โ OPTICS mampu mengenalinya sebagai cluster tersendiri dibanding metode lain yang mungkin menyatukannya.
Cluster -1 adalah noise, yaitu data yang tidak termasuk ke cluster manapun.
๐ 7. Spectral Clustering dengan Approximate Nearest Neighbors
Konsep:
Membangun graf keterhubungan antar data lalu memproyeksikan ke ruang berdimensi rendah.
Approximate Nearest Neighbors (ANN) dipakai untuk mempercepat pencarian tetangga terdekat.
Kelebihan:
Efektif untuk data dengan bentuk cluster non-linier.
Penerapan pada Fuzzy RFM: Jika pelanggan memiliki relasi kompleks seperti perilaku R tinggi tapi F dan M saling bertolak belakang, Spectral Clustering bisa mengelompokkan berdasarkan struktur relasional, bukan sekadar jarak.
Setelah kita melihat hasil masing-masing metode clustering, maka kita perlu melakukan evaluasi perbandingan metodenya. Disini kita akan melakukan evaluasi metric dengan 3 cara, yaitu : 1. Silhouette Score
Sangat baik untuk menentukan jumlah cluster optimal (k).
2. ๐ DaviesโBouldin Index (DBI)
๐ Definisi:
DaviesโBouldin Index mengukur rata-rata dari rasio jarak intra-cluster terhadap jarak antar-cluster, dan digunakan untuk mengevaluasi seberapa baik cluster dipisahkan dan seberapa kompak.
Semakin rendah nilai DBI, semakin baik hasil clustering.
Nilai rendah berarti cluster saling berjauhan dan setiap cluster relatif rapat (kompak).
๐ Kelebihan:
Tidak memerlukan label.
Cepat dihitung dan sensitif terhadap separasi antar cluster.
3. ๐ CalinskiโHarabasz Index (Variance Ratio Criterion)
๐ Definisi:
CalinskiโHarabasz Index mengukur rasio antara variansi antar-cluster (inter-cluster dispersion) terhadap variansi dalam cluster (intra-cluster dispersion).
Ketiga metrik ini sering digunakan secara komplementer, karena masing-masing memiliki sensitivitas yang berbeda terhadap bentuk dan distribusi cluster.
Metrik ini sangat berguna ketika tidak tersedia label (ground truth), seperti pada segmentasi pelanggan menggunakan RFM.
Evaluasi clustering menggunakan ketiga metrik ini sangat direkomendasikan dalam kajian berbasis unsupervised learning dan data mining.
Semoga bermanfaat.
Wassalaam..
Penulis
SELAMAT MULIYADI HARJONO
Ketua HMSI 2024-2025
Nama saya Selamat M. Harjono biasa dipanggil memet. Saya kuliah di Universitas Dumai mengambil jurusan Sistem Informasi karena saya tertarik terhadap teknologi khususnya dibidang IT.
Lihat Profil
SELAMAT MULIYADI HARJONO
Ketua HMSI 2024-2025
Nama saya Selamat M. Harjono biasa dipanggil memet. Saya kuliah di Universitas Dumai mengambil jurusan Sistem Informasi karena saya tertarik terhadap teknologi khususnya dibidang IT. Lihat Profil