Datamining : Association dengan Algoritma Apriori

1. Penjelasan Singkat tentang Algoritma Apriori dalam Data Mining

Apriori adalah salah satu algoritma klasik dalam association rule learning, yang digunakan untuk menemukan frequent itemsets (kumpulan item yang sering muncul bersamaan) dan menghasilkan association rules (aturan asosiasi) dari data transaksi besar, seperti data pembelian pelanggan. 

Prinsip Kerjanya:

  1. Pendekatan bottom-up: dimulai dengan item tunggal (1-itemsets), dihitung frekuensinya (support).
  2. Penggenerasian kandidat: itemset yang memenuhi minimum support dijadikan kandidat untuk itemset yang lebih besar.
  3. Pruning (pemangkasan): berdasarkan lema Apriori property—jika suatu itemset menyertakan subset yang tidak sering muncul (infrequent), maka itemset tersebut tidak perlu diuji lebih lanjut. 
  4. Mengulang proses: hingga tidak ada kandidat baru lagi.
  5. Setelah itemset yang cukup sering ditemukan, aturan asosiasi dihasilkan menggunakan support, confidence, dan terkadang lift untuk mengukur kekuatan asosiasi. 

Metik Utama:

  • Support: seberapa sering itemset muncul dalam keseluruhan transaksi.
  • Confidence: probabilitas bahwa konsekuen muncul jika anteceden muncul.
  • Lift: kekuatan asosiasi dibandingkan dengan kemunculan acak dari konsekuen. 

Kelebihan Apriori terletak pada kesederhanaan dan adaptabilitasnya, namun algoritma ini bisa menjadi sangat berat dan lambat bila dataset besar—karena jumlah kandidat yang dihasilkan dan jumlah pemindaian data yang harus dilakukan cukup banyak. 

2. Rangkuman dan Hasil Analisis 

Cek hasil perhitungan disini : https://tanmarajo.my.id/association/apriori

Perhitungan diatas menggunakan dataset dari kaggle : https://www.kaggle.com/datasets/rukenmissonnier/real-market-data/data

Ringkasan Parameternya:

  • Min Support: 0.1 (10%)
  • Min Confidence: 0.5 (50%)
    halaman menampilkan frequent itemsets dan association rules yang dihasilkan dari algoritma Apriori. 

Frequent Itemsets (Item tunggal yang sering muncul):

  • Breads: 40.7%
  • Bacon: 43.1%
  • Banana: 44.8%
  • Apple: 40.5%
  • Hazelnut: 42.0%
  • Carrot: 41.4%
  • HeavyCream: 41.6%
  • Egg: 40.3%
  • Sugar: 36.6%
  • Honey: 41.6%
     (Artinya, masing-masing item di atas muncul di atas 10% transaksi). 

Statistik Tambahan:

  • Total Rules: 837 aturan asosiasi ditemukan.
  • Max Lift: 1.64 (menunjukkan kekuatan asosiasi paling tinggi yang ditemukan). 

Contoh Aturan Asosiasi yang Muncul:

Beberapa aturan teratas dengan nilai support, confidence, dan lift tinggi antara lain:

  • ('Bacon', 'Cheese') → ('Butter')
    Support: 13.79% | Confidence: 61.54% | Lift: 1.64
  • ('Bacon', 'Sugar') → ('Meat')
    Support: 11.85% | Confidence: 63.22% | Lift: 1.63
  • ('Cheese', 'Onion') → ('Butter')
    Support: 11.64% | Confidence: 60.67% | Lift: 1.62
    Aturan-aturan ini menunjukkan kombinasi item yang sering muncul bersama dan kemungkinan kemunculan item lain yang mengikuti. 

Interpretasi dari Chart atau Tabel:

  • Tabel: Menampilkan daftar aturan asosiatif lengkap dengan metrik penting (support, confidence, lift). Hal ini memungkinkan kita memahami seberapa umum suatu kombinasi terjadi.
  • Visualisasi Rules: Meskipun di halaman tertulis "Visualisasi Rules", yang tampil sebenarnya adalah daftar detail aturan; tidak tampak grafik, hanya tabel aturan yang jelas dan terstruktur.


Penjelasan Metrik:

1. Support (Dukungan)

  • Arti: Persentase jumlah transaksi yang mengandung itemset tertentu dibandingkan dengan seluruh transaksi.
  • Tujuan: Menunjukkan seberapa “populer” suatu kombinasi item di dataset.
  • Rumus:
    Rumus
    Contoh:
    Kalau dari 1.000 transaksi, ada 120 transaksi yang membeli Bacon dan Cheese bersama, maka:
    Contoh

2. Confidence (Kepercayaan)

  • Arti: Probabilitas konsumen membeli item B jika mereka sudah membeli item A.
  • Tujuan: Mengukur kekuatan hubungan arah aturan dari antecedent (kiri) → consequent (kanan).
  • Rumus:
    Rumus
    Contoh:
    Misalnya Bacon dibeli di 200 transaksi, dan Bacon + Butter muncul bersama di 120 transaksi:
    Contoh
    Artinya, 60% pembeli Bacon juga membeli Butter

3. Lift

  • Arti: Rasio confidence terhadap kemungkinan membeli item B secara acak (tanpa mempertimbangkan A).
  • Tujuan: Mengukur seberapa besar kehadiran A meningkatkan peluang terjadinya B dibandingkan jika B terjadi secara acak.
  • Rumus:
    Rumus
    Interpretasi:
    • Lift > 1 → Hubungan positif: kehadiran A meningkatkan peluang B.
    • Lift = 1 → Tidak ada hubungan: A dan B muncul independen.
    • Lift < 1 → Hubungan negatif: kehadiran A justru mengurangi peluang B.
  • Contoh:
    Jika Support(B) = 0.35 (35%) dan Confidence(A→B) = 0.6 (60%):
    Contoh

4. Contoh Interpretasi

Misalnya rule di hasil website:
 (Bacon, Cheese) → (Butter)

  • Support = 13.79% → Kombinasi ini muncul di 13.79% dari seluruh transaksi.
  • Confidence = 61.54% → Dari semua transaksi yang berisi Bacon & Cheese, 61.54% juga membeli Butter.
  • Lift = 1.64 → Peluang orang membeli Butter 64% lebih tinggi jika mereka membeli Bacon & Cheese dibanding pembeli pada umumnya.

Semoga bermanfaat.



Penulis

  • SELAMAT MULIYADI HARJONO
    SELAMAT MULIYADI HARJONO
    Ketua HMSI 2024-2025
    Nama saya Selamat M. Harjono biasa dipanggil memet. Saya kuliah di Universitas Dumai mengambil jurusan Sistem Informasi karena saya tertarik terhadap teknologi khususnya dibidang IT. Lihat Profil
Ikuti Media Sosial Penulis