Pengertian
Algoritma AHC atau Agglomerative Hierarchical Clustering
adalah sebuah metode pembelajaran yang mana tanpa adanya pengawasan dalam
pembelajaran mesin, dimana algoritmanya itu dalam machinelearning dimana ia
dapat menarik kesimpulan dari kumpulan data yang didapatkan atau diberikan
dengan sendirinya, dengan tidak adanya campur tangan manusia sedikit pun.
Jika kita mengelompokkan dengan menggunakan kata kata
sederhana, dimana bisa dibilang kita hanya mempartisi dari suatu kelompok atau
data dalam kelompok yang sama dengan kemiripannya itu merupakan pengelompokkan
berdasarkan kesaamaan dan perbedaannya. Algoritma AHC ini merupakan salah satu
algoritma yang sering digunakan bersama dengan algoritma K-Means
Jenis-Jenis Pengelompokkan Dalam AHC
Partisi AHC
Kepadatan dalam datanya
AHC berbasis model distribusi
Pengelompokkan Hirarki
Pengelompokkan Fuzzy
Bagaimana Cara Kerjanya
Buatlah sebuah titik data dengan sebagai salah satu dari
clusternya tersebut, dengan kita menempatkan N sebagai titik dari datanya,
dengan tidak langsung jumlah cluster adalah N
Kita dua titik data atau clusternya itu tersebut yang
terdekat dan kita gabungkan menjadi satu cluster dan itu dinamakan cluster N-1
Lalu ambil juga dua cluster terdekat dan kita gabungkan
menjadi, maka itu dinamakan cluster N-2
Lakukan juga hal yang sama seperti dengan langkah ketiga
untuk kita mendapatkan cluster N-3
Setelah semua cluster digabungkan menjadi satu cluster
besar, buatlah dendogram untuk cluster yang bermasalah sesuai apa masalahnya.
Bagaimana Cara Mengukur Jarak Antara Cluster
Dimana jarak terdekat antara dua cluster sangat penting di
dalam pengelompokkannya itu tersebut, salah satu caranya untuk menghitung
ukuran jarak dengan menggunakan Metode Lingkage dengan langkah - langkahnya itu
seperti berikut :
Tautan Tunggal dimana itu kita melihat jarak terpendek
antara titik terdekat dari cluster yang ada
Tautan Lengkap merupakan jarak terjauh antara dua titik dari
dua kelompok yang berbeda, dan merupakan salah satu cara yang populer dan
sering digunakan karena menghasilkan data yang lebih rapat dari pada yang
Tunggal
Keterkaitan Rata - Rata yaitu metode yang keterkaitan
jaraknya itu antar pasangan dataset tersebut kita tambahkan dan kemudian dibagi
dengan jumlah total dataset keseluruhannya untuk menghitung jarak rata rata
antara dua cluster tersebut
Centroid Lingkage ini merupakan metode keterkaitan dimana
jarak antar keduannya centroid tersebut dihitung
Dendogram Dalam Pengelompokkan AHC
Dendogram merupakan struktur yang berbetuk seperti pohon
yang terutama digunakan untuk menyimpan setiap langkah sebagai memori dalam
algoritma AHC, yang mana diumpamakan dalam plot dendogram tersebut ada sumbu Y
yang menunjukkan Euclidean antara titik data tersebut dan sumbu X menunujukkan
kumpulan data yang diberikan.
Pengimplementasian AHC Dalam AHC
Dimana pengimplementasiannya kita akan menggunakan dataset
yang mengandung masalah yang ingin diselesaikan, yang mana isinya itu adalah
sebuah data, langkah langkah dalam phyton dalam mengolah data tersebut adalah
Pre-pemorosesan Data
Mencari jumlah cluster yang optimal dengan menggunakan
Dendogram
Melatih model pengelompokkan hierarkis
Memvisualisasikan cluster tersebut
Comments
Post a Comment