Agglomerative Hierarchical Clustering

Pengertian

Algoritma AHC atau Agglomerative Hierarchical Clustering adalah sebuah metode pembelajaran yang mana tanpa adanya pengawasan dalam pembelajaran mesin, dimana algoritmanya itu dalam machinelearning dimana ia dapat menarik kesimpulan dari kumpulan data yang didapatkan atau diberikan dengan sendirinya, dengan tidak adanya campur tangan manusia sedikit pun.

Jika kita mengelompokkan dengan menggunakan kata kata sederhana, dimana bisa dibilang kita hanya mempartisi dari suatu kelompok atau data dalam kelompok yang sama dengan kemiripannya itu merupakan pengelompokkan berdasarkan kesaamaan dan perbedaannya. Algoritma AHC ini merupakan salah satu algoritma yang sering digunakan bersama dengan algoritma K-Means

 

Jenis-Jenis Pengelompokkan Dalam AHC

Partisi AHC

Kepadatan dalam datanya

AHC berbasis model distribusi

Pengelompokkan Hirarki

Pengelompokkan Fuzzy

 

Bagaimana Cara Kerjanya

Buatlah sebuah titik data dengan sebagai salah satu dari clusternya tersebut, dengan kita menempatkan N sebagai titik dari datanya, dengan tidak langsung jumlah cluster adalah N

Kita dua titik data atau clusternya itu tersebut yang terdekat dan kita gabungkan menjadi satu cluster dan itu dinamakan cluster N-1

Lalu ambil juga dua cluster terdekat dan kita gabungkan menjadi, maka itu dinamakan cluster N-2

Lakukan juga hal yang sama seperti dengan langkah ketiga untuk kita mendapatkan cluster N-3

Setelah semua cluster digabungkan menjadi satu cluster besar, buatlah dendogram untuk cluster yang bermasalah sesuai apa masalahnya.

 
Bagaimana Cara Mengukur Jarak Antara Cluster

Dimana jarak terdekat antara dua cluster sangat penting di dalam pengelompokkannya itu tersebut, salah satu caranya untuk menghitung ukuran jarak dengan menggunakan Metode Lingkage dengan langkah - langkahnya itu seperti berikut :

Tautan Tunggal dimana itu kita melihat jarak terpendek antara titik terdekat dari cluster yang ada

Tautan Lengkap merupakan jarak terjauh antara dua titik dari dua kelompok yang berbeda, dan merupakan salah satu cara yang populer dan sering digunakan karena menghasilkan data yang lebih rapat dari pada yang Tunggal

Keterkaitan Rata - Rata yaitu metode yang keterkaitan jaraknya itu antar pasangan dataset tersebut kita tambahkan dan kemudian dibagi dengan jumlah total dataset keseluruhannya untuk menghitung jarak rata rata antara dua cluster tersebut

Centroid Lingkage ini merupakan metode keterkaitan dimana jarak antar keduannya centroid tersebut dihitung

 
Dendogram Dalam Pengelompokkan AHC

Dendogram merupakan struktur yang berbetuk seperti pohon yang terutama digunakan untuk menyimpan setiap langkah sebagai memori dalam algoritma AHC, yang mana diumpamakan dalam plot dendogram tersebut ada sumbu Y yang menunjukkan Euclidean antara titik data tersebut dan sumbu X menunujukkan kumpulan data yang diberikan.

 

Pengimplementasian AHC Dalam AHC

Dimana pengimplementasiannya kita akan menggunakan dataset yang mengandung masalah yang ingin diselesaikan, yang mana isinya itu adalah sebuah data, langkah langkah dalam phyton dalam mengolah data tersebut adalah

Pre-pemorosesan Data

Mencari jumlah cluster yang optimal dengan menggunakan Dendogram

Melatih model pengelompokkan hierarkis

Memvisualisasikan cluster tersebut

Comments