Verschil tussen hiërarchische en partiële clustering

Verschil tussen hiërarchische en partiële clustering
Verschil tussen hiërarchische en partiële clustering

Video: Verschil tussen hiërarchische en partiële clustering

Video: Verschil tussen hiërarchische en partiële clustering
Video: Snapje? ft. Kenny B - Kilo, pond en ons | Het Klokhuis 2024, November
Anonim

Hiërarchische versus partiële clustering

Clustering is een machine learning-techniek om gegevens te analyseren en op te delen in groepen van vergelijkbare gegevens. Deze groepen of sets van vergelijkbare gegevens worden clusters genoemd. Clusteranalyse kijkt naar clusteringalgoritmen die clusters automatisch kunnen identificeren. Hiërarchisch en Partitioneel zijn twee van dergelijke klassen van clusteralgoritmen. Hiërarchische clusteringalgoritmen verdelen de gegevens in een hiërarchie van clusters. Partitionele algoritmen verdelen de dataset in onderling onsamenhangende partities.

Wat is hiërarchische clustering?

Hiërarchische clusteringalgoritmen herhalen de cyclus van het samenvoegen van kleinere clusters tot grotere of het verdelen van grotere clusters in kleinere. Hoe dan ook, het produceert een hiërarchie van clusters die een dendogram wordt genoemd. Agglomeratieve clusteringstrategie maakt gebruik van de bottom-upbenadering van het samenvoegen van clusters tot grotere, terwijl de verdeeldheidsgerichte clusterstrategie de top-downbenadering gebruikt om op te splitsen in kleinere. Meestal wordt de hebzuchtige benadering gebruikt om te beslissen welke grotere/kleinere clusters worden gebruikt voor het samenvoegen/delen. Euclidische afstand, Manhattan-afstand en cosinus-overeenkomst zijn enkele van de meest gebruikte metrieken voor overeenkomst voor numerieke gegevens. Voor niet-numerieke gegevens worden metrieken zoals de Hamming-afstand gebruikt. Het is belangrijk op te merken dat de feitelijke waarnemingen (instanties) niet nodig zijn voor hiërarchische clustering, omdat alleen de matrix van afstanden voldoende is. Dendogram is een visuele weergave van de clusters, die de hiërarchie heel duidelijk weergeeft. De gebruiker kan verschillende clustering verkrijgen, afhankelijk van het niveau waarop het dendogram wordt gesneden.

Wat is partiële clustering?

Gedeeltelijke clusteringalgoritmen genereren verschillende partities en evalueren ze vervolgens op basis van een bepaald criterium. Ze worden ook niet-hiërarchisch genoemd omdat elke instantie in precies één van k elkaar uitsluitende clusters wordt geplaatst. Omdat slechts één set clusters de uitvoer is van een typisch partitieclusteralgoritme, moet de gebruiker het gewenste aantal clusters invoeren (meestal k genoemd). Een van de meest gebruikte partitionele clusteringalgoritmen is het k-means clusteringalgoritme. De gebruiker moet het aantal clusters (k) opgeven voordat hij begint en het algoritme initieert eerst de centra (of zwaartepunten) van de k-partities. In een notendop, k-means clustering-algoritme wijst vervolgens leden toe op basis van de huidige centra en herschat centra op basis van de huidige leden. Deze twee stappen worden herhaald totdat een bepaalde doelfunctie voor overeenkomst tussen clusters en doelfunctie voor ongelijkheden tussen clusters zijn geoptimaliseerd. Daarom is een verstandige initialisatie van centra een zeer belangrijke factor bij het verkrijgen van kwaliteitsresultaten van algoritmen voor partitieclustering.

Wat is het verschil tussen hiërarchische en partiële clustering?

Hiërarchische en partiële clustering hebben belangrijke verschillen in looptijd, aannames, invoerparameters en resulterende clusters. Partitioneel clusteren is doorgaans sneller dan hiërarchisch clusteren. Voor hiërarchische clustering is alleen een overeenkomstmaat nodig, terwijl voor partitionering sterkere aannames nodig zijn, zoals het aantal clusters en de initiële centra. Voor hiërarchische clustering zijn geen invoerparameters vereist, terwijl algoritmen voor partitieclustering het aantal clusters vereisen om te starten. Hiërarchische clustering geeft een veel zinvollere en subjectievere verdeling van clusters, maar partitionele clustering resulteert in precies k clusters. Hiërarchische clusteringalgoritmen zijn meer geschikt voor categorische gegevens, zolang een overeenkomstmaatstaf dienovereenkomstig kan worden gedefinieerd.

Aanbevolen: