Unterschied zwischen hierarchischem und partiellem Clustering

hierarchische vs. partielle Clusterbildung

Clustering ist eine maschinelle Lernmethode zur Analyse von Daten und zur Aufteilung in Gruppen ähnlicher Daten. Diese Gruppen oder Mengen ähnlicher Daten werden als Cluster bezeichnet. Bei der Clusteranalyse werden Clusteralgorithmen betrachtet, die Cluster automatisch identifizieren können. Hierarchisch und Partiell sind zwei solcher Klassen von Clustering-Algorithmen. Hierarchische Clustering-Algorithmen zerlegen die Daten in eine Hierarchie von Clustern. Paral- lelalgorithmen unterteilen den Datensatz in voneinander disjunkte Partitionen.

Was ist hierarchisches Clustering?

Hierarchische Clustering-Algorithmen wiederholen den Zyklus, entweder kleinere Cluster in größere zu verschmelzen oder größere Cluster in kleinere zu unterteilen. In jedem Fall erzeugt es eine Hierarchie von Clustern, die als Dendogramm bezeichnet werden. Agglomerative Clustering-Strategien verwenden den Bottom-up-Ansatz, Cluster zu größeren zu verschmelzen, während die divisive Clustering-Strategie den Top-Down-Ansatz der Aufteilung in kleinere verwendet. Typischerweise wird der gierige Ansatz verwendet, um zu entscheiden, welche größeren / kleineren Cluster zum Zusammenführen / Teilen verwendet werden. Euklidische Distanz, Manhattan-Distanz und Kosinus-Ähnlichkeit sind einige der am häufigsten verwendeten Metriken der Ähnlichkeit für numerische Daten. Für nicht-numerische Daten werden Metriken wie die Hamming-Distanz verwendet. Es ist wichtig zu beachten, dass die tatsächlichen Beobachtungen (Instanzen) für das hierarchische Clustering nicht benötigt werden, da nur die Matrix der Distanzen ausreicht. Dendogramm ist eine visuelle Darstellung der Cluster, die die Hierarchie sehr deutlich darstellt. Der Benutzer kann je nach dem Grad, an dem das Dendogramm ausgeschnitten wird, eine andere Clusterung erhalten.

Was ist Partitionelles Clustering?

Partitionale Clustering-Algorithmen erzeugen verschiedene Partitionen und bewerten sie dann nach einem Kriterium. Sie werden auch als nicht-hierarchisch bezeichnet, da jede Instanz in genau einem von k sich gegenseitig ausschließenden Clustern platziert ist. Da nur ein Satz von Clustern die Ausgabe eines typischen partiellen Clustering-Algorithmus ist, muss der Benutzer die gewünschte Anzahl von Clustern eingeben (üblicherweise als k bezeichnet). Einer der am häufigsten verwendeten partiellen Clustering-Algorithmen ist der k-means Clustering-Algorithmus. Der Benutzer muss die Anzahl der Cluster (k) vor dem Start angeben und der Algorithmus initialisiert zuerst die Zentren (oder Schwerpunkte) der k Partitionen. Kurz gesagt, k-means Clustering Algorithmus ordnet dann Mitglieder basierend auf den aktuellen Zentren zu und schätzt Zentren basierend auf den aktuellen Mitgliedern neu. Diese zwei Schritte werden wiederholt, bis eine bestimmte Intraclusterähnlichkeitszielfunktion und eine Intraclusterunterschiedlichkeitszielfunktion optimiert sind.Daher ist eine vernünftige Initialisierung von Zentren ein sehr wichtiger Faktor, um qualitativ hochwertige Ergebnisse von partiellen Clustering-Algorithmen zu erhalten.

Was ist der Unterschied zwischen hierarchischem und partiellem Clustering?

Hierarchisches und Partitionelles Clustering hat entscheidende Unterschiede in Laufzeit, Annahmen, Eingabeparametern und resultierenden Clustern. In der Regel ist partielles Clustering schneller als das hierarchische Clustering. Das hierarchische Clustering erfordert nur ein Ähnlichkeitsmaß, während das partielle Clustering stärkere Annahmen wie die Anzahl der Cluster und die initialen Zentren erfordert. Das hierarchische Clustering erfordert keine Eingabeparameter, während Partitionsclusteralgorithmen die Anzahl der Cluster erfordern, die gestartet werden sollen. Hierarchisches Clustering führt zu einer bedeutenderen und subjektiveren Teilung von Clustern, aber partielles Clustering führt zu exakt k Clustern. Hierarchische Clustering-Algorithmen eignen sich besser für kategoriale Daten, solange ein Ähnlichkeitsmaß entsprechend definiert werden kann.