Clustering

Clustering oder “Clusteranalyse” ist die Bezeichnung für eine Kategorie von Algorithmen des maschinellen Lernens, die Daten in ähnliche Gruppen sortieren.

Zurück zum Glossar

Was bedeutet « Clustering»?

Datenobjekte in einem gegebenen Satz können durch Clustering in homogene Klassen eingeteilt werden.

Clustering oder “Clusteranalyse” ist die Bezeichnung für eine Kategorie von Algorithmen des maschinellen Lernens, die Daten in ähnliche Gruppen sortieren.

Diese Gruppen werden als Cluster bezeichnet und werden durch die Bewertung des Algorithmus bestimmt, wie ähnlich die einzelnen Datenteile anderen sind. Der Algorithmus gruppiert diese Teile dann auf der Grundlage ihrer Ähnlichkeit zusammen.

Clustering ist eine Technik des maschinellen Lernens, mit der ähnliche Daten auf der Grundlage ihrer Ähnlichkeit gruppiert werden können. Als unüberwachter Algorithmus erfordert das Clustering keine Vorkenntnisse über die Daten und arbeitet ausschliesslich mit Ähnlichkeiten innerhalb der Daten selbst.

Die Anwendung von Clustering-Algorithmen erfreut sich grosser Beliebtheit und wird für viele verschiedene Zwecke eingesetzt, von der Gruppierung von Kunden oder Produkten bis hin zur Erkennung von Ausreissern im Bankwesen oder der Verwendung als Spam-Filter. In diesem Artikel beginnen wir mit einer Definition von Clustering, bevor wir die verschiedenen Methoden und Algorithmen vorstellen.

Clustering ist eine Möglichkeit, Datenpunkte in Gruppen zu organisieren. Dabei wird nach Ähnlichkeiten in den Daten gesucht, wie Alter oder Geschlecht, und es werden Gruppen identifiziert, die so homogen wie möglich sind. Das bedeutet, dass sich die Mitglieder jeder Gruppe in gewisser Weise ähneln, z. B. dass alle jungen Männer in dieser Gruppe sind.

Das Clustering funktioniert ohne Vorwissen darüber, welche Einträge ähnlich sind, sondern berechnet diese Ähnlichkeiten allein auf der Grundlage der Daten selbst. Das macht es zu einer grossartigen Methode, um Segmente oder Gruppen ohne vorhandenes Wissen zu erstellen und dann Wissen aus diesen Segmenten abzuleiten.

Clustering ist eine Data-Mining-Technik, mit der ähnliche Elemente auf der Grundlage eines Ähnlichkeitsmasses gruppiert werden. Dabei werden Datengruppen gefunden, die einander ähnlicher sind als andere Gruppen.

Es gibt viele Ziele für die Anwendung von Clustering. Die erste Kategorie zielt darauf ab, ähnliche Datenpunkte zu kombinieren und so die Komplexität zu verringern. Die andere Kategorie versucht, Datenpunkte zu identifizieren, die nicht zu einer grossen Gruppe gehören und daher besondere Merkmale aufweisen. Diese Kategorie wird als Ausreissererkennung bezeichnet. In beiden Kategorien ist es das Ziel, ähnliche Gruppen zu identifizieren, um geeignete Massnahmen zu ergreifen.

Es gibt viele verschiedene Themen, bei denen diese Erkenntnis angewendet werden kann. Ob Kundenclustering, Produktclustering, als Betrugserkennung oder als Spamfilter – Clustering ist ein sehr vielseitiger Ansatz im Bereich des maschinellen Lernens und der Datenwissenschaft.