Data Mining

Definition, Funktionsweise & Beratung

Das wichtigste im Überblick

  • Data Mining hilft Ihnen dabei, große Datenmengen zielgerichtet zu verarbeiten.
  • Das Ziel des Data Mining kann von Branche zu Branche variieren.
  • Es gibt verschiedene Data Mining Methoden, die eine Datenanalyse auch von großen Datenmengen ermöglichen.

Nie zuvor wurden so viele Daten in so kurzer Zeit erhoben und gespeichert, wie in den letzten zehn Jahren. Die Tendenz dabei ist weiter steigend. Data Mining kann eine Antwort auf die Frage sein, wie man mit diesen riesigen Mengen an Daten umgehen kann.

Denn klar ist – das Sammeln von Daten allein, ist erst einmal wenig aussagekräftig. Nur wenn die Daten in den richtigen Kontext gestellt und entsprechend ausgewertet werden, können sie Ihnen und Ihrem Unternehmen oder Ihrer Institution dabei helfen, die richtigen Entscheidungen und Schritte aus diesen Daten abzuleiten.

Was genau ist Data Mining eigentlich?

Data Mining ist eine Art der Auswertung von Daten. Dabei werden computergestützte Methoden systematisch angewandt, um Muster, Zusammenhänge und Trends in großen Datenbeständen zu finden. Im Data Mining werden verschiedene Disziplinen wie klassische Informatik, Mathematik und Statistik miteinander kombiniert.

Für die methodische Anwendung des Data Mining greift man auch auf Verfahren aus dem Bereich der künstlichen Intelligenz zurück. Auch maschinelles Lernen spielt hier eine Rolle.

Im Prinzip arbeitet Data Mining Zusammenhänge heraus, die in großen Datenmengen sonst oft nur unter der Oberfläche liegen, und hilft dabei, klare Ziele aus diesen Zusammenhängen zu formulieren. Die so erkannten Muster und Strömungen sind oft eine große Hilfe bei der Entscheidungsfindung in Unternehmen und Institutionen.

Die explorative Datenanalyse kann dabei erheblich von Data Mining profitieren, da ein wesentlicher Punkt der computergestützten Auswertung die Automatisierung ist. Ergebnisse aus dem Data Mining können als Zusammenfassung im Nachgang gezielt analysiert werden, um Entscheidungen zu treffen.

Wie funktioniert Data Mining im Zusammenhang mit großen Datenmengen?

Anders als in der Statistik geht es beim Data Mining nicht um das Testen oder Belegen einer Hypothese, sondern darum, überhaupt erst einmal eine Hypothese aufzustellen. Dazu werden erst einmal komplett ungefilterte Daten verwendet, die damit auch keine grundsätzlich gleiche Grundlage haben.

Die Gleichheiten, Abweichungen und mögliche zukünftige Verhaltensweisen einzelner Gruppen aus diesen Datensätzen herauszufiltern und so aufzuarbeiten, dass man damit möglichst verlässlich arbeiten kann, gehört zu den großen Herausforderungen des Data Mining.

Diese Methoden werden im Data Mining angewandt

Es gibt verschiedene Data Mining Methoden, die jeweils mit einem anderen Ziel eingesetzt werden. Je nach Verfahren werden die Datenbestände auf andere Zusammenhänge hin untersucht. Man unterscheidet dabei ganz klassisch unter den folgenden 5 Data Mining Verfahren.

Klassifikation

Hier werden Muster anhand eines bestimmten Merkmals gesucht. Dieses Merkmal klassifiziert die Daten als zusammengehörige Gruppe und ermöglicht es, daraus entsprechende Schlüsse zu ziehen. Auf diese Art kann beispielsweise eine bestimmte Produktaffinität einzelner Personengruppen herausmodelliert werden.

Je nachdem, wie man hier maschinelles Lernen einsetzt, kann durch entsprechend antrainierte Muster auch eine Prognose über bestimmte Produktaffinitäten getroffen werden.

Prognose

Während in der Klassifikation die Prognose nur ein Nebenprodukt ist, ist im Prognoseverfahren die möglichst genaue Vorhersage für die Zukunft das Kernziel. So sollen hier Prognosen für bestimmte Werte und Kennzahlen im Unternehmen getroffen werden – beispielsweise für den Monatsumsatz oder den möglichen Warenabsatz in bestimmten Monaten.

Gruppierung oder Segmentierung

Gerade im Marketing und in der Kundensegmentierung mit CRM Systemen braucht man klare Hinweise auf Gruppierungen in der eigenen Kundschaft oder in dem Personenkreis, für den man eine Marketingkampagne starten möchte. Hier werden beispielsweise die Kunden eines Unternehmens als große Datenbasis verwendet, die dann in verschiedene künftige Zielgruppen unterteilt wird.

So lassen sich Kampagnen im Marketing viel zielgerichteter planen und durchführen. Das wiederum spart eine Menge Geld im Vergleich zur Werbung im Gießkannenprinzip.

Abhängigkeitsanalyse

Hier werden in den Datensätzen Muster gesucht, die zeigen, dass bestimmte Dinge – wie beispielsweise Waren – in einem unmittelbaren Bezug zueinanderstehen oder eine gewisse Abhängigkeit voneinander aufweisen. Die Warenkorbanalyse ist hier ein Beispiel für die Suche nach solchen Mustern.

Erkenntnisse aus einer solchen Abhängigkeitsanalyse finden Sie beispielsweise oft in großen Online-Shops, wenn Sie Kategorien wie „Kunden, die das kauften, interessierten sich auch für …“ sehen. Die in diesen Kategorien dargestellten Produkte weisen eine gewisse Abhängigkeit oder Verbindung zu dem Produkt, mit dem Sie sich gerade beschäftigen, auf.

Abweichungsanalyse

Manche betrachten die Abweichungsanalyse als Teil der Abhängigkeitsanalyse – letztlich ist sie aber noch einmal ein eigener Schritt für sich. Nach einer Abhängigkeitsanalyse kann über die Abweichungsanalyse herausgefunden werden, welche Objekte von den voneinander abhängigen Objekten im Datensatz abweichen und worin genau diese Abweichung besteht.

Diese Form der Analyse ist beispielsweise dann sinnvoll, wenn einzelne Zielgruppen genauer analysiert werden sollen und der Kundenstamm dafür genauer unter die Lupe genommen wird.

Die Methoden lassen sich in Aufgabentypen gliedern

Jede der genannten Methoden arbeitet mit einem gewissen Ziel. Um herauszufinden, welche Methode am besten zu Ihren Anforderungen passt, kann man die verschiedenen Herangehensweisen in Aufgabentypen unterteilen.

Man unterscheidet dabei zwischen:

  • Potenzialaufgaben
    • Klassifikation
    • Prognose
  • Beschreibungsaufgaben
    • Gruppierung
    • Abhängigkeitsanalyse
    • Abweichungsanalyse

Was haben Data Mining und Big Data miteinander zu tun?

Big Data Analytics ist die Verarbeitung und Analyse von besonders großen Datenmengen, die mit klassischen Methoden und Tools nicht sinnvoll – also nicht in einem vertretbaren zeitlichen Rahmen – effizient verarbeitet werden können.

Data Mining bezieht sich auch auf die Verarbeitung großer Datenmengen, allerdings nicht ausschließlich im Bereich des Big Data. Wer mit Big Data Systemen arbeitet, hat hier nicht nur enorme Datenmengen, sondern auch direkt die technischen Plattformen, die geeignet sind, diese Daten auch zu verarbeiten.

Diese Plattformen basieren unter anderem auf den Systemen des Data Mining. Im Big Data Mining ist das klassische Data Mining aber in der Regel noch einmal speziell weiterentwickelt. Das normale Data Mining ist eher dafür vorgesehen, aus vorhandenen Datensätzen möglichst viele Erkenntnisse zu ziehen und das Vorhandensein verschiedener Zusammenhänge herauszuarbeiten.

So lässt sich Data Mining in der Praxis anwenden

Data Mining kommt in den unterschiedlichsten Bereichen zum Einsatz. Wir zeigen Ihnen im Folgenden ein paar Anwendungsbeispiele für die Analyse von Datenbeständen mit den Algorithmen des Data Mining.

Data Mining im Handel und im E-Commerce

Im Bereich des E-Commerce und des Handels kommt Data Mining in sehr vielen Fällen zur Anwendung. Die hieraus gewonnenen Informationen werden für die Produktentwicklung, die Präsentation der bereits vorhandenen Produkte, die Preisgestaltung und natürlich für die Werbung genutzt. Die folgenden Anwendungen sind dabei besonders interessant:

  • Warenkorbanalyse
  • Absatz- und Bedarfsprognose
  • Customer Lifetime Value Prognosen
  • Preisoptimierungen
  • Empfehlungssysteme
  • Kundensegmentierung
  • Kampagnenoptimierung

Marketing und CRM mit Data Mining

Hier kann Data Mining sowohl im B2B- als auch im B2C-Bereich eingesetzt werden. Im Marketing ist das historische Kundenverhalten und die Zugehörigkeit zu bestimmten Gruppen wichtig, wenn daraus die richtigen Schlüsse für neue Marketingmaßnahmen gezogen werden sollen.

Gut angelernte Data Mining Methoden sind ein wichtiger Schlüssel bei dem Ziel, basierend auf Ihrer Datenbasis, eine echte Personalisierung Ihrer Marketingkampagnen zu erreichen. Die direkte Ansprache jedes einzelnen Kunden mit den Produkten und Informationen, die ihn am ehesten interessieren, ist ein wichtiger Bestandteil moderner und effektiver Marketingstrategien geworden. Vor allem im Online-Handel ist das leicht möglich, weil hier mehr Daten vorhanden sind als im stationären Einzelhandel.

Durch den Einsatz von Data Mining für die Erstellung von Marketingkampagnen ist es möglich, eine langfristige Steigerung des Umsatzes von 5 bis 15 % zu erzielen.

Versicherungen und Banken

Anders als im Handel werden hier keine physischen Produkte angeboten. Der Prozess der Kundenbindung und die allgemeine Kundenbeziehung sind allerdings auch in diesem Bereich sehr wichtige Faktoren. Deshalb kommt Data Mining hier oft für die folgenden Anwendungen zum Einsatz:

  • Kreditlimit-Optimierung
  • Absatz- und Bedarfsprognose
  • Tarifwechsel-Prognose
  • Kundensegmentierung
  • Kundenabwanderungsprognose
  • Next Best Offer

Versorger

Im Bereich der Energieversorgung und der Telekommunikationsunternehmen erfolgt ebenfalls ein Einsatz des Data Mining um vorwiegend das Kundenverhalten zu analysieren, die eigenen Angebote und vor allem die eigenen Marketingstrategien zu optimieren. Die Kundenabwanderungsprognosen und Next Best Offer Prognosen sind hier Anwendungsbeispiele, die oft zum Einsatz kommen.

Produktion

Die möglichst genaue Vorhersage von Ausfällen an Maschinen ist ein wichtiges Themengebiet im Data Mining. Basierend auf den hier gewonnenen Erkenntnissen wird dann eine vorausschauende Wartung – im Fachbegriff „Predictive Maintenance“ – betrieben.

Medizin

Hier können Daten, die eher unstrukturiert daherkommen, wie Bilder beispielsweise, analysiert werden. Dabei wird nach Mustern gesucht, die eine Eingruppierung dieser Bilder zulassen. Das führt zu einer höheren Genauigkeit bei der Diagnose von Krankheiten oder Verletzungen.

Logistik

Die Optimierung von Lieferketten ist in der Logistik ein wichtiges Thema. Hier gibt es folgende Anwendungsfälle für Data Mining:

  • Prognose von logistischen Bewegungen
  • Tourenoptimierung
  • Prognose der Nachfrage
  • Suche nach Abhängigkeiten und Zusammenhängen in Versorgungsketten

Warum ist gerade im Zusammenhang mit Data Mining oft Beratung erforderlich?

Die Methoden im Data Mining sind zwar verwandt mit der Vorgehensweise in der klassischen Statistik – sie gehen aber letztlich doch deutlich über die reine statistische Erhebung hinaus. Da hier eine riesige Menge von Daten und Datensätzen analysiert und ausgewertet wird, sind umfangreiche und komplizierte Algorithmen erforderlich, um am Ende wirklich zum Ziel zu gelangen.

Doch selbst wenn es Ihnen allein gelingt, eine Data Mining Methode anzuwenden und so am Ende aus Ihrem Datenbestand eine Analyse zu ziehen, steht noch immer die Frage nach der Interpretation aus. Denn gerade die Validierung der gewonnenen Daten ist extrem wichtig, um sicherzustellen, dass Ihre Ergebnisse nicht einfach nur auf einem partiellen Phänomen beruhen, für das es außerhalb Ihres Datenbestandes wenig weitere Anhaltspunkte gibt.

Gerade wenn es um die Auswertung des Data Minings und der Zielbildung aus diesen Ergebnissen heraus geht, ist eine Data Mining Beratung besonders wertvoll. Denn eine Fehlinterpretation kann an dieser Stelle schnell einige Hunderttausend Euro oder mehr kosten, wenn basierend auf der falschen Interpretation der Ergebnisse beispielsweise eine groß angelegte Werbekampagne gestartet wird.

Die sechs Phasen effektiven Data Minings

Der Prozess des Data Mining ist in der Regel in sechs Phasen unterteilt. Diese sind:

1) Definition der zu erfüllenden Aufgabe

Hier wird festgelegt, welches Ziel genau mit dem folgenden Data Mining Prozess erreicht werden soll. Davon abhängig muss hier auch bereits die Methode ausgewählt werden.

2) Auswahl und Bereinigung der Datensätze

Anfangs sind die Daten noch nicht bereinigt. Vor der konkreten Analyse müssen allerdings unvollständige und nicht plausible Datensätze entfernt werden, um ein möglichst genaues Ergebnis erzielen zu können.

3) Datenexploration

Hier werden die Daten durch verschiedene Tools der Visualisierung so dargestellt, dass verschiedene Eigenschaften und Gruppierungen für den Betrachter bereits sichtbar werden. Zum Herausfiltern dieser Zusammenhänge werden oftmals Verfahren der KI herangezogen.

4) Modellbildung

Nachdem Muster und Zusammenhänge in der Exploration entdeckt wurden, werden nun Vermutungen und Hypothesen aufgestellt, wie es zu diesen Mustern und Zusammenhängen kommt und wo genau die wirklich relevanten Schnittpunkte liegen.

5) Evaluation

Jetzt kommt Statistik ins Spiel, denn an dieser Stelle müssen die Hypothesen mit den vorhandenen Daten, älteren Analysen und Statistiken abgeglichen werden und es muss geprüft werden, ob sie sich entsprechend bestätigen lassen.

6) Anwendung der Ergebnisse in der Praxis

Im letzten Zug werden die gefundenen und bestätigten Muster genutzt, um das entsprechende Ziel zu erreichen – also beispielsweise für die Erstellung einer zielgerichteten Marketingstrategie