Data Science

Was ist das?

Das wichtigste im Überblick

  • Data Science bietet eine Schnittmenge aus drei verschiedenen Wissensbereichen.
  • In Zeiten von Big Data wird es gerade für global tätige Unternehmen immer schwerer, ohne gezielte Data Science Projekte klare und zielführende Entscheidungen zu treffen.
  • Aufgrund der großen Mengen an Daten, die hier oft verarbeitet werden, sind für Data Science Projekte auch Anwendungen notwendig, die künstliche Intelligenz einsetzen.

Date Science kombiniert verschiedene Wissensgebiete, um aus einer riesigen Menge an Daten Erkenntnisse zu gewinnen, die ein Unternehmen dabei unterstützen können, Entscheidungen zu treffen. Dabei sind folgende theoretische Abläufe besonders wichtig:

  • die Analyse von großen Datenmengen
  • die Identifizierung von Anomalien in den zur Verfügung gestellten Daten
  • die Erstellung einer Prognose von zukünftigen Ereignissen aus der Analyse der vorhandenen Daten

Wie zuverlässig diese Vorhersage am Ende ist, hängt natürlich maßgeblich von den Daten ab, die man am Anfang zur Verfügung gestellt bekommt. Die Herangehensweise selbst spielt allerdings auch eine große Rolle. Wer sich mit der interdisziplinären Wissenschaft des Data Science befasst, wird Data Scientist genannt.

Warum Big Data die Disziplin des Data Science so wichtig macht

Big Data bedeutet nichts anderes als „große Datenmenge“. Damit werden Datensätze gemeint, die so groß geworden sind, dass die menschliche Analysefähigkeit sie nicht mehr erfassen kann. Man spricht heute vom Big Data Zeitalter.

Was damit gemeint ist, zeigt ein Blick in die Statistik. Das Statistikportal Statista hat eine Übersicht des Volumens, der jährlich generierten oder replizierten digitalen Datenmengen weltweit von 2010 bis 2022 veröffentlicht. Außerdem hat man einen Ausblick bis ins Jahr 2027 gewagt.

Im Jahr 2022 wurden 103,66 Zettabyte (zur Verdeutlichung: Ein Zettabyte entspricht einer Milliarde Terabytes) an Daten weltweit generiert oder repliziert. Nur zwei Jahre zuvor – im Jahr 2020 – waren es gerade einmal 64,2 Zettabyte. Noch zwei Jahre zuvor – im Jahr 2018 – produzierten alle Unternehmen und Privatpersonen weltweit „nur“ 22 Zettabyte an Daten im Jahr.

Am Start dieser Kette, im Jahr 2010 und damit noch nicht einmal so weit zurück in der Vergangenheit, generierten die gesamte Unternehmenswelt und alle Privatpersonen weltweit genau 2 Zettabyte an Daten. Die jährliche Zunahme an Daten ist enorm und bis ins Jahr 2027 wird erwartet, dass jährlich fast 300 Zettabyte Daten generiert werden. Diese Entwicklung hat nicht zuletzt mit dem immer weiter wachsenden Phänomen Social Media zu tun.

Das bedeutet, dass die Datenmengen, mit denen Analysten es zu tun bekommen, um ihre Analysen im Interesse von Unternehmen (Beispiel E-Commerce, Marktforschung, Werbung etc.) oder von Instituten (Beispiel Meinungsforschung, Wahlanalysen, Wettervorhersagen etc.) zu machen, immer größer und unübersichtlicher werden.

Deshalb spricht man heute vom Big Data Zeitalter und aus genau diesem Grund ist Data Science heute bereits für Unternehmen ein wichtiger Faktor. Wer jetzt den Zeitpunkt verpasst, auf diesen Zug aufzuspringen, wird schon in wenigen Jahren nicht mehr in der Lage sein, überhaupt datenbasierte Entscheidungen zu treffen.

Die Datenwissenschaft befasst sich mit diesen Disziplinen

Data Science ist die Schnittmenge aus verschiedenen Disziplinen und Wissensgebieten. Die wichtigsten Bereiche sind dabei:

  • Mathematik und Statistik
  • Informatik und Programmieren
  • Fachwissen aus dem jeweiligen zu analysierenden Bereich

Damit Data Science – also die Wissenschaft der Datenanalyse – aber wirklich funktionieren kann, müssen noch drei andere Bereiche mitspielen. Diese sind:

  • Softwareentwicklung
  • Forschung
  • Maschinelles Lernen

Aufgrund der riesigen Zahl an Daten ist es nicht mehr möglich, diese ohne speziell für einzelne Analysemethoden und Herangehensweisen programmierte Software zu analysieren. Die Forschung beschäftigt sich derweil mit den herausgefilterten Anomalien und bringt in der Statistik-Analyse immer wieder neue Ansätze ein.

Maschinelles Lernen, also der Einsatz von KI-gestützten Anwendungen, ermöglicht eine leichtere Analyse und vor allem eine teilweise automatisierte Auswertung. Natürlich nur, wenn die KI-gestützten Anwendungen entsprechend angelernt wurden.

Was genau bringt Data Science eigentlich?

Wenn in Ihrem Unternehmen Entscheidungen getroffen werden sollen, liegen diesem Entscheidungsprozess verschiedene Daten zugrunde. Data Science ist dafür da, aus großen Datenmengen als Erstes die wirklich wichtigen Daten herauszufiltern und dann auf Grundlage dieser Daten eine entsprechende Empfehlung zu geben.

Die vier großen Ziele des Data Science

Die Analyse großer Datenmengen unter den Herangehensweisen des Data Science verfolgt vier Ziele:

Vorhandene Informationen filtern

Aus der riesigen Menge an vorhandenen Daten sollen die Informationen, die für eine sinnvolle Entscheidungsfindung wichtig sind, herausgefiltert werden. Dieser Vorgang ist sehr wichtig, da eine falsche Datenauswahl im Endeffekt zu einem verfälschten oder zumindest einem weniger eindeutigen Ergebnis führen wird.

Außerdem ist es wichtig, dass hier die Auswahl der Daten so unvoreingenommen wie möglich erfolgt. Denn eine nicht ausgewogene Datenauswahl kann die Entscheidungsfindung am Ende in bestimmte Richtung lenken.

Handlungsempfehlungen geben

Die Analyse des Datenbestandes hat das Hauptziel, Entscheidungsträgern Handlungsempfehlungen zu geben, die auf möglichst objektiven Kriterien beruhen und die Anhand einer Prognose bzw. einer errechneten Wahrscheinlichkeit für zukünftige Ereignisse (beispielsweise den prognostizierten Handlungen einer bestimmten Zielgruppe) gegeben werden.

Die Entscheidungsfindung verbessern

Die Datenanalyse und die daraus resultierende Handlungsempfehlung sollen die Grundlagen von Entscheidungen nachhaltig verbessern. Wenn Entscheidungen nicht mehr aufgrund der Meinung einer Person oder einer kleinen Gruppe von Personen getroffen werden, sondern aufgrund klar analysierter und objektiv betrachteter Daten, ist die Erfolgsaussicht deutlich größer.

Abläufe automatisieren und optimieren

Der Ablauf der Datenfilterung, -analyse und anschließenden Erstellung einer Handlungsempfehlung soll nach und nach automatisiert und dadurch zeitlich optimiert werden. Hier kommen KI-gestützte Anwendungen aus dem Bereich des maschinellen Lernens ins Spiel. Die künstliche Intelligenz soll von den Data Scientists letztlich so trainiert werden, dass sie einfache und regelmäßig wiederkehrende Analysen eigenständig durchführen und aus den entsprechenden Ergebnissen passende Handlungsempfehlungen ableiten kann.

Diese Phasen durchläuft ein Data-Science-Projekt in der Regel

Bei einem Data Science Projekt müssen mehrere Phasen durchlaufen werden, damit am Ende eine wirklich aussagefähige Handlungsempfehlung steht.

1) Die Datenaufnahme

Date Science Projekte werden auch als Lebenszyklen bezeichnet. Der Beginn eines jeden Data Science Lebenszyklus ist die Datenerfassung. Diese kann strukturiert aus Tabellen und vorgefertigten Programmen, aber auch unstrukturiert mit Rohdaten aus verschiedenen relevanten Quellen erfolgen. Datenquellen können dabei zum Beispiel sein:

  • Kundendaten (strukturiert)
  • Protokolldateien (unstrukturiert)
  • Videos (unstrukturiert)
  • Audios (unstrukturiert)
  • Bilder (unstrukturiert)
  • soziale Medien (unstrukturiert)

2) Die Datenspeicherung und Datenverarbeitung

Die Daten aus den oben genannten Quellen haben jeweils unterschiedliche Formate und Strukturen. Damit die jeweiligen Daten sinnvoll erfasst werden können, müssen die entsprechenden Speichersysteme zur Verfügung stehen.

Neben der Vereinheitlichung von Daten im Bereich der Formate erfolgt hier auch eine Entfernung von Dubletten und die Verbesserung der Datenqualität im Allgemeinen.

3) Die Datenanalyse

Jetzt geht es darum, erste Verzerrungen, Muster und Anomalien in den Daten zu entdecken. Mit diesen sollen Hypothesen erstellt werden, die dann in verschiedenen Tests auf ihre Richtigkeit überprüft werden. Dabei gehört es unter anderem zu den Aufgaben der Analysten, die Daten nach ihrer Relevanz zu gewichten. Diese Gewichtung spielt bei den Ergebnissen am Ende eine wichtige Rolle, weil hier schon festgelegt wird, welche Daten tatsächlich als relevant zu werten sind und welche eher vernachlässigt werden können.

4) Die Kommunikation der Ergebnisse

Im letzten Schritt müssen die Ergebnisse visualisiert werden. Das geht in Form von Berichten, Statistiken, Diagrammen und anderen Präsentationsmöglichkeiten. Die Ergebnisse werden dann den Entscheidungsträgern präsentiert – entweder durch eine einfache Übergabe des Berichts oder durch eine Präsentation mit Medien wie PowerPoint oder Ähnlichem.

In welchen Branchen kommt Data Science zum Einsatz (Auswahl)?

Marketing

Data Science ist ein mächtiges Werkzeug, wenn es um die Personalisierung von Marketing geht. Um hier für jeden Kunden die Customer Journey so angenehm wie möglich zu gestalten, werden Entscheidungen über die ausgespielten Werbeangebote beispielsweise aufgrund der automatischen Analyse einer Vielzahl von Informationen zum Kunden selbst getroffen.

IT-Security

Die Überwachung von IT-Systemen erzeugt derart große Datenströme, dass hier eine klare Analyse und Gefährdertidentifizierung oder Data Science Anwendungen gar nicht möglich wäre.

Mobilität

Autonomes Fahren hat auf den ersten Blick wenig mit Data Science zu tun. Doch die künstliche Intelligenz, die alle Sensordaten des Fahrzeugs zur Umgebung, Bewegung, Geschwindigkeit, möglichen Gefahrenquellen etc. auswerten soll, muss mit entsprechenden Data Science Anwendungen ausgestattet sein, da die Datenmenge pro Sekunde sonst viel zu groß wäre, um wirklich schnelle und richtige Entscheidungen zu treffen.

Gesundheitsbranche

Data Science ermöglicht es zu analysieren, wie eine Vielzahl verschiedener Patienten auf ein Medikament reagiert haben und welche Dosierung die optimale ist. Auch die beste Behandlung nach einer OP kann durch das Studium der Daten zu einer Vielzahl von Patienten mit der gleichen OP gefunden und immer mehr verfeinert werden.

Versicherungen und Banken

Versicherungsanalysen, Zinsprognosen, Gefahrenanalysen und vieles mehr wird heute im Versicherungs- und Bankwesen mit Data Science Anwendungen durchgeführt. So können Entscheidungen basierend auf einer möglichst breiten Erfahrungs- und Datenbasis getroffen werden.