Sarah Stemmler arbeitet freiberuflich als Data Scientist und hat für die Malt Academy kürzlich ein Webinar über Data Science gehalten. Im Interview erzählt sie uns von ihrem Beruf, typischen Anwendungsfällen und erklärt welche Fähigkeiten und Kenntnisse man als Data Scientist braucht.

Was macht eigentlich ein Data Scientist?

Sarah: Als Freelancer arbeitet man meist an Projekten für Kunden. Für einen Data Scientist geht es zunächst darum das Geschäftsmodell, sowie die konkrete Fragestellung zu verstehen. Zur Beantwortung der Fragen werden Daten analysiert, mathematische/statistische Modelle entwickelt und diese ggf. visualisiert. Das Ziel ist meistens, Daten besser oder schneller zu verstehen, die Planung zu optimieren, oder konkrete Handlungsempfehlungen zu geben.

Was sind typische Anwendungsfälle im Bereich Data Science?

Sarah: Die Anwendungsfälle sind für jeden Kunden sehr individuell. Es gibt jedoch einige Muster. Die visuelle Aufbereitung von Daten dient häufig dazu Zusammenhänge schneller erkennen zu können. Ein Beispiel ist den Absatz von 7er BMWs in Abhängigkeit von der regionalen Kaufkraft darzustellen – welche Muster lassen sich erkennen?

Ökonomische Planungsmodelle dagegen helfen Managern bessere Entscheidungen zu treffen oder genauer zu planen. Hierzu vielleicht ein Fallbeispiel: Wenn das Wetter gut ist, kaufen Kunden beim Bäcker mehr Obstkuchen, vor Feiertagen ist der Absatz insgesamt höher, an Feiertagen selbst werden mehr belegte Brötchen gekauft. Ein Modell das mit den richtigen Parametern gespeist ist, kann helfen zwei Situationen zu vermeiden: Der Bäcker hat zu wenig von einem Produkt im Laden, die Kunden sind unzufrieden und der Bäcker hat weniger Umsatz. Oder aber, er hat zu viel und muss Lebensmittel wegschmeißen. Je genauer man die tatsächliche Nachfrage pro Produkt vorhersagen kann, desto ökonomischer und nachhaltiger ist es.

Ein letztes Beispiel wäre die Entwicklung eines Validierungsverfahrens für eine Bilderkennungssoftware mit dem Ziel nicht gewünschte Inhalte von einer Internetplattform automatisiert zu entfernen. Hier besteht die Herausforderung folgende zwei Fehler zu vermeiden:

  • Ein Bild wird entfernt, ist aber eigentlich okay
  • Ein Bild wird nicht entfernt, enthält aber unangemessenen Inhalt.

Mit Ansätzen des maschinellen Lernens wird ein mathematisches Modell anhand von Beispieldaten trainiert. So lernt das Modell wie ein Bild aussieht, das unangemessen Inhalt enthält und entfernt werden soll.

Wie kann man sich den typischen Tagesablauf von einem Data Scientist vorstellen?

Sarah:Die Arbeit variiert sehr stark über Projektphasen hinweg und häufig plane ich mir spezifische Zeiten am Tag für bestimmte Themen ein. Tatsächlich ist aber jedes Projekt unterschiedlich.

Im Normalfall beginne ich damit die allgemeine Zielsetzung des Kunden zu verstehen und daraus ein Projektziel zu definieren. Wenn Datenquellen vom Kunden bereits vorhanden sind, kann man mit der Bereinigung und Aufbereitung direkt loslegen. Oftmals fehlen jedoch noch weitere Daten, die zunächst bezogen werden müssen. Erste Analysen schließen an um die Daten besser zu verstehen. Je nach Projektart, werden dann Daten modelliert. Bevor die Ergebnisse dem Kunden vorgestellt werden, bereite ich diese dann grafisch auf – zum Beispiel in einem Dashboard oder einer App.

Innerhalb eines Tages versuche ich mir Blöcke zu legen – entweder “deep focus time”, in denen ich konzentriert an den Daten arbeite, oder aber “casual time”, wo es darum geht mich mit Kollegen und Kunden abzustimmen. So könnte ein idealtypischer Tag für mich aussehen.