Blog

Daten-Drift erkennen

30 Jan 2023 - Von Dr. Anna Hildebrandt

Viele Prozesse in modernen Unternehmen basieren auf einem bestimmten Modell ihrer Kund*innen, ihrer Produkte, der Entwicklungs-, Vertriebs-, oder Produktionssituation und ähnlichen Rahmenbedingungen. Tatsächlich ist es oft ein abstraktes Modell mit verschiedenen Modellannahmen, auf deren Basis zum Beispiel eine Produktionslinie eingerichtet wurde und Geschäftsmodelle getestet und validiert wurden.

Über die Zeit verändern sich allerdings die Rahmenbedingungen, wie z.B. Produktionsauslastung, neue Materialien oder Abnutzung von Bauteilen. Die Zeitspanne zwischen der Modellerstellung und Modelltests und dem aktuellen Ist-Zustand wächst und damit die impliziten Anforderungen und Annahmen an das ursprüngliche Modell.

Wird das Modell nicht angepasst, weichen die Modellauswertungen von dem aktuellen Ist-Zustand immer weiter ab. Versteckt in diesen Abweichungen sind z.B. saisonale Effekte, sowie Änderungen auf Grund fundamentaler ökonomischer Umwälzungen wie z.B. jüngst pre- und post-Covid Markt-Situationen aber auch schleichende, zuvor unbekannte Effekte, die sogenannte Daten-Drift. Dahinter können sich Verunreinigungen von Produktionslinien, Abnutzung von Materialien, Qualitätsabfall des Endproduktes, geänderte Lieferketten und ähnliches verbergen.

Für Unternehmen ist es wichtig, eine solche Daten-Drift frühzeitig zu erkennen, deren Ursachen entweder zu identifizieren und entsprechend zu handeln oder das Modell dahingehend anzupassen.

Eine Drift, also eine langsame Veränderung eines Parameters mit der Zeit, kann nicht nur Mittelwerte betreffen, sondern z.B. auch Frequenzen. Periodische Prozesse können so mit der Zeit mehr und mehr von der ursprünglichen Wiederholungsdauer abweisen. Folgt die im Modell betrachtete Größe komplexen Zusammenhängen, besteht also z.B. aus mehreren sich wiederholenden Beiträgen unterschiedlicher Periode und Phase oder aus verschiedenen Prozessen auf unterschiedlichen Zeit- oder Längenskalen, ist eine Drift oft nur schwer zu erkennen. Einfache Regressionen sind i.A. nicht geeignet, um Drift in nicht-trivialen Situationen verlässlich zu identifizieren und von anderen Beiträgen zu trennen.

Im AnoDetect-Projekt entwickeln wir hoch-performante Prozesszerlegungen, die dazu geeignet sind, nicht nur Drift-Prozesse mit hoher Genauigkeit zu bestimmen, sondern gleichzeitig Anomalien verschiedenster Art zu erkennen, ohne einen manuell annotierten Trainingsdatensatz zu benötigen. Hierzu übertragen wir neueste Erkenntnisse aus der Stochastik und der modernen Algorithmik in die Praxis.

Haben auch Sie Probleme, Drift oder Anomalien in Ihren Daten zu erkennen? Sprechen Sie uns an!


Bildnachweis:
Adobe Stock

Dr. Anna Hildebrandt

Anna ist Project Manager und Data Scientist bei Mondata. Nach ihrer Informatik-Promotion im Bereich Machine Learning und Bioinformatik entwickelt Sie bei Mondata Lösungen zur Vereinbarkeit maschineller Lernverfahren mit hohen Datenschutzansprüchen.