Recommending data preprocessing pipelines for machine learning applications in production
- Empfehlung von Pipelines der Datenvorverarbeitung für Anwendungen des maschinellen Lernens in der Produktion
Frye, Maik; Schmitt, Robert H. (Thesis advisor); Behr, Marek (Thesis advisor)
1. Auflage. - Aachen : Apprimus Verlag (2023)
Buch, Doktorarbeit
In: Ergebnisse aus der Produktionstechnik 3/2023
Seite(n)/Artikel-Nr.: 1 Online-Ressource : Illustrationen, Diagramme
Dissertation, RWTH Aachen University, 2022
Kurzfassung
Das Zeitalter der Industrie 4.0 ermöglicht die datengetriebene Optimierung von Produktionssystemen. Um einen Mehrwert aus Produktionsdaten zu generieren, werden Modelle des maschinellen Lernens (ML) eingesetzt. Eine entscheidende Voraussetzung für leistungsfähige ML-Modelle ist die Verfügbarkeit von Daten in hoher Qualität. Da die in der Produktion erzeugten Rohdaten verschiedenste Qualitätsmängel aufweisen, ist eine zielgerichtete Datenvorverarbeitung (DPP) erforderlich. Eine der wichtigsten Designentscheidungen in ML-Projekten ist die Wahl geeigneter DPP-Methoden. Der Suchraum vergrößert sich weiter, wenn mehrere DPP-Methoden in DPP-Pipelines konfiguriert werden. Aufgrund der großen Anzahl möglicher DPP-Pipelines wählen Data Scientists Pipelines in der Regel manuell und durch ein Trial and Error Verfahren aus. Daher nimmt DPP heutzutage etwa 80 % der Zeit in ML-Projekten in Anspruch. Um Data Scientists zu unterstützen, wurden Entscheidungsunterstützungssysteme entwickelt, die bei der Auswahl geeigneter DPP-Pipelines helfen, aber keine produktionsspezifischen Anforderungen abdecken. Daraus ergab sich die Hauptforschungs-frage der vorliegenden Dissertation: Kann ein Entscheidungsunterstützungssystem entwickelt werden, das bei der Empfehlung von DPP-Pipelines für ML-Anwendungen in der Produktion unterstützt? Um die Hauptforschungsfrage zu beantworten, wurde ein Meta-Learning-basiertes Entscheidungsunterstützungssystem, Meta-DPP genannt, entwickelt. Meta-DPP stützt sich auf drei Kernkomponenten: den Meta Target Selector, die Meta Features Database und das Meta Modell. Der Meta Target Selector wählt zwischen zwei vorselektierten Mengen von performanten Pipelines, sog. Pipeline Pools, für Klassifizierungs- und Regressionsaufgaben aus. Darüber hinaus speichert die Meta Features Database lernaufgabenspezifische Informationen über den Datensatz, z. B. die Anzahl der Instanzen, sowie Performanzen von ML-Algorithmen und DPP-Pipelines. Das Meta Modell empfiehlt dann eine Pipeline aus dem Pipeline-Pool auf der Grundlage der Meta Features aus der Database. Bei der Anwendung von Meta-DPP kann der Data Scientist, Produktionsexperte oder IT-Experte über eine Benutzeroberfläche seinen Daten-satz, Lernaufgabe, ML-Algorithmus und Informationen zur Erklärbarkeit eingeben. Auf Basis dieser vier Eingaben liefert Meta-DPP eine Rangfolge von Empfehlungen für die DPP-Pipelines aus dem Pool. Die Verifizierung und Validierung zeigte die korrekte Entwicklung und Implementierung von Meta-DPP. Die Validierung an 324 produktiven Anwendungsfällen zeigt außerdem, dass Meta-DPP im Durchschnitt besser abschneidet als essentielle Pipelines, wobei essentielle Pipelines das Funktionieren von ML-Algorithmen durch minimale DPP sicherstellen. Daher wurde die Hauptforschungs-frage positiv beantwortet.
Identifikationsnummern
- DOI: 10.18154/RWTH-2023-01401
- RWTH PUBLICATIONS: RWTH-2023-01401