Inhaltszusammenfassung:
Gleichungen sind in den Naturwissenschaften unverzichtbar um Phänomene und deren zugrunde liegende Prinzipien zu beschreiben. Auch im Ingenieurwesen, zum Beispiel bei der modellprädiktiven Kontrolle, sind sie essenziell zur Darstellung komplexer Systeme.
Das Erlernen solcher Modelle auf automatisierte Weise wird als Gleichungslernen bezeichnet.
Im Forschungsbereich des Machinellen Lernens werden meist undurchsichtige Modelle geliefert.
Hier gewinnt Gleichungslernen für die Erklärbarkeit dieser Modelle immer mehr an Bedeutung.
Diese Arbeit stellt neue Deep-Learning-Algorithmen vor, um Gleichungslernen mit Neuronalen Netzen
für reale Anwendungen in Wissenschaft und Technik zu skalieren. Diese Dissertation gliedert sich in drei konzeptionelle Teile.
Der erste umfasst Strategien zur Verbesserung der Ausdrucksfähigkeit und zur Stabilisierung des
Trainings.
Funktionen mit eingeschränkten Bereichen und Singularitäten, wie Logarithmen und Division, stellen
beim Gleichungslernen eine Herausforderung dar, da diese zu instabilem Training führen können.
Unsere robuste Trainingsmethode ermöglicht es den Netzen mit solchen atomaren Funktionen, die Singularitäten besitzen,
umzugehen. Die Methode ist daher ein wichtiger Schritt in Richtung realer Anwendungen.
Normalerweise erfordert die Berechnung der Pareto-Front eine Suche über
Netzwerkarchitekturen mit unterschiedlicher Anzahl von versteckten Schichten.
Durch Hinzufügen von Kopiereinheiten kann diese umfangreiche Suche vermieden werden.
Zusammen mit einer probabilistischen L0 Regularisierung bilden diese Methoden
die Basis zur Einbindung von Fach- und Expertenwissen in das Gleichungslernen.
Der zweite Teil konzentriert sich auf die Einbindung von Fach- und Expertenwissen in das Gleichungslernen.
Expertenwissen kann die Suche
nach besseren Gleichungen leiten und beschleunigen, was für komplexe Datensätze essenziell ist.
Das von uns entwickelte gleichungslernende neuronale Netz (iEQL) schließt
bestimmte Kombinationen von Funktionen aus und verwendet ein benutzerabhängiges
Gewichtungsschema um bestimmte Funktionstypen während des Trainings zu bevorzugen.
Die Anwendung des Verfahrens wird anhand mehrerer künstlicher und realer Datensätze
aus dem Ingenieurwesen demonstriert,
in denen der iEQL plausible und erklärbare Modelle mit hoher Vorhersagekraft gelernt hat.
Der dritte Teil befasst sich mit Unsicherheitsquantifizierung für das Gleichungslernen.
Inspiriert durch den automatischen Statistiker, werden einfache, aber effektive Formen
des Bayes'schen Deep Learnings verwendet, um eine strukturierte und erklärbare Unsicherheit
über eine Reihe plausibler Gleichungen aufzubauen. Daher werden zwei Komponenten der Unsicherheit
identifiziert (i) globale Unsicherheit, bedingt durch strukturelle Unterschiede der Gleichungen
und (ii) lokale Unsicherheit, bedingt durch parametrische Unsicherheit
innerhalb einer Gleichungsstruktur.
Die identifizierte Unsicherheit wird mit einer Kombination aus
Laplace-Approximationen modelliert, wobei jede Komponente eine andere Gleichungsstruktur erfasst,
und die lokale Laplace-Approximation erfasst jeweils die parametrische Unsicherheit einer Gleichung.
Seine Anwendung wird anhand von künstlichen Beispielen und zwei realen Datensätzen demonstriert.
Diese Fortschritte tragen gemeinsam zu dem übergeordneten Ziel bei, symbolische Regression so zu verbessern,
dass sie den Anforderungen moderner Anwendungen in Industrie und Forschung gerecht wird.
Abstract:
Equations are not only key to describing phenomena and their underlying principles in the natural sciences, but also play an important role in the engineering domain, e.g. in model-predictive control or as components describing complex systems. The task of learning equation-based models in an automated fashion is referred to as symbolic regression. Within the broader field of interpretability, this approach is becoming increasingly important for machine learning, which mostly generates black-box models. This thesis studies a differentiable relaxation to symbolic regression called equation learning and proposes new deep learning algorithms for scaling it to realistic settings in science and engineering. The thesis is structured in three conceptual parts.
The first part describes strategies to enhance expressivity and to stabilize training. Important atomic functions such as logarithm and division have restricted domains and singularities that lead to unstable training, making them difficult to discover. Our robust training method enables networks to deal with such atomic functions with singularities, which is an important step towards real-world applications. Normally, the computation of the Pareto front requires a search over network architectures with different numbers of hidden layers. This extensive search can be avoided by adding copy units. Together with a probabilistic L0 regularization scheme, these methods form the basis for incorporating domain and expert knowledge into equation learning, which is considered in more detail in the second conceptual part.
The second part focuses on incorporating expert knowledge into equation learning. Domain-specific knowledge provided by experts can, in principle, guide and accelerate the search for better equations. This is of particular interest for complex datasets with a huge search space of possible equations. We call the resulting approach 'informed equation learning neural network' (iEQL). Expert knowledge is incorporated by prohibiting certain combinations of functions within the neural network architecture. By utilizing a user-dependent weighting scheme that favors certain types of functions, the search for equations during training can be guided. Its application to several artificial and real-world experiments from the engineering domain is studied. The iEQL is shown to learn plausible and interpretable models with high predictive power.
The third part deals with uncertainty quantification for equation learning. Inspired by the automatic statistician, simple but effective forms of Bayesian deep learning are used to build structured and interpretable uncertainty over a set of plausible equations. Thus, two components of uncertainty have been identified: (i) global uncertainty, given by the differences in structure of each equation, and (ii) local uncertainty, given by the parametric uncertainty within one equation structure. Specifically, a mixture of Laplace approximations is used. Each mixture component captures a different equation structure, and the local Laplace approximation captures the corresponding parametric uncertainty. The approach is applied to toy examples and two real-world datasets.
These advances collectively contribute to the overarching objective of enhancing symbolic regression methods to align with the demands of contemporary applications in industry and research.