Der «Theory Moonshot»

Wir machen es zu unserer Aufgabe, die grossen Fragen zu stellen und die grossen Risiken einzugehen, die mit der Lancierung eines neuen Forschungsgebiets in unserem Bereich einhergehen. Mit den bahnbrechenden Fragestellungen, die wir «Theory Moonshot» nennen, wollen wir die theoretischen Grundlagen für ein vollkommen neues Forschungsgebiet schaffen.
Dabei handelt es sich nicht um einen Top-Down-Prozess, sondern vielmehr um ein langfristiges Bestreben, das auf der spontanen Zusammenarbeit unserer ehrgeizigen, risikofreudigen Forschenden gründet. Mit spezifischen Prozessen geben wir unserem Team den Raum und die Möglichkeit, über bestehende Grenzen hinauszudenken. Bislang haben sich folgende Themen daraus entwickelt.
Jenseits der Zeitskalentrennung:
Viele Algorithmen in den Bereichen Online-Optimierung, Spieltheorie, «Reinforcement Learning» und so weiter basieren zur Ermittlung ihrer theoretischen Eigenschaften auf der Zeitskalentrennung. Grob gesagt kommt dabei ein Teil des Prozesses (mehr oder weniger) in ein Gleichgewicht, bevor ein anderer Teil zum nächsten Schritt ansetzt; dabei macht man sich die Eigenschaften dieses Beinahe-Gleichgewichts zunutze, um beispielsweise hinreichende Bedingungen für die Konvergenz der Methode abzuleiten.
Dabei stellen wir uns die Frage, ob die Zeitskalentrennung tatsächlich notwendig ist oder ob es sich bei deren Einsatz vielleicht eher um mathematische Bequemlichkeit handelt. Für welche Problemklassen können neue, schnellere Algorithmen entwickelt werden, die sich nicht auf die Zeitskalentrennung stützen? Wie sehen diese Algorithmen aus? Und für welche Problemklassen können wir Unmöglichkeitstheoreme beweisen, gemäss denen die Zeitskalentrennung in der Tat erforderlich ist?
«Lifelong Learning Control»:
Zukünftige Steuerungssysteme werden sich mit anderen komplexen datengetriebenen Steuerungssystemen und menschlichen Bedienenden in sich ständig verändernden Umgebungen bewegen. Sie werden sich ständig an sich verändernde Bedingungen anpassen müssen, z. B. an alternde Anlagen oder an dynamische Netzwerkstrukturen. Solche Veränderungen führen zu einer erheblichen Instationarität und zu einer Verschiebung der Verteilung, was die Annahme über die unabhängig und identisch verteilten Zufallsvariablen (u. i. v., engl. i. d. d.) verletzt, die für die meisten Ansätze im Bereich «Machine Learning» zentral ist.
Unser übergeordnetes Ziel ist, eine Theorie der datengetriebenen Steuerungsanpassung für komplexe Systeme zu entwickeln. Dies erfordert, adaptive Steuerung im Zeitalter von modernem «Machine Learning» neu zu denken und die Annahmen von Stationariät, die üblicherweise aus den Bereichen «Deep Reinforcement Learning» und datengetriebene Steuerung stammen, zu überwinden.
Wir untersuchen dieses Thema bereits im Rahmen der Hauptchallenge «Automatisierungs-Enabler», sind aber der festen Überzeugung, dass es die wichtigsten Fragen zu «Lifelong Learning Control» erst noch aufzudecken gilt.