"Das ist eine noch nie dagewesene Überschwemmung": Warum der Fortschritt seines Fachgebiets Yurii Nesterov beunruhigt

Interview
gradient descent
15. August 2023
Der Mathematiker Yurii Nesterov ist einer der Hauptakteure auf dem Gebiet der konvexen Optimierung, die für viele Anwendungen in der Automatisierungstechnik entscheidend ist. Unter anderem dank seiner Durchbrüche dehnt sich dieses Gebiet auf viele andere Disziplinen aus. Damit ist er nicht so glücklich, wie man meinen könnte.
Yurii Nesterov
By Renate Schmid - https://opc.mfo.de/detail?photo_id=6608, CC BY-SA 2.0 de, https://commons.wikimedia.org/w/index.php?curid=31348451

Die ETH Zürich, unterstützt durch den NCCR Automation, hatte kürzlich die Ehre, Yurii Nesterov von der UC Louvain in Belgien zu empfangen. Professor Nesterov war Gastredner am John von Neumann-Symposium über Spieltheorie, und wir haben uns gerne eine Stunde mit ihm zusammengesetzt, um über die vielen Herausforderungen zu sprechen, denen sich die Mathematiker von heute stellen müssen. 

Zunächst ein wenig Hintergrund. Bei der Optimierung geht es oft darum, den kleinstmöglichen Wert für eine Größe zu finden, die von (möglicherweise vielen) Entscheidungsvariablen und Beschränkungen abhängt. Die Suche nach den niedrigsten Kosten für eine Lieferroute kann beispielsweise von der zurückgelegten Entfernung, der verbrauchten Benzinmenge und der benötigten Zeit abhängen und wird durch Strassenrechte wie Einbahnstrassen oder nächtliche Sperrungen eingeschränkt. Wenn es viele solcher Entscheidungsvariablen oder Beschränkungen gibt, ist es in der Regel nur möglich, das Minimum zu finden, indem man einen Computer benutzt, um die Kosten für einen bestimmten Satz von Entscheidungsvariablen mühsam zu berechnen, zu prüfen, ob ein nahegelegener Satz von Entscheidungen zu niedrigeren Kosten führt, und dies zu wiederholen, bis alle nahegelegenen Entscheidungen zu höheren Kosten führen. Eine ausführliche Erläuterung der Grundlagen finden Sie unter What is gradient descent and why should I care?

Nesterov fand einen Weg, diese Art der Optimierung viel schneller durchzuführen, was viele neue Möglichkeiten in den Bereichen Datenwissenschaft, Automatisierung und Steuerung eröffnete. Seine Arbeit hat ihm wichtige Preise eingebracht und zu neuen algorithmischen Methoden geführt, die auf dem "Nesterov-Momentum" basieren. Aber worauf er von all dem am meisten stolz ist, ist keine Frage, die ihm leicht fällt.

"Ich bin seit 45 Jahren in der Optimierung tätig", sagt er. "Das ist eine lange Zeit. Ich hatte Momente, in denen es mir gelungen ist, einige Dinge zu verstehen, aber ich glaube nicht, dass ich sagen kann: 'Das ist das Beste'. Das Schöne an unserem Fachgebiet - Optimierung mit numerischen Methoden - ist, dass man die Fortschritte, die man erzielt hat, wirklich sehen kann. Bevor man anfing, über etwas nachzudenken, hatte man Methoden, mit denen man das Problem irgendwie lösen konnte, und es dauerte eine Stunde, um die Lösung zu finden. Und nach deinem Beitrag ist es nur noch eine Minute. Sie können also sehen, dass Sie etwas Nützliches getan haben."

Und doch gibt es noch so viel mehr zu entdecken. 

Yurii Nesterov at the John von Neumann Symposium

"Ich sehe nur noch mehr Fortschritt"

"Dies ist eine ganz besondere Zeit für die Optimierung", glaubt Nesterov. "Es ist ein Wendepunkt. Vor einigen Jahren haben wir begonnen, die Methoden höherer Ordnung zu untersuchen, und es hat sich gezeigt, dass sie mit der Standard-Optimierungstheorie nicht erklärt werden können. Und jetzt verstehen wir, dass wir in der Standardoptimierung nur den ersten Schritt getan haben, indem wir die Methoden erster Ordnung entwickelt haben. Wenn wir also über Methoden der nächsten Stufe nachdenken, die viel schneller und effizienter sind, müssen wir in gewissem Sinne eine neue und allgemeine Theorie entwickeln, die alle möglichen Situationen und Methoden abdeckt."

Mit "nächsthöherer Ebene" bezieht er sich auf Berechnungen, die auf mehr als der ersten Ableitung beruhen. Ableitungen sind nützlich, da sie die Abwärtsneigung der Optimierungslandschaft anzeigen, aber sie sind auch kostspielig in der Berechnung. Der Trick besteht also darin, die Vorteile zu erhalten und die Kosten zu senken. Wir haben jetzt schon einige sehr ermutigende Beispiele. Es liegt jedoch noch viel Arbeit und Entdeckung vor uns.

"Das war wirklich unerwartet. Normalerweise würde man nach 50 Jahren intensiver Entwicklung denken, dass wir kurz vor dem Ende stehen. Das stimmt aber nicht. Natürlich ist es gut für die nächste Generation, aber für meine ist es ein bisschen enttäuschend!"

Und obwohl die vielen noch zu erledigenden Aufgaben und zu lösenden Probleme aufregend sind, ist Nesterov besorgt über die Zersplitterung seiner Disziplin. 

"Sie verändert sich", räumt er ein. "In gewissem Sinne handelt es sich um eine noch nie dagewesene Überfülle. Es gibt zu viel. In diesem Bereich haben wir in den letzten Jahrzehnten viele verschiedene Methoden entwickelt, die alle noch funktionieren. Wir sagen also nicht: 'Vergiss das, jetzt gibt es eine bessere Methode'. Es gibt sehr viele Methoden, die nützlich und notwendig sind, um zu verstehen, was in diesem Bereich geschieht. Wenn man über Bildung nachdenkt, wie man das alles den Schülern beibringen kann, habe ich keine Ahnung. Für die bestehende Bildungsstruktur ist das definitiv zu viel. 

Er wünscht sich eine stärkere Konzentration auf die Optimierung als eigenständige akademische Disziplin. "Wir brauchen ein spezielles Programm, in dem die Studenten mehr Zeit haben, solche Dinge zu studieren, als sie es an normalen Universitäten haben. Es ist ein sehr interessantes Gebiet, das in den Anfängen der Numerischen Mathematik vor 50 oder 60 Jahren wahrscheinlich unterschätzt wurde. Wenn man sich heute den Platz der Optimierung in der Struktur der Wissenschaft anschaut, ist sie immer komplementär. Es gibt Abteilungen wie Optimierung und Statistik, Optimierung und Operations Research, Optimierung und Optimale Steuerung. Man findet die Optimierung immer als Ergänzung zu etwas. Aber jetzt ist die Optimierung viel größer als all diese Ergänzungen. Sie wächst gewaltig, und ich sehe kein Ende dieses Prozesses. Wir bekommen immer interessantere Probleme, also brauchen wir immer effizientere Methoden für die nächsten Jahrzehnte. Ich sehe nur weitere Fortschritte." 

Nesterov wünscht sich spezialisierte Optimierungsinstitute, in denen Studenten die Möglichkeit haben, ein breites Spektrum von Anwendungen zu erforschen - "von Modellen des rationalen menschlichen Verhaltens und der intuitiven Optimierung bis hin zum optimalen Entwurf mechanischer Strukturen". Und trotz seiner Feststellung, dass es bereits zu viel zu studieren gibt, erwartet Nesterov, dass immer mehr Probleme mit konvexen Optimierungsmethoden behandelt werden. 

Nicht-Konvexität ist nur der erste Schritt - niemals die Antwort

"Als ich anfing, im Bereich Optimierung zu arbeiten, war alles nicht-konvex", sagt er. "Die Leute dachten überhaupt nicht über Konvexität nach. Meine Aufgabe bestand also darin, zu beweisen, dass Konvexität sehr wichtig ist; es ist ein natürliches Konzept, das die Lösbarkeit und die Effizienz der Methoden gewährleistet. In vielen wichtigen Modellen können wir eine versteckte Konvexität erkennen. Sie ist nicht auf Anhieb sichtbar, aber wenn man die richtigen Variablen und Systemkoordinaten einführt, wird sie konvex. 

"Wenn es keine Konvexität gibt, können wir nur das lokale Minimum finden. Wir wissen nicht, wie viele andere lokale Minima es gibt, und ob sie besser sind oder nicht. In gewisser Weise widerspricht dies dem eigentlichen Ziel der Forschung. Bevor wir die Situation untersucht haben, kannten wir die beste Antwort nicht. Und danach, bei einem nicht-konvexen Problem, wissen wir es immer noch nicht. Wir können uns in nichts sicher sein. Was ist also der Sinn? Es ist sehr einfach, nicht-konvexe Probleme zu bekommen, aber für mich bedeutet das, dass wir nicht genug nachgedacht haben. Der letzte Schritt, nämlich zu sagen, dass das Problem gelöst ist, führt uns zu konvexen Formulierungen. Nicht-Konvexität ist nur der erste Schritt."

Das ist ein interessanter Punkt, und eine Herausforderung. Und natürlich ist er für viele Arbeiten, die derzeit durchgeführt werden, sehr relevant. "Dies geschieht mit Neuronalen Netzen. Es ist ein sehr populäres Gebiet, mit vielen Veröffentlichungen und so weiter. Aber die Modelle sind nicht konvex. Die Leute wenden verschiedene Algorithmen für die Nicht-Konvexität an - wir verstehen immer noch nicht, was passiert. Es gibt kein konvexes Modell in diesem Bereich. Es wird getan, wenn dieses konvexe Modell gefunden werden kann". 

Für Nesterov ist die Optimierung "eine Art Philosophie der Numerischen Mathematik". 

"Viele Dinge können durch Optimierung erklärt werden. Viele Prozesse in der Gesellschaft oder auch in der Natur. Wir sehen sie nicht, weil wir Teilnehmer dieser Prozesse sind. Aber sie sind wirklich sehr effizient. Schauen Sie sich das rationale Verhalten der Menschen im sozialen Leben an. Das ist die interessanteste Frage für die Zukunft: herauszufinden, wie das alles funktionieren könnte, angesichts einer verzeihlichen Schwäche der normalen Menschen sogar in der Arithmetik." 

Das ist es, was ihn an der Mathematik reizt: die reale Anwendbarkeit der numerischen Modellierung; die Fähigkeit, sogar die Zukunft vorherzusagen, die Ergebnisse mit realen Ereignissen zu vergleichen und das Modell entsprechend anzupassen. Und deshalb kann er sich nicht vorstellen, etwas anderes als Mathematiker geworden zu sein.

"Wichtig ist, dass man beweisen kann, dass man Recht hat", argumentiert er. "Das ist nur in der Mathematik möglich. In anderen Bereichen ist das nur in verbaler Form möglich, was oft nicht sehr überzeugend ist. Wenn man ein Theorem beweist, dann hat man ein für alle Mal ein solides Fundament."