"Il s'agit d'un débordement sans précédent" : Pourquoi les progrès de son domaine inquiètent Yurii Nesterov
L'ETH Zurich, soutenue par le PRN Automation, a récemment eu l'honneur d'accueillir Yurii Nesterov de l'UC Louvain en Belgique. Le professeur Nesterov était un orateur invité au Symposium John von Neumann sur la théorie des jeux, et nous avons eu le plaisir de nous asseoir avec lui pendant une heure pour parler des nombreux défis auxquels sont confrontés les mathématiciens d'aujourd'hui.
Tout d'abord, un peu d'histoire. En optimisation, l'objectif est souvent de trouver la valeur minimale pour une quantité qui dépend de (éventuellement nombreuses) variables de décision et de contraintes. Par exemple, la recherche du coût le plus bas pour un itinéraire de livraison peut dépendre de la distance parcourue, de la quantité d'essence utilisée et du temps nécessaire, et elle est limitée par les droits de circulation, tels que les rues à sens unique ou les fermetures nocturnes. Lorsqu'il existe un grand nombre de variables de décision ou de contraintes, la recherche du minimum n'est généralement possible qu'en utilisant un ordinateur pour calculer laborieusement le coût pour un ensemble particulier de variables de décision, vérifier si un ensemble de décisions proches donne un coût inférieur, et répéter l'opération jusqu'à ce que toutes les décisions proches donnent un coût supérieur. Pour une explication complète, voir What is gradient descent and why should I care?
Nesterov a trouvé un moyen d'effectuer ce type d'optimisation beaucoup plus rapidement, ouvrant ainsi de nombreuses possibilités dans les domaines de la science des données, de l'automation et du contrôle. Ses travaux lui ont valu des prix importants et ont conduit à de nouvelles méthodes algorithmiques basées sur le "momentum de Nesterov". Mais la question de savoir ce dont il est le plus fier n'est pas une question avec laquelle il se sent à l'aise.
"Cela fait 45 ans que je travaille dans le domaine de l'optimisation", déclare-t-il. "C'est une longue période. J'ai eu des moments où j'ai réussi à comprendre certaines choses, mais je ne pense pas pouvoir dire "c'est le meilleur". Ce qui est bien dans notre domaine - l'optimisation avec des méthodes numériques - c'est que vous pouvez vraiment voir les progrès que vous avez réalisés. Avant que vous ne commenciez à réfléchir à quelque chose, vous disposiez de méthodes capables de résoudre le problème d'une manière ou d'une autre, et il fallait une heure pour trouver la solution. Après votre contribution, ce délai a été ramené à une minute. Vous voyez donc que vous avez fait quelque chose d'utile".
Et pourtant, il reste encore beaucoup à découvrir.
"Je ne vois que des progrès à faire"
"Nous vivons une période très spéciale pour l'optimisation", estime M. Nesterov. "C'est un tournant. Il y a plusieurs années, nous avons commencé à étudier les méthodes d'ordre supérieur, et il s'avère qu'elles ne peuvent pas être expliquées par la théorie standard de l'optimisation. Et maintenant, nous comprenons que dans l'optimisation standard, nous n'avons fait que la première étape en développant les méthodes du premier ordre. Ainsi, si nous pensons aux méthodes du niveau suivant, qui sont beaucoup plus rapides et plus efficaces, nous devons en quelque sorte développer une théorie nouvelle et générale, qui couvre toutes les situations et méthodes possibles".
Par "niveau supérieur", il entend les calculs qui reposent sur plus que la dérivée première. Les dérivées sont utiles car elles vous indiquent la pente descendante du paysage d'optimisation, mais elles sont également coûteuses à calculer. L'astuce consiste donc à conserver les avantages et à réduire les coûts. Nous disposons déjà de plusieurs exemples très encourageants. Toutefois, il reste encore beaucoup de travail et de découvertes à faire.
"C'était vraiment inattendu. Habituellement, après 50 ans de développements intensifs, on pourrait penser que nous sommes proches de la fin. Ce n'est pas le cas. Bien sûr, c'est une bonne chose pour la prochaine génération, mais pour la mienne, c'est un peu décevant !
Et pourtant, si les vastes étendues de travail qui restent à accomplir et les problèmes qui restent à résoudre sont passionnants, Nesterov s'inquiète de la fragmentation de sa discipline.
"Elle est en train de changer", admet-il. "Dans un certain sens, il s'agit d'un débordement sans précédent. Il y a trop de choses. Dans ce domaine, au cours des dernières décennies, nous avons obtenu de nombreuses méthodes différentes, et toutes fonctionnent encore. Nous ne disons donc pas : "Oubliez ça, il y a maintenant une meilleure méthode". De très nombreuses méthodes sont utiles et nécessaires pour comprendre ce qui se passe dans ce domaine. Si vous pensez à l'éducation, je n'ai aucune idée de la manière dont vous pouvez enseigner tout cela aux étudiants. Pour la structure éducative existante, c'est vraiment trop."
Il souhaite que l'optimisation soit davantage considérée comme une discipline universitaire à part entière. "Nous avons besoin d'un programme spécial où les étudiants disposent de plus de temps pour étudier ce genre de choses que dans les universités classiques. C'est un domaine très intéressant, qui a probablement été sous-estimé au début des mathématiques numériques, il y a 50 ou 60 ans. Aujourd'hui, la place de l'optimisation dans la structure scientifique est toujours complémentaire. On trouve des départements comme Optimisation et statistiques, Optimisation et recherche opérationnelle, Optimisation et contrôle optimal. L'optimisation vient toujours s'ajouter à quelque chose. Mais aujourd'hui, l'optimisation est bien plus importante que tous ces ajouts. Elle se développe énormément et je ne vois pas de fin à ce processus. Les problèmes sont de plus en plus intéressants et nous avons donc besoin de méthodes de plus en plus efficaces pour les prochaines décennies. Je ne vois que des progrès à faire".
M. Nesterov souhaiterait voir apparaître des instituts spécialisés dans l'optimisation, où les étudiants auraient la possibilité d'étudier un large éventail d'applications, "des modèles de comportement humain rationnel et de l'optimisation intuitive à la conception optimale de structures mécaniques". Et même s'il estime qu'il y a déjà trop de choses à étudier, M. Nesterov s'attend à ce que de plus en plus de problèmes soient traités à l'aide des méthodes d'optimisation convexe.
La non-convexité n'est qu'une première étape - jamais la solution
"Lorsque j'ai commencé à travailler dans le domaine de l'optimisation, tout était non-convexe", explique-t-il. "Les gens ne pensaient pas du tout à la convexité. Mon activité a donc consisté à prouver que la convexité était très importante ; il s'agit d'un concept naturel qui garantit la solvabilité et l'efficacité des méthodes. Aujourd'hui, dans de nombreux modèles importants, nous pouvons voir une convexité cachée. Elle n'est pas visible immédiatement, mais si vous introduisez les bonnes variables et les coordonnées du système, il devient convexe.
"S'il n'y a pas de convexité, nous ne pouvons trouver que le minimum local. Nous ne savons pas combien il y a d'autres minima locaux, ni s'ils sont meilleurs ou non. Dans un sens, cela contredit l'objectif intrinsèque de la recherche. Avant d'étudier la situation, nous ne connaissions pas la meilleure réponse. Et après, avec un problème non convexe, nous ne savons toujours pas. Nous ne pouvons être sûrs de rien. Quel est donc l'intérêt ? C'est très facile d'avoir des problèmes non-convexes mais pour moi, ça veut dire qu'on n'a pas assez réfléchi. L'étape finale, qui consiste à dire que le problème est résolu, est celle des formulations convexes. La non-convexité n'est que la première étape".
C'est un point intéressant, et un défi. Et bien sûr, il est tout à fait pertinent pour une grande partie du travail effectué actuellement. "C'est ce qui se passe avec les réseaux neuronaux. C'est un domaine très populaire, qui fait l'objet de nombreux articles, etc. Mais les modèles ne sont pas convexes. Les gens appliquent différents algorithmes pour la non-convexité - nous ne comprenons toujours pas ce qui se passe. Il n'existe pas de modèle convexe dans ce domaine. Ce sera fait lorsque ce modèle convexe pourra être trouvé".
Pour Nesterov, l'optimisation est "une sorte de philosophie des mathématiques numériques".
"Beaucoup de choses peuvent être expliquées par l'optimisation. Beaucoup de processus dans la société, ou même dans la nature. Nous ne les voyons pas, parce que nous participons à ces processus. Mais ils sont vraiment très efficaces. Regardez le comportement rationnel des gens dans la vie sociale. C'est la question la plus intéressante pour l'avenir : trouver comment tout cela pourrait fonctionner, en tenant compte d'une faiblesse pardonnable des gens normaux, même en arithmétique".
C'est ce qui l'a attiré vers les mathématiques : l'applicabilité de la modélisation numérique dans le monde réel ; la possibilité de prédire l'avenir, de vérifier les résultats par rapport à des événements réels et d'adapter le modèle en conséquence. Et c'est pourquoi il ne peut imaginer avoir été autre chose qu'un mathématicien.
"Ce qui est important, c'est de prouver que l'on a raison", affirme-t-il. "Seules les mathématiques le permettent. Les autres domaines se contentent d'une forme verbale, qui n'est souvent pas très convaincante. Lorsque vous prouvez un théorème, vous obtenez une base solide une fois pour toutes".
La malédiction de la technologie
Si le domaine de l'optimisation a prospéré grâce à l'augmentation de la puissance de calcul disponible aujourd'hui, M. Nesterov ne considère pas les ordinateurs comme la solution ultime. En fait, ils posent leurs propres problèmes et suscitent une confiance (peut-être injustifiée).
"Si vous les utilisez correctement, ils sont utiles, mais nous devrions expliquer aux étudiants qu'il ne faut pas faire aveuglément confiance aux ordinateurs", prévient-il. "Les ordinateurs vous donnent le résultat final des calculs, et si ce processus n'est pas stable, s'il y a du bruit ou autre, l'ordinateur peut se tromper du tout au tout. Revenons à la théorie de la complexité, par exemple. Il existe peut-être un résultat qui dit qu'en un certain temps, nous pouvons être proches du minimum de la fonction. Mais comment peut-on s'y fier ? Il est impossible de le garantir sans conditions supplémentaires sur la fonction, sur l'approximation raisonnable des paramètres, etc. Les ordinateurs vous donnent quelque chose, mais vous devez comprendre que ce n'est pas forcément fiable. C'est la situation actuelle de l'IA, ce qui la rend dangereuse. Les gens font trop confiance aux réponses ; ils sont encouragés à ne plus réfléchir. Il faut avoir un esprit critique. Il faut vérifier ses réponses en utilisant d'autres méthodes".
Il s'inquiète également du fait qu'à l'ère numérique, les étudiants ont développé un mode de pensée totalement différent. "Souvent, les étudiants n'essaient même pas de penser, ils essaient de chercher. Ils vont sur Google. C'est peut-être une bonne chose, peut-être pas ; nous le verrons dans les résultats futurs. Il est clair que les possibilités de résolution autonome des problèmes diminuent, mais avec l'aide substantielle des ordinateurs, peut-être que les résultats finaux s'amélioreront encore. Nous ne le savons pas encore.
Si les ordinateurs font réfléchir les élèves, ils représentent un autre défi pour les chercheurs.
"Chaque matin, j'ouvre ma boîte aux lettres et je vois 50 nouveaux courriels. Je dois au moins les lire pour savoir si je dois y répondre. Certains mènent à un échange. Si je réponds à tous les courriels, j'en reçois 100 le lendemain matin. C'est très différent de ce qui se passait à mes débuts. Je recevais une lettre une fois par mois. Je devais aller la chercher à un autre étage. C'était une belle époque. Peut-être que l'IA peut faire quelque chose pour aider ici".
Il fait écho à cette nostalgie d'un rythme plus lent lorsqu'il évoque la pression qui pèse sur les universitaires d'aujourd'hui. "Nous avons aujourd'hui un très grand nombre de personnes qui travaillent dans la même direction. C'était différent lorsque j'ai commencé il y a 40 ans. Il n'y avait pas d'urgence ; on avait le temps de réfléchir et de rédiger un document, de vérifier les différentes variantes, etc. Aujourd'hui, c'est tout simplement impossible. Vous allez à une conférence et vous présentez quelque chose, vous pouvez être sûr que demain des centaines de personnes essaieront de l'améliorer".
Mais s'il estime que le nombre de personnes impliquées dans ce domaine de recherche aujourd'hui rend le processus moins efficace, il n'en demeure pas moins que cette évolution est inévitable. "Ils veulent faire de la recherche, ils ont besoin de publier. On ne peut pas arrêter ce processus. Avant, si vous ne publiiez pas, cela n'affectait pas votre salaire. Aujourd'hui, vous êtes obligé de faire quelque chose pour obtenir une augmentation. Cela devient une partie de votre activité professionnelle. Ce n'est pas très agréable pour moi".
La solution proposée par Nesterov ? Il faudrait peut-être créer un nouvel indice de citation pour quantifier la valeur des recherches publiées. "L'impact d'un article devrait être divisé par le nombre d'auteurs", explique-t-il. "Même dans notre domaine, où un article compte habituellement deux ou trois auteurs, il peut désormais en compter 50 ou 60. Cela n'a aucun sens. Nous devons savoir qui est un bon chercheur et qui ne l'est pas. Cela devrait être fait de manière appropriée ; nous devrions avoir un nouvel index des citations. Je suis surpris que cela n'ait pas encore été fait. Les index existants incitent les gens à augmenter le nombre d'articles, et non la quantité de recherches personnelles de valeur. Ils sont clairement contre-productifs."
Avons-nous vraiment besoin d'une image numérique de la Science ? Pour Nesterov, il est clair que les chiffres sont la seule solution qui fonctionne vraiment. Surtout à l'ère de l'intelligence artificielle qui s'annonce. Et cela aidera certainement à comprendre la beauté et le pouvoir réels des mathématiques.