Le «Theory Moonshot»

theory moonshot

Nous nous donnons pour mission de poser des questions ambitieuses et de prendre les risques nécessaires pour lancer un nouveau domaine d’étude dans notre secteur. En posant un certain nombre de questions révolutionnaires dans le cadre du projet thématique «Theory Moonshot», nous souhaitons poser les bases théoriques d’un sujet de recherche totalement inédit.

Il ne s’agit pas d’un processus vertical, mais d’une démarche à long terme fondée sur des collaborations spontanées entre nos chercheuses et chercheurs ambitieux et audacieux. Par des processus spécifiques, nous encourageons notre équipe à sortir des sentiers battus et lui donnons la marge de manœuvre et la liberté nécessaires pour y parvenir. Jusqu’à présent, le «Theory Moonshot» a donné naissance aux thèmes suivants:

 

Au-delà de la séparation des échelles de temps: 

De nombreux algorithmes d’optimisation en ligne, de théorie des jeux, d’apprentissage par renforcement et autres s’appuient sur la séparation des échelles de temps pour établir leurs propriétés théoriques. De façon simplifiée, cela signifie qu’une partie du processus doit (plus ou moins) atteindre l’équilibre avant qu’une autre partie n’agisse. Les propriétés de quasi-équilibre sont alors utilisées, par exemple pour dériver des conditions suffisantes de convergence de la méthode.

Nous cherchons à déterminer si la séparation des échelles de temps est réellement nécessaire ou s'il s’agit plutôt d’une convention mathématique adoptée par commodité. Pour quelles classes de problèmes est-il possible de développer de nouveaux algorithmes plus rapides qui ne reposent pas sur la séparation des échelles de temps? À quoi ressemblent ces algorithmes? Et pour quelles classes de problèmes pouvons-nous prouver des théorèmes d’impossibilité qui établissent que la séparation des échelles de temps est nécessaire?

 

Le contrôle en apprentissage continu:  

Les futurs systèmes de contrôle existeront dans des environnements en constante évolution, au milieu d’autres systèmes de contrôle complexes basés sur des données et des opérateurs humains. Ils devront constamment s’adapter à des conditions changeantes comme le vieillissement des installations, l’évolution des structures de réseaux et bien d’autres. Ces changements entraînent une forte non-stationnarité et des changements de distribution, et vont à l’encontre de l’hypothèse iid qui est au cœur de la plupart des approches d’apprentissage automatique.

Notre objectif principal est de développer une théorie de l’adaptabilité du contrôle basé sur les données pour les systèmes complexes. Pour ce faire, il nous faudra repenser le contrôle adaptatif à l’ère de l’apprentissage automatique moderne, et aller au-delà des hypothèses de stationnarité couramment formulées dans l’apprentissage par renforcement profond et le contrôle basé sur les données.

Si ce sujet est déjà abordé dans le cadre du défi fondamental «Les facilitateurs d’automation», nous pensons que les questions majeures du contrôle en apprentissage continu restent encore inexplorées.