Une nouvelle façon d'influencer le comportement des conducteurs
Issue de l’économie, la théorie des jeux est devenue une pierre angulaire du contrôle automatique. Les lecteurs assidus de ce blog auront remarqué que ce concept revient régulièrement : il s’agit d’une méthode utile pour étudier comment le comportement individuel influence les résultats globaux dans les systèmes à plusieurs acteurs, appelés systèmes multi-agents. Contrairement à l'optimisation (basée sur les gradients), la théorie des jeux s’intéresse aux situations dans lesquelles les actions de chaque participant affectent les autres : le résultat global n'est pas déterminé par les décisions individuelles, mais par la manière dont tous interagissent entre eux. Dans les systèmes multi-agents, on ne parle plus de résultat optimal, mais d'équilibre dans lequel aucun individu n'a intérêt à s'écarter unilatéralement de ses décisions.
Cependant, l'une des faiblesses des systèmes multi-agents réside dans le fait qu'il existe plusieurs points d'équilibre, qui conduisent à différents niveaux de bien-être social. Le problème pour une autorité centrale qui souhaite optimiser le bien-être social est que le comportement des individus dépend d'informations confidentielles, ce qui rend difficile de les orienter vers le résultat souhaité.
Pour expliquer cela, nous devons comprendre le concept économiquede fonction d'utilité et son fonctionnement tant au niveau individuel qu'au niveau global. La fonction d'utilité désigne essentiellement la valeur qu'un individu accorde à un événement ou à une situation particulière : qu'en retire-t-il ? Tout le monde ne veut pas la même chose ; tout le monde n'en retire pas la même valeur. Nous pouvons toutefois partir du principe que tous les acteurs d’un système ont certaines priorités. Pour chaque acteur du système économique, les décisions rationnelles sont celles qui maximisent son propre bénéfice, sa propre utilité. Cependant, le résultat global émergent de toutes ces décisions individuelles rationnelles peut ne pas être souhaitable pour la société.
Les pendulaires, par exemple, planifient leur trajet pour se rendre au travail en fonction de ce qui leur convient le mieux (et le plus rapidement) ; leur impact individuel sur la probabilité d'embouteillages n'est pas un facteur déterminant dans leur décision. Les internautes se connectent et téléchargent des fichiers en fonction de leurs besoins, sans tenir compte du trafic global de données. Mais bien sûr, ces choix ont un coût social, et une autorité responsable pourrait vouloir trouver un moyen de minimiser cet impact (qu'il s'agisse d’embouteillages, de surcharge ou d'inégalités) par des mesures telles que des péages ou des subventions pour orienter les choix des utilisateurs. Les incitations financières modifient le rapport coûts-avantages, de sorte que (dans l'idéal) les décisions rationnelles servent désormais davantage l’intérêt général et conduisent à un équilibre socialement plus souhaitable.
Mais comment les autorités peuvent-elles calculer les mesures financières nécessaires pour réduire les coûts sociaux ? Dans tout contexte commercial, nous pouvons supposer que les acteurs du jeu peuvent être réticents à partager des informations financières, ce qui signifie que leurs structures de coûts, et donc leurs fonctions d'utilité, sont inconnues des autres acteurs ou des autorités.
C'est ce que vous faites qui compte
Anna Maddux, doctorante à l'EPFL, travaille sur des moyens de mettre en oeuvre des interventions efficaces sans avoir à percer le mystère des fonctions d’utilité des utilisateurs. Au lieu d'examiner les motivations des utilisateurs (et de les intégrer dans les conditions du réseau), elle estime que le comportement des utilisateurs suffit pour aller de l'avant.
En collaboration avec Marko Maljkovic, Nikolas Geroliminis et Maryam Kamgarpour, elle applique cette idée au problème de la fourniture équitable de services sur le marché des VTC. Dans chaque ville, il est courant que les taxis se concentrent dans les endroits où la densité de passagers est la plus élevée : à l'aéroport, dans les centres de vie nocturne, etc. Cependant, cela entraîne une pénurie importante dans certaines zones, et certains voyageurs potentiels peuvent se retrouver bloqués.
Une façon de remédier à cette situation (compte tenu de l'électrification croissante des flottes de taxis) pourrait être de rendre les zones plus éloignées plus attractives grâce à des prix différenciés selon la zone géographique. Le carburant est déjà plus cher dans les zones à forte circulation (par exemple sur les aires d’autoroute), nous pouvons donc suivre cette logique et l’étudier comme mécanisme d’incitation. Mais même si cela était en place, comment une autorité publique pourrait espérer inciter les acteurs du marché à obtenir un résultat plus équitable (meilleure répartition de la flotte) sans connaître leurs utilités ?
En discutant avec Marco de son projet, Anna a pensé aux jeux de Stackelberg qu'elle avait rencontrés dans le cadre de ses travaux sur les algorithmes sans regret. (Un algorithme est considéré « sans regret » lorsque la séquence des décisions effectivement prises conduit à un bénéfice moyen similaire à celui qui résulte de la meilleure décision a posteriori, lorsque les décisions des autres acteurs (participants) sont connues. Cela signifie que même si l’acteur en avait su davantage au départ, les décisions qu'il aurait prises sur la base de ces informations n'auraient pas conduit à un résultat nettement meilleur pour eux.)
Les jeux de Stackelberg offrent un cadre pour la modélisation d’interactions en deux étapes : d'abord, les meneurs font d’abord un mouvement (par exemple, une administration municipale peut ajuster les prix des stations de recharge dans la ville), puis les suiveurs réagissent (les compagnies de taxi dirigent leurs flottes vers différents quartiers). Au fil du temps, compte tenu des prix de recharge, le comportement des conducteurs est susceptible d'atteindre un équilibre de Nash : chaque conducteur optimisera son itinéraire et trouvera la meilleure réponse aux signaux du meneur et à la répartition des flottes des autres conducteurs. Ainsi, après avoir observé ce comportement, les autorités disposent de nouvelles informations : les coûts des différents exploitants de flotte sont certes encore inconnus, mais leur réaction aux signaux de prix est prise en compte pour le prochain tour du jeu. Les données de jeu de niveau inférieur (c'est-à-dire les fonctions de coût des flottes) ne jouent plus aucun rôle, seul compte l'équilibre atteint après chaque coup des meneurs du jeu.
Concrètement, l'application d'une tarification variable signifie qu’une valeur numérique a été attribuée aux coûts sociaux du comportement routier. Cette donnée détermine le meilleur résultat pour chaque conducteur.trice de la flotte, et l'équilibre final atteint après que tous les conducteurs.trices ont ajusté leurs itinéraires devient la nouvelle donnée pour le meneur du jeu. Il s'agit d'une méthode intelligente pour contourner le manque d'informations grâce à des tests empiriques, qui pourrait s'avérer utile dans de nombreux contextes au-delà du domaine de la mobilité.