Eine neue Methode zur Steuerung des Fahrerverhaltens

09. Dezember 2025
Anna Maddux untersucht Algorithmen, die das spieltheoretische Problem der Steuerung von Akteuren trotz unvollständiger Informationen lösen könnten. Zum Beispiel, wie man einen faireren Zugang zu Fahrdienstvermittlung fördern kann.
two cars parked on the site of the road, charging from an electric charging station

Die aus der Wirtschaftswissenschaft stammende Spieltheorie ist zu einem Eckpfeiler der Steuerung geworden. Wer diesen Blog verfolgt, wird bemerkt haben, dass dieses Konzept immer wieder auftaucht: Es ist eine nützliche Methode, um zu untersuchen, wie individuelles Verhalten die globalen Ergebnisse in Systemen mit mehreren Akteuren, sogenannten Multi-Agenten-Systemen, beeinflusst. Im Gegensatz zur (gradientenbasierten) Optimierung befasst sich die Spieltheorie mit Situationen, in denen die Handlungen jedes Teilnehmers die anderen beeinflussen: Das globale Ergebnis wird nicht durch individuelle Entscheidungen bestimmt, sondern durch die Art und Weise, wie alle miteinander interagieren. In Multi-Agenten-Systemen spricht man nicht mehr von einem optimalen Ergebnis, sondern von einem Gleichgewicht, bei dem kein Einzelner einen Anreiz hat, einseitig von seinen Entscheidungen abzuweichen.

Eine Schwäche von Multi-Agenten-Systemen besteht jedoch darin, dass es mehrere Gleichgewichtspunkte gibt, die zu unterschiedlichen Niveaus der sozialen Wohlfahrt führen. Das Problem für eine zentrale Behörde, die die soziale Wohlfahrt optimieren möchte, besteht darin, dass das Verhalten von Individuen von vertraulichen Informationen abhängt, was es schwierig macht, sie zu einem gewünschten Ergebnis zu führen. 

Um dies zu erklären, müssen wir das wirtschaftliche Konzept der Nutzenfunktion verstehen und wie es sowohl auf individueller als auch auf globaler Ebene funktioniert. Nutzenfunktion bedeutet im Wesentlichen nur den Wert, den ein Individuum einem bestimmten Ereignis oder einer bestimmten Situation beimisst: Was hat es davon? Nicht alle wollen dasselbe, nicht alle haben denselben Nutzen davon. Wir können jedoch davon ausgehen, dass alle innerhalb eines Systems bestimmte Prioritäten hat. Für jeden Agierenden im Wirtschaftssystem sind rationale Entscheidungen diejenigen, die den eigenen Nutzen maximieren. Das sich daraus ergebende globale Ergebnis all dieser rationalen individuellen Entscheidungen ist jedoch möglicherweise nicht gesellschaftlich wünschenswert.

cars stuck in a traffic jam
Staus sind ein einfaches Beispiel dafür, wie individueller Nutzen mit dem sozialen Wohl in Konflikt steht. Einzelne Pendler entscheiden sich aus Bequemlichkeit dafür, mit dem Auto zur Arbeit zu fahren – aber das führt insgesamt zu einer grossen Unannehmlichkeit.  

Pendelnde beispielsweise planen ihre Route zur Arbeit danach, was für sie persönlich am bequemsten (und schnellsten) ist; ihre individuellen Auswirkungen auf die Wahrscheinlichkeit von Staus sind kein entscheidender Faktor bei ihrer Entscheidung. Internetnutzer gehen online und laden Dateien entsprechend ihren Bedürfnissen hoch oder herunter, ohne Rücksicht auf den gesamten Datenverkehr zu nehmen. Aber natürlich sind solche Entscheidungen mit sozialen Kosten verbunden, und eine verantwortungsbewusste Behörde möchte möglicherweise einen Weg finden, diese Belastung (sei es Stau, Überlastung oder Ungleichheit) durch Massnahmen wie Mautgebühren oder Subventionen zu minimieren, um die Entscheidungen der Nutzer zu lenken. Finanzielle Anreize verändern die Kosten-Nutzen-Rechnung, sodass (im Idealfall) rationale Entscheidungen nun eher dem Gemeinwohl dienen und zu einem sozial wünschenswerteren Gleichgewicht führen.

Aber wie kann die Behörde die finanziellen Massnahmen berechnen, die zur Senkung der sozialen Kosten erforderlich sind? In jedem geschäftlichen Umfeld können wir davon ausgehen, dass die Teilnehmenden des Spiels möglicherweise zögern, finanzielle Informationen weiterzugeben, was bedeutet, dass ihre Kostenstrukturen und damit ihre Nutzenfunktionen anderen Teilnehmenden oder Behörden unbekannt sind.

Es kommt darauf an, was man tut

Anna Maddux, Doktorandin an der EPFL, arbeitet an Möglichkeiten, wirksame Interventionen anzuwenden, ohne die „Black Box” der Nutzenfunktionen der Teilnehmenden zu knacken. Anstatt die Motivationen der Teilnehmenden zu betrachten (und diese in die Netzwerkbedingungen einzubeziehen), kommt sie zu dem Schluss, dass das Nutzerverhalten ausreicht, um weiterzumachen.

Befindet sich Station 1 am Stadtrand und Station 2 in der dichter besiedelten Innenstadt, könnte die Behörde den Flotten einen Anreiz bieten, mehr Autos in den Stadtrand zu verlegen, indem sie an Station 1 einen niedrigeren Preis verlangt.

In Zusammenarbeit mit Marko Maljkovic, Nikolas Geroliminis und Maryam Kamgarpour wendet sie diese Erkenntnis auf das Problem der gerechten Dienstleistungserbringung in Fahrdienstmärkten an. In jeder Stadt ist es üblich, dass Taxis sich an den Orten konzentrieren, an denen die Wahrscheinlichkeit einer hohen Passagierdichte am grössten ist: am Flughafen, in den Zentren des Nachtlebens und so weiter. Dadurch werden jedoch einige Gebiete drastisch unterversorgt, und einige potenzielle Reisende könnten möglicherweise gestrandet sein.

 Eine Möglichkeit, dieses Problem anzugehen (angesichts der zunehmenden Elektrifizierung der Taxiflotten), könnte darin bestehen, abgelegenere Gebiete durch räumlich differenzierte Preise attraktiver zu machen. Kraftstoff ist in verkehrsreichen Gebieten (z. B. an Autobahnraststätten) bereits teurer, sodass wir dieser Logik folgen und dies als Anreizmechanismus untersuchen können. Aber selbst wenn dies umgesetzt würde: Wie könnte eine Behörde hoffen, die Marktteilnehmenden zu einem gerechteren Ergebnis (bessere Verteilung der Flotte) zu bewegen, ohne deren Nutzen zu kennen?

 Als Anna mit Marco über sein Projekt sprach, dachte sie an die Stackelberg-Spiele, denen sie bei ihrer Arbeit an No-Regret-Algorithmen begegnet war. (Ein Algorithmus gilt als „No-Regret“, wenn die Abfolge der tatsächlich getroffenen Entscheidungen zu einem ähnlichen durchschnittlichen Nutzen führt wie der, der sich aus der besten Entscheidung im Nachhinein ergibt, wenn die Entscheidungen der anderen Teilnehmenden bekannt sind. Das heisst: Selbst wenn die Teilnehmenden zu Beginn mehr gewusst hätten, hätten die Entscheidungen, die sie aufgrund dieses Wissens getroffen hätten, nicht zu einem für sie jeweils wesentlich besseren Ergebnis geführt.)

Stackelberg-Spiele bieten einen Rahmen für die Modellierung von zweistufigen Interaktionen: Zuerst machen die Spielführenden einen Zug (beispielsweise kann eine Stadtverwaltung die Preise an den Ladestationen in der Stadt anpassen), dann reagieren die Nachfolgenden (Taxiunternehmen leiten ihre Flotten in verschiedene Stadtteile). Im Laufe der Zeit wird das Verhalten der Fahrer angesichts der Ladepreise wahrscheinlich ein Nash-Gleichgewicht erreichen – jeder Fahrer wird seine Route optimieren und die beste Reaktion auf die Signale der Spielführenden und die Flottenverteilung der anderen Fahrerinnen finden. Nach Beobachtung dieses Verhaltens verfügt die Behörde also über neue Informationen: Die Kosten der einzelnen Flottenbetreibenden sind zwar noch unbekannt, aber ihre Reaktion auf Preissignale fliesst in die nächste Runde des Spiels ein. Die Eingaben auf niedrigerer Ebene (d. h. die Kostenfunktionen der Flotten) spielen keine Rolle mehr, sondern nur noch das Gleichgewicht, das nach jedem Zug der Spielführerenden erreicht wird.

Die Anwendung variabler Preise bedeutet effektiv, dass den sozialen Kosten des Fahrverhaltens ein numerischer Wert zugewiesen wurde. Dieser Input bestimmt das beste Ergebnis für jede Fahrerin in der Flotte, und das endgültige Gleichgewicht, das erreicht wird, nachdem alle Fahrer ihre Routen angepasst haben, wird zum neuen Input für den Spielleitenden. Dies ist eine clevere Methode, um einen Mangel an Informationen durch empirische Tests zu umgehen, die über den Bereich der Mobilität hinaus in vielen Kontexten nützlich sein könnte.