Un nuovo modo per orientare il comportamento degli autisti di taxi
La teoria dei giochi, che ha origine nell'economia, è diventata una pietra miliare del controllo. Chiunque segua questo blog avrà notato che il concetto ricorre continuamente: è un modo utile per considerare come il comportamento individuale determinerà i risultati globali all'interno dei sistemi multi-agente. A differenza dell'ottimizzazione, la teoria dei giochi si occupa di situazioni in cui le azioni di ciascun partecipante influenzano gli altri: il risultato globale non è determinato dalle scelte individuali, ma dal modo in cui tutti interagiscono. In contesti multi-agente, non si parla più di risultato ottimale, ma di risultato di equilibrio, in cui nessun individuo ha un incentivo a deviare unilateralmente dalle proprie scelte.
Ma uno dei punti deboli dei sistemi multi-agente è che esistono più risultati di equilibrio, che danno luogo a livelli variabili di benessere sociale. Il problema per un'autorità centrale che mira a ottimizzare il benessere sociale è che i comportamenti degli individui dipendono da informazioni riservate, rendendo difficile guidarli verso il risultato desiderato.
Per spiegare questo concetto, è necessario comprendere il concetto economico di utilità e il modo in cui opera sia a livello individuale che globale. L'utilità significa essenzialmente il valore che un individuo attribuisce a un particolare evento o situazione: cosa ne ricava? Non tutti vogliono la stessa cosa; non tutti ne ricavano lo stesso valore. Ma possiamo supporre che ogni individuo che agisce all'interno di un sistema abbia determinate priorità. Per ogni attore nel gioco economico, le scelte razionali sono quelle che massimizzano la propria utilità. Tuttavia, il risultato globale emergente di tutte queste scelte individuali razionali potrebbe non essere socialmente desiderabile.
I pendolari, ad esempio, pianificano il loro percorso per recarsi al lavoro in base a ciò che è più conveniente (e veloce) per loro personalmente; il loro impatto individuale sulla probabilità di ingorghi stradali non è un fattore decisionale chiave. Gli utenti di Internet si connettono e caricano o scaricano file in base alle loro esigenze, senza considerare il traffico dati complessivo. Ma naturalmente tali scelte comportano un costo sociale, e un'autorità responsabile potrebbe voler trovare un modo per ridurre al minimo tale onere (che si tratti di congestione, uso eccessivo o disuguaglianza) applicando misure quali pedaggi o sussidi per orientare le scelte degli utenti. Gli incentivi finanziari modificano il calcolo costi-benefici, cosicché (idealmente) le scelte razionali sono ora più propense a promuovere il bene comune, portando a un risultato di equilibrio socialmente più desiderabile.
Ma come può l'autorità calcolare l'intervento finanziario necessario per ridurre il costo sociale? In qualsiasi contesto aziendale, possiamo supporre che i partecipanti al gioco possano essere riluttanti a condividere informazioni finanziarie, il che significa che le loro strutture di costo, e quindi le loro funzioni di utilità, sono sconosciute agli altri partecipanti o alle autorità.
È ciò che fai che conta
Anna Maddux, dottoranda all'EPFL, sta lavorando su come applicare interventi efficaci senza violare la "scatola nera" dell'utilità degli utenti. Invece di esaminare le motivazioni degli utenti (ed utilizzarle nelle condizioni di rete), considera solamente il comportamento degli utenti per procedere.
In collaborazione con Marko Maljkovic, Nikolas Geroliminis e Maryam Kamgarpour, ha applicato questa intuizione al problema dell'equità del servizio nei mercati del ride-hailing. In qualsiasi città, è normale che i taxi gravitino verso i luoghi più ricchi di passeggeri: l'aeroporto, i centri della vita notturna e così via. Ma questo lascia alcune zone drasticamente sottoservite e alcuni potenziali utenti potenzialmente bloccati.
Un modo per affrontare questo problema (data la crescente numero di taxi elettrici) potrebbe essere quello di rendere più attraenti le zone più remote applicando prezzi differenziati in base alla posizione geografica. Il carburante è già più costoso nelle zone ad alto traffico (come le stazioni di servizio autostradali), quindi possiamo seguire questa logica per esplorare questa possibilità come meccanismo di incentivazione. Ma anche con questo sistema in atto: come potrebbe un'autorità sperare di orientare gli operatori del mercato verso un risultato più equo (una migliore distribuzione della flotta) senza conoscere le loro utilità?
Parlando con Marco del suo progetto, Anna ha pensato ai giochi di Stackelberg che aveva incontrato nel suo lavoro sugli algoritmi no-regret. (Un algoritmo è detto "no-regret" se la sequenza delle decisioni effettivamente prese porta a un'utilità media simile a quella risultante dalla decisione migliore, col senno di poi, conoscendo le decisioni degli altri partecipanti. Cioè: anche se il giocatore avesse saputo di più all'inizio, le scelte che avrebbe fatto sulla base di tali conoscenze non avrebbero portato a un risultato significativamente migliore).
I giochi di Stackelberg forniscono un quadro di riferimento per modellare le interazioni in due fasi: prima il leader del gioco fa una mossa (ad esempio, un'autorità cittadina può adeguare i prezzi delle stazioni di ricarica in tutta la città), poi i seguaci rispondono (le compagnie di taxi indirizzano le loro flotte verso quartieri diversi). Nel corso del tempo, dati i prezzi di ricarica, il comportamento dei conducenti tenderà a raggiungere un equilibrio di Nash: ogni autista ottimizzerà il proprio percorso, trovando la risposta migliore ai segnali del leader del gioco e alla distribuzione della flotta degli altri conducenti. Quindi, dopo aver osservato questo comportamento, l'autorità dispone di nuove informazioni: i costi di ciascun operatore della flotta sono ancora sconosciuti, ma la sua risposta ai segnali di prezzo diventa un input per il prossimo round del gioco. Gli input di livello inferiore del gioco (ovvero le funzioni di costo delle flotte) non hanno più importanza; conta solo l'equilibrio raggiunto dopo ogni mossa del leader del gioco.
In pratica, l'applicazione di prezzi variabili significa che al costo sociale del comportamento degli autisti è stato assegnato un valore numerico. Questo input determina il risultato migliore per ciascun conducente della flotta e l'equilibrio finale raggiunto dopo che tutti i conducenti hanno modificato i propri percorsi diventa il nuovo input per il leader del gioco. Si tratta di un modo intelligente per aggirare la mancanza di informazioni attraverso test empirici, che potrebbe essere utile in molti contesti oltre alla mobilità.