Macchine che imparano (anche) dai nostri errori
L'effetto boomerang: insegniamo all'IA i nostri difetti e lei ce li restituisce... moltiplicati!
Addestriamo l'intelligenza artificiale su dati prodotti da esseri umani. Quei dati contengono i nostri pregiudizi, e il modello li impara. Fin qui, niente di nuovo. La parte interessante — e documentata — è ciò che succede dopo: il modello non si limita a ereditare quei pregiudizi, tende ad amplificarli. Poi, quando lo usiamo per decidere, ce li restituisce rafforzati, e noi li interiorizziamo senza accorgercene. Si chiude un circuito in cui distorsioni minime crescono a ogni giro.
Non è una teoria. Uno studio di Moshe Glickman e Tali Sharot, pubblicato su Nature Human Behaviour nel dicembre 2024 e condotto su 1.401 partecipanti, ha misurato esattamente questo: un circuito di retroazione umano-IA in cui il modello amplifica un pregiudizio umano lieve, la persona lo assorbe, e l'errore iniziale si trasforma in uno molto più grande. L'effetto valanga.
Perché con l'IA è peggio che con un altro essere umano
Il punto cruciale dello studio è che questa amplificazione è più forte di quella che si osserva tra due persone. Per due ragioni. La prima: i modelli tendono ad accentuare i pattern per migliorare la propria capacità predittiva, quindi un piccolo squilibrio nei dati esce dall'altra parte ingrandito. La seconda, più insidiosa: percepiamo l'IA come oggettiva, e questo ci rende più permeabili alla sua influenza e meno consapevoli di riceverla.
Un esempio concreto dallo stesso studio. A Stable Diffusion è stato chiesto di generare immagini di "manager finanziari": il modello ha prodotto uomini bianchi circa l'85% delle volte, ben oltre la realtà demografica. Dopo aver visto quelle immagini, i partecipanti erano più inclini ad associare quel ruolo a uomini bianchi. La distorsione del modello era diventata la loro.
Dove morde
I settori in cui il meccanismo fa più danni sono quelli ad alto impatto: sanità e diagnosi, selezione del personale, credito, analisi del rischio. Sono ambiti in cui non si decide una volta sola: operatore e sistema interagiscono ripetutamente, e a ogni ciclo una piccola asimmetria può consolidarsi in una differenza concreta negli esiti — chi viene chiamato a colloquio, chi ottiene un prestito, quale diagnosi viene considerata per prima.
Anche l'errore è bidirezionale
La mente umana lavora con scorciatoie. Kahneman le ha descritte come due sistemi: uno veloce e intuitivo, incline agli stereotipi, e uno lento e riflessivo, capace di correggerli. Sotto pressione di tempo prevale il primo. In medicina, per esempio, è noto il bias di conferma: si dà troppo peso all'ipotesi iniziale e si trascurano le prove contrarie. Quando un sistema viene addestrato su decisioni storiche prese così, impara quel bias e lo ripropone — con indosso il camice dell'oggettività. Il circuito ha quindi due contributori: noi mettiamo il pregiudizio nei dati, il modello ce lo rimanda potenziato.
Allora si regolamenta tutto? No — ed è qui il punto
La tentazione, davanti a tutto questo, è chiedere mano dura: regole stringenti, "debiasing" obbligatorio, modelli ripuliti a forza. È qui che la maggior parte delle analisi sbaglia, perché ignora la variabile che lo stesso studio identifica come decisiva: l'accuratezza. Glickman e Sharot hanno trovato anche il rovescio della medaglia — interagire con un'IA accurata migliora il giudizio umano. Il problema non è l'IA in quanto tale, è l'IA distorta. E la soluzione non è renderla innocua, è renderla precisa.
La differenza non è accademica, perché esiste un modo di "correggere" i modelli che li peggiora. All'inizio del 2024 Google ha dovuto sospendere la generazione di immagini di persone in Gemini: ipercorretto in nome della diversità, il modello restituiva risultati storicamente assurdi. È il caso da manuale di un sistema reso, di fatto, più stupido di chi lo usa. E un modello più stupido di noi, dentro un circuito di retroazione, è il peggio dei due mondi: si perde il beneficio dell'IA accurata e si continua a subire una distorsione — solo più nascosta, perché travestita da equità.
Da qui una conclusione meno comoda di entrambe le posizioni preconfezionate. Un po' di autoregolamentazione del settore può aiutare davvero — ma solo se premia l'accuratezza e la trasparenza, non l'apparenza di neutralità. L'obiettivo non è un modello reso "sicuro" e ottuso: è un modello più bravo di noi e onesto su quando ci sta influenzando. Perché il vero pericolo, secondo lo studio, non è che l'IA sia parziale: è che non ce ne accorgiamo. E a un'influenza invisibile non si risponde né con la deregolamentazione totale né con la lobotomia del modello, ma rendendo quell'influenza visibile: sapere quando l'IA ha pesato sulla nostra scelta, poter verificare la traccia della decisione, tenere nel ciclo un momento di "pensiero lento" umano.
In sintesi
Il rischio non è solo un'IA piena di pregiudizi, e non è nemmeno un'IA ripulita fino a renderla inutile. È un circuito in cui né la persona né la macchina vedono la deriva. La risposta non è un regolatore più severo né un modello più docile: è un'IA davvero più accurata di noi, e abbastanza trasparente da dirci quando ci sta spingendo da qualche parte. Tutto il resto — compreso il fingere che il problema si risolva rendendo i modelli più stupidi di chi li consulta — è solo un modo diverso di restare dentro il circuito.
Fonti
- Glickman, M. & Sharot, T., "How human–AI feedback loops alter human perceptual, emotional and social judgements", Nature Human Behaviour (dicembre 2024) — circuito di retroazione umano-IA, n = 1.401; amplificazione superiore a quella tra esseri umani; un'IA accurata migliora il giudizio.
- Kahneman, D., "Pensieri lenti e veloci" (2011) — teoria del doppio processo.
- Google, sospensione della generazione di immagini di persone in Gemini (febbraio 2024).
Comments ()