Il lato oscuro degli algoritmi

Dopo The Social Dilemma, Netflix ha deciso di inserire nel proprio palinsesto un altro docufilm che mette in luce il rovescio della medaglia delle nuove tecnologie digitali. Coded Bias (questo il nome del nuovo titolo), punta il dito contro gli algoritmi e in particolare sui programmatori che scrivono i software di intelligenza artificiale.

Sono software che condizionano la vita quotidiana di miliardi di persone e che, nel futuro, sono destinati a prendere sempre più decisioni, senza che i criteri utilizzati siano noti: aspetto molto critico, vista la possibilità di “ragionare male” o con dei “pregiudizi” che questi programmi possono avere.

La storia parte dai risultati di una serie di test effettuati da Joy Buolamwini, ricercatrice del MIT Media Lab, laboratorio del Massachusetts Institute of Technology di Boston, una delle Università più prestigiose al mondo: la maggioranza dei software di riconoscimento facciale sono paradossalmente più precisi nel rilevare il suo viso, quando la donna (ghanese-americana) indossa una maschera bianca.

La stessa indagine, estesa alle principali soluzioni software delle BigTech Company, ha fatto emergere come, generalmente, questi algoritmi siano più efficaci “sui volti maschili rispetto ai volti femminili, e con i volti con carnagione più chiara rispetto a volti con carnagione più scura”.

Per capire meglio la possibile ragione del malfunzionamento, è utile fornire una descrizione molto semplificata (per evidenti ragioni di spazio editoriale) di come funzionano molti degli algoritmi di machine learning (software che auto apprendono dall’esperienza).

Ipotizziamo di dover generare un software che impari a distinguere immagini fotografiche di “gatti bianchi” da quelle che ritraggono “gatti neri”. Per prima cosa dovremo recuperare un buon numero di fotografie di gatti. Il campione di fotografie dovrà essere significativo, cioè rappresentativo delle caratteristiche dei gatti bianchi (di diversa razza, taglia, tonalità del manto, fotografati da diverse inquadrature, ecc…). Idem per i gatti neri, per i quali dovranno essere forniti un numero di esempi comparabili al primo set di dati. La gran parte di queste foto dovranno poi essere “preparate e organizzate” (in questo caso nelle due categorie di gatti), quindi sottoposte all’algoritmo di machine learning per il cosiddetto training. Una volta generato, il modello sarò testato su nuove immagini (quelle non fornite nella fase precedente) per determinarne la qualità. Se i risultati non sono buoni, purtroppo, si deve ripartire da capo, fornendo un campione più ricco e/o preparando i dati in maniera diversa e/o utilizzando un diverso algoritmo.

Tre aspetti importanti. Punto primo: è perfettamente normale che la qualità del risultato iniziale non sia eccellente ed è altrettanto prevedibile che (salvo errori umani o dati incompleti) la qualità possa migliorare ad ogni passaggio. Poi, è bene rimarcare che, molto raramente, si potrà ottenere un tasso di errore uguale a zero. Infine, è praticamente certo che, se qualche passaggio di questo processo non viene eseguito correttamente, solo un miracolo potrà garantirci un prodotto di qualità.

Come appare chiaro, il contesto di Coded Bias va quindi ben oltre alla portata del pregiudizio razziale e impatta violentemente con la logica con cui taluni algoritmi vengono sviluppati e funzionano.

Una problematica nota da tempo e che, nel 2016, la matematica Cathy O’Neil aveva ben rappresentato. Il suo libro “Weapons of Math Destruction” descrive minuziosamente come i sistemi di intelligenza artificiale che prendono decisioni distorte possono rovinare le vite e i mezzi di sussistenza delle persone.

Per cercare di attenuare questi potenziali danni, molti esperti del settore si sono cimentati nel proporre la propria ricetta. Ecco i due principali ingredienti condivisi dalla maggior parte di loro:

Il primo elemento è creare diversità nel team di sviluppo degli algoritmi. La diversità di pensiero, infatti, rappresenta il giusto humus per far crescere sistemi dotati di controlli e contrappesi.

Il secondo fattore è la “spiegabilità”. Gli algoritmi e i dati su cui vengono addestrati devono essere entrambi trasparenti. Solo così ci sarà possibile capire perché un algoritmo è giunto a un determinato risultato o ha privilegiato una particolare decisione.

Riassumendo per sommi capi:

1) Viviamo nell’era dell’algoritmo, sempre più spesso alla base delle decisioni che influenzano le nostre vite. In teoria, questo dovrebbe portare a una maggiore correttezza: tutti sono giudicati secondo le stesse regole.

2) I modelli matematici utilizzati oggi spesso non sono regolamentati e appaiono difficilmente contestabili anche quando si sbagliano. La cosa più preoccupante è che possano rafforzare la discriminazione, privilegiando quelli che l’algoritmo considera i “fortunati” e accanendosi su coloro che (sempre per l’algoritmo) non lo sono.

3) Costruire degli algoritmi che funzionano correttamente è difficile, ma non impossibile. Basta volerlo fare.