L'algoritmo ed i limiti dell'intelligenza artificiale

Otto anni fa l’analisi condotta su 100 mila blog ha dimostrato come sia possibile identificare in modo automatico l’ottanta per cento degli autori dei post. L’anno successivo i ricercatori del MIT hanno studiato i dati pseudonimizzati di 15 mesi di coordinate che descrivevano gli spostamenti di 1,5 milioni di persone in un raggio di 100 km. Il risultato è stato che il 95% dei soggetti poteva essere identificato sulla base di quattro destinazioni. Non appare strano, al massimo tardivo, come negli scorsi giorni ENISA, l’agenzia dell’Unione Europea per la cybersecurity, ha annunciato di avere creato un gruppo di lavoro per affrontare il tema della sicurezza cyber in relazione alle intelligenze artificiali.

La Rubrica: Cybersecurity Week

Questa notizia ci offre lo spunto per affrontare un tema che in un prossimo futuro riguarderà tutti noi, perché le intelligenze artificiali in breve diventeranno pervasive tanto quanto sono gli smart phone oggi. Prima di entrare nel merito facciamo una precisazione: quando oggi sentiamo parlare di IA non dobbiamo immaginarci il celebre HAL 9000 di “2001 Odissea nello spazio” e nemmeno i robot di Isaac Asimov. Macchine di quel tipo sono al momento “impossibili”, quindi allo stato attuale parliamo di intelligenze artificiali “deboli”, in parole povere sistemi capaci di svolgere un specifica attività tanto bene da apparire umane e talvolta sovrumane.

Gli algoritmi intelligenti si stanno lentamente diffondendo: ci sono quelli specializzati nel riconoscimento facciale, vocale o dello stile di scrittura, nell’analisi di dati finanziari o epidemiologici per fare previsioni; anche Siri, Alexa e Google Assistant sono IA deboli. Tutti questi sistemi sono in grado di svolgere le loro attività specifiche grazie a particolari algoritmi e soprattutto attraverso l’addestramento che oggi viene svolto attraverso immense base dati, i famigerati “big data”.

Il primo problema che si pone riguarda proprio gli algoritmi stessi che dal punto di vista umano sono di fatto imperscrutabili, in parole povere non siamo in grado di capirli. Il secondo sono le basi dati per l’addestramento, talmente vaste che ci risultano ugualmente incomprensibili.

Appare evidente come la situazione sia quella di un bambino di tre anni con in mano una scatola di fiammiferi: se non si sta molto attenti finirà per dare fuoco alla casa o al gatto. Per questa ragione negli ultimi anni sia l’Unione Europea che l’Organizzazione Mondiale del Commercio hanno pubblicato delle linee guida in cui si richiede che chiunque produca o utilizzi intelligenze artificiali si assuma tutte le responsabilità sia del corretto funzionamento sia della sicurezza. Tuttavia non basta perché il metodo di addestramento presenta non pochi rischi: infatti, nel momento in cui è fondato essenzialmente sui big data esiste la possibilità che il sistema sviluppi dei “bias”, cioè dei pregiudizi.

Uno dei casi più studiati risale al 2013, quando a un certo Eric Loomis venne negata la libertà condizionale da un tribunale americano sulla base della valutazione di un algoritmo chiamato Compas, utilizzato per valutare la possibilità di recidiva di un imputato. In seguito varie ricerche stabilirono che il software discriminava le persone di colore. Un errore commesso in “buona fede” o forse la selezione risentiva di qualche pregiudizio del gruppo di lavoro che aveva creato la base dati. Se le strade dell’inferno sono lastricate di buone intenzioni, non possiamo dimenticare che è già stato dimostrato che un’intelligenza artificiale debole può essere deliberatamente fuorviata intervenendo nel suo addestramento (tecnicamente si tratta dell’Adversarial attack).

Nel 2014 fece scalpore l’impresa di un gruppo di ricercatori di Google e della New York University che, inserendo disturbi impercettibili all’occhio umano nella fotografia di un panda, indussero un algoritmo per il riconoscimento delle immagini a intravedere nella fotografia un gibbone con una probabilità del 99,3%. Qualche anno dopo è stato il turno degli assistenti vocali (Alexa, Siri, etc.) che sono stati ingannati con una tecnica nota come skill squatting che sfrutta le debolezze del riconoscimento vocale. Se volessimo potremmo accedere ai servizi con parole la cui pronuncia potrebbe non essere correttamente riconosciuta, soprattutto se riferite con un accento non proprio perfetto. Cosa potrebbe accadere? Per esempio impartite ad Alexa l’ordine di pagare con il vostro PayPal. L’assistente, attraverso quelle che sono chiamate skill (funzionalità di accesso rapido), accede al vostro conto e procede. Tuttavia se fosse presente un’altra skill, diciamo denominata PayPol, potrebbe accadere che Alexa sbagli e finisca per essere vittima di un vero e proprio phishing, accedendo a un sito fasullo in cui andrebbe a inserire la vostra utenza.

Concludiamo con un’ultima nota. Nelle prime righe ho accennato alla possibilità di riconoscere gli stili di scrittura e da qualche tempo si sta studiando la possibilità di utilizzarli per valutare l’attendibilità dei messaggi attraverso il confronto con il modo di esprimersi del mittente, rilevato dalle precedenti corrispondenze. Un’applicazione interessante per contrastare messaggi truffaldini ma questi stessi algoritmi potrebbero tranquillamente essere utilizzati per imitare il modo di scrivere del vostro più caro amico e produrre un email phishing praticamente perfetta. Diciamo che nel nostro prossimo futuro non avremo tempo per annoiarci.