KeyCrime, il software di polizia predittiva spiegato da chi lo ha ideato

Cos’è la polizia predittiva? Si tratta dell’utilizzo di tecniche analitiche e strumenti digitali per l’identificazione di possibili target criminali, per la prevenzione di reati futuri e la risoluzione di crimini passati. Un sistema legal-tech che si inserisce in un equilibrio delicato: quello tra privacy e sicurezza. Nell’esperienza asiatica, questi sistemi sono stati collegati alle telecamere dell’onnipresente smart city, un occhio che osserva i propri cittadini senza rispetto della loro sfera personale. Nell’esperienza americana, invece, sono sorte polemiche di diversa natura. Le statunitensi PredPol, HunchLab e Palantir utilizzano l’hotspot analysis, l’individuazione di “zone calde del crimine”: una modalità con ampi rischi di criminalizzazione e ghettizzazione delle aree, nonché di rinforzo dei pregiudizi razziali della nostra società. Ma ora facciamo un salto a Milano: da anni, ormai, la polizia utilizza il software KeyCrime. Si tratta di un software radicalmente differente, un modello italiano che potrebbe costituire un’alternativa valida e innovativa. Ma sarà privo di criticità? Ne abbiamo parlato con il suo ideatore, Mario Venturi, ex assistente capo della Questura di Milano e oggi imprenditore.

Sono contenta di poter sviscerare con Lei i vari approcci analitici della polizia predittiva: il tema è delicato, e il dibattito privacy/sicurezza è caldo. Primo step: com’è nato KeyCrime?

Può interessartianche...

Charlotte Gneuß: uno scrittore nato dopo la caduta del Muro può rievocare un periodo così denso di storia?

Jón Kalman Stefánsson: «Cerco di capire la tristezza, di capire i rimpianti, di capire Dio»

Umani di Bologna: «Il tempo dedicato al margine è il mio tempo di qualità»

«Partiamo dall’inizio: quando viene commesso un crimine, così come accade, ad esempio, per una rapina, la vittima – il farmacista, il banchiere, l’esercente – chiama il pronto intervento. Arriva una volante: la polizia giudiziaria ha il compito istituzionale di svolgere indagini volte a individuare il responsabile. Deve quindi trovare più informazioni possibili. Piccolo problema: ci sono reati con dei numeri altissimi. Milano, quando io ero in polizia, contava circa 1000 rapine all’anno ai danni di attività commerciali (oggetto della sperimentazione dell’approccio analitico e del software). Va da sé che avere la forza lavoro – uomini, mezzi, soldi – per svolgere approfondite indagini per ogni singolo evento era complesso. Nel 2004 mi sono ritrovato per caso a indagare proprio su questo fenomeno, con particolare attenzione rivolta alle rapine perpetrate ai danni delle farmacie; ho aperto il faldone all’interno del quale erano conservate le annotazioni e ho iniziato a leggerle, una a una. A un certo punto, lette dieci, venti, trenta annotazioni, mi sono accorto che alcune cose le avevo già viste. Descrizioni, modi di comportarsi, tipi di obiettivi: c’erano elementi che si ripetevano nel tempo. Mi sono convinto che, se venivano fatte cento rapine, non erano opera di cento rapinatori, ma di pochi soggetti che ne commettevano un gran numero. Da questo assunto, ho preso una decisione: puntare tutto sull’individuazione di serie criminali. Ogni rapinatore ha un suo modus operandi, così ho cercato di comparare casi su casi per trovare quelli opera della stessa mano».

Un’impresa non facile.

«Se si tenta questa strada con dieci o venti casi, non serve un software, forse l’uomo è più bravo. Ma quando inizi a lavorare sui grandi numeri – nel mio caso, le farmacie erano il target più colpito dai rapinatori – ecco che si incontra il primo limite dell’uomo: la capacità di storage. Non può ricordare ogni elemento, né immagazzinare una mole così importante di informazioni. C’è poi un altro problema: ognuno raccoglie i dati secondo le proprie capacità. Le informazioni sulle rapine non erano omogenee né strutturate: un collega poteva essere più meticoloso, mentre un altro meno. Sorgeva un grosso dubbio: se un tipo di informazione era stato omesso – magari il tipo di auto guidata – voleva dire che i testimoni non l’avevano individuato o che non era stato riferito? Un dato mancate non è una negazione. Ci serviva un metodo, un insieme di domande prestabilite da porre. Così, abbiamo cominciato a creare un corpus di domande, poste in maniera quasi maniacale: siamo passati dalle venti/trenta alle duecento/trecento informazioni per crimine. Pensavamo di aver fatto bingo, ma c’era un altro problema: nel ricercare un possibile crime linking – l’ipotesi di collegamento tra crimini – tutto stava nella fantasia dell’operatore. Gli investigatori, secondo le loro capacità e il loro intuito, ricercavano in archivio delle singole connessioni. Ma la svolta sarebbe stata riuscire a incrociare tutte le informazioni dei vari casi. C’era bisogno di un ulteriore passaggio: creare un motore che potesse prendere l’insieme delle informazioni di un caso e che le comparasse con l’insieme delle informazioni presenti in ogni singolo caso archiviato».

Come si differenzia il vostro software dalla struttura più classica della polizia predittiva, ovvero l’hotspot analysis?

«La polizia predittiva è una categoria molto ampia. Il nostro software nasce per il riconoscimento delle serie criminali, non nell’individuazione di “zone calde del crimine”. Nel tempo ci siamo accorti che questo approccio ci permetteva anche di giungere al risultato della cosiddetta predictive policing. Il giorno del “lancio” del motore (l’algoritmo di crime linking), nel 2008, siamo riusciti a ricollegare a circa 80 serie criminali il 70% dei crimini archiviati sino a quel momento (su 664, ne abbiamo connesse 452)».

E queste serie non si vanno a cristallizzare in zone già considerate “criminose”, contribuendo a ghettizzarle?

«Il motore ripercorre passo passo le logiche analitiche e investigative: non è un conto matematico né statistico. La mappa di Milano che risulta da KeyCrime è piena di puntini colorati che rappresentano le diverse serie criminali isolate in ogni dove: ricostruisce tutti i luoghi connessi a una determinata serie. L’hotspot analysis sarebbe efficiente se avessimo a che fare con delle informazioni statiche. Ad esempio, se volessi mappare tutti i sushi-bar di Milano, e avere un’idea del sorgere di questo nuovo fenomeno, potrei tranquillamente sfruttare questo sistema: i locali nascono e chiudono, ma non si muovono. In un determinato quartiere potremmo scoprire una concentrazione anomala di sushi-bar. Ma il crimine non è statico, mappare con l’hotspot un qualcosa di dinamico è poco attento: non si basa su un approccio investigativo. È statistica, e ti dà una “risposta” che può fuorviare. Il nostro approccio si basa sull’astrarre ogni singola serie criminale utilizzando i dati raccolti per riconoscere l’operato di un singolo individuo – non sullo studio generale di un fenomeno. La capacità predittiva è quasi un fatto collaterale che, tuttavia, ha dimostrato margini di successo importanti».

I dati che rilevate riguardano elementi personali dei cittadini – etnia, reddito, zona di residenza – o no?

«Rileviamo e analizziamo solo i dati polizia. Quindi, solo testimonianze e video provenienti dalle telecamere degli esercenti derubati. Sono gli elementi che già venivano raccolti prima e che ora abbiamo inserito in un sistema strutturato. Se ci sono immagini, benissimo: mentre la testimonianza di una persona è soggettiva, il video è oggettivo. Il poliziotto che guarda le immagini di una rapina non è sottoposto a stress, ha la facoltà di bloccarle e riguardarle più volte, quindi raccoglierà maggiori informazioni. Oltre al video, facciamo audizioni delle vittime, ma solo dopo ventiquattro ore: se facessimo passare più tempo, i ricordi potrebbero annebbiarsi, mentre se intervenissimo prima, per gli effetti derivanti dallo stress post-traumatico, non ci sarebbe il tempo di metabolizzare».

Una volta ottenuti i dati polizia, come viene garantita la loro tutela sul piano della privacy e della segretezza?

«Tutti questi dati sono accessibili solo alla polizia: neanche gli sviluppatori di KeyCrime possono curiosarci, perché alle autorità viene fornito un software vuoto. Una volta riempito, gli agenti sono gli unici ad avere accesso ai dati. Le serie criminali a questo punto diventano parlanti: ogni criminale ha i suoi punti di forza e debolezza, i suoi obiettivi, e agisce secondo un metodo più o meno standard. È come con i quadri: la pennellata e lo stile di un artista è facilmente riconoscibile da chi, quel mondo, lo osserva: un critico d’arte. Da quel momento, tracceremo e seguiremo solo quell’individuo, che colpisca al Duomo di Milano o a Quarto Oggiaro».

Come facciamo a essere certi che questo tracciamento non vada a incidere sulle categorie marginalizzate?

«A che pro andare a rilevare la classe del reddito o l’etnia prevalente in un determinato luogo o gruppo di persone? A noi interessa il criminale che stiamo cercando in quel momento, e deve essere lui a guidarci. Altrimenti, faremmo un’analisi statistica, ma quel criminale potrebbe essere fuori da qualsiasi statistica esistente. Diventa una cosa pericolosa, perché si generalizza. Ovviamente, se dalle immagini delle rapine risulta che un criminale è bianco – e, piccola parentesi, a Milano il 90% dei rapinatori lo è – nero o di qualsiasi altra etnia, lo terrò in conto: ma perché cerco lui, e lui soltanto».

Riuscite effettivamente ad anticipare le mosse del rapinatore individuato?

«Se lo si osserva nel suo agire, è possibile predire dove andrà a colpire: l’indice è sempre probabilistico, ma abbiamo avuto ottimi risultati indirizzando le forze verso obiettivi a rischio. Questo, abbiamo visto, è servito anche a innalzare gli standard di sicurezza degli operatori di polizia impegnati in servizi di prevenzione e controllo del territorio che, informati preventivamente rispetto a quello che si sarebbe potuto verificare nell’area da loro pattugliata, hanno potuto adottare standard di sicurezza adeguati. Avvisare le volanti – che sono sempre in giro – di un rischio nel territorio che stanno perlustrando è utilissimo».

E se riuscite a fermare un criminale prima di una rapina, come fate a imputargliela?

«Importante: non lo facciamo. Non si può fare un processo alle intenzioni. Possiamo bloccarlo e, nel momento in cui gli troviamo addosso una pistola, lo indaghiamo per il possesso dell’arma. Poi, ricolleghiamo a lui tutte le rapine precedenti. Come? Come si è sempre fatto: a quel punto avremo cristallizzato tutte le informazioni – video, testimonianze – utili per ricostruire una serie. Ovviamente, siamo solo in fase indiziaria: è solo nel processo che verrà stabilito se le prove sono valide, secondo l’iter tradizionale dell’innocenza fino a prova contraria. Le nostre informazioni verranno, come sempre, portate a un pubblico ministero che – se le riterrà sufficienti – richiederà l’imputazione di questa persona, e poi si andrà a processo. KeyCrime non condanna».

Restando in tema, l’Unione Europea si sta occupando di definire i limiti dell’utilizzo dell’Artificial Intelligence e dei big data per fini processuali. Cosa ne pensa delle direttive e delle linee guida che stanno emergendo?

«Sono fondamentali: adiamo a guardare la ratio degli interventi in merito, ovvero la COM (2021) del 21.04.21 e l’art. 22 del DGPR. Innanzitutto, il big data analysis è un approccio che si basa sul rastrellamento dei dati. Milioni di informazioni estratte da milioni di fonti diverse vengono raggruppate a fini d’indagine. Il problema di questo rastrellamento è dato dal fatto che queste informazioni potrebbero non essere “qualificate” e “certificate” o pertinenti al caso. È necessaria una regolamentazione: solo certi tipi di dati devono poter essere usati a fini investigativi. Fondamentale – e su questo l’Unione Europea è stata chiara – è che i dati siano qualificati, così come lo sono quelli raccolti da un agente di polizia. Dove è stato raccolto il dato, come, quando, è vero? Quello della qualificazione, attendibilità, verificabilità e certificazione dei dati è lo stesso problema delle fake news: ci posso mettere su il più bell’algoritmo del mondo, ma se il dato dovesse essere falsato, lo sarebbe l’intera indagine. Su questo punto, siamo perfettamente in linea con l’Unione Europea: i nostri sono dati polizia, attinenti al caso, qualificati, certificati, rintracciabili e verificabili».

E l’aspetto legato agli algoritmi? Anche lì, c’è un ampio dibattito sui bias che le loro analisi potrebbero contenere.

«L’Unione Europea chiede che gli algoritmi siano in chiaro. Cosa significa? Che l’utente, il poliziotto o lo Stato deve sapere qual è il percorso analitico di un algoritmo. Nel nostro caso, con i sistemi esperti, questo è possibile: l’investigatore, quando ottiene un suggerimento di crime linking, saprà come e perché è stato fatto, nonché l’indice probabilistico della connessione; stessa cosa per la previsione di un crimine futuro riferito alle serie in analisi. Tutto il processo è supervisionato dall’utente finale».

Quindi non è il software a decidere se c’è una serie?

«No, è sempre l’utente: il software indica solo una serie di proposte, ma è l’uomo – con alla mano dati omogenei, confermati e meticolosi – a decidere. È sempre possibile avere chiara evidenza sulle modalità di connessione proposte dal software e stabilire se sono corrette. Però, le intelligenze artificiali non sono al momento supervisionabili da un utente finale. Presto la tecnologia arriverà anche a quel punto, ma per ora restano delle black box. Perciò, non è possibile affidare loro autonomamente delle scelte: l’uomo deve sempre intervenire nel processo decisionale».

Parliamo di risultati: quali sono gli esiti di questa esperienza?

«Abbiamo testato KeyCrime per quattordici anni, dal 2008 al 2017, in una città come Milano. I numeri parlano chiaro: siamo passati dal 5% dei fatti risolti al 47% (312 su 664 rapine ai danni di attività commerciali). C’è stata una riduzione dei crimini del 58%, e i fatti risolti sono il 63%. Sono percentuali confermate da analisi indipendenti operate da Ossif sul periodo dal 2009 in poi, in merito alle rapine a danno di istituti di credito. Sulle rapine in farmacia, ci sono anche dati più recenti. Prima si compivano circa 18 rapine per serie, mentre ora siamo scesi a 6.6: siamo riusciti a interrompere la vita media di una serie criminale».

Avete ottenuto valutazioni indipendenti?

«Sì, questi dati sono stati validati scientificamente: nel 2008 dalla Essex University (UK), attraverso il documento Crime is terribly revealing, e nel 2020 dalla Oxford University (UK) tramite il meccanismo della peer review e una pubblicazione scientifica su Review of Economics Studies. Ma il punto non è solo questo, i risultati sono importanti anche nell’ambito processuale».

Esatto: le serie riescono poi a resistere allo scrutinio dei pubblici ministeri e a finire in un processo?

«In Italia, esiste il cosiddetto vincolo della continuazione del reato: è possibile riunire più crimini all’interno dello stesso processo, e ovviamente in quel caso le pene sono più severe. Così è stato per le serie individuate con KeyCrime: i pubblici ministeri sono davvero riusciti a imputare dieci, venti reati alla stessa persona, e i giudici hanno ritenuto che le prove fossero sufficienti. Questo fatto ha avuto un forte impatto deterrente: un conto è essere processato per una singola rapina, un conto è che ogni atto criminoso compiuto ti venga imputato. La verità è che, con le rapine, è facile farla franca: questo crea un enorme senso di impunità nei criminali. Puoi compiere serie e serie di crimini, il gioco varrà la candela. Invece, il concetto che abbiamo introdotto è importante: sì, magari potrai farla franca, ma quando ti prenderemo – e prima o poi ti prenderemo – saremo in grado di ricostruire la responsabilità dell’intera serie».

KeyCrime oggi si focalizza solo sulle rapine agli esercenti: sarà sempre così o si allargherà?

«Stiamo lavorando per estenderne l’utilizzo anche ad altri tipi di reati seriali: le molestie sessuali, i furti in appartamento e le truffe alle fasce deboli. Insomma, io ho cercato di fare ciò che serviva a me come poliziotto. KeyCrime è un sistema che nasce dall’essere stati sempre in mezzo ai rapinatori, dall’esperienza concreta. Ma non solo dalla mia: proviene da anni e anni di conoscenze stratificate e tramandate. Le logiche investigative non sono proprie di tutti, perciò molte compagnie private virano sulla statistica. Io avevo voglia di creare qualcosa che fosse sia una memoria storica sia una tecnica analitica, a disposizione dei nuovi arrivati».