Si chiama Record ed è un sistema di Natural Language Processing in grado di abbattere il tempo necessario a trovare le informazioni sul Covid-19 per le migliaia di ricercatori che in questo momento se ne stanno occupando nel mondo. Meno tempo per trovare risposte, più tempo per avvicinarsi alle soluzioni, in particolare il vaccino. A metterlo a punto sono stati Indigo.ai – la startup italiana specializzata nella progettazione e costruzione di assistenti virtuali, tecnologie di linguaggio ed esperienze conversazionali – e il Centro Medico Santagostino – rete di poliambulatori specialistici completi, la prima in Italia a sperimentare un modello di sanità che concilia qualità elevata e tariffe accessibili.
Lo spunto è arrivato dal bando “CORD-19 – COVID-19 Open Research Dataset Challenge” indetto dall’Allen Institute for AI in partnership con Chan Zuckerberg Initiative, Georgetown University’s Center for Security and Emerging Technology, Microsoft Research, IBM, National Library of Medicine – National Institutes of Health e in coordinamento con l’ufficio di Politiche di Scienza e Tecnologia della Casa Bianca al fine di sostenere la ricerca intorno al Covid e aiutare a trovare un vaccino il prima possibile. La richiesta è la creazione di sistemi di data mining che aiutino gli studiosi ad aggiornarsi in tempi rapidi sui temi specifici di interesse, senza dover leggere centinaia di pagine ogni giorno, all’interno degli oltre 195mila articoli scientifici sul COVID-19, SARS-CoV-2, e gli altri tipi di Coronavirus.
Un dataset in continuo aggiornamento perché si tratta di un tema nuovo, su cui quotidianamente si producono articoli, analisi, studi.
Great meeting today with the CoronaVirus Task Force in the Oval Office. Stay informed at: https://t.co/p9j7kZsD7b. pic.twitter.com/nnnUHCzOLV
— Donald J. Trump (@realDonaldTrump) August 4, 2020
La Startup Indigo al servizio della Casa Bianca
“La ricerca sul Covid-19 procede velocissima e di conseguenza il numero di paper e pubblicazioni aumenta esponenzialmente. Nel nostro piccolo, abbiamo sfruttato le nostre competenze in materia di AI e Natural Language Processing per dare il nostro contributo alla comunità medico-scientifica sul fronte Covid. Abbiamo attivato i nostri data scientist e creato un modello che, speriamo, possa accelerare il processo di ricerca di un vaccino e indirettamente salvare delle vite” ha commentato Gianluca Maruzzella, Founder & CEO di Indigo.ai.
“Siamo orgogliosi di aver partecipato a questo progetto innovativo”, aggiunge Luca Foresti, Amministratore Delegato del Centro Medico Santagostino, “mettendo a disposizione l’esperienza dei nostri medici ed esperti. Il Centro Medico Santagostino da anni spinge molto sulla digitalizzazione della sanità. E in occasione di questa crisi, per esempio, ha costruito strumenti innovativi come i videoconsulti con gli specialisti, le videoterapie con gli psicoterapeuti, una chat per la medicina generale, ha collaborato alla creazione della App Immuni. Sono convinto che si potrà uscire dalla crisi mettendo insieme competenze diverse: solo così si riuscirà a navigare nella complessità.”
Cos’è Record
Record è nato da una sinergia fruttuosa, in cui Indigo.ai ha sviluppato la tecnologia di intelligenza artificiale e il Centro Medico Santagostino ha supportato la parte di apprendimento dell’A.I. mettendo a disposizione un team di esperti, per verificare che le informazioni scientifiche individuate dall’A.I. fossero effettivamente corrette. Ad oggi, Record è in grado di trovare le informazioni pertinenti alle richieste dei ricercatori nell’80% dei casi.
Come funziona il motore di ricerca
Il motore di ricerca Record funziona in tre fasi: una volta ricevuta una domanda, attraverso alcune parole chiave specifiche, il sistema filtra i documenti che con ogni probabilità contengono la risposta.
Poi viene selezionato il sottoinsieme del documento con un contenuto semantico molto simile alla domanda posta, e infine attraverso un modello di question answering viene fornita una risposta per ciascuno dei documenti selezionati, insieme ad ulteriori informazioni come il titolo, gli autori, le citazioni e il giornale di pubblicazione con relativo impatto scientifico, per aiutare gli utenti a valutare la rilevanza del documento e l’attendibilità della risposta. Una ricerca eseguita attraverso una vettorializzazione di tutti i paragrafi, utilizzando il modello di sentence embedding basato su Bert: una scrematura continua che porta alle risposte più precise possibili.
Un metodo testato: sulle domande specifiche poste dagli esperti del Centro Medico Santagostino le risposte positive sono arrivate al 63%, sui quesiti estratti dalla challenge della Casa Bianca il tasso di risposte esatte si attesta intorno all’80%.
Il modello replicabile
Record, inoltre, è un modello di NLP replicabile, ovvero declinabile in altri contesti: riconvertibile per necessità aziendali o rimodulabile in caso di nuove emergenze – in quanto si tratta di un sistema capace di fornire a qualunque quesito le risposte specifiche contenute nei documenti catalogati come pertinenti per l’oggetto in questione. Un approccio completamente rivoluzionario, perché se fino a oggi questo tipo di ricerca richiedeva la supervisione umana, nel modello di Indigo.ai tutto passa attraverso l’intelligenza artificiale.