Un software di traduzione automatica per abbattere le barriere linguistiche che dividono l’Europa digitale

La creazione di un Mercato Unico Digitale (o “Digital Single Market”) europeo rappresenta un obiettivo chiave della Commissione europea per il 2020. Se da un lato il Mercato Unico Digitale è fondamentalmente multilingue, dall’altro finora la maggior parte delle lingue europee non ha potuto beneficiare di un adeguato supporto da parte delle tecnologie del linguaggio che rendesse possibile un lavoro, una vita e un commercio realmente senza frontiere. In effetti, la ricchezza costituita dalla diversità e varietà linguistica dell’Europa si trasforma in un ostacolo se il libero scambio di informazioni viene intralciato, se l’accesso imparziale ai servizi pubblici, alle opportunità commerciali, di lavoro e di sostegno vengono impediti.

I confini invisibili della lingua in Europa

Nel nascente Mercato Unico Digitale, le barriere linguistiche creano confini invisibili: mentre il 99% delle imprese europee è costituito da piccole e medie imprese.

Solo il 7% delle PMI riesce a vendere al di là dei confini, a consumatori che parlano una lingua diversa.Analogamente, il 90% dei clienti europei preferisce navigare all’interno di siti web nella propria lingua.

Un supporto adeguato sul versante delle tecnologie linguistiche garantirebbe il multilinguismo portando vantaggi significativi sia per l’economia sia per la società: si stima che un Mercato Unico Digitale potrebbe effettivamente creare fino a 340 miliardi di euro di crescita aggiuntiva, centinaia di migliaia nuovi posti di lavoro, e una società realmente basata sulla conoscenza.

I benefici derivanti dalle nuove opportunità

La Commissione europea ha compiuto un passo importante a supporto di un Mercato Unico Digitale veramente multilingue, creando i presupposti per servizi pubblici dedicati ai cittadini e alle imprese europee in grado di operare liberamente senza barriere linguistiche.

La piattaforma di Traduzione Automatica sviluppata all’interno del programma europeo “Connecting Europe Facility” (CEF.AT) faciliterà la comunicazione multilingue e lo scambio di documenti e altri contenuti linguistici in Europa tra amministrazioni pubbliche nazionali, e tra queste e i cittadini europei e le imprese. La piattaforma CEF.AT opererà in vari scenari della pubblica amministrazione in aree come, ad esempio, la protezione dei consumatori, la salute, gli appalti pubblici, la previdenza sociale e la cultura. Svolgerà un ruolo centrale nel far crescere servizi pubblici online, come Europeana, il portale degli Open Data e la piattaforma online di risoluzione delle controversie.

Con il supporto del servizio CEF.AT, le pubbliche amministrazioni in Europa potranno operare riducendo o addirittura abbattendo le barriere linguistiche.

La tecnologia alla base dei servizi pubblici senza frontiere

La tecnologia alla base della piattaforma CEF.AT è rappresentata da un sistema di traduzione automatica di tipo statistico, [email protected], che impara come tradurre un testo a partire da traduzioni esistenti.

All’interno di un approccio di tipo statistico alla traduzione automatica, dati come raccolte di testi mono- e bilingui, dizionari, terminologie, ontologie e repertori di nomi propri svolgono un ruolo centrale in quanto forniscono l’evidenza sulla base della quale il sistema di traduzione automatica “impara” a tradurre un testo da una lingua sorgente a una lingua target.

[email protected] nel suo stato attuale è disponibile gratuitamente per tutti i servizi pubblici europei, nell’ambito del programma CEF.

Ad oggi, il sistema è addestrato principalmente sulle traduzioni della legislazione della UE e sui testi prodotti dalle istituzioni dell’UE: questo fatto rende il sistema non sempre in grado di soddisfare appieno le esigenze e le richieste che emergono quotidianamente da parte dei servizi pubblici nazionali europei.

Per migliorare il servizio di traduzione automatica offerto dalla Commissione europea, è necessario specializzarlo in relazione alle esigenze e peculiarità delle amministrazioni pubbliche nazionali ed europee: tale obiettivo può essere perseguito arricchendo l’evidenza linguistica a disposizione del sistema di traduzione automatica con dati testuali e linguistici (mono- e bi-lingui) raccolti dalle istituzioni nazionali come ministeri, governo, amministrazioni pubbliche e organizzazioni non governative.

Attraverso l’azione “European Language Resources Coordination” (ELRC) all’interno del programma europeo “Connecting Europe Facility”, la Commissione europea sta intraprendendo uno sforzo di raccolta di dati testuali e linguistici senza precedenti come primo passo nella direzione della specializzazione del CEF.AT in relazione alle esigenze e peculiarità dei servizi pubblici degli Stati membri dell’UE, dell’Islanda e della Norvegia, creando così i presupposti per l’erogazione di servizi multilingui per i cittadini, le amministrazioni e le imprese in Europa. In tal modo, l’azione ELRC non solo aiuterà a colmare il divario tra i servizi di traduzione automatica attualmente offerti dalla Commissione europea e le reali esigenze quotidiane dei servizi pubblici nazionali di tutta Europa, ma contribuirà anche in modo significativo alla sopravvivenza delle lingue nazionali europee.

Seminario ELRC in Italia

A nome della Commissione europea, il consorzio ELRC sta organizzando una serie di seminari nazionali in ciascuno dei 30 paesi partecipanti per aumentare la consapevolezza circa l’importanza dei dati testuali e linguistici disponibili presso le pubbliche amministrazioni: si tratta di un patrimonio testuale che può contribuire in modo significativo alla specializzazione dei risultati di sistemi di traduzione automatica e di cui non vi è sempre consapevolezza circa il suo valore. Al fine di coinvolgere tutte le parti interessate nel rendere la piattaforma CEF.AT a misura delle loro esigenze, ELRC invita tutti i rappresentanti delle amministrazioni pubbliche in Europa a partecipare all’evento in corso di organizzazione nel proprio paese.

In Italia, l’organizzazione dell’evento è stata affidata all’Istituto di Linguistica Computazionale “Antonio Zampolli” del Consiglio Nazionale delle Ricerche, che opera nel settore della linguistica computazionale dal 1967: il Workshop si terrà il prossimo 15 marzo a Roma presso la Sede della Rappresentanza in Italia della Commissione europea (Palazzo dei Campanari, Via IV Novembre 149).

Il workshop italiano vedrà coinvolti relatori della Commissione europea, rappresentanti delle amministrazioni pubbliche nazionali e degli enti governativi, per arrivare a fornitori di servizi linguistici e di tecnologie del linguaggio che si confronteranno per comprendere le esigenze delle amministrazioni nazionali del settore pubblico in materia di traduzione automatica, per effettuare una ricognizione e una raccolta di dati relativi alla lingua italiana e discutere di problemi tecnici e giuridici connessi con il loro uso per la traduzione automatica.

Nota: La partecipazione al Workshop è gratuita ma richiede la registrazione.

SIMONETTA MONTEMAGNIIstituto di Linguistica Computazionale “Antonio Zampolli” (ILC) – CNR