El Barcelona Super Computing Center – Centre Nacional de Supercomputació (BSC-CNS) ha fet evolucionar el primer sistema massiu d'intel·ligència artificial en llengua espanyola perquè resumeixi textos o redacti documents complets a partir de titulars o unes poques paraules. Es tracta de la nova versió del projecte MarIA, una iniciativa millorada amb un salt tecnològic i els arxius digitals de la Biblioteca Nacional d'Espanya. El sistema, a més, es presenta en obert perquè qui hi estigui interessat el pugui aplicar a infinitats d'usos, apunta el BSC-CNS. Amb aquest nou pas, els investigadors situen la llengua espanyola al tercer lloc dels idiomes amb models massius d'accés obert, després de l'anglès i el mandarí, per volum i capacitats.

La nova tecnologia utilitzada, anomenada GPT-2, crea models descodificadors que, amb una seqüència escrita, permet derivar-ne textos nous. Això es pot fer servir per fer resums automàtics, simplificar redactats complexos segons les necessitats de l'usuari, generar preguntes i respostes, mantenir diàlegs complexos amb persones o fins i tot redactar textos complets partint únicament d'un titular.Això pot ser útil per a desenvolupadors d'aplicacions, grups de recerca, empreses, administracions públiques o la societat en general, apunten des del Barcelona Supercomputing Center. En aquest sentit, els models desenvolupats amb el sistema MarIA en anglès s'han utilitzat, per exemple, per generar suggeriments de text en aplicacions d'escriptura. També es planteja el seu ús per resumir contractes o documents complicats que detallen les prestacions d'un producte, segons el que vulgui saber el consumidor. A més, serveix buscar conceptes concrets en bases de dades gegantines i relacionar-los amb altres informacions rellevants.

Entrenada amb el MareNostrum

El resultat del projecte MarIA neix de l'entrenament del sistema en el superordinador MareNostrum, situat a Barcelona, i de l'aplicació d'una potència de càlcul de 9,7 trilions d'operacions (969 exaflops). "Estem encantats de posar els nostres experts en llenguatge natural i intel·ligència artificial i la capacitat de càlcul de les nostres infraestructures al servei dels reptes rellevants per a la societat, com al que dóna resposta aquesta iniciativa", apunta el director del BSC-CNS, Mateo Valero. En la mateixa línia, aquest projecte emmarcat i finançat amb el Pla de Tecnologies del Llenguatge de la Secretaria d'Estat de Digitalització i Intel·ligència Artificial (SEDIA) estatal, ha de suposar també un impuls de la llengua espanyola i la innovació en l'àmbit internacional. Amb projectes com MarIA es fan "passos ferms cap a una intel·ligència artificial que pensi en espanyol, cosa que multiplicarà les oportunitats econòmiques per a les empreses i la indústria tecnològica espanyola", valora la secretària d'Estat de Digitalització i Intel·ligència Artificial, Carme Artigas. Al seu torn, la directora de la Biblioteca Nacional d'Espanya, Ana Santos, veu en aquest projecte "una fita en el camp del processament del llenguatge natural". La seva institució hi ha col·laborat amb dades que van arribar a constituir 135 mil milions de paraules que ocupaven 570 Gigabytes.