Chat GPT xa fala galego e pode axudar a salvalo, pero tamén a marxinalo aínda máis

ChatGPT 3, a ferramenta que popularizou o uso da Intelixencia Artificial (IA), fala galego, a pesar de que ninguén llo ensinou. Como é posible? Polo procesamiento de grandes masas de datos. O problema é que non hai tantos contenidosen galego como noutros idiomas. Por exemplo, un dos principais corpus que alimenta ás IA a penas ten un 0,05% de contidos en galego. Isto supón un risco de quedarnos atrás, que xa están a abordar varias iniciativas públicas, como o Proxecto Nós.

 


|

DALLu00b7E 2023 05 15 17.42.16   Realistic picture of the Cathedral of Santiago on the surface of the moon
A Catedral de Santiago sobre a superficie da lúa nunha foto creada pola intelixencia artificial 

 

Ningunha das intelixencias artificiais dispoñibles ao público comprende o que di. A maioría, incluída ChatGPT, calcula que palabra ou frase é máis probable que siga a outra. Este cálculo baséase nun adestramento previo, executado sobre un xigantesco corpus de textos. 

 

O material de aprendizaxe provenientes de diversas fontes, incluíndo textos en liña e textos non dispoñibles na rede. Como, polo menos no que se refire aos contidos en liña, ese corpus inclúe ao galego, o resultado é que ChatGPT é capaz de procesar preguntar e devolver contestacións no idioma propio de Galicia. 

 

A esta IA podémoslle, por exemplo, pedir que nos escriba unha poesía sobre a importancia do galego e o Día dás Letras:

 

O galego é a nosa lingua,
a voz do noso corazón,
que nos fala de raíces
e da nosa identidade con amor.

Neste Día das Letras,
lembramos a semente que se plantou,
unha semente de cultura
que hoxe en día medrou.

A nosa lingua é a nosa esencia,
unha maneira de expresión,
que nos fala de historia e tradición,
e de todo aquilo que somos.

Por iso é importante lembrar,
aqueles que dedicaron a súa vida
a escribir e falar en galego,
e deixaron unha pegada viva.

Que nunca esquezamos a nosa lingua,
nin todo o que representa,
porque sen ela non seriamos
quen somos hoxe en día na Galicia contenta.

Neste día tan especial,
celebramos a nosa cultura,
e todo aquilo que nos fai únicos,
en cada palabra e na nosa escritura

 

Aínda que as súas virtudes líricas sexan limitadas por agora, non cabe dúbida que a presenza do galego nos chats de intelixencia artificial supoñen un salto adiante respecto doutras tecnoloxías. A súa corrección lingüística, por exemplo, é superior á de moitos galegos. 

 

Falamos, á fin e ao cabo, dun idioma non normalizado, cuxos falantes aínda hoxe teñen dificultades para usar a súa lingua para interactuar coas tecnoloxías dixitais. Proben a pedirlle a Whatsapp ou a Google Docs que lles transcriba un audio en galego ou que o navegador de Google Maps guíelles nesta lingua. Se non teñen coidado, acabarán na máis profunda das corredoiras. 

 

INEXACTAS, PERO CADA VEZ MÁIS POPULARES

A pesar de que os modelos de linguaxe como GPT-3 poden xerar respostas e textos coherentes, en realidade non teñen unha comprensión profunda do contido que están a procesar. A pesar desta limitación, cada vez máis as nosas interaccións realízanse a través de plataformas dixitais cuxo motor é unha intelixencia artificial, o que fai que a eficacia dos modelos de procesamiento de linguaxe natural resulte crucial para o desenvolvemento de novas tecnoloxías nese idioma e, por tanto, en última instancia tamén en supervivencia.

 

Existe o risco de que os falantes dun idioma, por exemplo o galego, que comproben que os modelos na súa lingua que non funcionan ben e pasen a apostar por ferramentas noutros idiomas, por exemplo o castelán ou o inglés, freando á súa vez o interese das empresas por desenvolver solucións de IA no idioma minorizado. 

 

PRIMEIRAS INICIATIVAS PÚBLICAS
Lanzamiento del Proxecto Nu00f3s en una imagen de archivo de la Xunta
Lanzamento do Proxecto Nós nunha imaxe de arquivo da Xunta

 

Para abordar este problema, algunhas academias e gobernos autonómicos están a tomar iniciativas específicas para mellorar e preservar as súas linguas no incipiente mundo das solucións IA. Un deles é a Xunta, na colaboración coa USC, a través do Proxecto Nós, lanzado fai menos dun ano.

 

O seu obxectivo, segundo explican os seus promotores, é "situar o galego á vangarda da intelixencia artificial e as tecnoloxías lingüísticas para posibilitar o uso natural desta lingua nas interaccións dixitais entre persoas e dispositivos tecnolóxicos". É dicir, que poidamos, por exemplo, chatear coas IA en galego ou que nos devolvan unha imaxe da Catedral de Santiago na lúa máis realista que a que ilustra estre artigo.

 

E é que a asombroso capacidade das IA para xerar contido en galego e sobre Galicia non é perfecta e, se o  nivel de eficacia das aplicacións galaicas é menor que noutros idiomas, o máis probable é que os internautas opten simplemente por non complicar a vida e usar outras linguaxes.

 

MENOS DUN 0,05% DOS CONTIDOS PARA APRENDER EN GALEGO

Este risco é moi real, basta con revisar as estatísticas lingüísticas dun dos principais corpus que alimentou a aprendizaxe de ChatGPT, chamado Common Crawl

 

Trátase dunha 'araña' que rastrexa Internet, capaz de recompilar e almacenar grandes cantidades de datos procedentes de web de acceso libre para que estean dispoñibles para a súa reutilización en I+D. O proxecto utiliza rastreadores web para explorar internet e recompilar datos de portais, e logo almacénaos nun índice que pode ser consultado por investigadores, desarrolladores e empresas para unha variedade de fins, como adestrar modelos de aprendizaxe automática, mellorar a procura en liña e realizar análise de datos masivos.

 

Pois ben, segundo a súa web oficial en Git Hub, máis do 46% do contido recompilado nas últimas datas estaba en inglés. A pesar de que o chinés mandarín é o idioma máis falado no mundo, a penas un 5% dos seus textos estaba nesta linguaxe. Ao español vaille algo mellor, tamén anda en torno ao 4,5, a pesar de ser moito menos falado que o chinés. 

 

E ao galego? Unicamente o 0,04% das páxinas procesadas estaba na lingua de Rosalía. Isto sitúa ao idioma na posición 46, dun total de 146. Na súa última 'expedición', a araña identificou só 86 documentos en galego, fronte a 463.044 en inglés. 

 

Torre de Hu00e9rcules en la luna en una imagen creada por la inteligencia artificial DALLE
Torre de Hu00e9rcules na lúa nunha imaxe creada pola intelixencia artificial DALLE

 

Non é de estrañar, por tanto, que o dominio do galego que pode ter Chat GPT á hora de, por exemplo, escribir unha poesía ou unha receita sexa moito menor que a súa eficacia 'falando' inglés. 

 

Isto non se debe a ningunha conspiración contra o idioma. Simplemente, os corpus en inglés sobre os que aprenden as redes neuronais das IA son moitísimo máis amplos que noutros idiomas porque a lingua anglosajana é, con moitísima diferenza, a máis frecuente entre os contidos de Internet a nivel global. 

 

Con todo, a ausencia de malicia non implica que a escaseza sexa perigosa, pois nos podemos enfrontar a un novo efecto 'pixota que se morde a cola'. Ao haber menos webs en galego, as IA serán menos eficaces en en galego polo que, ao final, os creadores de contido tamén usarán menos as IA para producir textos nesta lingua e haberá menos contidos para alimentar a novas IA.

 

Por iso é polo que os poderes públicos galegos empecen a prestarlle cada vez máis atención a este campo. A Xunta xa ha dedico 600.000 euros, asegura, ao Proxecto Nós. A iniciativa tamén conta co apoio Proxecto Estratéxico para a Recuperación e Transformación Económica (PERTE) da Nova Economía Lingüística, o diñeiro de Europa que xestiona o Estado, os famosos fondos Next Generation.

 

Neste vídeo promocional do Día dás Letras colaborou o Proxecto Nós:

 

 

 

RECOLLER AUDIO E TEXTO

Claro que non só das institucións depende que o galego non quede atrás nesta nova revolución que xa está a cambiar a forma de producir contidos. Ademais de usar aplicacións de IA en galego, é clave que as intelixencias artificiais conten con corpus no idioma propio do país. Por iso o Instituto dá Lingua Galega dá USC (ILG) e o CiTIUS levan meses traballando na creación de recursos textuais e de voz que no futuro poderán usar  as entidades interesadas. 

 

Serán corpus, promete a Xunta, distribuídos baixo licenza libre. Algo clave, pois a reutilización do contido e da tecnoloxía que o procesa é fundamental para que máis ferramentas de IA póidanse desenvolver en galego. 

Sen comentarios

Escribe o teu comentario




He leído y acepto la política de privacidad

No está permitido verter comentarios contrarios a la ley o injuriantes. Nos reservamos el derecho a eliminar los comentarios que consideremos fuera de tema.

Galiciapress
Praza da Quintana, 3; 15704 Santiago de Compostela
Tlf (34)678803735

redaccion@galiciapress.es o direccion@galiciapress.es
RESERVADOS TODOS OS DEREITOS. EDITADO POR POMBA PRESS,S.L.
Aviso legal - Política de Cookies - Política de Privacidade - Configuración de cookies - Consello editorial - Publicidade
Powered by Bigpress
CLABE