Ir o contido principal

O ILG lanza a nova ferramenta de xeración automática de galego e portugués XeraWord

A ampliación das unidades analizadas polo xerador permitirá o seu uso por parte de estudantes de galego e portugués como linguas estranxeiras ou segundas linguas. FOTO: Santi Alvite
A ampliación das unidades analizadas polo xerador permitirá o seu uso por parte de estudantes de galego e portugués como linguas estranxeiras ou segundas linguas. FOTO: Santi Alvite
Esta iniciativa baséase na tradución automática de léxico extraído da base de datos do idioma inglés WordNet
Santiago de Compostela

A ferramenta piloto de xeración automática da frase nominal simple en galego e portugués XeraWord xa está dispoñible na páxina web do Instituto de Lingua Galega (ILG). Elaborada no marco dun proxecto dirixido pola profesora da USC, María José Domínguez Vázquez, XeraWord baséase na tradución automática de léxico extraído da base de datos do idioma inglés WordNet.

Para o desenvolvemento deste simulador foron deseñados unha ferramenta de tradución do caudal léxico paradigmático a partir dos datos extraídos de xeito automático do WordNet, así como un flexionador nominal. O prototipo recorre á integración de datos lingüísticos e á interoperabilidade entre recursos xa existentes. Como prototipo xera datos para cinco substantivos en galego e portugués, en concreto: gl. aumento | pt. aumento, gl. discusión | pt. discussão, gl. fuxida | pt. fuga, gl. olor | pt. cheiro e gl. presenza | pt. presença. 

 “A escolla destes cinco substantivos xustifícase polo seu papel de representantes de diferentes escenas cognitivas ou campos semánticos”, explica a profesora Domínguez. Este prototipo senta as bases para o futuro desenvolvemento de ferramentas de xeración argumental máis complexas. 

Uso

A ampliación das unidades analizadas polo xerador permitirá o seu uso por parte de estudantes de galego e portugués como linguas estranxeiras ou segundas linguas. No seu estado actual, XeraWord presenta unha metodoloxía de análise que pode ser extrapolada a outras linguas e recursos.

“Unha vez seleccionada a lingua e o substantivo, o acceso aos datos é de carácter onomasiolóxico, de modo que podemos obter información sobre as diferentes realizacións argumentais dunha categoría ontolóxica, como, por exemplo, [humano], [lugar] ou [evento]”, explican dende o equipo investigador. Realizada a escolla, o recurso mostra as diferentes realizacións da categoría semántica. Aplicando a selección e premendo en xerar frases, a ferramenta xera datos de combinatoria simple argumental. Asemade, os datos poden ser descargados en formato CSV e JSON. Isto permite a súa integración e reutilización noutros recursos.

Os contidos desta páxina actualizáronse o 13.01.2021.