O Corpus de Referencia do Galego Actual ‘Corga’ actualízase coa versión 3.2

A USC, no marco do seu convenio co Centro Ramón Piñeiro, acaba de publicar a nova versión do Corpus de Referencia do Galego Actual ‘Corga’, así como o etiquetador/lematizador do galego actual ‘Xiada’. A dirección deste traballo correu a cargo dos profesores Guillermo Rojo e María Sol López Martínez.
Corga é un corpus documental aberto que abrangue cronoloxicamente dende 1975 ata a actualidade, cuxo obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, ou comunicativa. O corpus, enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos, contén 40.178.271 palabras ortográficas -48.184.012 elementos gramaticais- pertencentes maioritariamente a distintos tipos de textos escritos representativos do galego actual, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.
A versión 3.2 que acaba de presentarse inclúe a visualización da información recuperada en forma de expresións coincidentes, de xeito que os resultados iguais redúcense a un; así como, a modo de dicionario de frecuencias, listaxes personalizadas relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema. Estas funcionalidades veñen a completar as que xa se presentaron na primavera deste mesmo ano.
Xiada
Para etiquetar e lematizar automaticamente os documentos do ‘Corga’, a fin de dar un salto cualitativo na recuperación de información e formular consultas utilizando información gramatical, emprégase Xiada, un etiquetador estatístico de alta precisión cuxa versión 2.7 inclúe a liberación do código do etiquetador xunto cos recursos que este emprega; ampliación do etiquetario con 71 novas etiquetas para dar cabida ás grafías innovadoras que promoven unha linguaxe inclusiva, o que sitúa o tamaño do tagset en 453 etiquetas diferentes; actualización da estrutura do lexicón para facilitar a análise das formas que presentan as grafías anteriores; neutralización da variación gráfica formal en lemas semellantes relacionándoos a través dun; e o recoñecemento automático de numerosas formas non normativas, presentes nos textos. En total, o lemario consta de 63.802 lemas, o que orixina 1.136.030 elementos gramaticais.
A flexibilidade e potencialidade da aplicación de consulta permite empregar nunha mesma procura comodíns, operadores booleanos, sensibilidade a acentos ou maiúsculas e variables clasificatorias dos documentos combinándoos cos distintos tipos de modalidade de busca, por palabras ortográficas ou elementos gramaticais, ben sucesivos ben descontinuos, e mesmo reducir os resultados a expresións coincidentes ou obter frecuencias personalizadas de formas, lemas, ou etiquetas. Todo isto converte o ‘Corga’ nunha ferramenta moi útil para extraer datos da lingua galega actual de tipo léxico, gramatical, terminolóxico, fraseolóxico, ou discursivo.