Unha investigación cuantifica a distancia actual e histórica entre linguas

O cálculo automático da distancia entre idiomas é o eixo central da investigación desenvolvida polo enxeñeiro informático José Ramom Pichel na USC. Esta tese de doutoramento conclúe que na segunda metade do século XX, o galego estaba case á mesma distancia do castelán que do portugués. A investigación cuantificou a distancia actual entre 44 linguas europeas, así como a evolución entre períodos históricos de varias linguas.
“O principal obxectivo desta tese de doutoramento foi o de crear unha metodoloxía baseada en corpus de texto escrito que cuantifique automaticamente a distancia actual e histórica entre linguas e/ou variantes lingüísticas”, explica Pichel. Para este fin, aplicouse ao corpus multilingüe ‘Carvalho’, na honra de Ricardo Carvalho Calero e constituído por documentos de diferentes períodos históricos, unha métrica xa verificada para identificar automaticamente linguas. “Como obxectivo secundario, investigouse o papel que a ortografía desempeña como factor de diverxencia e converxencia entre idiomas”, explica o investigador.
A través do seu método o investigador observou que na segunda metade do século XX o galego está case á mesma distancia do castelán que do portugués, sendo máis próximo ao castelán se utiliza unha ortografía indistinguible do español, e máis próximo ao portugués se utiliza unha codificación ortográfica común case fonolóxica. Tamén observou que a distancia do galego respecto do castelán e portugués e tan próxima como a que separa o bosnio e croata do serbio, todas variantes do serbo-croata, polo que cobra sentido a hipótese do profesor Carvalho Calero. “Carvalho defendeu que ou facemos un galego con saída internacional a través do portugués, ou o castelán vai esfarelar o galego. Por iso falaba de galego-castelán ou galego-portugués, de que non hai outra alternativa”, apunta Pichel. Esta metodoloxía desenvolvida por Pichel foi tamén aplicada este ano polas universidades de Florencia e Siena para estudar o distanciamento histórico do italiano medieval.
Este método e os seus materiais están en código aberto na Rede, dispoñibles para todas as persoas interesadas a través da web GitHub. A aplicación mostra que a distancia é máis pequena entre linguas que historicamente foron consideradas variantes dunha mesma.
Acto de defensa e cualificación
A tese Medidas de distância entre línguas baseadas em corpus. Aplicação à linguística histórica do galego, português, espanhol e inglês foi defendida fronte ao tribunal integrado polos profesores Kepa Sarasola da Universidade do País Vasco (UPV), o profesor brasileiro Marcos Zampieri do Rochester Institute of Technology de Nova York e a profesora portuguesa Rute Costa da Universidade Nova de Lisboa.
Baixo a dirección dos profesores Paulo Gamallo do Centro Singular de Investigación en Recnoloxías Intelixentes da USC (CiTIUS) e Iñaki Alegría da UPV, Ramom Pichel obtivo a cualificación de Sobresaliente Cum laude coa opción a premio extraordinario. Os resultados do traballo foron publicados, entre outras revistas e congresos, en Natural Language Engineering e Quantitative Linguistics.