O curso presenta os fundamentos e aplicacións da Lingüística de corpus a través do uso de diferentes tipos de corpus de español e de galego e a súa aplicación práctica. Abórdanse os aspectos máis relevantes do deseño e construción de corpus, incluíndo os procesos de codificación e anotación para o enriquecemento dos textos. Preséntanse, así mesmo, algunhas técnicas estatísticas simples e utilidades de Unix para o procesamento dos datos textuais.
Dirección: Victoria Vázquez Rozas e Guillermo Rojo
Secretaría: Eva María Domínguez Noya
Lugar de celebración: Facultade de Filoloxía, sala C01
2 créditos ECTS
Web propia
PROGRAMA
Día 10
9:00 - 9:30
Inauguración do curso
9:30 - 11:30
Codificación de corpus
Eva María Domínguez Noya, investigadora do ILG - CIRP; María Paula Santalla del Río, profesora contratada doutora da USC
12:00 - 14:00
Utilización avanzada de aplicacións de consulta de corpus. Aspectos básicos.
María Sol López Martínez, profesora titular de Filoloxía galega da USC; Victoria Vázquez Rozas, profesora titular de Lingua española da USC
16:00 - 18:00
Preparación das computadoras persoais para o traballo do curso
Prácticas de codificación cun editor XML
Buscas dirixidas en corpus (en especial, CORGA, CORPES, Corpus del Español, ESLORA, CAES e PRESEEA)
Todos os profesores
Día 11
9:30 - 11:30
Creación dinámica de subcorpus (subcorpus virtuais). Combinación de parámetros
María Sol López Martínez; Guillermo Rojo, profesor emérito da USC
12:00 - 14:00
Buscas complexas. Utilización de operadores booleanos e metacaracteres.
Eva María Domínguez Noya; Victoria Vázquez Rozas
16:00 - 18:00
Buscas dirixidas en corpus (especialmente en CORGA, CORPES, Corpus del Español, ESLORA, CAES e PRESEEA)
Todos os profesores
Día 12
9:30 - 11:30
Técnicas estatísticas. Enfoque cualitativo e enfoque cuantitativo. Nocións básicas en estatística descritiva: frecuencias xerais e normalizadas; medidas de tendencia central; medidas de dispersión; variábeis categóricas e continuas
Mario Barcala, director executivo de NLPgo; Guillermo Rojo; María Paula Santalla
12:00 - 14:00
Nocións básicas de estatística inferencial: variábeis dependentes e independentes; hipótese nula e hipótese alternativa. Probas de correlación simples (2)
Mario Barcala; Guillermo Rojo; María Paula Santalla
16:00 - 18:00
Casos prácticos de aplicación das técnicas estudadas
Todos os profesores
Día 13
9:30 - 11:30
Ferramentas informáticas para a obtención de datos textuais. Texto plano. Editores de texto. Codificación de caracteres. Uso básico de utilidades para traballo con textos (wc, grep, cut, sort, uniq, etc.)
Mario Barcala; Guillermo Rojo; María Paula Santalla
12:00 - 14:00
Profundización no uso de utilidades para textos (sed, redireccionamentos, tuberías, operadores de disxunción etc.). Expresións regulares
Mario Barcala; Guillermo Rojo; María Paula Santalla
16:00 - 18:00
Instalación de utilidades nas computadoras persoais
Prácticas cos comandos estudados
Todos os profesores
Día 14
9:30 - 11:30
Explotación de corpus: Metodoloxía. Determinación das características dos corpus que poden ser de utilidade nos distintos campos de traballo
Eva María Domínguez Noya; María Sol López Martínez; Guillermo Rojo; María Paula Santalla; Victoria Vázquez Rozas
12:00 - 14:00
Estudo dun caso. Selección do tema de investigación e formulación de hipóteses e cuestións de investigación; selección do(s) corpus adecuado(s) para a investigación e determinación das buscas; análise dos datos obtidos (incluídas probas estatísticas); revisión da hipótese (se procede)
Eva María Domínguez Noya; María Sol López Martínez; Guillermo Rojo; María Paula Santalla; Victoria Vázquez Rozas
16:00 - 18:00
Desenvolvemento dun caso práctico por grupos de traballo
Todos os profesores