El curso presenta los fundamentos y aplicaciones de la Lingüística de corpus a través del uso de diferentes tipos de corpus de español y de gallego y su aplicación práctica. Se abordan los aspectos más relevantes del diseño y construcción de corpus, incluyendo los procesos de codificación y anotación para el enriquecimiento de los textos. Se presentan, asimismo, algunas técnicas estadísticas simples y utilidades de Unix para el procesamiento de los datos textuales.
Dirección: Victoria Vázquez Rozas y Guillermo Rojo
Secretaría: Eva María Domínguez Noya
Lugar de celebración: Facultad de Filología, sala C01
2 créditos ECTS
Web propia
PROGRAMA
Día 10
9:00 - 9:30
Inauguración del curso
9:30 - 11:30
Codificación de corpus
Eva María Domínguez Noya, investigadora del ILG - CIRP; María Paula Santalla del Río, profesora contratada doctora da USC
12:00 - 14:00
Utilización avanzada de aplicaciones de consulta de corpus. Aspectos básicos.
María Sol López Martínez, profesora titular de Filología gallega de la USC; Victoria Vázquez Rozas, profesora titular de Lengua española de la USC
16:00 - 18:00
Preparación de los ordenadores personales para el trabajo del curso
Prácticas de codificación con un editor XML
Búsquedas dirigidas en corpus (CORGA, CORPES, Corpus del Español, ESLORA, CAES y PRESEEA)
Todos los profesores
Día 11
9:30 - 11:30
Creación dinámica de subcorpus (subcorpus virtuales). Combinación de parámetros
María Sol López Martínez; Guillermo Rojo, profesor emérito de la USC.
12:00 - 14:00
Búsquedas complejas. Utilización de operadores booleanos y metacaracteres.
Eva María Domínguez Noya; Victoria Vázquez Rozas.
16:00 - 18:00
Búsquedas dirigidas en corpus (CORGA, CORPES, Corpus del Español, ESLORA, CAES y PRESEEA)
Todos los profesores
Día 12
9:30 - 11:30
Técnicas estadísticas. Enfoque cualitativo y enfoque cuantitativo. Nociones básicas en estadística descriptiva: frecuencias generales y normalizadas; medidas de tendencia central; medidas de dispersión; variables categóricas y continuas
Mario Barcala, director ejecutivo de NLPgo; Guillermo Rojo; María Paula Santalla
12:00 - 14:00
Nociones básicas de estadística inferencial: variables dependientes e independientes; hipótesis nula e hipótesis alternativa. Pruebas de correlación simples (2)
Mario Barcala; Guillermo Rojo; María Paula Santalla
16:00 - 18:00
Casos prácticos de aplicación de las técnicas estudiadas
Todos los profesores
Día 13
9:30 - 11:30
Herramientas informáticas para la obtención de datos textuales. Texto plano. Editores de texto. Codificación de caracteres. Uso básico de utilidades para trabajo con textos (wc, grep, cut, sort, uniq, etc.)
Mario Barcala; Guillermo Rojo; María Paula Santalla
12:00 - 14:00
Profundización en el uso de utilidades para textos (sed, redireccionamientos, tuberías, operadores de disyunción, etc.). Expresiones regulares
Mario Barcala; Guillermo Rojo; María Paula Santalla
16:00 - 18:00
Instalación de utilidades
Prácticas con los comandos estudiados
Todos los profesores
Día 14
9:30 - 11:30
Explotación de corpus: Metodología. Determinación de las características de los corpus que pueden ser de utilidad en los distintos campos de trabajo
Eva María Domínguez Noya; María Sol López Martínez; Guillermo Rojo; María Paula Santalla; Victoria Vázquez Rozas
12:00 - 14:00
Estudio de un caso. Selección del tema de investigación y formulación de hipótesis y preguntas de investigación; selección del corpus (o los corpus) adecuados para la investigación y determinación de las búsquedas; análisis de los datos obtenidos (incluidas pruebas estadísticas); revisión de la hipótesis (si procede)
Eva María Domínguez Noya; María Sol López Martínez; Guillermo Rojo; María Paula Santalla; Victoria Vázquez Rozas
16:00 - 18:00
Desarrollo de un caso práctico por grupos de trabajo
Todos los profesores