Créditos ECTS Créditos ECTS: 6
Horas ECTS Criterios/Memorias Traballo do Alumno/a ECTS: 99 Horas de Titorías: 3 Clase Expositiva: 24 Clase Interactiva: 24 Total: 150
Linguas de uso Castelán, Galego
Tipo: Materia Ordinaria Grao RD 1393/2007 - 822/2021
Departamentos: Electrónica e Computación
Áreas: Ciencia da Computación e Intelixencia Artificial
Centro Escola Politécnica Superior de Enxeñaría
Convocatoria: Segundo semestre
Docencia: Sen docencia (Extinguida)
Matrícula: Non matriculable
A aprendizaxe por reforzo no contexto da robótica móbil ten un enorme potencial dado que permite que os robots poidan aprender e adquirir políticas de control por si mesmos, mediante a súa propia interacción coa contorna no que traballan.
A través da aprendizaxe por reforzo pódense resolver unha ampla gama de tarefas complexas de toma de decisións con mínima intervención humana. A aprendizaxe por reforzo céntrase na aprendizaxe dirixida a obxectivos a partir da interacción, aprender interactuando. Neste caso á máquina ou robot non se lles di que accións realizar, senón que é algo que deben descubrir por si mesmos, mediante proba e erro, identificando que accións producen a maior recompensa. Ese é en realidade o seu obxectivo, maximizar a recompensa.
A aprendizaxe por reforzo ofrece á robótica un marco e un conxunto de ferramentas para o deseño de comportamentos sofisticados e difíciles de deseñar. O obxectivo final é dotar aos robots da capacidade de aprender, mellorar e adaptarse a partir da exploración e a aprendizaxe autónoma. Dotar aos robots de habilidades similares ás humanas para realizar habilidades motoras dunha maneira suave e natural é un dos obxectivos importantes da robótica. Unha forma prometedora de lograr isto é creando robots que poidan aprender novas habilidades por si mesmos, de maneira similar aos humanos. Con todo, adquirir novas habilidades motoras non é sinxelo e implica varias formas de aprendizaxe. A través das estratexias que se verán nesta materia o robot poderá aprender a resolver tarefas que serían difíciles de programar de forma directa, ou para as que é difícil obter un bo proceso demostrativo ou conxunto de exemplos. Falamos tamén de tarefas ou problemas de optimización que non teñen unha formulación analítica directa ou unha solución de forma pechada coñecida. O robot poderá adaptarse a cambios no hardware ou na contorna. Tamén é posible que o robot poida partir dunha demostración "suficientemente boa" e ila perfeccionando de forma gradual. Nesta materia aprenderanse estratexias capaces de dotar ao robot coa capacidade de adaptarse dinámicamente aos cambios do propio hardware, fallas de sensores, ou cambios na propia contorna no que se move o robot.
Os resultados da aprendizaxe
-----------------------------------
Coñecer como lograr modelos e programas de control, capaces de adaptarse en tempo real a partir da actuación do robot na contorna.
Entender en que medida as estratexias de aprendizaxe por interacción robot-entoo permiten facer fronte ás limitacións da programación explícita.
Dominar as técnicas de aprendizaxe por reforzo e coñecer o tipo de tarefas para as que se empregan. Tamén deberá ser capaz de manexar as implementacións software dos algoritmos de aprendizaxe, ou programar algún delas.
Saber como lograr a aprendizaxe de controladores por demostración, utilizando técnicas para extraer a información relevante que acompaña a acción do demostrador, e crear un mapa sensor-motor que relaciona as entradas sensoriais con comandos motrices necesarios para imitar un comportamento ou unha tarefa.
Os contidos xerais da materia conforme se recollen na memoria verificada son:
Aprendizaxe por reforzo no contexto da robótica. Procesos de Markov. Políticas e funcións de Valor. Algoritmos para a procura de políticas. Xeneralización e aproximación de funcións. Aprendizaxe por reforzo multi-obxectivo e multi-axente. Aprendizaxe por demostración e imitación
Estes contidos estruturaranse na seguinte secuencia de temas e prácticas:
1. Introdución: aprendizaxe por reforzo e os seus elementos. Modelización dun problema. En que se diferencia doutras estratexias. Obxectivos e reforzos.
2. Procesos de decisión de Markov. Contornas deterministas e estocásticos. Políticas e funcións de valor. Ecuación de Bellman e Bellman óptima.
3. Solucións Tabulares: Programación Dinámica. Métodos de Monte Carlo. Diferenzas Temporais. Trazas de Elegibilidad. Dilema exploración-explotación.
4. Métodos de solución aproximados: Procura da política óptima a través de métodos baseados en gradiente.
5. Introdución á aprendizaxe por reforzo profundo. Deep Q- Networks
6. Procesos de aprendizaxe por demostración e imitación.
Trátase dunha materia cun importante compoñente práctica, a través das prácticas os alumnos ilustraranse de maneira experimental os conceptos dos temas teóricos. A través das prácticas o alumno poñerá en xogo algúns dos principais algoritmos de aprendizaxe descritos na teoría para a aprendizaxe de diferentes comportamentos en robots. Empregaranse as librerías adecuadas para este tipo de aprendizaxes.
Os temas 4, 5 e 6 explicaranse na segunda metade da materia (30 HP, 45 HNP).
100/10000
Existen moitos titoriais, artigos introdutorios dispoñibles na internet.
Bibliografía básica:
R.S. Sutton, A. G. Barto, “Reinforcement Learning: an introduction”. Second Edition. A Bradford Book. The MIT Press Cambridge, Massachusetts London, England
https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2nd…
J. Torres, “Introducción al aprendizaje por refuerzo profundo. Teoría y práctica en Python”. Watch this space book series. 2021
Bibliografía complementaria
M. Lapan, “Deep Reinforcement Learning Hands-On”, Packt. 2020
Tal e como se recolle na memoria verificada do título. As competencias que se cobren nesta materia son as seguintes:
Competencias básicas:
-----------------------------
CB2: Que os estudantes saiban aplicar os seus coñecementos ao seu traballo ou vocación dunha forma profesional e posúan as competencias que adoitan demostrarse por medio da elaboración e defensa de argumentos e a resolución de problemas dentro da súa área de estudo.
CB5: Que os estudantes desenvolvesen aquelas habilidades de aprendizaxe necesarias para emprender estudos posteriores cun alto grao de autonomía.
Competencias Xerais:
--------------------------
CG1: Coñecemento das materias básicas e tecnoloxías, que capaciten para a aprendizaxe e desenvolvemento de novos métodos e tecnoloxías, así como as que lles doten dunha gran versatilidade para adaptarse a novas situacións.
CG2: Capacidade de resolución de problemas no campo da enxeñería robótica con creatividade, iniciativa, metodoloxía e razoamento crítico.
Competencias específicas
------------------------------
CE15: Coñecer as técnicas de intelixencia artificial utilizadas en robótica industrial e de servizos, saber como utilizalas en aplicacións robóticas fixas e móbiles.
Competencias Transversais
-------------------------------
CT1: Capacidade de análise e síntese.
CT3: Capacidade de traballo individual, con actitude autocrítica.
CT10: Utilización de información bibliográfica e da internet.
CT11: Utilización de información complementaria e/ou puntual en lingua inglesa.
CT12: Capacidade para resolver problemas mediante a aplicación integrada dos seus coñecementos.
As clases teóricas desenvolveranse na aula de teoría, e nelas o profesor dará aos alumnos as directrices necesarias para a resolución dos proxectos/prácticas que se exporán durante as prácticas da materia.
A docencia interactiva levará a cabo nas aulas de informática e laboratorios de robótica. Nas clases prácticas estableceremos métodos de ensino activos ou produtivos baseados no ensino problémica que faciliten a adquisición de capacidades cognitivas e de tipo creador. Nas prácticas exporanse exercicios a través dos cales o alumno aprenderá a manexar diferentes algoritmos de aprendizaxe baseados en reforzo, cos que se lograrán comportamentos adaptativos en robots. Será necesario o manexo de ROS, programación, librerías específicas, así como algunha ferramenta de simulación.
Así mesmo, nas titorías atenderase ao alumnado para discutir, comentar, aclarar ou resolver cuestións concretas en relación coas súas tarefas dentro da materia. Estas titorías serán poderán ser tanto presenciais como virtuais a través da plataforma Ms Teams.
Curso Virtual: Esta materia dispoñerá dun curso virtual desenvolto sobre a plataforma de Campus virtual da USC, usando ademais a ferramenta colaborativa Ms Teams. Nestas facilitaráselle ao alumnado todo o material necesario en formato dixital, ademais de distintas ferramentas de comunicación para o apoio, tanto da docencia virtual como das titorías, incluíndo videoconferencia, chat, correo electrónico, foros…
A avaliación levará a cabo de dúas formas: (1) Avaliación continua a través da posible valoración de prácticas de laboratorio nas que se terán que aplicar os algoritmos de aprendizaxe adaptivo en robots. É posible que os alumnos deban expoñer o traballo realizado e mostrar os resultados alcanzados Poderase propoñer a posible realización de traballos voluntarios que fomenten a creatividade do alumno, motivación, etc., e que permitan que profunden nalgúns dos contidos da materia, ou exploren alternativas non cubertas directamente nos contidos impartidos polo profesor. (2) Por outra banda, haberá unha última proba final que poderá conter exercicios teóricos e/ou prácticos. A proba final representará o 55% do total da materia, mentres que o 45% restante represéntano as probas (as prácticas entregables mencionadas no punto 1, traballos, cuestionarios, etc.) que se propoñan na aula.
Debido a este tipo de avaliación continua, a asistencia a prácticas será obrigatoria salvo causa xustificada. Non será posible a superación da materia salvo que se asistiu como mínimo ao 80% das prácticas. A non asistencia ás mesmas impedirá a superación da materia tanto na oportunidade ordinaria como na de recuperación.
O alumno recibirá a cualificación de " non presentado" cando non faga o exame final.
Para os casos de realización fraudulenta de exercicios ou probas será de aplicación o establecido na “Normativa de avaliación do rendemento académico dous estudantes e de revisión dás cualificacións”
Segunda oportunidade ou cando haxa dispensa de asistencia
-------------------------------------------------------------------------
Haberá un exame de segunda oportunidade. Os alumnos poderán entregar en data previa o exame da segunda oportunidade, aquelas actividades que lle expoña o profesor, correspondentes a aquelas que non superasen na convocatoria anterior. Poderá haber unha defensa de traballos co profesor na oportunidade de xullo (para a avaliación continua), para aqueles alumnos que non haxan superen a materia na convocatoria de febreiro.
No caso de que a algunha persoa concédaselle dispensa de asistencia eximiráselle da asistencia a clases de teoría, pero deberá realizar as prácticas de forma presencial. Aplicaránselle os mesmos criterios de avaliación que ao resto do alumnado.
O alumno recibirá a cualificación de " non presentado" cando non faga o exame final. Para os casos de realización fraudulenta de exercicios ou probas será de aplicación o establecido na “Normativa de avaliación do rendemento académico dous estudantes e de revisión dás cualificacións”
Avaliación de competencias
--------------------------------
Evidentemente a realización dos diferentes exercicios prácticos ou a proba final permitirá a avaliación da competencia específica (CE15). A competencia básica CB2, ou as xerais CG1 e CG2, aplicaranse e avaliarán mediante as prácticas da materia e traballos voluntarios (o alumno terá que ser capaz de adquirir as destrezas adecuadas para a aprendizaxe de novos métodos e tecnoloxías, así como a resolución de problemas con creatividade e iniciativa). De feito esta creatividade, iniciativa e pensamento crítico valorarase de forma moi especial nas prácticas realizadas, enfoque, profundización e calidade das solucións que o alumno expoña aos problemas propostos. A capacidade de análise e síntese poñerase ( CT1) intervirá na presentación/entregas dos traballos realizados e tamén se valorará. As competencias transversais CT3, CT10, CT11, CT12 valorarase a través dos traballos voluntarios e que vaian máis aló dos contidos explicados polo profesor directamente en clase. É aquí tamén onde se poñerá en xogo a competencia CB5. Poderase dedicar puntuación para a valoración destas competencias a través dos traballos voluntarios realizados.
Clases expositivas Clases maxistrais 2,4( ECTS) 24( HP) 24( HNP)
Clases interactivas Laboratorio e aulas de informática 2,4( ECTS) 24( HP) 48( HNP)
Titoría en grupo 0,3( ECTS) 3( HP) 4( HNP)
Titoría individualizada 0,4( ECTS) 4( HP) 7( HNP)
Avaliación e revisión 0,5( ECTS) 5( HP) 7( HNP)
Total 6,0( ECTS) 60( HP) 90( HNP)
HP=Horas Presenciais
HNP=Horas non presenciais
Plan de continxencia
Escenario 1: normalidade adaptada
-----------------------------------------
• A docencia expositiva e interactiva será fundamentalmente de carácter presencial. As titorías poderán realizarse en despacho ou de maneira virtual a través de MS Teams.
• A modalidade preferente para a realización das prácticas será a presencialidad.
• A avaliación será levada a cabo de forma presencial
Escenario 2: Distanciamento (restricións parciais á presenza física)
-----------------------------------------------------------------------------------
• A docencia presencial convivirá coa virtual. As clases expositivas serán virtuais ( síncronas) e as interactivas presenciais, podendo ser algunhas sesións en liña en caso de ser necesario. As titorías serán telemáticas a través de MS Teams.
• A avaliación será levada a cabo de forma presencial
Escenario 3: peche das instalacións, en liña
--------------------------------------------------------
• A docencia será completamente de carácter virtual, tanto con mecanismos síncronos como asíncronos, usando o Campus virtual, a plataforma Teams, máquinas virtuais proporcionadas polo profesor para a realización das prácticas, ou outros medios alternativos (na nube) que facilite a realización das mesmas.
• De non poderse levar a cabo a avaliación presencial, esta será telemática
Roberto Iglesias Rodriguez
Coordinador/a- Departamento
- Electrónica e Computación
- Área
- Ciencia da Computación e Intelixencia Artificial
- Correo electrónico
- roberto.iglesias.rodriguez [at] usc.es
- Categoría
- Profesor/a: Titular de Universidade
Xoves | |||
---|---|---|---|
09:00-11:00 | Grupo /CLE_01 | Castelán | Aula 9 (Aulario 3) |
30.05.2022 16:00-20:00 | Grupo /CLE_01 | Aula 7 (Aulario 2) |
30.05.2022 16:00-20:00 | Grupo /CLE_01 | Aula de Informática 4 (Pav.III) |
30.05.2022 16:00-20:00 | Grupo /CLE_01 | Aula de Informática 5 (Pav III) |
08.07.2022 16:00-20:00 | Grupo /CLE_01 | Aula 7 (Aulario 2) |
08.07.2022 16:00-20:00 | Grupo /CLE_01 | Aula de Informática 4 (Pav.III) |
08.07.2022 16:00-20:00 | Grupo /CLE_01 | Aula de Informática 5 (Pav III) |