Aprendizaje por refuerzo	Código: M2.883 : 6

Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en el que se proyecta Conocimientos previos Información previa a la matrícula Objetivos y competencias Contenidos Consulta de los recursos de aprendizaje de la UOC para la asignatura Informaciones sobre la evaluación en la UOC Consulta del modelo de evaluación

Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Descripción

En esta asignatura veremos una introducción al aprendizaje por refuerzo (Reinforcement Learning, RL). El aprendizaje por refuerzo es una rama del aprendizaje automático (Machine Learning, ML) que se caracteriza por ser una aproximación computacional al aprendizaje por interacción.

El aprendizaje por interacción es un elemento presente en la naturaleza, ya que tanto los animales como los humanos en sus primeros meses de vida aprenden mediante un proceso de prueba y error en busca de unos objetivos, unas recompensas (comida, calor, ...) que pueden no llegar de inmediato, sino después de una secuencia de acciones que deben ser aprendidas. Estas dos características, el proceso de prueba y error y la existencia de recompensas retrasadas en el tiempo, son las dos características principales que diferencian al aprendizaje por refuerzo del resto de de métodos de aprendizaje.

En este curso abordaremos este tipo de aprendizaje desde el punto de vista del diseño de un agente (que básicamente es el ente abstracto que pretende aprender, el algoritmo que queremos diseñar) que debe interactuar con el entorno para lograr un objetivo.

El área del aprendizaje por refuerzo ha ganado muchos adeptos estos últimos años debido, en parte, a los logros obtenidos en algunas disciplinas. Casos famosos como el de Deepmind (empresa comprada por Google en 2014) y su agente AlphaGo (primer programa de ordenador en ganar a un jugador profesional de Go y posteriormente al campeón mundial de dicha disciplina) han tenido repercusión en los medios de comunicación.

Aunque pueda parecer lo contrario, el aprendizaje por refuerzo no es una disciplina nueva, sus orígenes se remontan a la década de 1980. Incluso algunas de sus ideas ya se habían aplicado ya en otras áreas de la ciencia mucho antes, como las teorías sobre control óptimo desarrolladas a finales de la década de 1950. Pero es en los últimos años, junto con la explosión del aprendizaje profundo (Deep Learning, DL), cuando se han producido los mayores avances en este campo.

La asignatura en el conjunto del plan de estudios

Esta asignatura pertenece al conjunto de asignaturas optativas dentro del Máster universitario en Ciencia de datos (Data Science).

Se recomienda cursar esta asignatura después de las asignaturas obligatorias del máster, en especial de la asignatura "Modelos avanzados de minería de datos".

Campos profesionales en el que se proyecta

El objetivo del máster es la formación de profesionales en la ciencia de datos. Esta asignatura, específicamente, se focaliza en los campos relacionados con el análisis, la estadística avanzada y el aprendizaje automático (o machine learning).

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
Responsables, jefes de proyecto o analistas en proyectos de minería o análisis de datos.
Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de ciencia de datos o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Conocimientos previos

Para la realización de esta asignatura se presuponen conocimientos avanzados de programación, principalmente en lenguaje Python.

Por lo que respecta a conocimientos teóricos o matemáticos, se presupone que los estudiantes que cursan esta asignatura han cursado previamente la asignatura de "Modelos avanzados de minería de datos", que introduce conceptos claves que se emplearán durante el desarrollo de esta asignatura.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Finalmente, dada la naturaleza de la asignatura, es necesario utilizar herramientas y procedimientos descritos en lengua inglesa, por lo que un nivel básico de lectura y comprensión de textos técnicos es imprescindible.

Información previa a la matrícula

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés.

Objetivos y competencias

Los objetivos que se pretende que el estudiante alcance mediante esta asignatura son los siguientes:

Entender el paradigma del aprendizaje por refuerzo (RL), así como sus principales aplicaciones y tipología de agentes.
Comprender el funcionamiento y características de los principales componentes en un entorno de RL, incluyendo el entorno, agente, función de reward, acciones y observaciones.
Conocer las funcionalidades que ofrece la herramienta OpenAI Gym para el desarrollo, evaluación y comparación de diferentes modelos de RL.
Conocer el funcionamiento y principales características de los modelos basados en Markov decision processes para la resolución de problemas de RL.
Conocer el funcionamiento y principales características de los modelos basados en programación dinámica para la resolución de problemas de RL.
Conocer el funcionamiento y principales características de los modelos basados en métodos Monte Carlo para la resolución de problemas de RL.
Conocer el funcionamiento y principales características de los modelos basados en Temporal-Difference Learning para la resolución de problemas de RL.
Entender cómo se aplican las redes neuronales y el deep learning para el desarrollo de agentes en entornos de RL, así como sus características y principales ventajas frente a otros métodos.

Contenidos

El curso se estructura en los siguientes bloques:

Introducción y conceptos básicos

Módulo 1. Introducción al aprendizaje por refuerzo
Módulo 2. Introducción a OpenAI Gym

Soluciones tabulares

Módulo 3. Procesos de decisión de Markov
Módulo 4. Programación dinámica
Módulo 5. Métodos de Monte Carlo
Módulo 6. Aprendizaje por diferencia temporal
Módulo 7. n-step bootstrapping

Soluciones aproximadas

Módulo 8. Introducción a las soluciones aproximadas
Módulo 9. Deep Q-Networks
Módulo 10. Políticas de gradiente
Módulo 11. El método del Actor-Crítico

Consulta de los recursos de aprendizaje de la UOC para la asignatura


Métodos de Montecarlo	PDF
Métodos de diferencia temporal	PDF
Introducción a OpenAI Gym	PDF
Deep Q-networks	PDF
Procesos de decisión de Markov	PDF
Programación dinámica	PDF
El método actor-crítico	PDF
Introducción al aprendizaje por refuerzo	PDF
Gradientes de política	PDF
Introducción a las soluciones aproximadas	PDF
N-step bootstrapping	PDF

Informaciones sobre la evaluación en la UOC

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Consulta del modelo de evaluación

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.