Aprendizaje por refuerzo Código:  M2.883    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.
En esta asignatura veremos una introducción al aprendizaje por refuerzo (Reinforcement Learning, RL). El aprendizaje por refuerzo es una rama del aprendizaje automático (Machine Learning, ML) que se caracteriza por ser una aproximación computacional al aprendizaje por interacción.

El aprendizaje por interacción es un elemento presente en la naturaleza, ya que tanto los animales como los humanos en sus primeros meses de vida aprenden mediante un proceso de prueba y error en busca de unos objetivos, unas recompensas (comida, calor, ...) que pueden no llegar de inmediato, sino después de una secuencia de acciones que deben ser aprendidas. Estas dos características, el proceso de prueba y error y la existencia de recompensas retrasadas en el tiempo, son las dos características principales que diferencian al aprendizaje por refuerzo del resto de de métodos de aprendizaje.

En este curso abordaremos este tipo de aprendizaje desde el punto de vista del diseño de un agente (que básicamente es el ente abstracto que pretende aprender, el algoritmo que queremos diseñar) que debe interactuar con el entorno para lograr un objetivo.

El área del aprendizaje por refuerzo ha ganado muchos adeptos estos últimos años debido, en parte, a los logros obtenidos en algunas disciplinas. Casos famosos como el de Deepmind (empresa comprada por Google en 2014) y su agente AlphaGo (primer programa de ordenador en ganar a un jugador profesional de Go y posteriormente al campeón mundial de dicha disciplina) han tenido repercusión en los medios de comunicación.

Aunque pueda parecer lo contrario, el aprendizaje por refuerzo no es una disciplina nueva, sus orígenes se remontan a la década de 1980. Incluso algunas de sus ideas ya se habían aplicado ya en otras áreas de la ciencia mucho antes, como las teorías sobre control óptimo desarrolladas a finales de la década de 1950. Pero es en los últimos años, junto con la explosión del aprendizaje profundo (Deep Learning, DL), cuando se han producido los mayores avances en este campo.

Amunt

Esta asignatura pertenece al conjunto de asignaturas optativas dentro del Máster universitario en Ciencia de datos (Data Science).

Se recomienda cursar esta asignatura después de las asignaturas obligatorias del máster, en especial de la asignatura "Modelos avanzados de minería de datos", y de la asignatura optativa "Deep Learning".

Amunt

El objetivo del máster es la formación de profesionales en la ciencia de datos. Esta asignatura, específicamente, se focaliza en los campos relacionados con el análisis, la estadística avanzada y el aprendizaje automático (o machine learning).

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

  • Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
  • Responsables, jefes de proyecto o analistas en proyectos de minería o análisis de datos.
  • Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de ciencia de datos o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Amunt

Para la realización de esta asignatura se presuponen conocimientos avanzados de programación, principalmente en lenguaje Python.

Por lo que respecta a conocimientos teóricos o matemáticos, se presupone que los estudiantes que cursan esta asignatura han cursado previamente las asignaturas "Modelos avanzados de minería de datos" y "Deep Learning", que introduces los conceptos claves que se emplearán durante el desarrollo de esta asignatura.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Finalmente, dada la naturaleza de la asignatura, es necesario utilizar herramientas y procedimientos descritos en lengua inglesa, por lo que un nivel básico de lectura y comprensión de textos técnicos es imprescindible.

Amunt

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés.

Amunt

Los objetivos que se pretende que el estudiante alcance mediante esta asignatura son los siguientes:

  • Entender el paradigma del aprendizaje por refuerzo (RL), así como sus principales aplicaciones y tipología de agentes.
  • Comprender el funcionamiento y características de los principales componentes en un entorno de RL, incluyendo el entorno, agente, función de reward, acciones y observaciones.
  • Conocer las funcionalidades que ofrece la herramienta OpenAI Gym para el desarrollo, evaluación y comparación de diferentes modelos de RL.
  • Conocer el funcionamiento y principales características de los modelos basados en Markov decision processes para la resolución de problemas de RL.
  • Conocer el funcionamiento y principales características de los modelos basados en programación dinámica para la resolución de problemas de RL.
  • Conocer el funcionamiento y principales características de los modelos basados en métodos Monte Carlo para la resolución de problemas de RL.
  • Conocer el funcionamiento y principales características de los modelos basados en Temporal-Difference Learning para la resolución de problemas de RL.
  • Entender cómo se aplican las redes neuronales y el deep learning para el desarrollo de agentes en entornos de RL, así como sus características y principales ventajas frente a otros métodos.

Amunt

El curso se estructura en los siguientes bloques:

Introducción y conceptos básicos

  • Módulo 1. Introducción al aprendizaje por refuerzo
  • Módulo 2. Introducción a OpenAI Gym

Soluciones tabulares

  • Módulo 3. Procesos de decisión de Markov
  • Módulo 4. Programación dinámica
  • Módulo 5. Métodos de Monte Carlo 
  • Módulo 6. Aprendizaje por diferencia temporal
  • Módulo 7. n-step bootstrapping

Soluciones aproximadas

  • Módulo 8. Introducción a las soluciones aproximadas
  • Módulo 9. Deep Q-Networks
  • Módulo 10. Políticas de gradiente
  • Módulo 11. El método del Actor-Crítico

Amunt

Métodos de Montecarlo PDF
Métodos de diferencia temporal PDF
Introducción a OpenAI Gym PDF
Deep Q-networks PDF
Procesos de decisión de Markov PDF
Programación dinámica PDF
El método actor-crítico PDF
Introducción al aprendizaje por refuerzo PDF
Gradientes de política PDF
Introducción a las soluciones aproximadas PDF
N-step bootstrapping PDF

Amunt

En la UOC, la evaluación generalmente es virtual. Se estructura en torno a la evaluación continua, que incluye diferentes actividades o retos; la evaluación final, que se lleva a cabo mediante pruebas o exámenes, y el trabajo final de la titulación.

Las actividades o pruebas de evaluación pueden ser escritas y/o audiovisuales, con preguntas aleatorias, pruebas orales síncronas o asíncronas, etc., de acuerdo con lo que decida cada equipo docente. Los trabajos finales representan el cierre de un proceso formativo que implica la realización de un trabajo original y tutorizado que tiene como objetivo demostrar la adquisición competencial hecha a lo largo del programa.

Para verificar la identidad del estudiante y la autoría de las pruebas de evaluación, la UOC se reserva la potestad de aplicar diferentes sistemas de reconocimiento de la identidad y de detección del plagio. Con este objetivo, la UOC puede llevar a cabo grabación audiovisual o usar métodos o técnicas de supervisión durante la ejecución de cualquier actividad académica.

Asimismo, la UOC puede exigir al estudiante el uso de dispositivos electrónicos (micrófonos, cámaras u otras herramientas) o software específico durante la evaluación. Es responsabilidad del estudiante asegurar que estos dispositivos funcionan correctamente.

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de las actividades académicas. La web sobre integridad académica y plagio de la UOC contiene información al respecto.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; la suplantación de identidad; la aceptación o la obtención de cualquier actividad académica a cambio o no de una contraprestación; la colaboración, el encubrimiento o el favorecimiento de la copia, o el uso de material, software o dispositivos no autorizados en el plan docente o el enunciado de la actividad académica, incluida la inteligencia artificial y la traducción automática, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden conllevar el suspenso (D/0) en las actividades evaluables definidas en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, ya sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas (como el uso de inteligencia artificial no permitida, redes sociales o buscadores de información en internet), porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, por la compraventa de actividades académicas, o porque se ha llevado a cabo cualquier otra conducta irregular.

Asimismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto en la evaluación continua como en la evaluación final, a través de una entrevista oral síncrona, que puede ser objeto de grabación audiovisual, o por los medios establecidos por la UOC. Estos medios tienen el objetivo de verificar los conocimientos y las competencias que garanticen la identidad del estudiante. Si no es posible garantizar que el estudiante es el autor de la prueba, esta puede ser calificada con una D, en el caso de la evaluación continua, o con un suspenso, en el caso de la evaluación final.

Inteligencia artificial en el marco de la evaluación

La UOC reconoce el valor y el potencial de la inteligencia artificial (IA) en el ámbito educativo y, a su vez, pone de manifiesto los riesgos que supone si no se utiliza de forma ética, crítica y responsable. En este sentido, en cada actividad de evaluación se informará al estudiantado sobre las herramientas y los recursos de IA que se pueden utilizar y en qué condiciones. Por su parte, el estudiantado se compromete a seguir las indicaciones de la UOC a la hora de realizar las actividades de evaluación y de citar las herramientas utilizadas y, concretamente, a identificar los textos o imágenes generados por sistemas de IA, los cuales no podrá presentar como si fueran propios.

Respecto a usar o no la IA para resolver una actividad, el enunciado de las actividades de evaluación indica las limitaciones en el uso de estas herramientas. Debe tenerse en cuenta que usarlas de manera inadecuada, como por ejemplo en actividades en las que no están permitidas o no citarlas en las actividades en las que sí lo están, puede considerarse una conducta irregular en la evaluación. En caso de duda, se recomienda que, antes entregar la actividad, se haga llegar una consulta al profesorado colaborador del aula.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt