Aprenentatge per reforç Codi:  M2.983    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2024-2025. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.
En aquesta assignatura veurem una introducció a l'aprenentatge per reforç (Reinforcement Learning, RL). L'aprenentatge per reforç és una branca de l'aprenentatge automàtic (Machine Learning, ML) que es caracteritza per ser una aproximació computacional a l'aprenentatge per interacció.

L'aprenentatge per interacció és un element present en la naturalesa, ja que tant els animals com els humans en els seus primers mesos de vida aprenen mitjançant un procés de prova i error en la recerca d'uns objectius, unes recompenses (menjar, calor, ... ) que poden no arribar immediatament, sinó després d'una seqüència d'accions que han de ser apreses. Aquestes dues característiques, el procés de prova i error i l'existència de recompenses endarrerides en el temps, són les dues característiques principals que diferencien l'aprenentatge per reforç de la resta de de mètodes d'aprenentatge.

En aquest curs abordarem aquest tipus d'aprenentatge des del punt de vista de el disseny d'un agent (que bàsicament és l'ens abstracte que pretén aprendre, l'algoritme que volem dissenyar) que ha d'interactuar amb l'entorn per aconseguir un objectiu.

L'àrea de l'aprenentatge per reforç ha guanyat molts adeptes aquests últims anys a causa, en part, als èxits obtinguts en algunes disciplines. Casos famosos com el de Deepmind (empresa comprada per Google el 2014) i el seu agent AlphaGo (primer programa d'ordinador a guanyar a un jugador professional de Go i posteriorment a el campió mundial d'aquesta disciplina) han tingut repercussió en els mitjans de comunicació.

Encara que pugui semblar el contrari, l'aprenentatge per reforç no és una disciplina nova, els seus orígens es remunten a la dècada de 1980. Fins i tot algunes de les seves idees ja s'havien aplicat ja en altres àrees de la ciència molt abans, com les teories sobre control òptim desenvolupades a finals de la dècada de 1950. Però és en els darrers anys, juntament amb l'explosió de l'aprenentatge profund (Deep Learning, DL), quan s'han produït els majors avenços en aquest camp.

Amunt

Aquesta assignatura pertany a el conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science).

Es recomana cursar aquesta assignatura després de les assignatures obligatòries del màster, especialment de l'assignatura "Models avançats de mineria de dades", i de l'assignatura optativa "Deep Learning".

Amunt

L'objectiu del màster és la formació de professionals en la ciència de dades. Aquesta assignatura, específicament, es focalitza en els camps relacionats amb l'anàlisi, estadística avançada i l'aprenentatge automàtic (o machine learning).
A mesura que aquesta especialitat ha crescut i les empreses reconeixen la necessitat d'aquesta classe de perfils, també ho han fet les diferents sortides professionals:

  • Científics de dades en departaments especialitzats d'anàlisi i estadística o en empreses externes que proporcionen aquesta classe de servei als seus clients.
  • Responsables, caps de projecte o analistes en projectes de mineria o anàlisi de dades.
  • Emprenedors, que desitgen crear negocis basats en la creació o la implantació de sistemes especialitzats de ciència de dades o d'algun dels seus components, així com productes i / o serveis basats en dades.

Amunt

Per a la realització d'aquesta assignatura es pressuposen coneixements avançats de programació, principalment en llenguatge Python.

Pel que fa a coneixements teòrics o matemàtics, es pressuposa que els estudiants que cursen aquesta assignatura han cursat prèviament les assignatures "Models avançats de mineria de dades" i "Deep Learning", que introdueixen els conceptes claus que es fan servir durant el desenvolupament d'aquesta assignatura.

A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Finalment, donada la naturalesa de l'assignatura, és necessari utilitzar eines i procediments escrits en llengua anglesa, de manera que un nivell bàsic de lectura i comprensió de textos tècnics és imprescindible.

Amunt

Alguns dels continguts d'aquesta assignatura s'han d'estudiar a partir de materials i recursos escrits en anglès.

Amunt

Els objectius que es pretén que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Entendre el paradigma de l'aprenentatge per reforç (RL), així com les seves principals aplicacions i tipologia d'agents.
  • Comprendre el funcionament i característiques dels principals components en un entorn de RL, incloent l'entorn, agent, funció de reward, accions i observacions.
  • Conèixer les funcionalitats que ofereix l'eina OpenAI Gym per al desenvolupament, avaluació i comparació de diferents models de RL.
  • Conèixer el funcionament i principals característiques dels models basats en Markov decision processes per a la resolució de problemes de RL.
  • Conèixer el funcionament i principals característiques dels models basats en programació dinàmica per a la resolució de problemes de RL.
  • Conèixer el funcionament i principals característiques dels models basats en mètodes Monte Carlo per a la resolució de problemes de RL.
  • Conèixer el funcionament i principals característiques dels models basats en Temporal-Difference Learning per a la resolució de problemes de RL.
  • Entendre com s'apliquen les xarxes neuronals i el deep learning per al desenvolupament d'agents en entorns de RL, així com les seves característiques i principals avantatges enfront d'altres mètodes.

Amunt

El curs s'estructura en els següents blocs:

Introducció i conceptes bàsics

  • Mòdul 1. Introducció a l'aprenentatge per reforç
  • Mòdul 2. Introducció a OpenAI Gym

Soluciones tabulares

  • Mòdul 3. Processos de decisió de Markov
  • Mòdul 4. Programació dinàmica
  • Mòdul 5. Mètodos de Monte Carlo 
  • Mòdul 6. Aprenentatge per diferència temporal
  • Mòdul 7. n-step bootstrapping

Soluciones aproximadas

  • Mòdul 8. Introducció a les solucions aproximades
  • Mòdul 9. Deep Q-Networks
  • Mòdul 10. Polítiques de gradient
  • Mòdul 11. El mètodo del Actor-Crític

Amunt

Guia bàsica d'edició de vídeo Web
Mètodes de diferència temporal PDF
Mètodes de Montecarlo PDF
Introducció a OpenAI Gym PDF
Deep Q-networks PDF
Processos de decisió de Markov PDF
Programació dinàmica PDF
El mètode actor-crític PDF
Introducció a l'aprenentatge per reforç PDF
Gradients de política PDF
Espai de recursos de ciència de dades Web
Toolkit de gènere Web
Introducció a les solucions aproximades PDF
N-step bootstrapping PDF

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

  • Sol·licitar a l'estudiant que acrediti la seva identitat segons l'establert a la normativa acadèmica.
  • Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant avaluació contínua com avaluació final, per mitjà d'una prova oral o els mitjans síncrons o asíncrons que estableixi la Universitat. Aquests mitjans tindran per objecte verificar els coneixements i les competències que garanteixin l'autoria; en cap cas no implicaran una segona avaluació. Si no és possible garantir l'autoria de l'estudiant, la prova serà qualificada amb D, en el cas de l'avaluació contínua, o amb un Suspens, en el cas de l'avaluació final.

    A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació; és responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt