Aprenentatge per reforç Codi:  M2.983    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Consulta del model d'avaluació  
ATENCIÓ: Aquest és el pla docent de l'assignatura per al primer semestre del curs 2020-2021. Us servirà per planificar la matrícula. Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)
En aquesta assignatura veurem una introducció a l'aprenentatge per reforç (Reinforcement Learning, RL). L'aprenentatge per reforç és una branca de l'aprenentatge automàtic (Machine Learning, ML) que es caracteritza per ser una aproximació computacional a l'aprenentatge per interacció.

L'aprenentatge per interacció és un element present en la naturalesa, ja que tant els animals com els humans en els seus primers mesos de vida aprenen mitjançant un procés de prova i error en la recerca d'uns objectius, unes recompenses (menjar, calor, ... ) que poden no arribar immediatament, sinó després d'una seqüència d'accions que han de ser apreses. Aquestes dues característiques, el procés de prova i error i l'existència de recompenses endarrerides en el temps, són les dues característiques principals que diferencien l'aprenentatge per reforç de la resta de de mètodes d'aprenentatge.

En aquest curs abordarem aquest tipus d'aprenentatge des del punt de vista de el disseny d'un agent (que bàsicament és l'ens abstracte que pretén aprendre, l'algoritme que volem dissenyar) que ha d'interactuar amb l'entorn per aconseguir un objectiu.

L'àrea de l'aprenentatge per reforç ha guanyat molts adeptes aquests últims anys a causa, en part, als èxits obtinguts en algunes disciplines. Casos famosos com el de Deepmind (empresa comprada per Google el 2014) i el seu agent AlphaGo (primer programa d'ordinador a guanyar a un jugador professional de Go i posteriorment a el campió mundial d'aquesta disciplina) han tingut repercussió en els mitjans de comunicació.

Encara que pugui semblar el contrari, l'aprenentatge per reforç no és una disciplina nova, els seus orígens es remunten a la dècada de 1980. Fins i tot algunes de les seves idees ja s'havien aplicat ja en altres àrees de la ciència molt abans, com les teories sobre control òptim desenvolupades a finals de la dècada de 1950. Però és en els darrers anys, juntament amb l'explosió de l'aprenentatge profund (Deep Learning, DL), quan s'han produït els majors avenços en aquest camp.

Amunt

Aquesta assignatura pertany a el conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science).

Es recomana cursar aquesta assignatura després de les assignatures obligatòries del màster, especialment de l'assignatura "Models avançats de mineria de dades".

Amunt

L'objectiu del màster és la formació de professionals en la ciència de dades. Aquesta assignatura, específicament, es focalitza en els camps relacionats amb l'anàlisi, estadística avançada i l’aprenentatge automàtic (o machine learning).

A mesura que aquesta especialitat ha crescut i les empreses reconeixen la necessitat d'aquesta classe de perfils, també ho han fet les diferents sortides professionals:
  • Científics de dades en departaments especialitzats d'anàlisi i estadística o en empreses externes que proporcionen aquesta classe de servei als seus clients.
  • Responsables, caps de projecte o analistes en projectes de mineria o anàlisi de dades.
  • Emprenedors, que desitgen crear negocis basats en la creació o la implantació de sistemes especialitzats de ciència de dades o d'algun dels seus components, així com productes i / o serveis basats en dades.

Amunt

Per a la realització d'aquesta assignatura es pressuposen coneixements avançats de programació, principalment en llenguatge Python.

Pel que fa a coneixements teòrics o matemàtics, es pressuposa que els estudiants que cursen aquesta assignatura han cursat prèviament l'assignatura de "Models avançats de mineria de dades", que introdueix conceptes claus que es fan servir durant el desenvolupament d'aquesta assignatura.

A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Finalment, donada la naturalesa de l'assignatura, és necessari utilitzar eines i procediments escrits en llengua anglesa, de manera que un nivell bàsic de lectura i comprensió de textos tècnics és imprescindible.

Amunt

Els objectius que es pretén que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:
  • Entendre el paradigma de l'aprenentatge per reforç (RL), així com les seves principals aplicacions i tipologia d'agents.
  • Comprendre el funcionament i característiques dels principals components en un entorn de RL, incloent l'entorn, agent, funció de reward, accions i observacions.
  • Conèixer les funcionalitats que ofereix l'eina OpenAI Gym per al desenvolupament, avaluació i comparació de diferents models de RL.
  • Conèixer el funcionament i principals característiques dels models basats en Markov decision processes per a la resolució de problemes de RL.
  • Conèixer el funcionament i principals característiques dels models basats en programació dinàmica per a la resolució de problemes de RL.
  • Conèixer el funcionament i principals característiques dels models basats en mètodes Monte Carlo per a la resolució de problemes de RL.
  • Conèixer el funcionament i principals característiques dels models basats en Temporal-Difference Learning per a la resolució de problemes de RL.
  • Entendre com s'apliquen les xarxes neuronals i el deep learning per al desenvolupament d'agents en entorns de RL, així com les seves característiques i principals avantatges enfront d'altres mètodes.

Amunt

Mòdul 1. Introducció a l’aprenentatge per reforç
Mòdul 2. Introducció a OpenAI Gym
Mòdul 3. Markov decision processes
Mòdul 4. Dynamic Programming
Mòdul 5. Monte Carlo Methods
Mòdul 6. Temporal-Difference Learning
Mòdul 7. Xarxes neuronals en entorns d’aprenentatge per reforç
Mòdul 8. Deep Q-Networks

Amunt

Test Moodle de continguts teòrics Web

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt