|
||||||||||||||||||||||||||||||
Consulta de les dades generals Descripció L'assignatura en el conjunt del pla d'estudis Camps professionals en què es projecta Coneixements previs Informació prèvia a la matrícula Objectius i competències Continguts Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura Informacions sobre l'avaluació a la UOC Consulta del model d'avaluació | ||||||||||||||||||||||||||||||
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2024-2025. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis. | ||||||||||||||||||||||||||||||
En aquesta assignatura veurem una introducció a l'aprenentatge per reforç (Reinforcement Learning, RL). L'aprenentatge per reforç és una branca de l'aprenentatge automàtic (Machine Learning, ML) que es caracteritza per ser una aproximació computacional a l'aprenentatge per interacció. L'aprenentatge per interacció és un element present en la naturalesa, ja que tant els animals com els humans en els seus primers mesos de vida aprenen mitjançant un procés de prova i error en la recerca d'uns objectius, unes recompenses (menjar, calor, ... ) que poden no arribar immediatament, sinó després d'una seqüència d'accions que han de ser apreses. Aquestes dues característiques, el procés de prova i error i l'existència de recompenses endarrerides en el temps, són les dues característiques principals que diferencien l'aprenentatge per reforç de la resta de de mètodes d'aprenentatge. En aquest curs abordarem aquest tipus d'aprenentatge des del punt de vista de el disseny d'un agent (que bàsicament és l'ens abstracte que pretén aprendre, l'algoritme que volem dissenyar) que ha d'interactuar amb l'entorn per aconseguir un objectiu. L'àrea de l'aprenentatge per reforç ha guanyat molts adeptes aquests últims anys a causa, en part, als èxits obtinguts en algunes disciplines. Casos famosos com el de Deepmind (empresa comprada per Google el 2014) i el seu agent AlphaGo (primer programa d'ordinador a guanyar a un jugador professional de Go i posteriorment a el campió mundial d'aquesta disciplina) han tingut repercussió en els mitjans de comunicació. Encara que pugui semblar el contrari, l'aprenentatge per reforç no és una disciplina nova, els seus orígens es remunten a la dècada de 1980. Fins i tot algunes de les seves idees ja s'havien aplicat ja en altres àrees de la ciència molt abans, com les teories sobre control òptim desenvolupades a finals de la dècada de 1950. Però és en els darrers anys, juntament amb l'explosió de l'aprenentatge profund (Deep Learning, DL), quan s'han produït els majors avenços en aquest camp.
|
||||||||||||||||||||||||||||||
Aquesta assignatura pertany a el conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science). Es recomana cursar aquesta assignatura després de les assignatures obligatòries del màster, especialment de l'assignatura "Models avançats de mineria de dades", i de l'assignatura optativa "Deep Learning". |
||||||||||||||||||||||||||||||
L'objectiu del màster és la formació de professionals en la ciència de dades. Aquesta assignatura, específicament, es focalitza en els camps relacionats amb l'anàlisi, estadística avançada i l'aprenentatge automàtic (o machine learning).
|
||||||||||||||||||||||||||||||
Per a la realització d'aquesta assignatura es pressuposen coneixements avançats de programació, principalment en llenguatge Python. Pel que fa a coneixements teòrics o matemàtics, es pressuposa que els estudiants que cursen aquesta assignatura han cursat prèviament les assignatures "Models avançats de mineria de dades" i "Deep Learning", que introdueixen els conceptes claus que es fan servir durant el desenvolupament d'aquesta assignatura. A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita. Finalment, donada la naturalesa de l'assignatura, és necessari utilitzar eines i procediments escrits en llengua anglesa, de manera que un nivell bàsic de lectura i comprensió de textos tècnics és imprescindible.
|
||||||||||||||||||||||||||||||
Alguns dels continguts d'aquesta assignatura s'han d'estudiar a partir de materials i recursos escrits en anglès. |
||||||||||||||||||||||||||||||
Els objectius que es pretén que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:
|
||||||||||||||||||||||||||||||
El curs s'estructura en els següents blocs: Introducció i conceptes bàsics
Soluciones tabulares
Soluciones aproximadas
|
||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||
El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats. La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus. Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular. Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC. En el marc del procés d'avaluació, la UOC es reserva la potestat de:
|
||||||||||||||||||||||||||||||
|