|
Aprenentatge per reforç
|
Codi:
M2.983 :
6
|
|
Consulta de les dades generals
Consulta dels recursos d'aprenentatge de què disposa l'assignatura
Consulta del model d'avaluació
|
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis. |
|
|
|
Mètodes de diferència temporal |
PDF |
Mètodes de Montecarlo |
PDF |
Introducció a OpenAI Gym |
PDF |
Deep Q-networks |
PDF |
Processos de decisió de Markov |
PDF |
Programació dinàmica |
PDF |
El mètode actor-crític |
PDF |
Introducció a l'aprenentatge per reforç |
PDF |
Gradients de política |
PDF |
Introducció a les solucions aproximades |
PDF |
N-step bootstrapping |
PDF |
|
L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC).
La qualificació final de l'assignatura és la nota obtinguda a l'AC.
|
|