Machine Learning Codi:  M0.163    :  5
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informació addicional sobre els recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Machine learning va néixer com una branca de la intel·ligència artificial amb l'objectiu que una maquina pogués aprendre a força d'exemples usant algun algorisme d'aprenentatge automàtic. Per tant, es necessita tenir exemples, és a dir dades, un algorisme que ajudi a aprendre, basat en mètodes estadístics, i una màquina, ordinador en general, amb suficient potència de càlcul i capacitat de memòria.

Al món actual es té una gran disponibilitat de dades, en particular al món de la bioinformática. Això fa que les tècniques de machine learning s'apliquin cada vegada amb major freqüència, com per exemple per a l'anotació automàtica de genomes i l'anàlisi de les dades òmiques obtingudes en experiments amb tecnologies d'alt rendiment.

En aquest curs de machine learning es presenten conceptes bàsics, algorismes i aplicacions del machine learning en l'àmbit de la bioinformática. En particular, s'estudien les següents metodologies d'aprenentatge supervisat: 

  • Algorisme de k-veïns més propers (kNN)
  • Naïve Bayes
  • Xarxes Neuronals Artificials i Deep Learning
  • Support Vector Machines (SVM)
  • Arbres de decisió i Random Forests

En cadascuna de les anteriors metodologies farem una introducció dels conceptes subjacents i després s'implementarà una aplicació usant el programari R, donant importància a la generació d'informes dinàmics per a la presentació dels resultats. Amb aquesta finalitat s'han seleccionat exemples reals en bioinformática o biomedicina que es tractaran durant el curs. Algunes  unitats també es desenvoluparan utilitzant el programari Python.

A més dels algorismes hi ha una unitat didàctica, la III, de caràcter transversal, on s'estudiarà l'avaluació del rendiment d'un model. En aquesta unitat es presenten els mètodes d'avaluació dels classificadors, com són les mesures de rendiment: especificitat, sensibilitat, etc i les mètodes de remuestreo: cross-validation, bootstrap, etc.

Amunt

Aquesta assignatura optativa reforça el coneixement en anàlisi predictiva i introdueix l'estudiant al món del data science i el big data.

Amunt

En acabar aquesta assignatura l'estudiant coneixerà les eines bàsiques de data science que li habilitaran per incorporar-se en grups/empreses que desenvolupin activitat a l'àrea del machine learning i les ciències òmiques.

Exemples de perfils professionals que fan un ús important dels conceptes i tècniques desenvolupats en aquesta assignatura són els següents:

  • Investigadors de qualsevol àmbit de ciències de la vida que hagin d'analitzar dades d'experiments i presentar els resultats en informes reproduïbles.
  • Personal de suport en hospitals, laboratoris o centres de recerca que pugui necessitar tractar la informació generada per l'activitat pròpia del centre.
  • Analistes de dades, «data scientists», terme de recent aparició que es refereix a professionals amb coneixement d'anàlisi de dades però també d'informàtica i gestió de dades a la web entre altres habilitats.

Amunt

Aquesta assignatura pot afrontar-se amb els següents coneixements previs.

  • Seria aconsellable certa formació matemàtica -un curs d'àlgebra i càlcul i algun d'estadística bàsica- per poder avançar ràpidament i fonamentar els conceptes que potser s'hagin adquirit des d'una perspectiva pràctica.
  • Coneixements bàsics en R i/o Python

Si en algun moment del curs, l'estudiant precisa reforçar algun àrea se li facilitarà les referències en les quals acudir per a la seva formació, a més de comptar amb les explicacions del docent de l'aula.

Amunt

És recomanable que l'estudiant hagi superat Regressió, Models i Mètodes abans de cursar aquesta assignatura, i també que tingui adquirides les competències que es tracten en l'assignatura Biologia Molecular.

Amunt

 

Aquesta assignatura mostra un conjunt de tècniques de machine learning supervisat per a l'anàlisi de dades pròpies de les ciències òmiques.

Durant el curs s'adquiriran les següents capacitats:

  • Identificar els diferents tipus de problemes de classificació que sorgeixen a partir de dades d'origen biològic.
  • Conèixer els principis bàsics de les tècniques de de classificació.
  • Comprendre els mètodes per l'entrenament de classificadors.
  • Conèixer les mesures d'avaluació de classificadors i saber avaluar quan un classificador és millor que un altre i per què.
  • Conèixer els possibles problemes que poden ocórrer en l'aprenentatge d'un classificador, saber si  es poden solucionar i saber quins són les solucions que es poden aplicar.
  • Ser capaços d'entrenar i testejar classificadors.
  • Conèixer i ser capaç, a nivell general, d'utilitzar els principals mètodes de mineria de dades, així com les seves aplicacions a la biologia.
  • Ser capaç de crear informes dinàmics que garanteixin que les anàlisis fetes són reproduibles.

 

Segons la memòria del Màster Universitari en Bioinformática i Bioestadística, aprovada per les Agències Oficials de Qualitat Docent Universitària (AQU), en aquesta assignatura es garanteixen les següents competències:

  • Capacitat d'iniciativa, d'automotivació i de treballar de forma independent.
  • Capacitat per a la comunicació oral i escrita per a la vida acadèmica i professional.
  • Capacitat per proposar solucions innovadores i prendre de decisions.
  • Capacitat per a la comprensió, l'anàlisi i la síntesi.
  • Conèixer les principals bases de dades biològiques públiques i saber com explotar la informació.
  • Tenir la capacitat d'entendre i aplicar mètodes de recerca d'estadística i aprenentatge automàtic en el context de la bioinformática.
  • Capacitat d'analitzar un problema de bioinformática i ser capaç d'identificar i definir els requeriments informàtics i estadístics apropiats per resoldre-ho.
  • Totes les competències bàsiques i generals llistades en la memòria del Màster Universitari en Bioinformática i Bioestadística

 

Amunt

Els continguts s'organitzen per temes, els quals s'agrupen en unitats, que és el bloc d'informació tal com es veu a l'aula.

 

Unitat I. Introducció a Machine Learning

1.1. Els orígens del Machine Learning.

1.2. Com aprenen les màquines?

1.3. Passos en la implementació de Machine Learning.

1.4. L'elecció de l'algorisme de Machine Learning

1.5. Elements bàsics de R.

1.6. Machine Learning amb R i informes dinàmics.

 

Unitat II: Algorisme de k-veïns més propers (kNN)

2.1. Comprendre la classificació amb els veïns més propers.

2.2 L'algorisme kNN.

2.3 Distàncies entre dades.

2.4 Elecció d'una k adequada.

2.5. Preparant les dades

2.6. Exemple d'aplicació.

 

Unitat III: Avaluació del rendiment del model.

3.1. Mesures del rendiment d'un classificador.

3.2. Matriu de confusió. Mesures associades

3.3. Corbes ROC

3.4. Tècniques de mostreig per a l'avaluació del rendiment del model.

 

Unitat IV: Classificació usant Naive Bayes.

4.1. Comprendre la classificació amb Naive Bayes.

4.2. Conceptes bàsics dels mètodes Bayesians.

4.3. L'Algorisme de Naive Bayes.

4.4. Exemple d'aplicació.

 

Unitat V: Xarxes neuronals artificials.

5.1. Comprendre les xarxes neuronals artificials.

5.2. Topologia de la xarxa.

5.3. Backpropagation.

5.4. Exemple d'aplicació.

5.5. Deep Learning

 

Unitat VI: Support Vector Machines (SVM).

6.1. Classificació amb hiperplans.

6.2. Trobar l'hiperplà de marge màxim.

6.3. L'ús de funcions kernel en problemes no lineals.

6.4. Exemple d'aplicació.

 

Unitat VII: Arbres de decisió i Random Forests.

7.1. Comprendre els arbres de decisió.

7.2. Poda de l'arbre de decisió.

7.3 Exemple d'aplicació.

7.4. Comprendre el Random Forests.

7.5. Exemple d'aplicació.

 

Unitat VIII: Aplicació oberta de Machine Learning

8.1 Cerca de bases de dades públiques.

8.2 Implementació d'un pipeline de Machine Learning en una base de dades pública.

Amunt

Introducció a l'aprenentatge automàtic (Notebook) Codi font
Aprenentatge supervisat: problemes de classificació (Notebook) Codi font
Aprenentatge supervisat: problemes de regressió (Notebook) Codi font
Xarxes neuronals: fonaments i intuïcions (Notebook) Codi font
Neuronal networks examples (Notebook) Codi font
Introducción al machine learning Audiovisual
Introducció al machine learning Audiovisual
Algoritmos de machine learning Audiovisual
Algorismes de machine learning Audiovisual
Python: introducción al lenguaje de programación Audiovisual
Python: introducció al llenguatge de programació Audiovisual
Ús de Google Colaboratory per a Machine Learning Audiovisual
Uso de Google Colaboratory para Machine Learning Audiovisual
Biaixos de sexe i gènere en intel·ligència artificial i salut Audiovisual
Sesgos de sexo y género en inteligencia artificial y salud Audiovisual

Amunt

En aquesta assignatura s'usa com a manual del curs el següent llibre:

Lantz (2015) Machine learning with R. Second edition . Ed. Packt

També s'utilitzaran materials elaborats per l'equip docent, que estaran disponibles a l'aula.

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent - incloses les proves finals - o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

La UOC es reserva la potestat de sol·licitar a l'estudiant que s'identifiqui o que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació pels mitjans que estableixi la Universitat (síncrons o asíncrons). A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació i que s'asseguri que funcionen correctament.

La verificació dels coneixements per garantir l'autoria de la prova no implicarà en cap cas una segona avaluació.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt