Machine Learning Codi:  M0.163    :  5
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
ATENCIÓ: Aquest és el pla docent de l'assignatura per al primer semestre del curs 2020-2021. Us servirà per planificar la matrícula. Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)

Machine learning va néixer com una branca de la intel·ligència artificial amb l'objectiu que una maquina pogués aprendre a força d'exemples usant algun algorisme d'aprenentatge automàtic. Per tant, es necessita tenir exemples, és a dir dades, un algorisme que ajudi a aprendre, basat en mètodes estadístics, i una màquina, ordinador en general, amb suficient potència de càlcul i capacitat de memòria.

Al món actual es té una gran disponibilitat de dades, en particular al món de la bioinformática. Això fa que les tècniques de machine learning s'apliquin cada vegada amb major freqüència, com per exemple parala anotació automàtica de genomes i l'anàlisi de les dades òmiques obtingudes en experiments amb tecnologies d'alt rendiment.

En aquest curs de machine learning es presenten conceptes bàsics, algorismes i aplicacions del machine learning en l'àmbit de la bioinformática. En particular, s'estudien les següents metodologies d'aprenentatge supervisat: 

  • Algorisme de k-veïns més propers (lNN)
  • Naïve Bayes
  • Xarxes Neuronals Artificials
  • Support Vector Machines (SVM)
  • Arbres de decisió i Random Forests
  • Hidden Markov Models (HMM)

En cadascuna de les anteriors metodologies farem una introducció dels conceptes subjacents i després s'implementarà una aplicació usant el programari R, donant importància a la generació d'informes dinàmics per a la presentació dels resultats. Amb aquesta finalitat s'han seleccionat exemples reals en bioinformática o biomedicina que es tractaran durant el curs.

A més dels algorismes hi ha una unitat didàctica, la III, de caràcter transversal, on s'estudiarà l'avaluació del rendiment d'un model. En aquesta unitat es presenten els mètodes d'avaluació dels classificadors, com són les mesures de rendiment: especificitat, sensibilitat, etc i les mètodes de remuestreo: cross-validation, bootstrap, etc.

Amunt

Aquesta assignatura optativa reforça el coneixement en anàlisi predictiva i introudueix l'estudiant al món del data science i el big data.

Amunt

En acabar aquesta assignatura l'estudiant coneixerà les eines bàsiques de data science que li habilitaran per incorporar-se en grups/empreses que desenvolupin activitat a l'àrea del machine learning i les ciències omicas.

Exemples de perfils professionals que fan un ús important dels conceptes i tècniques desenvolupats en aquesta assignatura són els següents:

  • Investigadors de qualsevol àmbit de ciències de la vida que hagin d'analitzar dades d'experiments i presentar els resultats en informes reproduïbles.
  • Personal de suport en hospitals, laboratoris o centres de recerca que pugui necessitar tractar la informació generada per l'activitat pròpia del centre.
  • Analistes de dades, «data scientists», terme de recent aparició que es refereix a professionals amb coneixement d'anàlisi de dades però també d'informàtica i gestió de dades a la web entre altres habilitats.

Amunt

Aquesta assignatura pot afrontar-se amb els següents coneixements previs.

  • Seria aconsellable certa formació matemàtica -un curs d'àlgebra i càlcul i algun d'estadística bàsica- per poder avançar ràpidament i fonamentar els conceptes que potser s'hagin adquirit des d'una perspectiva pràctica.
  • Coneixements bàsics en R.
  • Coneixements bàsics de Biologia Molecular.

Si en algun moment del curs, l'estudiant precisa reforçar algun àrea se li facilitarà les referències en les quals acudir per a la seva formació, a més de comptar amb les explicacions del docent de l'aula.

Amunt

És recomanable que l'estudiant hagi superat Regressió, Models i Mètodes abans de cursar aquesta assignatura, i també que tingui adquirides les competències que es tracten en l'assignatura Biologia Molecular.

Amunt

 

Aquesta assignatura mostra un conjunt de tècniques de machine learning supervisat per a l'anàlisi de dades pròpies de les ciències òmiques.

Durant el curs s'adquiriran les següents capacitats:

  • Identificar els diferents tipus de problemes de classificació que sorgeixen a partir de dades d'origen biològic.
  • Conèixer els principis bàsics de les tècniques de de classificació.
  • Comprendre els mètodes per l'entrenament de classificadors.
  • Conèixer les mesures d'avaluació de classificadors i saber avaluar quan un classificador és millor que un altre i per què.
  • Conèixer els possibles problemes que poden ocórrer en l'aprenentatge d'un classificador, saber si  es poden solucionar i saber quins són les solucions que es poden aplicar.
  • Ser capaços d'entrenar i testejar classificadors.
  • Conèixer i ser capaç, a nivell general, d'utilitzar els principals mètodes de mineria de dades, així com les seves aplicacions a la biologia.
  • Ser capaç de crear informes dinàmics que garanteixin que les anàlisis fetes són reproduibles.

 

Segons la memòria del Màster Universitari en Bioinformática i Bioestadística, aprovada per les Agències Oficials de Qualitat Docent Universitària (AQU), en aquesta assignatura es garanteixen les següents competències:

  • Capacitat d'iniciativa, d'automotivació i de treballar de forma independent.
  • Capacitat per a la comunicació oral i escrita per a la vida acadèmica i professional.
  • Capacitat per proposar solucions innovadores i prendre de decisions.
  • Capacitat per a la comprensió, l'anàlisi i la síntesi.
  • Conèixer les principals bases de dades biològiques públiques i saber com explotar la informació.
  • Tenir la capacitat d'entendre i aplicar mètodes de recerca d'estadística i aprenentatge automàtic en el context de la bioinformática.
  • Capacitat d'analitzar un problema de bioinformática i ser capaç d'identificar i definir els requeriments informàtics i estadístics apropiats per resoldre-ho.
  • Totes les competències bàsiques i generals llistades en la memòria del Màster Universitari en Bioinformática i Bioestadística

 

Amunt

Els continguts s'organitzen per temes, els quals s'agrupen en unitats, que és el bloc d'informació tal com es veu a l'aula.

 

Unitat I. Introducció a Machine Learning

1.1. Els orígens del Machine Learning.

1.2. Com aprenen les màquines?

1.3. Passos en la implementació de Machine Learning.

1.4. L'elecció de l'algorisme de Machine Learning

1.5. Elements bàsics de R.

1.6. Machine Learning amb R i informes dinàmics.

 

Unitat II: Algorisme de k-veïns més propers (kNN)

2.1. Comprendre la classificació amb els veïns més propers.

2.2 L'algorisme kNN.

2.3 Distàncies entre dades.

2.4 Elecció d'una k adequada.

2.5. Preparant les dades

2.6. Exemple d'aplicació.

 

Unitat III: Avaluació del rendiment del model.

3.1. Mesures del rendiment d'un classificador.

3.2. Matriu de confusió. Mesures associades

3.3. Corbes ROC

3.4. Tècniques de mostreig per a l'avaluació del rendiment del model.

 

Unitat IV: Classificació usant Naive Bayes.

4.1. Comprendre la classificació amb Naive Bayes.

4.2. Conceptes bàsics dels mètodes Bayesians.

4.3. L'Algorisme de Naive Bayes.

4.4. Exemple d'aplicació.

 

Unitat V: Xarxes neuronals artificials.

5.1. Comprendre les xarxes neuronals artificials.

5.2. Topologia de la xarxa.

5.3. Backpropagation.

5.4. Exemple d'aplicació.

5.5. Deep Learning

 

Unitat VI: Support Vector Machines (SVM).

6.1. Classificació amb hiperplans.

6.2. Trobar l'hiperplà de marge màxim.

6.3. L'ús de funcions kernel en problemes no lineals.

6.4. Exemple d'aplicació.

 

Unitat VII: Arbres de decisió i Random Forests.

7.1. Comprendre els arbres de decisió.

7.2. Poda de l'arbre de decisió.

7.3 Exemple d'aplicació.

7.4. Comprendre el Random Forests.

7.5. Exemple d'aplicació.

 

Unitat VIII: Hidden Markov Models (HMM)

8.1 Comprendre els Hidden Markov Models.

8.2 Algorismes per Hidden Markov Models.

8.3 Exemple d'aplicació.

Amunt

Amunt

En aquesta assignatura s'usa com a manual del curs el següent llibre:

Lantz (2015) Machine learning with R. Secondedition . Ed. Packt

També s'utilitzaran materials elaborats per l'equip docent, que estaran disponibles a l'aula.

Amunt

La Normativa acadèmica de la UOC disposa que el procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis fets.

La manca d'originalitat en l'autoria o el mal ús de les condicions en què es fa l'avaluació de l'assignatura és una infracció que pot tenir conseqüències acadèmiques greus.

Es qualificarà l'estudiant amb un suspens (D/0) si es detecta manca d'originalitat en l'autoria d'alguna activitat avaluable (pràctica, prova d'avaluació contínua (PAC) o final (PAF), o la que es defineixi al pla docent), sigui perquè ha utilitzat material o dispositius no autoritzats, sigui perquè ha copiat textualment d'internet, o ha copiat d'apunts, de materials, de manuals o d'articles (sense la citació corresponent), d'altres estudiants, o per qualsevol altra conducta irregular.

La qualificació de suspens (D/0) en les qualificacions finals d'avaluació contínua pot comportar l'obligació de fer l'examen presencial per a superar l'assignatura (si hi ha examen i si superar-lo és suficient per a superar l'assignatura segons indiqui el pla docent).

Quan aquesta mala conducta es produeixi durant la realització de les proves d'avaluació finals presencials, l'estudiant pot ser expulsat de l'aula, i l'examinador farà constar tots els elements i la informació relatius al cas.

D'altra banda, aquesta conducta pot donar lloc a la incoació d'un procediment disciplinari i l'aplicació, si escau, de la sanció que correspongui.

La UOC habilitarà els mecanismes que consideri oportuns per a vetllar per la qualitat de les seves titulacions i garantir l'excel·lència i la qualitat del seu model educatiu.

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt