Models avançats de mineria de dades Codi:  M2.955    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
ATENCIÓ: Aquest és el pla docent de l'assignatura per al primer semestre del curs 2020-2021. Us servirà per planificar la matrícula. Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)

L'objectiu de la mineria de dades és extreure coneixement en forma de patrons, regles i altres models matemàtics i algorísmics que descriuen la naturalesa subjacent a un problema concret. És sabut que no hi ha un model universal que funcioni millor que la resta per a qualsevol problema o conjunt de dades (l'anomenat "no free lunch theorem"), sinó que cal analitzar la naturalesa d'aquest problema i intentar aplicar el millor mètode possible, o bé una combinació d'ells.

En l'actualitat, la investigació frontera en l'àmbit de la mineria de dades es basa, d'una banda, a millorar els algoritmes coneguts mitjançant el fine-tuning dels seus paràmetres, la qual cosa pot permetre obtenir resultats lleugerament millors per a un conjunt de dades donat. A l'escenari actual Big Data, a causa de l'aparició de conjunts de dades massius, d'alta dimensionalitat i majoritàriament categòrics, cal també ajustar els algoritmes tradicionals per incrementar la seva eficàcia, atès que s'incompleixen moltes de les premisses en les quals estan basats (normalitat, suavitat, distàncies ben definides, etc.).

D'altra banda, també és possible millorar els resultats obtinguts mitjançant la combinació de diferents classificadors, creant sistemes de decisió complexos a partir de centenars o milers de classificadors més senzills. Això inclou l'ús d'esquemes de votació, la generació aleatòria de classificadors a partir d'un model preestablert i la reutilització de decisions preses anteriorment per millorar la predicció actual.

Per tant, en aquesta assignatura es descriuen alguns dels models i algoritmes considerats l'estat de l'art en mineria de dades i s'introdueix el concepte de combinació de classificadors, de manera que l'estudiant comprengui la necessitat d'analitzar el problema a resoldre des de diferents perspectives analítiques i proposi una solució que combini un o més models en funció dels objectius a assolir.

Amunt

Aquesta assignatura pertany al conjunt d'assignatures obligatòries dins del Màster universitari en Ciència de dades (Data Science). Es recomana cursar aquesta assignatura abans que la resta d'assignatures d'anàlisi de dades, que s'ofereixen com a optatives dins del màster.

Aquesta assignatura també s'ofereix com una assignatura optativa dins del Màster Universitari de Ciberseguretat i Privadesa. En aquest cas, és l'única assignatura de ciència de dades d'aquest programa. Per poder seguir de forma correcta aquesta assignatura, és imprescindible que els estudiants tinguin una base teòrica i pràctica de mineria de dades y aprenentatge automàtic, així com un nivell alt de programació en Python.

Amunt

L'objectiu del màster és la formació de professionals en la ciència de dades. Aquesta assignatura, específicament, es focalitza en els camps relacionats amb l'anàlisi, l'estadística avançada i la mineria de dades (o machine learning).

A mesura que aquesta especialitat ha crescut i les empreses reconeixen la necessitat d'aquesta classe de perfils, també ho han fet les diferents sortides professionals:

  • Científics de dades en departaments especialitzats d'anàlisi i estadística o en empreses externes que proporcionen aquesta classe de servei als seus clients.
  • Responsables, caps de projecte o analistes en projectes de mineria o anàlisi de dades.
  • Emprenedors, que desitgen crear negocis basats en la creació o la implantació de sistemes especialitzats de ciència de dades o d'algun dels seus components, així com productes i / o serveis basats en dades.

Amunt

Per a la realització d'aquesta assignatura es necessiten coneixements de programació, principalment en llenguatge Python.

Pel que fa a coneixements teòrics o matemàtics, es pressuposa que els estudiants que cursen aquesta assignatura han cursat prèviament l'assignatura de "mineria de dades", que introdueix els conceptes bàsics sobre els algoritmes supervisats i no supervisats.

A més, ja que la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Finalment, donada la naturalesa de l'assignatura, és necessari utilitzar eines i procediments descrits en llengua anglesa, de manera que un nivell bàsic de lectura i comprensió de textos tècnics és imprescindible.

Amunt

Els objectius que es pretén que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Determinar quin model o combinació de models és més adequat per a la resolució d'un problema en funció de la naturalesa de les dades.
  • Aplicar tècniques d'extracció de característiques per reduir la dimensionalitat i capturar l'estructura subjacent de les dades.
  • Avançar en el coneixement de diferents models de classificació, relació i predicció: support vector machines, neural networks, deep learning, decision trees i random forests.
  • Aprofundir en el coneixement de models basats en arbres de decisió i les seves combinacions.
  • Entendre el concepte de "ensemble" i les seves propietats.
  • Crear classificadors complexos mitjançant la combinació de classificadors senzills.

Amunt

Introducció

  • Introducció a la mineria de dades
  • Conceptes preliminars
  • Preparació de les dades

Validació i avaluació de resultats

  • Protocols de validació
  • Avaluació de resultats

Extracció i selecció d'atributs

  • Extracció i selecció d'atributs

Mètodes no supervisats

  • Agrupament jeràrquic
  • El mètode k-means i derivats
  • Canopy clustering algorithm

Mètodes supervisats

  • Algorisme k-NN
  • Màquines de suport vectorial
  • Xarxes neuronals
  • Arbres de decisió
  • Mètodes probabilístics

Combinació de classificadors

  • Combinació de classificadors

Amunt

Objectius PLA4 Audiovisual
Espai de recursos de ciència de dades Web
Support Vector Machines (SVM) Audiovisual
Objectius PLA2 Audiovisual
Arbres de decisió Audiovisual
Combinació de classificadors Audiovisual
Agrupament jeràrquic Audiovisual
Algorisme k-NN Audiovisual
Objectius PLA3 Audiovisual
Tipologia de problemes i mètodes Audiovisual
Algorisme d'agrupament Canopy Audiovisual
Xarxes neuronals artificials (ANN) Audiovisual
El mètode k-means i derivats Audiovisual
Ou aglutinador: Accés a bases de dades d'articles de congressos i revistes de mineria de dades i machine learning Web
Objectius PLA1 Audiovisual
Entrenament i test Audiovisual
Avaluació de resultats Audiovisual

Amunt

La Normativa acadèmica de la UOC disposa que el procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis fets.

La manca d'originalitat en l'autoria o el mal ús de les condicions en què es fa l'avaluació de l'assignatura és una infracció que pot tenir conseqüències acadèmiques greus.

L'estudiant serà qualificat amb un suspens (D/0) si es detecta manca d'originalitat en l'autoria d'alguna activitat avaluable (pràctica, prova d'avaluació contínua (PAC) o final (PAF), o la que es defineixi al pla docent), sigui perquè ha utilitzat material o dispositius no autoritzats, sigui perquè ha copiat textualment d'internet, o ha copiat d'apunts, de materials, de manuals o d'articles (sense la citació corresponent), d'altres estudiants, o per qualsevol altra conducta irregular.

La qualificació de suspens (D/0) en les qualificacions finals d'avaluació contínua pot comportar l'obligació de fer l'examen presencial per a superar l'assignatura (si hi ha examen i si superar-lo és suficient per a superar l'assignatura segons indiqui el pla docent).

Quan aquesta mala conducta es produeixi durant la realització de les proves d'avaluació finals presencials, l'estudiant pot ser expulsat de l'aula, i l'examinador farà constar tots els elements i la informació relatius al cas.

D'altra banda, aquesta conducta pot donar lloc a la incoació d'un procediment disciplinari i l'aplicació, si escau, de la sanció que correspongui.

La UOC habilitarà els mecanismes que consideri oportuns per a vetllar per la qualitat de les seves titulacions i garantir l'excel·lència i la qualitat del seu model educatiu.

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt