Models avançats de mineria de dades Codi:  M2.955    Crèdits:  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Metodologia   Informació sobre l'avaluació a la UOC   Consulta del model d'avaluació   Avaluació continuada   Avaluació final   Feedback  
Aquest és el pla docent de l'assignatura. Us servirà per planificar la matrícula (consulteu si l'assignatura s'ofereix aquest semestre a l'espai del Campus Més UOC / La Universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

L'objectiu de la mineria de dades és extreure coneixement en forma de patrons, regles i altres models matemàtics i algorísmics que descriuen la naturalesa subjacent a un problema concret. És sabut que no hi ha un model universal que funcioni millor que la resta per a qualsevol problema o conjunt de dades (l'anomenat "no free lunch theorem"), sinó que cal analitzar la naturalesa d'aquest problema i intentar aplicar el millor mètode possible, o bé una combinació d'ells.

En l'actualitat, la investigació frontera en l'àmbit de la mineria de dades es basa, d'una banda, a millorar els algoritmes coneguts mitjançant el fine-tuning dels seus paràmetres, la qual cosa pot permetre obtenir resultats lleugerament millors per a un conjunt de dades donat. A l'escenari actual Big Data, a causa de l'aparició de conjunts de dades massius, d'alta dimensionalitat i majoritàriament categòrics, cal també ajustar els algoritmes tradicionals per incrementar la seva eficàcia, atès que s'incompleixen moltes de les premisses en les quals estan basats (normalitat, suavitat, distàncies ben definides, etc.).

D'altra banda, també és possible millorar els resultats obtinguts mitjançant la combinació de diferents classificadors, creant sistemes de decisió complexos a partir de centenars o milers de classificadors més senzills. Això inclou l'ús d'esquemes de votació, la generació aleatòria de classificadors a partir d'un model preestablert i la reutilització de decisions preses anteriorment per millorar la predicció actual.

Per tant, en aquesta assignatura es descriuen alguns dels models i algoritmes considerats l'estat de l'art en mineria de dades i s'introdueix el concepte de combinació de classificadors, de manera que l'estudiant comprengui la necessitat d'analitzar el problema a resoldre des de diferents perspectives analítiques i proposi una solució que combini un o més models en funció dels objectius a assolir.

Amunt

Aquesta assignatura pertany al conjunt d'assignatures obligatòries dins del Màster universitari en Ciència de dades (Data Science).

Es recomana cursar aquesta assignatura abans que la resta d'assignatures d'anàlisi de dades, que s'ofereixen com a optatives dins del màster.

Amunt

L'objectiu del màster és la formació de professionals en la ciència de dades. Aquesta assignatura, específicament, es focalitza en els camps relacionats amb l'anàlisi, l'estadística avançada i la mineria de dades (o machine learning).

A mesura que aquesta especialitat ha crescut i les empreses reconeixen la necessitat d'aquesta classe de perfils, també ho han fet les diferents sortides professionals:

  • Científics de dades en departaments especialitzats d'anàlisi i estadística o en empreses externes que proporcionen aquesta classe de servei als seus clients.
  • Responsables, caps de projecte o analistes en projectes de mineria o anàlisi de dades.
  • Emprenedors, que desitgen crear negocis basats en la creació o la implantació de sistemes especialitzats de ciència de dades o d'algun dels seus components, així com productes i / o serveis basats en dades.

Amunt

Per a la realització d'aquesta assignatura es necessiten coneixements de programació, principalment en llenguatge Python.

Pel que fa a coneixements teòrics o matemàtics, es pressuposa que els estudiants que cursen aquesta assignatura han cursat prèviament l'assignatura de "mineria de dades", que introdueix els conceptes bàsics sobre els algoritmes supervisats i no supervisats.

A més, ja que la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Finalment, donada la naturalesa de l'assignatura, és necessari utilitzar eines i procediments descrits en llengua anglesa, de manera que un nivell bàsic de lectura i comprensió de textos tècnics és imprescindible.

Amunt

Els objectius que es pretén que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Determinar quin model o combinació de models és més adequat per a la resolució d'un problema en funció de la naturalesa de les dades.
  • Aplicar tècniques d'extracció de característiques per reduir la dimensionalitat i capturar l'estructura subjacent de les dades.
  • Avançar en el coneixement de diferents models de classificació, relació i predicció: support vector machines, neural networks, deep learning, decision trees i random forests.
  • Aprofundir en el coneixement de models basats en arbres de decisió i les seves combinacions.
  • Entendre el concepte de "ensemble" i les seves propietats.
  • Crear classificadors complexos mitjançant la combinació de classificadors senzills.

Amunt

Introducció

  • Introducció a la mineria de dades
  • Conceptes preliminars
  • Preparació de les dades

Validació i avaluació de resultats

  • Protocols de validació
  • Avaluació de resultats

Extracció i selecció d'atributs

  • Extracció i selecció d'atributs

Mètodes no supervisats

  • Agrupament jeràrquic
  • El mètode k-means i derivats
  • Canopy clustering algorithm

Mètodes supervisats

  • Algorisme k-NN
  • Màquines de suport vectorial
  • Xarxes neuronals
  • Arbres de decisió
  • Mètodes probabilístics

Combinació de classificadors

  • Combinació de classificadors

Amunt

Material Suport
Objectius PLA1 Audiovisual
Tipologia de problemes i mètodes Audiovisual
Avaluació de resultats Audiovisual
Entrenament i test Audiovisual
Objectius PLA2 Audiovisual
Agrupament jeràrquic Audiovisual
El mètode k-means i derivats Audiovisual
Algorisme d'agrupament Canopy Audiovisual
Objectius PLA3 Audiovisual
Algorisme k-NN Audiovisual
Support Vector Machines (SVM) Audiovisual
Xarxes neuronals artificials (ANN) Audiovisual
Objectius PLA4 Audiovisual
Combinació de classificadors Audiovisual
Arbres de decisió Audiovisual
Ou aglutinador: Accés a bases de dades d'articles de congressos i revistes de mineria de dades i machine learning Web
Espai de recursos de ciència de dades Web
Introducció a l'anàlisi de sèries temporals PDF

Amunt

Per entendre l'enfocament metodològic general es recomana la lectura d'aquest apartat i el següent, respecte el model d'avaluació.

A més del que s'ha explicat anteriorment, el consultor recordarà al començament de cada setmana els objectius i competències a desenvolupar, així com els models d'aprenentatge i d'avaluació per a cada part quan sigui procedent. També es recomana el seguiment i participació en totes les discussions i preguntes publicades en el fòrum de l'aula.

Més concretament, recomanem el següent cicle d'estudis:

  • Llegir i estudiar acuradament cada mòdul d'aprenentatge i / o lectura recomanada.
  • Participar en el fòrum, iniciar debats formals o publicar informalment missatges i opinions. El mètode d'ensenyament promou la col·laboració entre els membres del grup. El consultor i el professor responsable poden participar excepcionalment o per tancar el debat en parts o íntegrament.
  • Començar a preparar les proves i / o activitats amb antelació. Es requerirà la consulta de diferents materials i, en general, no tenen una solució única. Justificar i argumentar la solució o les solucions proposades és més important per a l'avaluació de tenir una resposta correcta.

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.


Ponderació de les qualificacions

Opció per superar l'assignatura: AC

Nota final d'assignatura: AC

Amunt

Aquest curs s'avalua únicament a través de l'avaluació contínua perquè no hi ha examen final presencial. Totes les activitats, tant teòriques com pràctiques, i la participació en les discussions en el fòrum virtual són obligatoris.

L'avaluació contínua presenta:

  • Cinc (5) proves d'avaluació contínua (PAC) amb la següent ponderació:
    • PAC1 = 10%
    • PAC2 = 25%
    • PEC3 = 25%
    • PEC4 = 20%
    • PEC5 = 10%
  • Un (1) conjunt de tests autocorregits sobre la teoria associada a cada mòdul. S'accedeix a aquests tests a través de l'enllaç a la plataforma Moodle integrada a l'aula. Les condicions de realització dels tests són les següents:
    • Hi ha un test diferent per a cada un dels mòduls didàctics d'aquesta assignatura (quatre en total).
    • L'estudiant disposa d'un màxim de 2 intents en cada test.
    • Cada test té un límit de temps de 10 minuts per a la seva realització.
    • La nota de cada test serà la nota màxima obtinguda de tots dos intents.
    • La nota final de tots els tests representa el 10% de la nota final de l'assignatura. 

Advertència: És important esmentar que la resolució de les proves, casos i pràctiques proposades s'ha de realitzar de forma individual excepte quan s'indiqui el contrari. L'equip docent tindrà en compte la lògica de les respostes, el pensament individual i la capacitat d'expressar-se per escrit. Qualsevol font externa usada per a resoldre les qüestions i casos s'ha d'indicar clarament i ser referenciada adequadament. Si no fos el cas, les activitats s'avaluaran amb una D. D'altra banda, sempre a criteri de la Universitat, l'incompliment d'aquesta obligació serà comunicada a la gestió dels estudis, per tal d'avaluar si l'estudiant està autoritzat per aprovar qualsevol altra matèria o mitjançant una avaluació contínua en el semestre o el següent.

Amunt

Aquesta assignatura únicament es pot superar a través de la realització i lliurament de les PAC proposades al llarg del semestre. La nota final d'avaluació continuada (AC) serà la mitjana ponderada de totes les activitats, segons els pesos indicats en l'apartat anterior.

D'altra banda, al llarg del semestre, el consultor pot proposar discussions o debats formals. La participació en qualitat i quantitat en aquests debats també pot influir en la qualificació final del semestre.

Recuperació de les Proves d'Avaluació Continuada (PAC)

La recuperació de les activitats es realitzarà de forma individual per a cada activitat que no s'hagi lliurat o aprovat.

Detalls del procés de recuperació:

  • No existeix una PAC de recuperació final. Les activitats es recuperen de forma individual.
  • Pot optar a la recuperació qualsevol estudiant que: (1) no hagi presentat la PAC dins el termini de lliurament definit o (2) tingui una nota inferior a 5. És a dir, qualsevol estudiant que tingui una nota de C-, D o N en aquesta activitat.
  • La nota obtinguda en l'activitat es multiplicarà per un factor de correcció de 0.7. És a dir, nota final de l'activitat = nota obtinguda * 0.7, sent la nota màxima que es podrà obtenir de 7 sobre 10.
  • Qualsevol activitat lliurada fora de termini (més enllà de les 23:59 de la data límit proposta) es considerarà un lliurament de recuperació.
  • Els estudiants podran lliurar les PAC fora de termini en qualsevol moment durant el semestre mitjançant l'eina de la REC, fins a la data límit (improrrogable) de 20 de juny de 2021.
  • Només es poden fer un únic lliurament de recuperació, com a màxim, de cadascuna de les PAC proposades durant el curs.
  • Les correccions de les PAC de recuperació no es realitzaran fins al final del semestre, després de la data límit de lliurament.

Amunt

Al llarg del semestre, el consultor us proporcionarà retorn del vostre progrés a través de diferents mitjans:

  • Publicació de les solucions de les activitats teòriques i pràctiques abans de finalitzar el semestre. Quan una prova no tingui una solució única, es publicaran aquelles indicacions que puguin ajudar a entendre com avaluar una solució.
  • Publicació de les activitats destacades d'alguns estudiants, en part o en la seva totalitat.
  • Comunicació individual a aquells estudiants en risc de no superar el curs, segons la seva evolució.

En tot cas, podeu sol·licitar al consultor un retorn individual, tant de la vostra evolució dins del semestre, com de cada prova individual. Pel fet de ser una avaluació majoritàriament individual i continuada, es recomana fer aquesta petició després de cada prova sobre la que tingueu dubtes o necessitats d'aclariment i no esperar a les qualificacions mitjanes o finals.

També és possible posar-se en contacte amb el professor responsable del curs acadèmic, si els comentaris i suggeriments rebuts per part del consultor no són satisfactoris o no s'està d'acord amb ells.

Amunt