Models avançats de mineria de dades Codi:  M2.955    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2022-2023. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

L'objectiu de la mineria de dades és extreure coneixement en forma de patrons, regles i altres models matemàtics i algorísmics que descriuen la naturalesa subjacent a un problema concret. És sabut que no hi ha un model universal que funcioni millor que la resta per a qualsevol problema o conjunt de dades (l'anomenat "no free lunch theorem"), sinó que cal analitzar la naturalesa d'aquest problema i intentar aplicar el millor mètode possible, o bé una combinació d'ells.

En l'actualitat, la investigació frontera en l'àmbit de la mineria de dades es basa, d'una banda, a millorar els algoritmes coneguts mitjançant el fine-tuning dels seus paràmetres, la qual cosa pot permetre obtenir resultats lleugerament millors per a un conjunt de dades donat. A l'escenari actual Big Data, a causa de l'aparició de conjunts de dades massius, d'alta dimensionalitat i majoritàriament categòrics, cal també ajustar els algoritmes tradicionals per incrementar la seva eficàcia, atès que s'incompleixen moltes de les premisses en les quals estan basats (normalitat, suavitat, distàncies ben definides, etc.).

D'altra banda, també és possible millorar els resultats obtinguts mitjançant la combinació de diferents classificadors, creant sistemes de decisió complexos a partir de centenars o milers de classificadors més senzills. Això inclou l'ús d'esquemes de votació, la generació aleatòria de classificadors a partir d'un model preestablert i la reutilització de decisions preses anteriorment per millorar la predicció actual.

Per tant, en aquesta assignatura es descriuen alguns dels models i algoritmes considerats l'estat de l'art en mineria de dades i s'introdueix el concepte de combinació de classificadors, de manera que l'estudiant comprengui la necessitat d'analitzar el problema a resoldre des de diferents perspectives analítiques i proposi una solució que combini un o més models en funció dels objectius a assolir.

Amunt

Aquesta assignatura pertany al conjunt d'assignatures obligatòries dins del Màster universitari en Ciència de dades (Data Science).

Es recomana cursar aquesta assignatura abans que la resta d'assignatures d'anàlisi de dades, que s'ofereixen com a optatives dins del màster.

Amunt

L'objectiu del màster és la formació de professionals en la ciència de dades. Aquesta assignatura, específicament, es focalitza en els camps relacionats amb l'anàlisi, l'estadística avançada i la mineria de dades (o machine learning).

A mesura que aquesta especialitat ha crescut i les empreses reconeixen la necessitat d'aquesta classe de perfils, també ho han fet les diferents sortides professionals:

  • Científics de dades en departaments especialitzats d'anàlisi i estadística o en empreses externes que proporcionen aquesta classe de servei als seus clients.
  • Responsables, caps de projecte o analistes en projectes de mineria o anàlisi de dades.
  • Emprenedors, que desitgen crear negocis basats en la creació o la implantació de sistemes especialitzats de ciència de dades o d'algun dels seus components, així com productes i / o serveis basats en dades.

Amunt

Per a la realització d'aquesta assignatura es necessiten coneixements de programació, principalment en llenguatge Python.

Pel que fa a coneixements teòrics o matemàtics, es pressuposa que els estudiants que cursen aquesta assignatura han cursat prèviament l'assignatura de "mineria de dades", que introdueix els conceptes bàsics sobre els algoritmes supervisats i no supervisats.

A més, ja que la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Finalment, donada la naturalesa de l'assignatura, és necessari utilitzar eines i procediments descrits en llengua anglesa, de manera que un nivell bàsic de lectura i comprensió de textos tècnics és imprescindible.

Amunt

Els objectius que es pretén que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Determinar quin model o combinació de models és més adequat per a la resolució d'un problema en funció de la naturalesa de les dades.
  • Aplicar tècniques d'extracció de característiques per reduir la dimensionalitat i capturar l'estructura subjacent de les dades.
  • Avançar en el coneixement de diferents models de classificació, relació i predicció: support vector machines, neural networks, deep learning, decision trees i random forests.
  • Aprofundir en el coneixement de models basats en arbres de decisió i les seves combinacions.
  • Entendre el concepte de "ensemble" i les seves propietats.
  • Crear classificadors complexos mitjançant la combinació de classificadors senzills.

Amunt

Introducció

  • Introducció a la mineria de dades
  • Conceptes preliminars
  • Preparació de les dades

Validació i avaluació de resultats

  • Protocols de validació
  • Avaluació de resultats

Extracció i selecció d'atributs

  • Extracció i selecció d'atributs

Mètodes no supervisats

  • Agrupament jeràrquic
  • El mètode k-means i derivats
  • Canopy clustering algorithm

Mètodes supervisats

  • Algorisme k-NN
  • Màquines de suport vectorial
  • Xarxes neuronals
  • Arbres de decisió
  • Mètodes probabilístics

Combinació de classificadors

  • Combinació de classificadors

Amunt

Objectius PLA1 Audiovisual
Tipologia de problemes i mètodes Audiovisual
Avaluació de resultats Audiovisual
Entrenament i test Audiovisual
Objectius PLA2 Audiovisual
Agrupament jeràrquic Audiovisual
El mètode k-means i derivats Audiovisual
Algorisme d'agrupament Canopy Audiovisual
Objectius PLA3 Audiovisual
Algorisme k-NN Audiovisual
Support Vector Machines (SVM) Audiovisual
Xarxes neuronals artificials (ANN) Audiovisual
Objectius PLA4 Audiovisual
Combinació de classificadors Audiovisual
Arbres de decisió Audiovisual
Ou aglutinador: Accés a bases de dades d'articles de congressos i revistes de mineria de dades i machine learning Web
Espai de recursos de ciència de dades Web
Introducció a l'anàlisi de sèries temporals PDF
Biaixos de sexe i gènere en intel·ligència artificial i salut Audiovisual

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent - incloses les proves finals - o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

La UOC es reserva la potestat de sol·licitar a l'estudiant que s'identifiqui o que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació pels mitjans que estableixi la Universitat (síncrons o asíncrons). A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació i que s'asseguri que funcionen correctament.

La verificació dels coneixements per garantir l'autoria de la prova no implicarà en cap cas una segona avaluació.

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt