Mineria de dades Codi:  09.644    Crèdits:  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels materials de què disposa l'assignatura   Informació sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.
Mineria de dades és una assignatura d'aplicació dels coneixements previs apresos en Estadística i de presentació d'alguns nous d'anàlisi avançat de dades. Es presenta un conjunt de mètodes procedents de la intel·ligència artificial, aprenentatge automàtic i sistemes de bases de dades que formen el nucli essencial de la disciplina coneguda com Data Mining. Els conceptes estadístics són molt útils en aquesta assignatura i permeten aprofitar amb més profunditat i detall d'algunes de les tècniques que s'estudiaran.

Amunt

Aquesta assignatura és optativa i està pensada per realitzar-la després d'haver adquirit els coneixements necessaris d'estadística com a punt final d'una trajectòria orientada a l'anàlisi d'informació.

L'aplicació de la mineria de dades en l'àmbit de les ciències de la informació i de la comunicació es mostra en àrees multidisciplinàries basades en la recuperació d'informació en internet o Webmining, mineria de textos o Textmining, lingüística computacional i aprenentatge automàtic.

Amunt

Avui dia es considera crucial l'anàlisi de dades per aconseguir informació.

Les opcions professionals d'aquesta assignatura són, d'una banda, el món del R+D tant en la indústria informàtica com en l'empresa orientada a negoci, i d'altra banda, la recerca en un context més acadèmic.

Aquesta assignatura pretén preparar a futurs analistes d'informació, els quals hauran d'extreure coneixement en forma de patrons amagats en quantitats ingents de dades que avui dia genera qualsevol procés productiu sigui industrial, empresarial en general o de recerca científica. Un exemple seria preveure la reacció de qualsevol organització o fenomen davant de determinades decisions o accions en funció de les dades guardades d'experiències anteriors.

Amunt

Aquesta assignatura requereix coneixements bàsics d'estadística.

També és necessari ser capaç de llegir documentació en anglès. 

Amunt

Per cursar aquesta assignatura cal haver superat l'assignatura d'Estadística i metodologies de recerca quantitativa.

Amunt

Objectius
  • Saber en què consisteix el procés de mineria de dades i conèixer les seves metodologies i fases d'execució.
  • Conèixer els àmbits en els quals es pot aplicar un procés de mineria de dades.
  • Conèixer els principals models de recuperació i d'anàlisi de dades útils en mineria de dades.
  • Conèixer les tècniques que permeten construir els models esmentats: quan es poden aplicar i sota quines condicions; quina classe de resultats donen; com s'han de preparar les dades per poder-los utilitzar i com s'ha d'avaluar i comparar la seva qualitat.
  • Decidir davant d'un problema pràctic concret quina metodologia de mineria de dades convé utilitzar, quin model es vol obtenir, quin tècnica resultaria més adequada d'utilitzar i com avaluar els resultats obtinguts.
  • Practicar amb un programa estadístic d'anàlisi de dades que implementa algunes tècniques de mineria de dades tractades al llarg del curs en l'àmbit de les ciències de la informació i de la comunicació.
Competències transversals
  • Ús i aplicació de les TIC en l'àmbit acadèmic i professional.
  • Capacitat per adaptar-se a les tecnologies i als futurs entorns actualitzant les competències professionals.
  • Capacitat per innovar i generar noves idees.

Competències específiques
  • Capacitat per planificar i gestionar projectes a l'entorn de les TIC.
  • Capacitat per avaluar solucions tecnològiques i elaborar propostes de projectes tenint en compte els recursos, les alternatives disponibles i les condicions de mercat.
  • Capacitat d'analitzar un problema en el nivell d'abstracció adequat a cada situació i aplicar les habilitats i els coneixements adquirits per abordar-ho i resoldre-ho.
  • Capacitat de dissenyar i construir aplicacions informàtiques mitjançant tècniques de desenvolupament, integració i reutilització.
  • Capacitat per aplicar les tècniques específiques de tractament, emmagatzematge i administració de dades.
  • Capacitat per proposar i avaluar diferents alternatives tecnològiques per resoldre un problema concret.

Amunt

El material didàctic es divideix en els següents mòduls que presenten certa interrelació entre ells. S'inclouen casos d'estudi útils per aplicar els mètodes explicats des d'un punt de vista teòric.
A continuació es poden veure els mòduls que s'han de treballar per poder aconseguir els objectius de l'assignatura.

1ª PART

Mòdul 1: El procés de Mineria de dades.
Descobriment de coneixement a partir de dades.
Les fases del procés d'extracció de coneixement.
Les eines de Mineria de dades.
Casos d'estudi

Mòdul 2: Preparació de dades.
Preliminars: repàs de conceptes estadístics.
Preliminars: tipus d'atributs.
Operacions de preparació de dades.
Tractament de la falta de dades.
Reducció de dimensionalitat.
Mètodes de reducció de casos.

2ª PART

Mòdul 3: Classificació: arbres de decisió.
Introducció: l'estructura dels arbres de decisió.
Mètodes de construcció d'arbres de decisió per classificació: ANEU3 i C4.5.
Construcció d'arbres de decisió per a regressió i classificació: CART.
Construcció d'arbres de decisió per predicció numèrica: CHAID.
Mètodes de construcció d'arbres de decisió multivariants: LMDT.
Ponderació final dels arbres de decisió.

Mòdul 4: Mètodes d'agregació.
La similitud, base per a l'agrupació d'objectes.
Espai, distància i semblança.
Mètodes d'agregació basats en semblança i mètodes probabilistes.
Interpretació dels models obtinguts.
Ponderació dels mètodes d'agregació.

Mòdul 5: Regles d'associació.
Què són les regles d'associació?
Construcció de regles d'associació simples.
Ponderació de les regles d'associació.

3ª PART

Mòdul 6: Avaluació de models.
Avaluació de models classificatoris.
Validació creuada ("K Cross-Validation").
Comparació de rendiments.
Altres formes d'estimar la qualitat de models predictius.
Cost.

Mòdul 7: Cas d'Estudi.
Presentació del cas: “El discurs del rei”
Preparació de dades.
Obtenció de models.
Avaluació i comparació

4ª PART

Mòdul 8: Llenguatges documentals.
Llenguatges documentals: indexació, recuperació i avaluació
Sistemes de classificació, llistes d'encapçalaments de matèria i llistes d'autoritats
Tesaurus, llista de descriptores lliures i indexació automàtica


Amunt

Material Suport
Mineria de dades PDF
Vídeo: Exercici amb R Audiovisual

Amunt

La Normativa acadèmica de la UOC disposa que el procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis fets.

La manca d'originalitat en l'autoria o el mal ús de les condicions en què es fa l'avaluació de l'assignatura és una infracció que pot tenir conseqüències acadèmiques greus.

L'estudiant serà qualificat amb un suspens (D/0) si es detecta manca d'originalitat en l'autoria d'alguna activitat avaluable (pràctica, prova d'avaluació contínua (PAC) o final (PAF), o la que es defineixi al pla docent), sigui perquè ha utilitzat material o dispositius no autoritzats, sigui perquè ha copiat textualment d'internet, o ha copiat d'apunts, de materials, de manuals o d'articles (sense la citació corresponent), d'altres estudiants, o per qualsevol altra conducta irregular.

La qualificació de suspens (D/0) en les qualificacions finals d'avaluació contínua pot comportar l'obligació de fer l'examen presencial per a superar l'assignatura (si hi ha examen i si superar-lo és suficient per a superar l'assignatura segons indiqui el pla docent).

Quan aquesta mala conducta es produeixi durant la realització de les proves d'avaluació finals presencials, l'estudiant pot ser expulsat de l'aula, i l'examinador farà constar tots els elements i la informació relatius al cas.

D'altra banda, aquesta conducta pot donar lloc a la incoació d'un procediment disciplinari i l'aplicació, si escau, de la sanció que correspongui.

La UOC habilitarà els mecanismes que consideri oportuns per a vetllar per la qualitat de les seves titulacions i garantir l'excel·lència i la qualitat del seu model educatiu.

Amunt

Pots superar l'assignatura per mitjà de dues vies:

  1. Amb avaluació contínua (AC) i una prova de síntesi (PS):
    • Si superes l'avaluació contínua i a la prova de síntesi obtens la nota mínima necessària, la nota final serà la ponderació que especifiqui el pla docent.
    • Si superes l'avaluació contínua i a la prova de síntesi no obtens la nota mínima necessària, la qualificació final serà la nota quantitativa que obtinguis a la prova de síntesi.
    • Si superes l'avaluació contínua i no et presentes a la prova de síntesi, la nota final serà un No presentat.
    • Si suspens l'avaluació contínua, la nota final serà un No presentat.
    • Si no et presentes a l'avaluació contínua, la nota final serà un No presentat.

  2. Amb examen (per seguir aquesta via no cal haver superat l'avaluació contínua per fer l'examen):
    • Si no has presentat l'avaluació contínua, la nota final serà la qualificació numèrica obtinguda a l'examen.
    • Si a l'avaluació contínua has obtingut una nota diferent d'un No presentat, la nota final serà el càlcul més favorable entre la nota numèrica de l'examen i la ponderació de la nota de l'avaluació contínua amb la nota de l'examen, segons el que estableixi el pla docent. Per aplicar aquest càlcul, a l'examen cal obtenir una nota mínima de 4 (si és inferior, la nota final de l'assignatura serà la qualificació de l'examen).
    • Si no et presentes a l'examen, la qualificació final serà un No presentat.


Ponderació de les qualificacions

Opció per superar l'assignatura: AC + PS

Nota final d'assignatura: AC + PS

AC = 60%

PS = 40%

Notes mínimes:

· PS = 3,5

Quan la nota obtinguda a la PS sigui inferior als mínims establerts per a cada fórmula, la qualificació final de l'assignatura serà la nota obtinguda a la PS.

Opció amb EX: EX + AC

Nota final d'assignatura: EX + AC

EX = 65%

AC = 35%

Notes mínimes:

· EX = 4

Aquesta fórmula de ponderació només s'aplicarà quan la nota resultant millori la nota obtinguda a l'EX. Quan la nota obtinguda a l'EX sigui inferior a 4 o la qualificació resultant de la fórmula de ponderació no permeti millorar la nota obtinguda a l'EX, la qualificació final de l'assignatura serà la nota obtinguda a l'EX.

En el cas d'assignatures amb pràctiques (Pr) que creuïn amb l'examen (EX), la fórmula de ponderació només s'aplicarà quan la nota resultant millori la nota obtinguda a FE (FE=EX+Pr). Quan la nota obtinguda a l'EX sigui inferior a 4, la qualificació resultant de l'assignatura serà la nota obtinguda a l'EX. Quan la qualificació resultant de la fórmula de ponderació no permeti millorar la nota obtinguda a FE, la qualificació final de l'assignatura serà la nota obtinguda a FE.

Amunt