Captura i preparació de dades Codi:  22.415    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.
En captura i preparació de dades estudiarem el procés de captura de dades, així com el procés de neteja de dades i la preparació d’aquestes mitjançant tècniques d’enginyeria de característiques. Treballarem diferents metodologies per fer web scraping i profunditzarem en els procediments de neteja de dades, utilitzant diferents llibreries de Python. Seguidament, farem enginyeria de característiques per deixar preparades les dades, incloent eliminació d’outliers o valors extrems, reducció de dimensionalitat, i transformacions de les dades, entre altres procediments.

Amunt

Aquesta és la segona assignatura de la matèria de tractament de les dades del Grau de Ciència de les Dades Aplicada. En aquesta assignatura estudiarem les característiques  i la metodologia per a la captura de dades i el procés de neteja i preparació d'aquestes. Les tècniques i procediments treballats en aquesta assignatura seran utilitzats en projectes de ciència de les dades.

Amunt

Aquesta assignatura es projecta als diferents perfils de científics de dades com son el científic/a de dades, l’analista de dades, l’enginyer/a de dades, l’estadístic/a, l’administrador/a de base de dades o el/la líder de ciència de dades.

Amunt

És necessari coneixements de programació per a la realització de les activitats pràctiques.

Amunt

Alguns dels continguts d’aquesta assignatura s’han d’estudiar a partir del materials i recursos escrits en anglès.

Amunt

COMPETÈNCIES BÀSIQUES
  • Que els estudiants hagin demostrat tenir i entendre coneixements en una àrea d’estudi que parteix de la base de l’educació secundària general, i que es puga trobar a un nivell que es pugui ser reforçat amb llibres de text avançats i que també impliquen coneixements procedents de l'avantguarda del seu camp d’estudi.
  • Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d’una forma professional i que tinguin competències que solen demostrar-se mitjançant l'elaboració i defensa d’arguments i la resolució de problemes dintre de la seva àrea d’estudi.
  • Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment de la seva àrea d’estudi) per realitzar judicis que inclouen una reflexió sobre temes rellevants d'índole social, científic o ètic.
  • Buscar, gestionar i utilitzar la informació més adequada per modelar problemes concrets i aplicar adequadament procediments teòrics per a la seva resolució de manera autònoma i creativa.
  • Comunicar i transmetre coneixements, habilitats i destreses de la professió en el marc de la ciència de dades.
COMPETÈNCIES TRANSVERSALS
  • Utilització i aplicació de les TIC a l’àmbit acadèmic i professional.
  • Comunicar-se en una llengua estrangera.
  • Expressar-se de forma escrita de forma adequada al context acadèmic i professional.
COMPETÈNCIES ESPECÍFIQUES
  • Dissenyar un marc experimental tenint en compte els mètodes més adequats per a la captura, el processament, l’emmagatzemament, l’anàlisi i la visualització de dades.
  • Utilització de forma combinada els fonaments matemàtics, estadístics i de programació per a desenvolupar solucions a problemes de l’àmbit de la ciència de dades.
  • Aplicar tècniques específiques de captura, tractament i anàlisi de dades estructuradas, semi-estructuradas i no estructuradas.

OBJECTIUS ESPECÍFICS
  • Conèixer què son les dades i quin es el seu  cicle de les dades
  • Conèixer els diferents tipus de dades amb les que ens podem trobar i saber les seves particularitats.
  • Conèixer els diferents processos o tècniques que ens permetre fer captura de dades.
  • Ser capaç de dur a terme captura de dades.
  • Conèixer i ser capaç de realitzar amb èxit el pre-processat i neteja de les dades.
  • Entendre quina és la finalitat de realitzar enginyeria de característiques a un conjunt de dades.
  • Ser capaç de realitzar satisfactòriament enginyeria de característiques sobre un conjunt de dades d’estudi.  

Amunt

L’assignatura consta de 5 blocs o reptes:

REPTE 1: Què són les dades i quin és el seu cicle de vida?

Una de les característiques de la societat de la informació i el coneixement és el nombre creixent de dades generades, tant a nivell d’individus com d’empreses. Un exemple d’aquest fet és l’estimació del Computer Sciences Corporation de que a l’any 2020 hi haurà 44 vegades més dades de les que hi havia al 2009.

A partir de les dades, obtindrem informació que es transformarà en coneixement que permetrà accedir a la saviesa. Per a poder dur a terme aquest procés i, per tant, extreure coneixement de les dades, es defineixen sis fases o etapes que formen part del cicle de vida de les dades. En aquest repte profunditzarem en aquest procés i podrem respondre a la pregunta de què són les dades i quin és el seu cicle de vida.

REPTE 2: Com podem capturar les dades de la web?

Internes és actualment el major repositori de dades, accessibles de forma gratuïta en la seva majoria. La interoperabilitat, i la col·laboració en la xarxa han fet que els usuaris passen a formar part activa de la xarxa, no solament utilitzant internet com una eina de recerca d’informació, sinó també com un mitjà per a comunicar-se i generar contingut i coneixement. D’aquesta manera, la World Wide Web s’ha convertit en una font inesgotable d’informació.

Tot i que en alguns casos és possible recuperar informació de forma estructurada, la majoria de les dades en internet es troben integrades en l’estructura i estil de les diferents pàgines web. Com podem, per tant, accedir a aquestes dades i treballar amb elles? Doncs, en aquest punt és on agafa protagonisme el web scraping o rastrejament de la web.

En aquest repte profunditzarem en aquest procés i podrem aprendre diferents maneres de fer web scraping i capturar les dades contingudes en la web per després processar-les i analitzar-les.

REPTE 3: És possible capturar les dades en temps real?

Com no és el mateix explicar-ho que fer-ho, aquest repte serà un cas pràctic de treball i utilització del web scraping, particularment amb un cas de web scraping en streaming.

Este tercer repte ens permetrà desenvolupar un projecte complet. Amb aquest, aconseguirem refermar els conceptes estudiats, seguir familiaritzant-nos amb el procés de web scraping i, especialment profunditzar en el cas de web scraping en streaming amb el que anem a treballar. D'aquesta manera, aprendrem a capturar dades en temps real.

REPTE 4: És necessari pre-processar les dades? Com realitzem la neteja de dades?

A l’actualitat, grans quantitats de dades són emmagatzemades a diari; per tant, l’aplicació de mètodes robusts per analitzar i extreure informació d’aquestes dades és rellevant al camp de la ciència de dades.

Per dotar de robustesa als anàlisis aplicats amb l’objectiu d’obtenir coneixement a partir de les dades, és clau la qualitat de les dades. És per això que, la neteja de les dades és una etapa important i determinant al cicle de vida de les dades. Durant aquest procés, s’identifiquen dades incompletes, incorrectes, inexactes o no pertinents, amb la finalitat d’eliminar-los o corregir-los per obtenir així bases de dades de major qualitat.

En aquest repte ens endinsarem en la neteja de les dades i coneixerem les diferents tècniques i procediments necessaris per dur-la a terme. A més, comprovarem per què és tan rellevant aquest procés en l’obtenció de coneixement a partir de les dades.

REPTE 5: Quin és el darrer pas? Preparació de dades

El destí de les dades preprocessades i del dataset obtingut després del procés de neteja, en la majoria dels casos, és l’aplicació d’algoritmes d’aprenentatge automàtic. Abans de ser utilitzats per aquests algoritmes, cal dur a terme una preparació d’aquestes mitjançant una fase coneguda com a enginyeria de característiques.

L’enginyeria de característiques intenta augmentar l’eficiència dels algorismes d’aprenentatge automàtic creant característiques, seleccionant o filtrant característiques, realitzant transformacions, etc., depenent del que sigui més adient en cada cas. Per tant, realitzar de forma apropiada i adequada aquesta fase, garanteix l’èxit de l’aplicació posterior dels diversos algoritmes.

Però, com realitzar una bona praxis fent enginyeria de característiques? En aquest repte anem a descobrir-ho!

Amunt

Fonaments de data science PDF
Espai de recursos de ciència de dades Web

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent –incloses les proves finals– o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt