Captura i preparació de dades Codi:  22.415    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.
En captura i preparació de dades estudiarem el procés de captura de dades, així com el procés de neteja de dades i la preparació d’aquestes mitjançant tècniques d’enginyeria de característiques. Treballarem diferents metodologies per fer web scraping i profunditzarem en els procediments de neteja de dades, utilitzant diferents llibreries de Python. Seguidament, farem enginyeria de característiques per deixar preparades les dades, incloent eliminació d’outliers o valors extrems, reducció de dimensionalitat, i transformacions de les dades, entre altres procediments.

Amunt

Aquesta és la segona assignatura de la matèria de tractament de les dades del Grau de Ciència de les Dades Aplicada. En aquesta assignatura estudiarem les característiques  i la metodologia per a la captura de dades i el procés de neteja i preparació d'aquestes. Les tècniques i procediments treballats en aquesta assignatura seran utilitzats en projectes de ciència de les dades.

Amunt

Aquesta assignatura es projecta als diferents perfils de científics de dades com son el científic/a de dades, l’analista de dades, l’enginyer/a de dades, l’estadístic/a, l’administrador/a de base de dades o el/la líder de ciència de dades.

Amunt

És necessari coneixements de programació per a la realització de les activitats pràctiques.

Amunt

Alguns dels continguts d’aquesta assignatura s’han d’estudiar a partir del materials i recursos escrits en anglès.

Amunt

COMPETÈNCIES BÀSIQUES
  • Que els estudiants hagin demostrat tenir i entendre coneixements en una àrea d’estudi que parteix de la base de l’educació secundària general, i que es puga trobar a un nivell que es pugui ser reforçat amb llibres de text avançats i que també impliquen coneixements procedents de l'avantguarda del seu camp d’estudi.
  • Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d’una forma professional i que tinguin competències que solen demostrar-se mitjançant l'elaboració i defensa d’arguments i la resolució de problemes dintre de la seva àrea d’estudi.
  • Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment de la seva àrea d’estudi) per realitzar judicis que inclouen una reflexió sobre temes rellevants d'índole social, científic o ètic.
  • Buscar, gestionar i utilitzar la informació més adequada per modelar problemes concrets i aplicar adequadament procediments teòrics per a la seva resolució de manera autònoma i creativa.
  • Comunicar i transmetre coneixements, habilitats i destreses de la professió en el marc de la ciència de dades.
COMPETÈNCIES TRANSVERSALS
  • Utilització i aplicació de les TIC a l’àmbit acadèmic i professional.
  • Comunicar-se en una llengua estrangera.
  • Expressar-se de forma escrita de forma adequada al context acadèmic i professional.
COMPETÈNCIES ESPECÍFIQUES
  • Dissenyar un marc experimental tenint en compte els mètodes més adequats per a la captura, el processament, l’emmagatzemament, l’anàlisi i la visualització de dades.
  • Utilització de forma combinada els fonaments matemàtics, estadístics i de programació per a desenvolupar solucions a problemes de l’àmbit de la ciència de dades.
  • Aplicar tècniques específiques de captura, tractament i anàlisi de dades estructuradas, semi-estructuradas i no estructuradas.

OBJECTIUS ESPECÍFICS
  • Conèixer què son les dades i quin es el seu  cicle de les dades
  • Conèixer els diferents tipus de dades amb les que ens podem trobar i saber les seves particularitats.
  • Conèixer els diferents processos o tècniques que ens permetre fer captura de dades.
  • Ser capaç de dur a terme captura de dades.
  • Conèixer i ser capaç de realitzar amb èxit el pre-processat i neteja de les dades.
  • Entendre quina és la finalitat de realitzar enginyeria de característiques a un conjunt de dades.
  • Ser capaç de realitzar satisfactòriament enginyeria de característiques sobre un conjunt de dades d’estudi.  

Amunt

L’assignatura consta de 4 blocs o reptes:

REPTE 1: Què són les dades i quin és el seu cicle de vida?

Una de les característiques de la societat de la informació i el coneixement és el nombre creixent de dades generades, tant a nivell d’individus com d’empreses. Un exemple d’aquest fet és l’estimació del Computer Sciences Corporation de que a l’any 2020 hi haurà 44 vegades més dades de les que hi havia al 2009.

A partir de les dades, obtindrem informació que es transformarà en coneixement que permetrà accedir a la saviesa. Per a poder dur a terme aquest procés i, per tant, extreure coneixement de les dades, es defineixen sis fases o etapes que formen part del cicle de vida de les dades. En aquest repte profunditzarem en aquest procés i podrem respondre a la pregunta de què són les dades i quin és el seu cicle de vida.

REPTE 2: Com podem capturar les dades de la web?

Internes és actualment el major repositori de dades, accessibles de forma gratuïta en la seva majoria. La interoperabilitat, i la col·laboració en la xarxa han fet que els usuaris passen a formar part activa de la xarxa, no solament utilitzant internet com una eina de recerca d’informació, sinó també com un mitjà per a comunicar-se i generar contingut i coneixement. D’aquesta manera, la World Wide Web s’ha convertit en una font inesgotable d’informació.

Tot i que en alguns casos és possible recuperar informació de forma estructurada, la majoria de les dades en internet es troben integrades en l’estructura i estil de les diferents pàgines web. Com podem, per tant, accedir a aquestes dades i treballar amb elles? Doncs, en aquest punt és on agafa protagonisme el web scraping o rastrejament de la web.

En aquest repte profunditzarem en aquest procés i podrem aprendre diferents maneres de fer web scraping i capturar les dades contingudes en la web per després processar-les i analitzar-les.


REPTE 3: És necessari pre-processar les dades? Com realitzem la neteja de dades?

A l’actualitat, grans quantitats de dades són emmagatzemades a diari; per tant, l’aplicació de mètodes robusts per analitzar i extreure informació d’aquestes dades és rellevant al camp de la ciència de dades.

Per dotar de robustesa als anàlisis aplicats amb l’objectiu d’obtenir coneixement a partir de les dades, és clau la qualitat de les dades. És per això que, la neteja de les dades és una etapa important i determinant al cicle de vida de les dades. Durant aquest procés, s’identifiquen dades incompletes, incorrectes, inexactes o no pertinents, amb la finalitat d’eliminar-los o corregir-los per obtenir així bases de dades de major qualitat.

En aquest repte ens endinsarem en la neteja de les dades i coneixerem les diferents tècniques i procediments necessaris per dur-la a terme. A més, comprovarem per què és tan rellevant aquest procés en l’obtenció de coneixement a partir de les dades.

REPTE 4: Quin és el darrer pas? Preparació de dades

El destí de les dades preprocessades i del dataset obtingut després del procés de neteja, en la majoria dels casos, és l’aplicació d’algoritmes d’aprenentatge automàtic. Abans de ser utilitzats per aquests algoritmes, cal dur a terme una preparació d’aquestes mitjançant una fase coneguda com a enginyeria de característiques.

L’enginyeria de característiques intenta augmentar l’eficiència dels algorismes d’aprenentatge automàtic creant característiques, seleccionant o filtrant característiques, realitzant transformacions, etc., depenent del que sigui més adient en cada cas. Per tant, realitzar de forma apropiada i adequada aquesta fase, garanteix l’èxit de l’aplicació posterior dels diversos algoritmes.

Però, com realitzar una bona praxis fent enginyeria de característiques? En aquest repte anem a descobrir-ho!

Amunt

Fonaments de data science PDF
Espai de recursos de ciència de dades Web

Amunt

A la UOC, l'avaluació generalment és virtual. S'estructura entorn de l'avaluació contínua, que inclou diferents activitats o reptes; l'avaluació final, que es porta a terme mitjançant proves o exàmens, i el treball final de la titulació.

Les activitats o proves d'avaluació poden ser escrites i/o audiovisuals, amb preguntes aleatòries, proves orals síncrones o asíncrones, etc., d'acord amb el que decideixi cada equip docent. Els treballs finals representen el tancament d'un procés formatiu que implica la realització d'un treball original i tutoritzat que té com a objectiu demostrar l'adquisició competencial feta al llarg del programa.

Per verificar la identitat de l'estudiant i l'autoria de les proves d'avaluació, la UOC es reserva la potestat d'aplicar diferents sistemes de reconeixement de la identitat i de detecció del plagi. Amb aquest objectiu, la UOC pot dur a terme enregistrament audiovisual o fer servir mètodes o tècniques de supervisió durant l'execució de qualsevol activitat acadèmica.

Així mateix, la UOC pot exigir a l'estudiant l'ús de dispositius electrònics (micròfons, càmeres o altres eines) o programari específic durant l'avaluació. És responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat de les activitats acadèmiques. Al web sobre integritat acadèmica i plagi de la UOC hi ha més informació respecte d'aquesta qüestió.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; la suplantació d'identitat; l'acceptació o l'obtenció de qualsevol activitat acadèmica a canvi d'una contraprestació o no; la col·laboració, l'encobriment o l'afavoriment de la còpia, o l'ús de material, programari o dispositius no autoritzats en el pla docent o l'enunciat de l'activitat acadèmica, inclosa la intel·ligència artificial i la traducció automàtica, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves (com l'ús d'intel·ligència artificial no permesa, xarxes socials o cercadors d'informació a internet), perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, per la compravenda d'activitats acadèmiques, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb el que estableix la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

  • Sol·licitar a l'estudiant que acrediti la seva identitat segons el que estableix la normativa acadèmica.
  • Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant en l'avaluació contínua com en l'avaluació final, per mitjà d'una entrevista oral síncrona, que pot ser objecte d'enregistrament audiovisual, o pels mitjans que estableixi la Universitat. Aquests mitjans tenen l'objectiu de verificar els coneixements i les competències que garanteixin la identitat de l'estudiant. Si no és possible garantir que l'estudiant és l'autor de la prova, aquesta pot ser qualificada amb una D, en el cas de l'avaluació contínua, o amb un suspens, en el cas de l'avaluació final.

Intel·ligència artificial en el marc de l'avaluació

La UOC reconeix el valor i el potencial de la intel·ligència artificial (IA) en l'àmbit educatiu, alhora que posa de manifest els riscos que comporta si no s'utilitza de manera ètica, crítica i responsable. En aquest sentit, en cada activitat d'avaluació s'informarà l'estudiantat sobre les eines i els recursos d'IA que es poden utilitzar i en quines condicions. Per la seva banda, l'estudiantat es compromet a seguir les indicacions de la UOC a l'hora de dur a terme les activitats d'avaluació i de citar les eines utilitzades i, concretament, a identificar els textos o les imatges generats per sistemes d'IA, els quals no podrà presentar com si fossin propis.

Amb relació a fer servir o no la IA per resoldre una activitat, l'enunciat de les activitats d'avaluació indica les limitacions en l'ús d'aquestes eines. Cal tenir en compte que fer-les servir de manera inadequada, com ara en activitats en què no estan permeses o no citar-les en les activitats en què sí que ho estan, es pot considerar una conducta irregular en l'avaluació. En cas de dubte, es recomana que, abans de lliurar l'activitat, es faci arribar una consulta al professorat col·laborador de l'aula.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt