|
||||||
Consulta de les dades generals Descripció L'assignatura en el conjunt del pla d'estudis Camps professionals en què es projecta Coneixements previs Informació prèvia a la matrícula Objectius i competències Continguts Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura Informacions sobre l'avaluació a la UOC Consulta del model d'avaluació | ||||||
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis. | ||||||
En captura i preparació de dades estudiarem el procés de captura de dades, així com el procés de neteja de dades i la preparació d’aquestes mitjançant tècniques d’enginyeria de característiques. Treballarem diferents metodologies per fer web scraping i profunditzarem en els procediments de neteja de dades, utilitzant diferents llibreries de Python. Seguidament, farem enginyeria de característiques per deixar preparades les dades, incloent eliminació d’outliers o valors extrems, reducció de dimensionalitat, i transformacions de les dades, entre altres procediments. | ||||||
Aquesta és la segona assignatura de la matèria de tractament de les dades del Grau de Ciència de les Dades Aplicada. En aquesta assignatura estudiarem les característiques i la metodologia per a la captura de dades i el procés de neteja i preparació d'aquestes. Les tècniques i procediments treballats en aquesta assignatura seran utilitzats en projectes de ciència de les dades. | ||||||
Aquesta assignatura es projecta als diferents perfils de científics de dades com son el científic/a de dades, l’analista de dades, l’enginyer/a de dades, l’estadístic/a, l’administrador/a de base de dades o el/la líder de ciència de dades. | ||||||
És necessari coneixements de programació per a la realització de les activitats pràctiques. | ||||||
Alguns dels continguts d’aquesta assignatura s’han d’estudiar a partir del materials i recursos escrits en anglès. | ||||||
COMPETÈNCIES BÀSIQUES
OBJECTIUS ESPECÍFICS
|
||||||
L’assignatura consta de 5 blocs o reptes: REPTE 1: Què són les dades i quin és el seu cicle de vida? Una de les característiques de la societat de la informació i el coneixement és el nombre creixent de dades generades, tant a nivell d’individus com d’empreses. Un exemple d’aquest fet és l’estimació del Computer Sciences Corporation de que a l’any 2020 hi haurà 44 vegades més dades de les que hi havia al 2009. REPTE 2: Com podem capturar les dades de la web? Internes és actualment el major repositori de dades, accessibles de forma gratuïta en la seva majoria. La interoperabilitat, i la col·laboració en la xarxa han fet que els usuaris passen a formar part activa de la xarxa, no solament utilitzant internet com una eina de recerca d’informació, sinó també com un mitjà per a comunicar-se i generar contingut i coneixement. D’aquesta manera, la World Wide Web s’ha convertit en una font inesgotable d’informació. Tot i que en alguns casos és possible recuperar informació de forma estructurada, la majoria de les dades en internet es troben integrades en l’estructura i estil de les diferents pàgines web. Com podem, per tant, accedir a aquestes dades i treballar amb elles? Doncs, en aquest punt és on agafa protagonisme el web scraping o rastrejament de la web. REPTE 3: És necessari pre-processar les dades? Com realitzem la neteja de dades? A l’actualitat, grans quantitats de dades són emmagatzemades a diari; per tant, l’aplicació de mètodes robusts per analitzar i extreure informació d’aquestes dades és rellevant al camp de la ciència de dades. Per dotar de robustesa als anàlisis aplicats amb l’objectiu d’obtenir coneixement a partir de les dades, és clau la qualitat de les dades. És per això que, la neteja de les dades és una etapa important i determinant al cicle de vida de les dades. Durant aquest procés, s’identifiquen dades incompletes, incorrectes, inexactes o no pertinents, amb la finalitat d’eliminar-los o corregir-los per obtenir així bases de dades de major qualitat. REPTE 4: Quin és el darrer pas? Preparació de dades El destí de les dades preprocessades i del dataset obtingut després del procés de neteja, en la majoria dels casos, és l’aplicació d’algoritmes d’aprenentatge automàtic. Abans de ser utilitzats per aquests algoritmes, cal dur a terme una preparació d’aquestes mitjançant una fase coneguda com a enginyeria de característiques. L’enginyeria de característiques intenta augmentar l’eficiència dels algorismes d’aprenentatge automàtic creant característiques, seleccionant o filtrant característiques, realitzant transformacions, etc., depenent del que sigui més adient en cada cas. Per tant, realitzar de forma apropiada i adequada aquesta fase, garanteix l’èxit de l’aplicació posterior dels diversos algoritmes. |
||||||
|
||||||
El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats. La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus. Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular. Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC. En el marc del procés d'avaluació, la UOC es reserva la potestat de:
|
||||||
|