|
Tipologia i cicle de vida de les dades
|
Codi:
M2.951 :
6
|
|
Consulta de les dades generals
Descripció
L'assignatura en el conjunt del pla d'estudis
Camps professionals en què es projecta
Coneixements previs
Informació prèvia a la matrícula
Objectius i competències
Continguts
Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura
Informació addicional sobre els recursos d'aprenentatge i eines de suport
Informacions sobre l'avaluació a la UOC
Consulta del model d'avaluació
|
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis. |
Aquesta assignatura se centra en diferents visions i dimensions de les dades, en les diferents fonts de dades que podem trobar, i que per tant seran (potencialment) part de les nostres fonts en els processos d'anàlisi de dades. Seguidament veurem els principals mètodes per a l'adquisició i captura de dades, com ara el web scrapping, l'accés a dades mitjançant API o SPARQL. Finalitzarem aquesta assignatura revisant els processos relacionats amb les dades, com ara la integració, validació, agregació, neteja de dades i l'enriquiment.
|
Aquesta assignatura forma part del conjunt d'assignatures obligatòries del màster, i es recomana que sigui cursada durant el primer o segon semestre d'estudis.
|
Aquesta assignatura es projecta en els diferents perfils de científics de dades com són el científic/a de dades, l'analista de dades, l'enginyer/a de dades, l'estadístic/a, l'administrador/a de base de dades o el/la líder de ciència de dades.
|
En la realització de les activitats pràctiques calen coneixements bàsics de R i Python.
|
Alguns dels continguts d'aquesta assignatura s'han d'estudiar a partir de materials i recursos escrits en anglès.
|
Competències bàsiques
- Saber aplicar els coneixements adquirits i la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contextos més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
- Adquirir les habilitats d'aprenentatge que permetin continuar estudiant de manera autodirigida o autònoma.
- Adquirir la capacitat per extreure, interpretar i analitzar les dades de diferents entorns.
- Adquirir la capacitat de cerca, gestió i ús de la informació i els recursos en l'àmbit de la ciència de dades.
Competències transversals
- Adquirir la capacitat d'iniciativa, automotivació i treball de forma independent.
- Adquirir la capacitat de comunicació oral i escrita per a la vida acadèmica i professional.
- Adquirir la capacitat per proposar solucions innovadors i prendre decisions.
- Adquirir la capacitat per treballar en equips multidisciplinaris.
Competències específiques
- Adquirir la destresa necessària per a la manipulació de dades, conversió de formats i emmagatzematge dels mateixos.
- Aprendre l'ús avançat de les eines de programari estadístic adequades per als diferents problemes de modelització, anàlisi i visualització de dades.
- Aprendre a capturar dades de diferents fonts de dades (tals com a xarxes socials, web de dades o repositoris) i mitjançant diferents mecanismes (tals com queries, API i scraping).
- Saber actuar amb els principis ètics i legals relacionats amb la manipulació de dades en funció de l'àmbit d'aplicació.
Objectius específics
- Conèixer els diferents tipus de dades amb què ens podem trobar i saber les seves peculiaritats.
- Ser capaç d'identificar les restriccions de privacitat que puguin tenir les dades.
- Conèixer els repositoris de dades més representatius.
- Ser capaç d'extreure dades de diferents orígens de dades de forma eficient, majoritàriament en el context web i empresarial.
- Ser capaç de processar les dades (validar-los, integrar dades de diferents fonts, millorar la seva qualitat, etc.) per al seu posterior anàlisi.
- Ser capaç de definir processos d'extracció, transformació i càrrega per automatitzar el pre-processament de les dades.
|
1. Introducció al cicle de vida de les dades
- Què són les dades?
- Cicle de vida de les dades
2. Web Scraping
- Per què i com fer web scraping?
- Primers passos per a fer web scraping
- Web scraping de contingut gràfic i audiovisual
- Emmagatzematge i compartició de dades
- Prevenció del web scraping
- Resolució d'obstacles en web scraping
- Aspectes legals
- Millors pràctiques i consells
- Exemples de web scraping i casos d'èxit
3. Introducció a la neteja i anàlisi de dades
- Neteja de dades
- Anàlisi de dades
- Visualització de dades
|
|
|
|
Espai de recursos de ciència de dades |
Web |
|
L'assignatura està estructurada en tres blocs. El consultor us indicarà per cada bloc quins són els capítols que heu de llegir dels recursos d'aprenentatge següents.
Bloc 1: Preliminars
- Subirats, L., Pérez, D., Calvo, M.(2019). Introducció al cicle de vida de les dades. Editorial UOC.
- Subirats, L., Calvo, M.(2019). Web Scraping. Editorial UOC. Capítol 1 i 6.
Bloc 2: Web Scraping
- Subirats, L., Calvo, M. (2019). Web Scraping. Editorial UOC.
- Masip, David (2010). Llenguatge Python. Editorial UOC.
- Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis. Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. ISBN: 978-1-118-83481-7, 474 pages, December 2014.
- Tutorial de Github: https://guides.github.com/activities/hello-world.
Bloc 3: Neteja i validació de dades
- Calvo, M., Pérez, D., Subirats, L. (2019). Introducció a la neteja i anàlisi de dades. Editorial UOC.
- Squire, Megan (2015). Clean Data. Packt Publishing Ltd. 272 p. ISBN 9781785289033.
- Tutorial de Github: https://guides.github.com/activities/hello-world.
|
El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.
La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.
Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular.
Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC.
En el marc del procés d'avaluació, la UOC es reserva la potestat de:
- Sol·licitar a l'estudiant que acrediti la seva identitat segons l'establert a la normativa acadèmica.
- Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant avaluació contínua com avaluació final, per mitjà d'una prova oral o els mitjans síncrons o asíncrons que estableixi la Universitat. Aquests mitjans tindran per objecte verificar els coneixements i les competències que garanteixin l'autoria; en cap cas no implicaran una segona avaluació. Si no és possible garantir l'autoria de l'estudiant, la prova serà qualificada amb D, en el cas de l'avaluació contínua, o amb un Suspens, en el cas de l'avaluació final.
A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació; és responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.
|
L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC).
La qualificació final de l'assignatura és la nota obtinguda a l'AC.
|
|