Tipologia i cicle de vida de les dades Codi:  M2.951    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informació addicional sobre els recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Aquesta assignatura se centra en diferents visions i dimensions de les dades, en les diferents fonts de dades que podem trobar, i que per tant seran (potencialment) part de les nostres fonts en els processos d'anàlisi de dades. Seguidament veurem els principals mètodes per a l'adquisició i captura de dades, com ara el web scrapping, l'accés a dades mitjançant API o SPARQL. Finalitzarem aquesta assignatura revisant els processos relacionats amb les dades, com ara la integració, validació, agregació, neteja de dades i l'enriquiment.

Amunt

Aquesta assignatura forma part del conjunt d'assignatures obligatòries del màster, i es recomana que sigui cursada durant el primer o segon semestre d'estudis.

Amunt

Aquesta assignatura es projecta en els diferents perfils de científics de dades com són el científic/a de dades, l'analista de dades, l'enginyer/a de dades, l'estadístic/a, l'administrador/a de base de dades o el/la líder de ciència de dades.

Amunt

En la realització de les activitats pràctiques calen coneixements bàsics de R i Python.

Amunt

Alguns dels continguts d'aquesta assignatura s'han d'estudiar a partir de materials i recursos escrits en anglès.

Amunt

Competències bàsiques

  • Saber aplicar els coneixements adquirits i la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contextos més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • Adquirir les habilitats d'aprenentatge que permetin continuar estudiant de manera autodirigida o autònoma.
  • Adquirir la capacitat per extreure, interpretar i analitzar les dades de diferents entorns.
  • Adquirir la capacitat de cerca, gestió i ús de la informació i els recursos en l'àmbit de la ciència de dades.

Competències transversals

  • Adquirir la capacitat d'iniciativa, automotivació i treball de forma independent.
  • Adquirir la capacitat de comunicació oral i escrita per a la vida acadèmica i professional.
  • Adquirir la capacitat per proposar solucions innovadors i prendre decisions.
  • Adquirir la capacitat per treballar en equips multidisciplinaris.

Competències específiques

  • Adquirir la destresa necessària per a la manipulació de dades, conversió de formats i emmagatzematge dels mateixos.
  • Aprendre l'ús avançat de les eines de programari estadístic adequades per als diferents problemes de modelització, anàlisi i visualització de dades.
  • Aprendre a capturar dades de diferents fonts de dades (tals com a xarxes socials, web de dades o repositoris) i mitjançant diferents mecanismes (tals com queries, API i scraping).
  • Saber actuar amb els principis ètics i legals relacionats amb la manipulació de dades en funció de l'àmbit d'aplicació.

Objectius específics

  • Conèixer els diferents tipus de dades amb què ens podem trobar i saber les seves peculiaritats.
  • Ser capaç d'identificar les restriccions de privacitat que puguin tenir les dades.
  • Conèixer els repositoris de dades més representatius.
  • Ser capaç d'extreure dades de diferents orígens de dades de forma eficient, majoritàriament en el context web i empresarial.
  • Ser capaç de processar les dades (validar-los, integrar dades de diferents fonts, millorar la seva qualitat, etc.) per al seu posterior anàlisi.
  • Ser capaç de definir processos d'extracció, transformació i càrrega per automatitzar el pre-processament de les dades.

Amunt

1. Introducció al cicle de vida de les dades

  1. Què són les dades?
  2. Cicle de vida de les dades

2. Web Scraping

  1. Per què i com fer web scraping?
  2. Primers passos per a fer web scraping
  3. Web scraping de contingut gràfic i audiovisual
  4. Emmagatzematge i compartició de dades
  5. Prevenció del web scraping
  6. Resolució d'obstacles en web scraping
  7. Aspectes legals
  8. Millors pràctiques i consells
  9. Exemples de web scraping i casos d'èxit

3. Introducció a la neteja i anàlisi de dades

  1. Neteja de dades
  2. Anàlisi de dades
  3. Visualització de dades

Amunt

Espai de recursos de ciència de dades Web

Amunt

L'assignatura està estructurada en tres blocs. El consultor us indicarà per cada bloc quins són els capítols que heu de llegir dels recursos d'aprenentatge següents. 

Bloc 1: Preliminars

  • Subirats, L., Pérez, D., Calvo, M.(2019). Introducció al cicle de vida de les dades. Editorial UOC. 
  • Subirats, L., Calvo, M.(2019). Web Scraping. Editorial UOC. Capítol 1 i 6.

Bloc 2: Web Scraping

  • Subirats, L., Calvo, M. (2019). Web Scraping. Editorial UOC.
  • Masip, David (2010). Llenguatge Python. Editorial UOC.
  • Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis. Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. ISBN: 978-1-118-83481-7, 474 pages, December 2014.
  • Tutorial de Github: https://guides.github.com/activities/hello-world.

Bloc 3: Neteja i validació de dades

  • Calvo, M., Pérez, D., Subirats, L. (2019). Introducció a la neteja i anàlisi de dades. Editorial UOC. 
  • Squire, Megan (2015). Clean Data. Packt Publishing Ltd. 272 p. ISBN 9781785289033.
  • Tutorial de Github: https://guides.github.com/activities/hello-world.

Amunt

A la UOC, l'avaluació generalment és virtual. S'estructura entorn de l'avaluació contínua, que inclou diferents activitats o reptes; l'avaluació final, que es porta a terme mitjançant proves o exàmens, i el treball final de la titulació.

Les activitats o proves d'avaluació poden ser escrites i/o audiovisuals, amb preguntes aleatòries, proves orals síncrones o asíncrones, etc., d'acord amb el que decideixi cada equip docent. Els treballs finals representen el tancament d'un procés formatiu que implica la realització d'un treball original i tutoritzat que té com a objectiu demostrar l'adquisició competencial feta al llarg del programa.

Per verificar la identitat de l'estudiant i l'autoria de les proves d'avaluació, la UOC es reserva la potestat d'aplicar diferents sistemes de reconeixement de la identitat i de detecció del plagi. Amb aquest objectiu, la UOC pot dur a terme enregistrament audiovisual o fer servir mètodes o tècniques de supervisió durant l'execució de qualsevol activitat acadèmica.

Així mateix, la UOC pot exigir a l'estudiant l'ús de dispositius electrònics (micròfons, càmeres o altres eines) o programari específic durant l'avaluació. És responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat de les activitats acadèmiques. Al web sobre integritat acadèmica i plagi de la UOC hi ha més informació respecte d'aquesta qüestió.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; la suplantació d'identitat; l'acceptació o l'obtenció de qualsevol activitat acadèmica a canvi d'una contraprestació o no; la col·laboració, l'encobriment o l'afavoriment de la còpia, o l'ús de material, programari o dispositius no autoritzats en el pla docent o l'enunciat de l'activitat acadèmica, inclosa la intel·ligència artificial i la traducció automàtica, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves (com l'ús d'intel·ligència artificial no permesa, xarxes socials o cercadors d'informació a internet), perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, per la compravenda d'activitats acadèmiques, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb el que estableix la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

  • Sol·licitar a l'estudiant que acrediti la seva identitat segons el que estableix la normativa acadèmica.
  • Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant en l'avaluació contínua com en l'avaluació final, per mitjà d'una entrevista oral síncrona, que pot ser objecte d'enregistrament audiovisual, o pels mitjans que estableixi la Universitat. Aquests mitjans tenen l'objectiu de verificar els coneixements i les competències que garanteixin la identitat de l'estudiant. Si no és possible garantir que l'estudiant és l'autor de la prova, aquesta pot ser qualificada amb una D, en el cas de l'avaluació contínua, o amb un suspens, en el cas de l'avaluació final.

Intel·ligència artificial en el marc de l'avaluació

La UOC reconeix el valor i el potencial de la intel·ligència artificial (IA) en l'àmbit educatiu, alhora que posa de manifest els riscos que comporta si no s'utilitza de manera ètica, crítica i responsable. En aquest sentit, en cada activitat d'avaluació s'informarà l'estudiantat sobre les eines i els recursos d'IA que es poden utilitzar i en quines condicions. Per la seva banda, l'estudiantat es compromet a seguir les indicacions de la UOC a l'hora de dur a terme les activitats d'avaluació i de citar les eines utilitzades i, concretament, a identificar els textos o les imatges generats per sistemes d'IA, els quals no podrà presentar com si fossin propis.

Amb relació a fer servir o no la IA per resoldre una activitat, l'enunciat de les activitats d'avaluació indica les limitacions en l'ús d'aquestes eines. Cal tenir en compte que fer-les servir de manera inadequada, com ara en activitats en què no estan permeses o no citar-les en les activitats en què sí que ho estan, es pot considerar una conducta irregular en l'avaluació. En cas de dubte, es recomana que, abans de lliurar l'activitat, es faci arribar una consulta al professorat col·laborador de l'aula.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt