Tipologia i fonts de dades Codi:  22.414    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2024-2025. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

A tipologia i fonts de les dades estudiarem les característiques de captura i tipologia de les dades associades a cada origen així com les diferents fonts de dades que es poden utilitzar en projectes de ciència de dades. Treballarem com afegir dades de múltiples fonts en un mateix espai d'emmagatzematge, mantenint la coherència entre elles, a la vegada que veurem diferents mètodes per a la captura de dades provinents de múltiples fonts.

Amunt

Aquesta és la primera assignatura del grup d'assignaturesa de tractament de dades del Grau de Ciència de les Dades Aplicada. En aquesta assignatura aprofitarem per veure les característiques de captura i tipologia de les dades associades als diferents orígens de dades que es poden usar en projectes de ciència de dades.

Amunt

Aquesta assignatura es projecta en els diferents perfils de científics de dades com són el científic/a de dades, l'analista de dades, l'enginyer/a de dades, l'estadístic/a, l'administrador/a de base de dades o el/la líder de ciència de dades.

Amunt

En la realització de les activitats pràctiques és necessari coneixements de programació.

Amunt

Alguns dels continguts d'aquesta assignatura s'han d'estudiar a partir de materials i recursos escrits en anglès.

Amunt

Competències bàsiques:

  • Que els estudiants hagin demostrat posseir i comprendre coneixements en una àrea d'estudi que parteix de la base de l'educació secundària general, i se sol trobar a un nivell que, si bé es recolza en llibres de text avançats, inclou també alguns aspectes que impliquen coneixements procedents de l'avantguarda del seu camp d'estudi 
  • Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una forma professional i posseeixin les competències que solen demostrar-se per mitjà de l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi 
  • Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica 
  • Cercar, gestionar i utilitzar la informació més adequada per modelitzar problemes concrets i aplicar adequadament procediments teòrics per a la seva resolució de manera autònoma i creativa. 
  • Comunicar i transmetre els coneixements, habilitats i destreses de la professió en el marc de la ciència de dades.  


Competències transversals: 

  • Ús i aplicació de les TIC en l'àmbit acadèmic i professional. 
  • Comunicar-se en una llengua estrangera. 
  • Expressar-se de forma escrita de forma adequada al context acadèmic i professional. 


Competències especifiques: 

  • Dissenyar un marc experimental tenint en compte els mètodes més adequats per a la captura, el processament, l'emmagatzematge, l'anàlisi i la visualització de dades. 
  • Utilitzar de forma combinada els fonaments matemàtics, estadístics i de programació per desenvolupar solucions a problemes en l'àmbit de la ciència de les dades. 
  • Aplicar tècniques específiques de captura, tractament i anàlisi de dades estructurades, semi-estructurades i no estructurades.  


Objectius específics: 

  • Conèixer els diferents tipus de dades amb què ens podem trobar i saber les seves peculiaritats. 
  • Ser capaç d'identificar les restriccions de privacitat que puguin tenir les dades. 
  • Conèixer els repositoris de dades més representatius. 
  • Ser capaç d'extreure dades de diferents orígens de dades de forma eficient. 
  • Ser capaç de processar les dades (validar-los, integrar dades de diferents fonts, millorar la seva qualitat, etc.) per al seu posterior anàlisi. 
  • Ser capaç de definir els processos d'extracció, transformació i càrrega per automatitzar el pre-processament de les dades.

Amunt

L'assignatura consta de 4 blocs/activitats: 

  1. Com poden ser les dades? 
  2. Cas pràctic de tipologia de dades 
  3. Poden les màquines llegir i interpretar automàticament pàgines web? 
  4. Cas pràctic de font de dades

1.  Com poden ser les dades?

Internet ha canviat la manera de tractar i generar la informació. En les últimes dècades, ens hem mogut des d'un escenari on les dades estaven guardades en ordinadors independents i no interrelacionats utilitzant principalment models propis de base de dades relacionals, a una xarxa on qualsevol dispositiu o individu està interconnectat.

Aquest primer repte ens permetrà familiaritzar-nos amb conceptes clau de tipologia i orígens de les dades, i treballar amb software específic de l'àrea.

 2.  Cas pràctic de tipologia de dades.

Com no és el mateix explicar-ho que fer-ho, en aquest repte ens anem a posar mans a l'obra amb un cas pràctic de treball i us de tipologia de les dades. Aquest segon repte ens permetrà desenvolupar un projecte complex i complet. Amb aquest, aconseguirem refermar els conceptes estudiats, seguir familiaritzant-nos amb el software, i practicar les habilitats de comunicació escrita.

 3.  Poden les màquines llegir i interpretar automàticament pàgines web?

Es diu que actualment hi ha set zettabytes d'informació disponible, que aquest volum es duplicarà cada dos anys i que, en un sol dia, es produirà el doble d'informació de la que contenia internet fa vint anys. No obstant, solament s'analitza un 0.5% d'aquest volum. Les dades que es recullen actualment dins i fora de les organitzacions tenen unes característiques diferents, però gran part d'ells tenen quelcom en comú: poden ser d'interès per a tercers i acaben no compartint-se. Aquest gran volum de dades presenta un gran potencial per extraure coneixement útil que doni suport a la presa de decisions en les organitzacions, però també a resoldre preguntes multidisciplinaris, preguntes científiques abans irresolubles o la personalització de serveis d'usuari entre altes. Per poder fer tot açò, les dades generades han de ser públics, però tot i que siguin públics, les dades no deixen de representar sitges d'informació si no els connectem amb altres dades. Per tant, són necessàries tècniques i tecnologies que ens permeten enllaçar dades de distints orígens per representar les relacions que trobem al món real. Com ho podem fer?

Aquest tercer repte ens permetrà respondre aquesta pregunta mentre  profunditzem en els conceptes clau i procediments de tipologia i orígens de dades.

4.  Cas pràctic d'origen de dades

Ens tornarem a posar mans a l'obra amb un cas pràctic de treball i utilització de diferents orígens de dades.  Aquest quart repte ens permetrà desenvolupar un projecte complex i complet. Amb aquest aconseguirem refermar els conceptes estudiats, seguir familiaritzant-nos amb el software, i practicar les habilitats de comunicació escrita.

Amunt

Fonaments de data science PDF

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

  • Sol·licitar a l'estudiant que acrediti la seva identitat segons l'establert a la normativa acadèmica.
  • Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant avaluació contínua com avaluació final, per mitjà d'una prova oral o els mitjans síncrons o asíncrons que estableixi la Universitat. Aquests mitjans tindran per objecte verificar els coneixements i les competències que garanteixin l'autoria; en cap cas no implicaran una segona avaluació. Si no és possible garantir l'autoria de l'estudiant, la prova serà qualificada amb D, en el cas de l'avaluació contínua, o amb un Suspens, en el cas de l'avaluació final.

    A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació; és responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt