Disseny i ús de bases de dades analítiques Codi:  22.410    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informació addicional sobre els recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2024-2025. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Des de fa uns anys, la presa de decisions basada en les dades està prenent cada vegada més força dins del món empresarial, ja que ha quedat demostrat que aquestes decisions permeten a les organitzacions ser més eficients. No obstant això, per a poder utilitzar les dades i convertir-les en informació d'interès, un dels punts més importants és que aquestes estiguin correctament tractades i emmagatzemades tenint en compte l'ampli ventall de suports d'emmagatzematge que existeixen actualment. Avui dia podem trobar les dades en sistemes de fitxers, directament en formats d'àudio, vídeo i text, així com en bases de dades no-SQL. No obstant això, el model d'emmagatzematge de dades estructurat continua sent sens dubte líder en el mercat de solucions analítiques.

Dins dels sistemes d'emmagatzematge estructurat o SQL, podem trobar les següents bases de dades: Les bases de dades operacionals, que han estat concebudes per a donar resposta al dia a dia de les empreses i organitzacions. El problema és que aquestes bases de dades no són òptimes per a l'anàlisi de dades, com per exemple l'extracció de coneixement o la presa de decisions.

Les bases de dades analítiques ofereixen resposta a necessitats que van més enllà de l'operativa de les organitzacions i empreses. Es nodreixen principalment de les bases de dades operacionals i de diversitat de fonts de dades, disponibles en múltiples formats. Donada la gran varietat de fonts i formats de presentació de dades, recopilar les dades provinents de totes aquestes fonts en un o més magatzems de  dades per a garantir resposta immediata a diversitat de consultes, implica disposar d'un context que permeti extreure, transformar i recopilar aquesta informació duent a terme una sèrie de processos. Aquest és un dels grans reptes als quals s'enfronten les empreses i organitzacions del segle XXI.

Les bases de dades analítiques són les que estudiarem en aquesta assignatura. El magatzem de dades o data warehouse (DW) és el suport sobre el qual es disposen les dades i a partir del qual es dona resposta a les consultes formulades. Aquest, al seu torn, es converteix en la peça central d'un context més ampli, anomenat Factoria de la Informació Corporativa (FIC). La FIC i el DW són avui dia el centre d'atenció de les grans Institucions per a proporcionar un millor coneixement de la mateixa organització i dels seus clients/usuaris.

L'objectiu d'aquesta assignatura és aprendre a dissenyar un DW i crear la FIC, amb tots els seus components, amb la finalitat d'obtenir una implementació que pugui donar ràpida resposta a les consultes formulades amb finalitat analítica. A més d'aprendre sobre magatzems de dades, estructures multidimensionals i processos de transformació, s'aprendrà a gestionar dades i metadades, a administrar un sistema de data warehouse i els diferents enfocaments que existeixen per a crear la FIC. Donat el caràcter eminentment pràctic de l'assignatura, l'aprenentatge es realitzarà bàsicament a través de la resolució d'un projecte de data warehousing.

Amunt

"Disseny i ús de bases de dades analítiques" és una assignatura obligatòria en el Grau en Ciència de Dades Aplicada que forma part del conjunt d'assignatures de la matèria de bases de dades.

Dins del pla d'estudis del grau en Ciència de dades l'assignatura precedent és "Bases de dades per a data warehousing", la qual introdueix a l'estudiantat en el disseny de les bases de dades i l'ús del llenguatge estructurat de consultes SQL. Partint d'aquesta base, en "Disseny i ús de bases de dades analítiques" es presenta el model multidimensional de dades i la seva explotació des de diferents dimensions. Posteriorment a "Disseny i ús de bases de dades analítiques" cal cursar l'assignatura "Bases de dades no relacionals" per a conèixer un altre tipus de bases de dades no basades en SQL. I opcionalment, per a completar la formació en matèria, pot triar "Optimització de bases de dades per a entorns analítics".


Amunt

Els coneixements adquirits en aquesta assignatura seran d'utilitat per a perfils tècnics, com ara arquitectes, enginyers i científics de dades, administradors de bases de dades o consultors de business intelligence. És a dir, professionals responsables de la construcció de l'arquitectura d'un sistema d'anàlisi de dades o intel·ligència de negoci, que, alhora, s'encarreguin, entre altres, del disseny de l'estructura de dades i dels processos ETL (Extract, Transform and Load), els quals permeten convertir les dades en informació que pugui ser explotada amb diferents eines de reporting, anàlisis i quadres de comandament, entre altres visualitzacions possibles.

Amunt

És convenient disposar de certs coneixements d’SQL i disseny de bases de dades relacionals o en defecte d'això haver cursat l'assignatura "Bases de dades per a data warehousing" en el cas del Grau en Ciència de Dades.

A més a més, és necessari cert coneixement de la llengua anglesa per a comprendre documentació tècnica dels productes instal·lats o informació de referència disponible en la xarxa.

Amunt

La informació que l’estudiantat ha de conèixer abans de matricular-se és:

  • És una assignatura pràctica.

  • El seu model d'avaluació és EC i la  PR és l'activitat d'avaluació fonamental del curs. És obligatòria i requereix una qualificació mínima per a aprovar.

  • Hi ha també altres activitats d’EC.

  • Es disposa d'un entorn de pràctiques configurat per a la realització de la pràctica i suport a aquest entorn.

Veure coneixements previs en l'apartat anterior.


Amunt

Les principals competències que l’estudiantat ha d'adquirir són les següents:

  • Donat un problema de ciència de dades, saber dissenyar i implementar un magatzem de dades orientat a processos analítics, triant la millor infraestructura que suporti el sistema i saber-ho administrar.
  • Ser capaç de poblar els magatzems de dades a partir de diferents fonts d'informació mitjançant la creació i execució de processos ETL.
  • Conèixer i adquirir destresa en la utilització de diferents tipus d'aplicacions i eines (EIS, OLAP) per a una òptima explotació del magatzem de dades.
  • Ser capaç d'arribar a conclusions importants a conseqüència de l'anàlisi de resultats obtinguts de l'explotació de dades.

Aquestes competències es relacionen amb les següents competències específiques (CE):

  • CE3- Definir, avaluar i seleccionar solucions tecnològiques, així com recursos (espacials, temporals) necessaris per al desenvolupament i execució de projectes, tenint en compte les alternatives disponibles, les condicions de mercat i les normatives vigents.
  • CE8- Identificar i combinar dades de diferents fonts i formats en diferents gestors de bases de dades per a aconseguir un emmagatzematge de dades eficient en cada context d'aplicació.
  • CE9- Aplicar tècniques específiques de captura, tractament i anàlisi de dades estructurades, semiestructurades i no estructurades.


Amunt

 Els continguts principals de la part teòrica de l'assignatura es recullen en els mòduls didàctics que es detallen a continuació:

  • Introducció a les bases de dades analítiques. Introdueix els magatzems de dades o data warehouse (DW) en comparació amb les bases de dades relacionals. Els situa en el centre de la factoria de la informació corporativa (FIC), al costat dels altres components que la formen (magatzem de dades departamental, corporatiu, operacional, el component d'integració i transformació de dades, les estructures multidimensionals i les metadades), de manera que es pugui tenir una primera vista de l'arquitectura lògica de les bases de dades analítiques. També ressalta, en aquest context, la importància de les dades, de la seva gestió i de la seva correcta explotació, així com l'administració del sistema de data warehouse. Presenta també les tendències actuals.
  • La construcció de la factoria de la informació corporativa. Es defineixen les diferents estratègies de construcció d'un sistema de data warehouse, els passos a seguir per a la construcció dels magatzems de dades i el component de transformació i integració de la FIC. Així mateix, es presenten els perfils que intervenen en el desenvolupament i gestió de la FIC.
  • Disseny multidimensional i explotació de dades. Després d'una introducció a les necessitats dels analistes de dades i les eines OLAP, es presenta el model multidimensional. S'explica com construir un model multidimensional, cadascuna de les etapes del procés de disseny (conceptual, lògic i físic) per a aconseguir una implementació del cub  en un sistema relacional. També es descriuen algunes operacions pròpies del model multidimensional que poden ser executades en SQL estàndard. Finalment, s'aborda l'explotació de les dades, des de la necessitat d'una adequada presentació d'aquestes, passant pels diferents formats de presentació i les eines de suport.

Els continguts complementaris de la part teòrica de l'assignatura es recullen en els següents mòduls didàctics:

  • Les dades en la factoria de la informació corporativa. En aquest mòdul s'aborden qüestions com la qualitat de les dades, la gestió de les dades mestres, la gestió de les metadades i el govern de la dada. També es tracten els aspectes relacionats amb la legalitat i l'ètica en el tractament de dada.
  • Administració de la FIC. Una vegada construït el data warehouse i la FIC, cal explotar-ho i mantenir-ho, d'aquí la importància de l'administració de sistemes de datawarehousing. Es presenta el cicle de vida del data warehouse, des de les primeres etapes de planificació i disseny; passant per la seva posada en marxa i creixement; arribant fins a les fases de monitoratge, manteniment i optimització. També es presenten les figures concretes encarregades de dur a terme conjunts de tasques especialitzades, que les organitzacions han de contemplar per a assegurar el bon funcionament del sistema.

Per a reforçar els continguts estudiats en els mòduls didàctics i aconseguir que siguin més fàcilment aplicables a la pràctica, s'ofereix a l'estudiantat un material teoricopràctic basat en un cas concret. El seu objectiu és acostar la teoria a la pràctica i per això es plantegen una sèrie de reptes que, a mesura que es van aconseguint, permeten destacar l'aplicació dels conceptes teòrics més importants estudiats en el cas d'estudi en qüestió; fet que facilita la comprensió del procés de creació del model multidimensional i la seva posterior explotació de dades.


Amunt

Espai de recursos de ciència de dades Web
Passos comuns de transformació de dades amb Spoon Audiovisual
Passos d'accés a bases de dades amb PDI Audiovisual
Processar una dimensió amb Visual Studio Audiovisual
Creació de connexió a una base de dades amb Spoon Audiovisual
Pas de transformació amb Spoon: lectura d'un fitxer extern (Excel) Audiovisual
Creació de Jobs amb Spoon Audiovisual
Creació d'un cub OLAP amb Visual Studio Audiovisual
Repte 2. L’arquitectura de la FIC, importa i molt PDF
Repte 4. Els ETL són processos clau en els sistemes analítics PDF
Repte 3. Dimensió vs. fet: quina és la diferència? PDF
Repte 5. I per fi arriba la màgia! Cubs multidimensionals PDF
Repte 1. Les bases de dades analítiques: de les dades al coneixement PDF
Material teoricopràctic: Cas d’ús. Activitat volcànica mundial PDF

Amunt

A part dels mòduls didàctics prèviament esmentats, l'assignatura disposa de material teoricopràctic que facilita l'estudi dels mòduls didàctics i la posada en pràctica dels coneixements mitjançant la resolució d'una sèrie de reptes relatius al cas pràctic donat.

També es disposa de materials de mostra de cursos anteriors (cas pràctic complet de mostra) recursos de suport (documents i vídeos) que es publiquen conjuntament amb les activitats d'avaluació del curs. El cas pràctic d'exemple no s'ha d'interpretar com un manual o guia pas a pas per a realitzar la PR, es facilita únicament a tall d'exemple.

Destaquem per la seva importància 2 documents que cal llegir amb atenció per al correcte desenvolupament de les pràctiques:

  • DW_Entorn_Virtual_VDI.pdf: com a guia de configuració i connexió.

  • Importar_base_de_dades_com_crear_Vistes_i_Cubs.pdf: amb indicacions sobre com procedir en la creació de cubs.

Aquests materials es poden trobar en l'apartat Recursos d'Aprenentatge de cada activitat que els requereix (PAC1 i PR3).

Així mateix, donat el caràcter pràctic de l'assignatura es proporciona un entorn de pràctiques prèviament configurat per a la realització de les activitats pràctiques del curs. Aquest entorn virtual és d'ús únicament docent.

En la part servidor:

  • Sistema operatiu: Windows Server 2016

  • Base de dades: Windows SQL Server 2016 (SGBD + SQL Server Analysis

  • Services + SQL Server Reporting Services)

I en la part client:

  • SQL Server Management Studio 2017

  • Visual Studio 2017

  • SQL Server Data Tools

  • Power BI Desktop

  • Pentaho Data Integration v.9.2

I per a oferir suport tècnic en aquest entorn i resoldre les incidències que puguin succeir amb l'ús de l'entorn VDI o del programari instal·lat, disposeu d'un professor/a l'aula de laboratori, M2.984.-Laboratori de suport a l'entorn VDI. Atès que aquesta aula serà diferent de l'aula de teoria, haureu de consultar sovint les dues aules.


Amunt

A la UOC, l'avaluació generalment és virtual. S'estructura entorn de l'avaluació contínua, que inclou diferents activitats o reptes; l'avaluació final, que es porta a terme mitjançant proves o exàmens, i el treball final de la titulació.

Les activitats o proves d'avaluació poden ser escrites i/o audiovisuals, amb preguntes aleatòries, proves orals síncrones o asíncrones, etc., d'acord amb el que decideixi cada equip docent. Els treballs finals representen el tancament d'un procés formatiu que implica la realització d'un treball original i tutoritzat que té com a objectiu demostrar l'adquisició competencial feta al llarg del programa.

Per verificar la identitat de l'estudiant i l'autoria de les proves d'avaluació, la UOC es reserva la potestat d'aplicar diferents sistemes de reconeixement de la identitat i de detecció del plagi. Amb aquest objectiu, la UOC pot dur a terme enregistrament audiovisual o fer servir mètodes o tècniques de supervisió durant l'execució de qualsevol activitat acadèmica.

Així mateix, la UOC pot exigir a l'estudiant l'ús de dispositius electrònics (micròfons, càmeres o altres eines) o programari específic durant l'avaluació. És responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat de les activitats acadèmiques. Al web sobre integritat acadèmica i plagi de la UOC hi ha més informació respecte d'aquesta qüestió.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; la suplantació d'identitat; l'acceptació o l'obtenció de qualsevol activitat acadèmica a canvi d'una contraprestació o no; la col·laboració, l'encobriment o l'afavoriment de la còpia, o l'ús de material, programari o dispositius no autoritzats en el pla docent o l'enunciat de l'activitat acadèmica, inclosa la intel·ligència artificial i la traducció automàtica, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves (com l'ús d'intel·ligència artificial no permesa, xarxes socials o cercadors d'informació a internet), perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, per la compravenda d'activitats acadèmiques, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb el que estableix la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

  • Sol·licitar a l'estudiant que acrediti la seva identitat segons el que estableix la normativa acadèmica.
  • Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant en l'avaluació contínua com en l'avaluació final, per mitjà d'una entrevista oral síncrona, que pot ser objecte d'enregistrament audiovisual, o pels mitjans que estableixi la Universitat. Aquests mitjans tenen l'objectiu de verificar els coneixements i les competències que garanteixin la identitat de l'estudiant. Si no és possible garantir que l'estudiant és l'autor de la prova, aquesta pot ser qualificada amb una D, en el cas de l'avaluació contínua, o amb un suspens, en el cas de l'avaluació final.

Intel·ligència artificial en el marc de l'avaluació

La UOC reconeix el valor i el potencial de la intel·ligència artificial (IA) en l'àmbit educatiu, alhora que posa de manifest els riscos que comporta si no s'utilitza de manera ètica, crítica i responsable. En aquest sentit, en cada activitat d'avaluació s'informarà l'estudiantat sobre les eines i els recursos d'IA que es poden utilitzar i en quines condicions. Per la seva banda, l'estudiantat es compromet a seguir les indicacions de la UOC a l'hora de dur a terme les activitats d'avaluació i de citar les eines utilitzades i, concretament, a identificar els textos o les imatges generats per sistemes d'IA, els quals no podrà presentar com si fossin propis.

Amb relació a fer servir o no la IA per resoldre una activitat, l'enunciat de les activitats d'avaluació indica les limitacions en l'ús d'aquestes eines. Cal tenir en compte que fer-les servir de manera inadequada, com ara en activitats en què no estan permeses o no citar-les en les activitats en què sí que ho estan, es pot considerar una conducta irregular en l'avaluació. En cas de dubte, es recomana que, abans de lliurar l'activitat, es faci arribar una consulta al professorat col·laborador de l'aula.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt