Disseny i ús de bases de dades analítiques Codi:  22.410    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informació addicional sobre els recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Des de fa uns anys, la presa de decisions basada en les dades està prenent més força dins el món empresarial, atès que ha quedat demostrat que aquestes decisions permeten ser més eficients. No obstant això, per a poder utilitzar les dades i convertir-les en informació d'interès, un dels punts més importants és que aquestes estiguin correctament tractades i emmagatzemades pel que el ventall de suports d'emmagatzematge ha crescut exponencialment. Avui dia podem trobar les dades en sistemes de fitxers, directament en formats d'àudio, vídeo i text, així com en bases de dades no-SQL. Tot i així, el model d'emmagatzematge de dades estructurat continua sent sens dubte líder en el mercat de solucions analítiques.

Dins dels sistemes d'emmagatzematge estructurat o SQL, podem trobar les següents bases de dades:

  • Les bases de dades operacionals, que han estat concebudes per a donar resposta al dia a dia de les empreses i organitzacions. El problema és que aquestes bases de dades no són útils per a altres finalitats que impliquen anàlisis de dades, com per exemple l'extracció de coneixement o la presa de decisions.
  • Les bases de dades analítiques, que ofereixen resposta a necessitats que van més enllà de l'operativa de les organitzacions i empreses. Es nodreixen principalment de les bases de dades operacionals i de diversitat de fonts de dades, disponibles en múltiples formats. Donada la gran varietat de fonts i formats de presentació de dades, recopilar les dades provinents de totes aquestes fonts en un o més magatzems de dades per a garantir resposta immediata a diversitat de consultes, implica disposar d'un context que permeti extreure, transformar i recopilar aquesta informació duent a terme una sèrie de processos. Aquest és un dels grans reptes als quals s'enfronten les empreses i organitzacions del segle XXI.

Les bases de dades analítiques són les que estudiarem en aquesta assignatura. El magatzem de dades o data warehouse (DW) és el suport sobre el qual es disposen les dades i a partir del qual es dóna resposta a les consultes. Aquest magatzem es converteix en la peça central d'un context més ampli, anomenat Factoria de la Informació Corporativa (FIC). La FIC i el DW són avui dia el centre d'atenció de les grans institucions per proporcionar un millor coneixement de la pròpia organització i dels seus clients/usuaris.
L'objectiu d'aquesta assignatura és aprendre a dissenyar un DW i crear la FIC, amb tots els seus components, amb la finalitat d'obtenir una implementació que pugui donar ràpida resposta a les consultes formulades amb finalitat analítica. A més d'aprendre sobre magatzems de dades, estructures multidimensionals i processos de transformació, s'aprendrà a gestionar dades i metadades, a administrar un sistema de data warehouse i els diferents enfocaments que existeixen per a crear la FIC. Donat el caràcter eminentment pràctic de l'assignatura, l'aprenentatge es realitzarà bàsicament a través de la resolució d'un projecte de data warehousing.

Amunt

Disseny i ús de bases de dades analítiques és una assignatura obligatòria en el Grau en Ciència de Dades Aplicada que forma part del conjunt d'assignatures de la matèria de bases de dades.

Dins del pla d'estudis va precedida per l'assignatura "Bases de dades per a data warehousing", la qual introdueix a l'estudiant en el disseny de les bases de dades i l'ús del llenguatge estructurat de consultes SQL. Partint d'aquesta base, en "Disseny i ús de bases de dades analítiques" s'introdueix el model multidimensional de dades i la seva explotació. Posteriorment a aquesta assignatura es pot cursar l'assignatura "Bases de dades no relacionals" per a conèixer un altre tipus de bases de dades no basat en SQL. Opcionalment, "Optimització de bases de dades per a entorns analítics" permetrà completar la formació en matèria de bases de dades.

Aquesta assignatura també es cursa en el Màster Universitari en Ciència de Dades com a complement de formació.

Amunt

Els coneixements adquirits en aquesta assignatura seran d'utilitat per a perfils tècnics, com ara arquitectes, enginyers i científics de dades, administradors de bases de dades o consultors de business intelligence. És a dir, professionals responsables de la construcció de l'arquitectura d'un sistema d'anàlisi de dades o intel·ligència de negoci, així com també del disseny de l'estructura de dades i els processos ETL (Extract, Transform and Load), que permetran tractar les dades i convertint-les en informació que més tard podrà ser explotada amb diferents eines de reporting, anàlisi, quadres de comandament i altres visualitzacions possibles.

Amunt

És convenient disposar de certs coneixements de SQL i disseny de bases de dades relacionals o haver cursat l'assignatura "Bases de dades per a data warehousing" en el cas del Grau en Ciència de Dades.
A més, és necessari cert coneixement de la llengua anglesa per a comprendre documentació tècnica dels productes instal·lats i/o informació de referència disponible en la xarxa.

Amunt

La informació que els estudiants han de conéixer abans de matricular-se és:

  • És una assignatura pràctica.
  • El seu model d'avaluació és l'Avaluació Continuada (AC) i la Pràctica (PRA) és l'activitat d'avalaució fonamental del curs. És obligatòria i requereix una qualificació mínima per aprovar.
  • Hi ha també altres activitats d'AC.
  • Es disposa d'un entorn de pràctiques configurat per a la realització de la pràctica i suport a aquest entorn.
  • Veure coneixements previs en l'apartat anterior.

Amunt

Les principals competències que l'estudiant ha d'adquirir en el context de l'assignatura són les que s'indiquen a continuació:

  • Donat un problema de ciència de dades, saber dissenyar i implementar un magatzem de dades orientat a processos analítics, triant la millor infraestructura que suporti el sistema i saber-lo administrar.
  • Ser capaç de poblar els magatzems de dades a partir de diferents fonts d'informació mitjançant la creació i execució de processos ETL.
  • Conèixer i adquirir destresa en la utilització de diferents tipus d'aplicacions i eines (EIS, OLAP) per a una òptima explotació del magatzem de dades.
  • Ser capaç d'arribar a conclusions importants a conseqüència de l'anàlisi de resultats obtinguts de l'explotació de dades.

Aquestes competències, en el cas del Grau en Ciència de Dades Aplicada, es relacionen amb les següents competències específiques (CE) que l'estudiant ha d'adquirir en el context de l'assignatura i són les que s'indiquen a continuació:

  • CE3 - Definir, avaluar i seleccionar solucions tecnològiques, així com recursos (espacials, temporals) necessaris per al desenvolupament i execució de projectes, tenint en compte les alternatives disponibles, les condicions de mercat i les normatives vigents.
  • CE8 - Identificar i combinar dades de diferents fonts i formats en diferents gestors de bases de dades per a obtenir un emmagatzematge de dades eficient en cada context d'aplicació.
  • CE9 - Aplicar tècniques específiques de captura, tractament i anàlisi de dades estructurades, semi-estructurats i no estructurats.

Amunt

Els continguts principals de la part teòrica de l'assignatura es recullen en els mòduls didàctics que es detallen a continuació:

  • Introducció a les bases de dades analítiques. Introdueix els magatzems de dades o data warehouse (DW) en comparació amb les bases de dades relacionals. Els situa en el centre de la factoria de la informació corporativa (FIC), al costat dels altres components que la formen (magatzem de dades departamental, corporatiu, operacional, el component d'integració i transformació de dades, les estructures multidimensionals i les metadades), de manera que es pugui tenir una primera vista de l'arquitectura lògica de les bases de dades analítiques. També ressalta, en aquest context, la importància de les dades, de la seva gestió i de la seva correcta explotació; així com l'administració del sistema de data warehouse. Presenta també les tendències actuals.
  • La construcció de la factoria de la informació corporativa. Es defineixen les diferents estratègies de construcció d'un sistema de data warehouse, els passos a seguir per a la construcció dels magatzems de dades i el component de transformació i integració de la FIC. Així mateix es presenten els perfils que intervenen en el desenvolupament i gestió de la FIC.
  • Disseny multidimensional i explotació de dades. Després d'una introducció a les necessitats dels analistes de dades i les eines OLAP, es presenta el model multidimensional. S'explica com construir un model multidimensional, cadascuna de les etapes del procés de disseny (conceptual, lògic i físic) per a aconseguir una implementació d'un cub en un sistema relacional. També es descriuen algunes operacions pròpies del model multidimensional que poden ser executades en SQL estàndard. Finalment, s'aborda l'explotació de les dades, des de la necessitat d'una adequada presentació d'aquests, passant pels diferents formats de presentació i les eines de suport.

Els continguts complementaris de la part teòrica de l'assignatura es recullen en els següents mòduls didàctics:

  • Les dades en la factoria de la informació corporativa. En aquest mòdul s'aborden qüestions com la qualitat de les dades, la gestió de les dades mestres, gestió de les metadades i el govern de la dada. També es tracten els aspectes relacionats amb la legalitat i l'ètica en el tractament de la dada.
  • Administració de la factoria de la informació corporativa. Una vegada construït el data warehouse i la FIC, cal explotar-ho i mantenir-ho, d'aquí la importància de l'administració de sistemes de data warehousing. Es presenta el cicle de vida del data warehouse, des de les primeres etapes de planificació i disseny; passant per la seva posada en marxa i creixement; arribant fins a les fases de monitoratge, manteniment i optimització. També es presenten les figures concretes encarregades de dur a terme conjunts de tasques especialitzades, que les organitzacions han de contemplar per a assegurar el bon funcionament del sistema.

Amunt

Espai de recursos de ciència de dades Web
Passos comuns de transformació de dades amb Spoon Audiovisual
Passos d'accés a bases de dades amb PDI Audiovisual
Processar una dimensió amb Visual Studio Audiovisual
Creació de connexió a una base de dades amb Spoon Audiovisual
Pas de transformació amb Spoon: lectura d'un fitxer extern (Excel) Audiovisual
Creació de Jobs amb Spoon Audiovisual
Creació d'un cub OLAP amb Visual Studio Audiovisual

Amunt

A part del portal dels mòduls didàctics prèviament esmentats, l'assignatura disposa d'altres materials de mostra de cursos anteriors (cas pràctic i PRAs resoltes) i de suport al cas pràctic (documents i vídeos) que es publiquen junt amb les activitats d'avaluació del curs o, sinó, a l'espai Recursos de l'aula. És necessari estudiar la teoria i prendre com a exemple aquests materials. El cas pràctic d'exemple no s'ha d'interpretar com un tutorial o guia pas a pas de la PRA i únicament es facilita a tall d'exemple de resolució d'un cas similar, no necessàriament idèntic.

Destaquem per la seva importància 2 documents que cal llegir amb atenció per al correcte desenvolupament de les pràctiques:

  • DW_Entorn_Virtual_VDI.pdf: com a guia de configuració i connexió.
  • Importar_base_de_dades_com_crear_Vistes_i_Cubs.pdf: amb indicacions sobre com procedir per a crear cubs.

Aquests materials es poden trobar en les activitats d'avaluació que els requereixen (PAC1 i PRA3) per a la seva realització. Si fes falta algun altre material addicional, serà proporcionat durant el curs.

Així mateix, donat el caràcter pràctic de l'assignatura es proporciona un entorn de pràctiques prèviament configurat per a la realització de les activitats pràctiques del curs.

En la part del Servidor, disposareu dels següents recursos:

  • Sistema operatiu: Windows Server 2016
  • Base de dades: Windows SQL Server 2016 (SGDB + SQL Server Analysis Services+ SQL Server Reporting Services)

En la part Client disposareu dels seguents recursos:

  • SQL Server Management Studio 2017
  • Visual Studio 2017
  • SQL Server Data Tools
  • Report Designer Pentaho
  • Power BI Desktop
  • Pentaho Data Integration v.9

I per oferir suport tècnic en aquest entorn i resoldre les incidències que puguin succeir amb l'ús de l'entorn VDI o del programari instal.lat,  disposareu d'un professor/a en l'aula de laboratori. Com que aquesta aula serà diferent de l'aula de teoria, haureu de consultar freqüentment les dues aules.

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent - incloses les proves finals - o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

La UOC es reserva la potestat de sol·licitar a l'estudiant que s'identifiqui o que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació pels mitjans que estableixi la Universitat (síncrons o asíncrons). A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació i que s'asseguri que funcionen correctament.

La verificació dels coneixements per garantir l'autoria de la prova no implicarà en cap cas una segona avaluació.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt