Disseny i ús de bases de dades analítiques Codi:  22.410    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
ATENCIÓ: Aquest és el pla docent de l'assignatura per al primer semestre del curs 2020-2021. Us servirà per planificar la matrícula. Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)

Des de fa uns anys, la presa de decisions basada en les dades està prenent més força dins el món empresarial, atès que ha quedat demostrat que aquestes decisions permeten ser més eficients. No obstant això, per a poder utilitzar les dades i convertir-les en informació d'interès, un dels punts més importants és que aquestes estiguin correctament tractades i emmagatzemades pel que el ventall de suports d'emmagatzematge ha crescut exponencialment. Avui dia podem trobar les dades en sistemes de fitxers, directament en formats d'àudio, vídeo i text, així com en bases de dades no-SQL. Tot i així, el model d'emmagatzematge de dades estructurat continua sent sens dubte líder en el mercat de solucions analítiques.

Dins dels sistemes d'emmagatzematge estructurat o SQL, podem trobar les següents bases de dades:

  • Les bases de dades operacionals, que han estat concebudes per a donar resposta al dia a dia de les empreses i organitzacions. El problema és que aquestes bases de dades no són útils per a altres finalitats que impliquen anàlisis de dades, com per exemple l'extracció de coneixement o la presa de decisions.
  • Les bases de dades analítiques, que ofereixen resposta a necessitats que van més enllà de l'operativa de les organitzacions i empreses. Es nodreixen principalment de les bases de dades operacionals i de diversitat de fonts de dades, disponibles en múltiples formats. Donada la gran varietat de fonts i formats de presentació de dades: recopilar les dades provinents de totes aquestes fonts en un o més magatzems de dades per a garantir resposta immediata a diversitat de consultes, implica disposar d'un context que permeti extreure, transformar i recopilar aquesta informació duent a terme una sèrie de processos. Aquest és un dels grans reptes als quals s'enfronten les empreses i organitzacions del segle XXI.

Les bases de dades analítiques són les que estudiarem en aquesta assignatura. El magatzem de dades o Data Warehouse (DW) és el suport sobre el qual es disposen les dades i a partir del qual es dóna resposta a les consultes. Aquest magatzem es converteix en la peça central d'un context més ampli, anomenat Factoria de la Informació Corporativa (FIC). La FIC i el DW són avui dia el centre d'atenció de les grans institucions perquè proporcionen un millor coneixement de la pròpia organització i dels seus clients/usuaris.
L'objectiu d'aquesta assignatura és aprendre a dissenyar un DW i crear la FIC, amb tots els seus components, amb la finalitat d'obtenir una implementació que pugui donar ràpida resposta a les consultes formulades amb finalitat analítica. A més d'aprendre sobre emmagatzemis de dades, estructures multidimensionals i processos de transformació, s'aprendrà a gestionar dades i metadades, a administrar un sistema de data warehouse i els diferents enfocaments que existeixen per a crear la FIC. Donat el caràcter eminentment pràctic de l'assignatura, l'aprenentatge es realitzarà bàsicament a través de la resolució d'un projecte de data warehousing.

Amunt

Disseny i ús de bases de dades analítics és una assignatura obligatòria en el Grau en Ciència de Dades Aplicada que forma part del conjunt d'assignatures de bases de dades.

Dins del pla d'estudis va precedida per l'assignatura "Bases de dades per a data warehousing", la qual introdueix a l'estudiant en el disseny de les bases de dades i l'ús del llenguatge estructurat de consultes SQL. Partint d'aquesta base, en "Disseny i ús de bases de dades analítiques" s'introdueix el model multidimensional de dades i la seva explotació. Posteriorment a aquesta assignatura es pot cursar l'assignatura "Bases de dades no relacionals" per a conèixer un altre tipus de bases de dades no basat en SQL. Opcionalment, "Optimització de bases de dades per a entorns analítics" permetrà completar la formació en matèria de bases de dades.

Aquesta assignatura també es cursa el Màster Universitari en Ciència de Dades com a complement de formació.

Amunt

Els coneixements adquirits en aquesta assignatura seran d'utilitat per a perfils tècnics, com ara arquitectes, enginyers i científics de dades, administradors de bases de dades o consultors de business intelligence. És a dir, professionals responsables de la construcció de l'arquitectura d'un sistema d'anàlisi de dades o intel·ligència de negoci, així com també del disseny de l'estructura de dades i els processos ETL (Extract, Transform and Load), que permetran tractar les dades i convertint-les en informació que més tard podrà ser explotada amb diferents eines de reporting, anàlisi, quadres de comandament i altres visualitzacions possibles.

Amunt

És convenient disposar de certs coneixements de SQL i disseny de bases de dades relacionals o  haver cursat l'assignatura "Bases de dades per a data warehousing" en el cas del Grau en Ciència de Dades.
A més, és necessari cert coneixement de la llengua anglesa per a comprendre documentació tècnica dels productes instal·lats i/o informació de referència disponible en la xarxa.

Amunt

Continguts disponibles a partir de febrer 2020.

Amunt

Les principals competències que l'estudiant ha d'adquirir en el context de l'assignatura són les que s'indiquen a continuació:

  • Donat un problema de ciència de dades, saber dissenyar i implementar un magatzem de dades orientat a processos analítics, triant la millor infraestructura que suporti el sistema i saber-lo administrar.
  • Ser capaç de poblar els magatzems de dades a partir de diferents fonts d'informació mitjançant la creació i execució de processos ETL.
  • Conèixer i adquirir destresa en la utilització de diferents tipus d'aplicacions i eines (EIS, OLAP) per a una òptima explotació del magatzem de dades.
  • Ser capaç d'arribar a conclusions importants a conseqüència de l'anàlisi de resultats obtingut de l'explotació de dades

Aquestes competències, en el cas del Grau en Ciència de Dades Aplicada, es relacionen amb les següents competències específiques (CE) que l'estudiant ha d'adquirir en el context de l'assignatura i són les que s'indiquen a continuació:

  • CE3 - Definir, avaluar i seleccionar solucions tecnològiques, així com recursos (espacials, temporals) necessaris per al desenvolupament i execució de projectes, tenint en compte les alternatives disponibles, les condicions de mercat i les normatives vigents.
  • CE8 - Identificar i combinar dades de diferents fonts i formats en diferents gestors de bases de dades per a obtenir un emmagatzematge de dades eficient en cada context d'aplicació.
  • CE9 - Aplicar tècniques específiques de captura, tractament i anàlisi de dades estructurades, semi-estructurats i no estructurats.

Amunt

Els continguts de la part teòrica de l'assignatura es recullen en els mòduls didàctics que componen el material de l'assignatura:

  • Introducció a les bases de dades analítiques. Introdueix els magatzems de dades o data warehouse (DW) en comparació amb les bases de dades relacionals. Els situa en el centre de la factoria de la informació corporativa (FIC), al costat dels altres components que la formen (magatzem de dades departamental, corporatiu, operacional, el component d'integració i transformació de dades, les estructures multidimensionals i les metadades), de manera que es pugui tenir una primera vista de l'arquitectura lògica de les bases de dades analítiques. També ressalta, en aquest context, la importància de les dades, de la seva gestió i de la seva correcta explotació; així com l'administració del sistema de data warehouse. Presenta també les tendències actuals.
  • La construcció de la factoria de la informació corporativa. Es defineixen les diferents estratègies de construcció d'un sistema de data warehouse, els passos a seguir per a la construcció dels magatzems de dades i el component de transformació i integració de la FIC. Així mateix es presenten els perfils que intervenen en el desenvolupament i gestió de la FIC.
  • Les dades en la factoria de la informació corporativa. En aquest mòdul s'aborden qüestions com la qualitat de les dades, la gestió de les dades mestres, gestió de les metadades i el govern de la dada. També es tracten els aspectes relacionats amb la legalitat i l'ètica en el tractament de dada.
  • Disseny multidimensional i explotació de dades. Després d'una introducció a les necessitats dels analistes de dades i les eines OLAP, es presenta el model multidimensional. S'explica com construir un model multidimensional, cadascuna de les etapes del procés de disseny (conceptual, lògic i físic) per a aconseguir una implementació d'un cub en un sistema relacional. També es descriuen algunes operacions pròpies del model multidimensional que poden ser executades en SQL estàndard. Finalment, s'aborda l'explotació de les dades, des de la necessitat d'una adequada presentació d'aquests, passant pels diferents formats de presentació i les eines de suport.
  • Administració de la factoria de la informació corporativa. Una vegada construït el data warehouse i la FIC, cal explotar-ho i mantenir-ho, d'aquí la importància de l'administració de sistemes de datawarehousing. Es presenta el cicle de vida del data warehouse, des de les primeres etapes de planificació i disseny; passant per la seva posada en marxa i creixement; arribant fins a les fases de monitoratge, manteniment i optimització. També es presenten les figures concretes encarregades de dur a terme conjunts de tasques especialitzades, que les organitzacions han de contemplar per a assegurar el bon funcionament del sistema.

Amunt

Espai de recursos de ciència de dades Web

Amunt

A part del portal dels mòduls didàctics prèviament esmentats, l'assignatura disposa d'altres materials addicionals que es troben a l'apartat Recursos de l'aula, com per exemple casos pràctics i activitats resoltes, així com activitats avaluables de mostra. Si fes falta algun altre material addicional, serà proporcionat durant el curs.
Així mateix, donat el caràcter pràctic de l'assignatura es proporciona un entorn de pràctiques prèviament configurat per a la realització de les activitats pràctiques del curs.

En la part del Servidor, disposareu dels següents recursos:

  • Sistema operatiu: Windows Server 2016
  • Base de dades: Windows SQL Server 2016 (SGDB + SQL Server Analysis Services+ SQL Server Reporting Services)

En la part Client disposateu dels seguents recursos:

  • SQL Server Management Studio 2017
  • Visual Studio 2017
  • SQL Server Data Tools
  • Report Designer Pentaho
  • Power BI Desktop
  • Pentaho Data Integration v.8

 I per oferir suport tècnic en aquest entorn i resoldre incidencies, es disposara de l'aula de laboratori.

Amunt

La Normativa acadèmica de la UOC disposa que el procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis fets.

La manca d'originalitat en l'autoria o el mal ús de les condicions en què es fa l'avaluació de l'assignatura és una infracció que pot tenir conseqüències acadèmiques greus.

L'estudiant serà qualificat amb un suspens (D/0) si es detecta manca d'originalitat en l'autoria d'alguna activitat avaluable (pràctica, prova d'avaluació contínua (PAC) o final (PAF), o la que es defineixi al pla docent), sigui perquè ha utilitzat material o dispositius no autoritzats, sigui perquè ha copiat textualment d'internet, o ha copiat d'apunts, de materials, de manuals o d'articles (sense la citació corresponent), d'altres estudiants, o per qualsevol altra conducta irregular.

La qualificació de suspens (D/0) en les qualificacions finals d'avaluació contínua pot comportar l'obligació de fer l'examen presencial per a superar l'assignatura (si hi ha examen i si superar-lo és suficient per a superar l'assignatura segons indiqui el pla docent).

Quan aquesta mala conducta es produeixi durant la realització de les proves d'avaluació finals presencials, l'estudiant pot ser expulsat de l'aula, i l'examinador farà constar tots els elements i la informació relatius al cas.

D'altra banda, aquesta conducta pot donar lloc a la incoació d'un procediment disciplinari i l'aplicació, si escau, de la sanció que correspongui.

La UOC habilitarà els mecanismes que consideri oportuns per a vetllar per la qualitat de les seves titulacions i garantir l'excel·lència i la qualitat del seu model educatiu.

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt