Bases de datos para Data Warehousing Código:  22.511    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
ATENCIÓN: Este es el plan docente de la asignatura para el primer semestre del curso 2020-2021. Os servirá para planificar la matrícula. Una vez empiece la docencia, tenéis que consultarlo en el aula. (El plan docente puede estar sujeto a cambios).
Las bases de datos son el mecanismo más habitual que las organizaciones utilizan para almacenar y procesar de manera no volátil los datos necesarios para su actividad diaria. A su vez, las bases de datos son gestionadas y manipuladas mediante un software altamente especializado y complejo denominado sistema gestor de bases de datos. Desde un punto de vista de uso, las bases de datos nos permiten gestionar el día a día de las organizaciones y por eso también se conocen bajo la denominación de bases de datos operacionales. Por otro lado, tenemos los almacenes de datos (data warehouse) que integran datos de diferentes fuentes, entre las que se encuentran las bases de datos operacionales, y que tienen como objetivo principal apoyar la toma de decisiones.

Para poder guardar los datos de interés de una organización, es necesario disponer de algún modelo de datos que permita su representación en un ordenador en forma de bases de datos. Este modelo de datos debe permitir, por un lado, definir la estructura de la base de datos y las reglas de integridad que garantizan que la base de datos sea consistente. Por otro lado, el modelo de datos también debe proporcionar operaciones que permitan la consulta y actualización de la base de datos. A pesar de que existen diferentes modelos de datos, nosotros nos centraremos en el modelo de datos relacional, y por tanto, en las bases de datos relacionales, dado que son las más utilizadas en las organizaciones.

Esta asignatura tiene por objetivo adquirir conceptos, procedimientos y buenas prácticas para la creación y manipulación de bases de datos que apoyan la construcción de almacenes de datos. Para ello se profundiza en el aprendizaje del lenguaje SQL, extendiéndolo mediante el estudio del lenguaje procedimental PL/pgSQL, y el estudio de otros complementos que nos ofrece SQL con fines analíticos (como serían las funciones analíticas) . Asimismo trataremos aspectos de diseño conceptual, lógico, y físico de bases de datos.

Amunt

Esta asignatura es una asignatura obligatoria del Grado de Ciencia de Datos Aplicada que forma parte del conjunto de asignaturas de la materia de bases de datos, en las que se engloban también las asignaturas "Diseño y uso de bases de datos analíticas", "Bases de datos no relacionales", así como la asignatura optativa "Optimización de bases de datos en entornos analíticos".

Adicionalmente, la asignatura puede cursarse como un complemento de formación del Máster en Ciencia de Datos.

Amunt

Los conocimientos adquiridos en esta asignatura serán de utilidad en la mayoría de campos profesionales, no en vano SQL es uno de los lenguajes que cualquier científico de datos debe conocer.

Sin embargo, los contenidos de la asignatura se orientan a la formación de los perfiles más técnicos como sería el arquitecto o ingeniero de datos, es decir, los profesionales responsables de la construcción de la arquitectura de un sistema de inteligencia inteligencia de negocio o análisis de datos que, a su vez, incluye entre otros, el diseño de la estructura de datos y los procesos ETL (Extract, Transform and Load).

Amunt

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés disponibles en la biblioteca de la UOC. También es posible que el estudiante tenga que localizar sus propios recursos, tanto en la biblioteca, como a través de la red.

Amunt

Las principales competencias que el estudiante debe adquirir en el contexto de la asignatura son las que se indican a continuación:

  • Ser capaz de consultar y actualizar de manera eficiente una base de datos mediante SQL estándar.
  • Ser capaz de codificar procedimientos almacenados utilizando lenguajes procedimentales.
  • Ser capaz de implementar diferentes técnicas de disparadores en una base de datos.
  • Ser capaz de entender y aplicar conceptos avanzados de SQL como funciones analíticas, transacciones o Common Table Expression.
  • Ser capaz de realizar el diseño conceptual de bases de datos a partir de un conjunto de requisitos.
  • Ser capaz de realizar el diseño lógico de bases de datos relacionales.
  • Ser capaz de realizar el diseño físico de bases de datos relacionales.
  • Ser capaz de aplicar los conocimientos anteriores dentro del contexto del data warehouse / OLAP.


Estas competencias, en el caso del Grado en Ciencia de datos aplicada, se relacionan con las Competencias Específicas (CE) que se destacan a continuación:

  • CE3- Definir, evaluar y seleccionar soluciones tecnológicas, así como recursos (espaciales, temporales) necesarios para el desarrollo y ejecución de proyectos, teniendo en cuenta las alternativas disponibles, las condiciones de mercado y las normativas vigentes.
  • CE4- Diseñar un marco experimental teniendo en cuenta los métodos más adecuados para la captura, el procesamiento, el almacenamiento, el análisis y la visualización de datos.
  • CE9- Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructurados, semi-estructurados y no estructurados.

Amunt

La asignatura consta de 5 bloques didácticos, cuyo contenido se detalla a continuación:

Bloque 1. Las bases de datos relacionales. El modelo relacional es lo que nos permite representar una base de datos en un ordenador. Debemos conocer qué estructuras nos proporciona, e identificar sus ventajas. El modelo relacional también nos proporciona un lenguaje para poder consultar la base de datos. Se trata del álgebra relacional que se inspira en el álgebra de conjuntos. Aunque nos pueda parecer un lenguaje teórico, dado que realmente usaremos el lenguaje SQL para manipular nuestras bases de datos, internamente cualquier sistema gestor de bases de datos relacional (como PostgreSQL o Oracle) trabaja con álgebra relacional. Por lo tanto, necesitamos saber utilizarlo si queremos entender y programar eficientemente en SQL. Finalmente, el modelo relacional también nos da mecanismos para definir reglas de integridad. Aprenderemos a especificar reglas de integridad que nos permitirán definir las condiciones que nuestra base de datos debe cumplir si queremos que los datos en ella contenidos sean consistentes.

Bloque 2. Conceptos básicos de SQL. En este bloque didáctico se presentan los conceptos más básicos asociados al SQL estándar. En primer lugar se presentan las principales sentencias de definición de datos (como serían, por ejemplo, tablas y vistas). A continuación se presentan las sentencias básicas de manipulación de datos (SELECT, INSERT, DELETE y UPDATE de tablas y vistas). Finalmente, se introducen las sentencias de concesión y revocación de privilegios sobre los datos, primitivas de gestión de transacciones, y otras modalidades de trabajo con el lenguaje SQL. Los materiales principales que se utilizarán en este bloque didáctico serán: el módulo didáctico "Conceptos básicos de SQL", y una series de vídeos muy importantes: buenas prácticas en SQL, focalizándose en las buenas prácticas de codificación en SQL y generación de consultas. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de las series y un documento con la convención de nombres a seguir durante la asignatura. La parte práctica requerirá el uso de PostgreSQL (el sistema gestor de bases de datos que usaremos en la asignatura).

Bloque 3. Procedimientos y disparadores. En este bloque didáctico se profundiza en SQL estándar. En primer lugar, se presenta la estructura básica de componentes de un entorno SQL, revisando los conceptos de servidores, catálogos y esquemas, para continuar una introducción a los conceptos de conexión, sesión y transacción. A continuación, se completará el estudio de los componentes lógicos vistos mediante la introducción de procedimientos almacenados y disparadores. Finalmente, se introducen el lenguaje procedimental PL/pgSQL y las sentencias que ofrece PostgreSQL para definir estos componentes. Los materiales principales que se utilizarán en este bloque didáctico serán: el módulo didáctico "El lenguaje SQL: Procedimientos y disparadores", la serie de vídeos de buenas prácticas en SQL, focalizándose esta en las buenas prácticas de codificación de procedimientos almacenados, y dos vídeos que contextualizarán los procedimientos y disparadores en el marco de las bases de datos operacionales y de data warehouse. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de las series y con un documento de complementos de SQL para la codificación de procedimientos almacenados. La parte práctica requerirá el uso de PostgreSQL.

Bloque 4. Complementos de SQL para entornos analíticos. En este bloque didáctico se presentan conceptos avanzados de SQL de aplicación en entornos Data Warehouse. En primer lugar, se presenta el concepto de clave subrogada y las diferentes posibilidades de implementar esta técnica mediante SQL. A continuación, se introducirán dos conceptos avanzados para la creación de consultas SQL, las Common Table Expression y las funciones analíticas, como aplicar estas funcionalidades y beneficios asociados. Finalmente, se verán técnicas de tratamiento de valores nulos en bases de datos operacionales y Data Warehouse, y se concluirá con una introducción a las transacciones, sus propiedades, la problemática asociada a las mismas, mecanismos de implementación de transacciones en PostgreSQL y la importancia de estas en entornos de bases de datos operacionales y Data Warehouse. Los materiales principales que se utilizarán en este bloque didáctico serán: el módulo didáctico "Complementos de SQL" y la serie de vídeos de buenas prácticas en SQL, focalizándose en las buenas prácticas de codificación de transacciones. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de la serie. De nuevo, para la parte más práctica usará PostgreSQL.

Bloque 5. Diseño físico de BD relacionales. Este bloque didáctico analizará los principales métodos y construcciones que se utilizan en el diseño físico de bases de datos. Conceptualmente, podemos definir el diseño físico de una base de datos como el proceso que, a partir del diseño lógico de la base de datos y de información sobre su uso esperado, creará una configuración física de la base de datos adaptada al entorno donde se alojará y que permita el almacenamiento y la explotación de los datos con un rendimiento adecuado. Los materiales principales que se utilizarán en este bloque didáctico será el módulo didáctico "Diseño físico de bases de datos". También es posible que se utilicen recursos de biblioteca (en inglés) para complementar el estudio de estructuras de índices. Para la parte práctica se utilizará PostgreSQL.

Amunt

UBD/BD Instalación PostgreSQL (Windows) Audiovisual
Módulo 4. Ejemplos de código Web
Buenas prácticas: codificación de consultas PDF
Buenas prácticas: codificación de transacciones Audiovisual
UBD/BD Instalación PostgreSQL (Linux-Ubuntu) Audiovisual
Contextualización de procedimientos PDF
Buenas prácticas: Codificación de consultas Audiovisual
Complementos de SQL para procedimientos almacenados PDF
El lenguaje SQL I PDF
Contextualización de procedimientos Audiovisual
Módulo 5. El lenguaje SQL II PDF
Buenas prácticas: codificación de transacciones PDF
Buenas prácticas: Codificación SQL Audiovisual
Diseño físico de bases de datos PDF
Problemas de modelado con UML PDF
Buenas prácticas: codificación de procedimientos y funciones PDF
Buenas prácticas: codificación SQL PDF
Contextualización de disparadores PDF
Buenas prácticas: Codificación de procedimientos y funciones Audiovisual
Espacio de recursos de ciencia de datos Web
Complementos de SQL PDF
Contextualización de disparadores Audiovisual
Diseño de bases de datos PDF

Amunt

El material principal de apoyo de la asignatura son los materiales descritos en la sección de Contenidos de este plan docente.

Para conseguir las competencias relativas al aprendizaje del lenguaje SQL, tal como ya hemos comentado, usaremos el sistema gestor de bases de datos PostgreSQL. Para poder instalarlo, debéis realizar la descarga desde:

http://www.postgresql.org/download/

Os proporcionaremos indicaciones más específicas sobre qué versión utilizar y cómo se debe instalar.

Amunt

La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la asignatura es una infracción que puede tener consecuencias académicas graves.

El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación correspondiente) o de otro estudiante, o por cualquier otra conducta irregular.

La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la asignatura según indique este plan docente).

Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos y la información relativos al caso.

Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si procede, de la sanción que corresponda.

La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y garantizar la excelencia y la calidad de su modelo educativo.

Amunt

Esta asignatura sólo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt