Bases de datos para Data Warehousing Código:  22.511    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Las bases de datos son el mecanismo más habitual que las organizaciones utilizan para almacenar y procesar de manera no volátil los datos necesarios para su actividad diaria. A su vez, las bases de datos son gestionadas y manipuladas mediante un software altamente especializado y complejo denominado sistema gestor de bases de datos. Desde un punto de vista de uso, las bases de datos nos permiten gestionar el día a día de las organizaciones y por eso también se conocen bajo la denominación de bases de datos operacionales. Por otro lado, tenemos los almacenes de datos (data warehouse) que integran datos de diferentes fuentes, entre las que se encuentran las bases de datos operacionales, y que tienen como objetivo principal apoyar la toma de decisiones.

Para poder guardar los datos de interés de una organización, es necesario disponer de algún modelo de datos que permita su representación en un ordenador en forma de bases de datos. Este modelo de datos debe permitir, por un lado, definir la estructura de la base de datos y las reglas de integridad que garantizan que la base de datos sea consistente. Por otro lado, el modelo de datos también debe proporcionar operaciones que permitan la consulta y actualización de la base de datos. A pesar de que existen diferentes modelos de datos, nosotros nos centraremos en el modelo de datos relacional, y por tanto, en las bases de datos relacionales, dado que son las más utilizadas en las organizaciones.

Esta asignatura tiene por objetivo adquirir conceptos, procedimientos y buenas prácticas para la creación y manipulación de bases de datos que apoyan la construcción de almacenes de datos. Para ello se profundiza en el aprendizaje del lenguaje SQL, extendiéndolo mediante el estudio del lenguaje procedimental PL/pgSQL, y el estudio de otros complementos que nos ofrece SQL con fines analíticos (como serían las funciones analíticas) . Asimismo trataremos aspectos de diseño conceptual, lógico, y físico de bases de datos.

Amunt

Esta asignatura es una asignatura obligatoria del Grado de Ciencia de Datos Aplicada que forma parte del conjunto de asignaturas de la materia de bases de datos, en las que se engloban también las asignaturas "Diseño y uso de bases de datos analíticas", "Bases de datos no relacionales", y "Optimización de bases de datos en entornos analíticos".

Adicionalmente, la asignatura puede cursarse como un complemento de formación del Máster en Ciencia de Datos.

Amunt

Los conocimientos adquiridos en esta asignatura serán de utilidad en la mayoría de campos profesionales, no en vano SQL es uno de los lenguajes que cualquier persona especializada en ciencia de datos debe conocer.

Sin embargo, los contenidos de la asignatura se orientan a la formación de los perfiles más técnicos como sería la arquitectura o ingeniería de datos, es decir, profesionales responsables de la construcción de la arquitectura de un sistema de inteligencia inteligencia de negocio o análisis de datos que, a su vez, incluye entre otros, el diseño de la estructura de datos y los procesos ETL (Extract, Transform and Load).

Amunt

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés disponibles en la biblioteca de la UOC. También es posible que el estudiantado tenga que localizar sus propios recursos, tanto en la biblioteca, como a través de la red.

Amunt

Las principales competencias que el estudiantado debe adquirir en el contexto de la asignatura son las que se indican a continuación:

  • Ser capaz de consultar y actualizar de manera eficiente una base de datos mediante SQL estándar.
  • Ser capaz de codificar procedimientos almacenados utilizando lenguajes procedimentales.
  • Ser capaz de implementar diferentes técnicas de disparadores en una base de datos.
  • Ser capaz de entender y aplicar conceptos avanzados de SQL como funciones analíticas, transacciones o Common Table Expression.
  • Ser capaz de realizar el diseño conceptual de bases de datos a partir de un conjunto de requisitos.
  • Ser capaz de realizar el diseño lógico de bases de datos relacionales.
  • Ser capaz de realizar el diseño físico de bases de datos relacionales.
  • Ser capaz de aplicar los conocimientos anteriores dentro del contexto del data warehouse / OLAP.


Estas competencias, en el caso del Grado en Ciencia de datos aplicada, se relacionan con las Competencias Específicas (CE) que se destacan a continuación:

  • CE3- Definir, evaluar y seleccionar soluciones tecnológicas, así como recursos (espaciales, temporales) necesarios para el desarrollo y ejecución de proyectos, teniendo en cuenta las alternativas disponibles, las condiciones de mercado y las normativas vigentes.
  • CE4- Diseñar un marco experimental teniendo en cuenta los métodos más adecuados para la captura, el procesamiento, el almacenamiento, el análisis y la visualización de datos.
  • CE9- Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructurados, semi-estructurados y no estructurados.

Amunt

La asignatura consta de 5 retos, cuyo contenido se detalla a continuación:

Reto 1. Las bases de datos relacionales: una historia de éxito sin precedentes

El modelo relacional es lo que nos permite representar una base de datos en un ordenador. Debemos conocer qué estructuras nos proporciona, e identificar sus ventajas. El modelo relacional también nos proporciona un lenguaje para poder consultar la base de datos. Se trata del álgebra relacional que se inspira en el álgebra de conjuntos. Aunque nos pueda parecer un lenguaje teórico, dado que realmente usaremos el lenguaje SQL para manipular nuestras bases de datos, internamente cualquier sistema gestor de bases de datos relacional (como PostgreSQL o Oracle) trabaja con álgebra relacional. Por lo tanto, necesitamos saber utilizarlo si queremos entender y programar eficientemente en SQL. Finalmente, el modelo relacional también nos da mecanismos para definir reglas de integridad. Aprenderemos a especificar reglas de integridad que nos permitirán definir las condiciones que nuestra base de datos debe cumplir si queremos que los datos en ella contenidos sean consistentes. Además, complementaremos los conocimientos sobre el modelo relacional con el diseño de bases de datos para el caso específico del modelo relacional. En particular, veremos en qué consiste y qué etapas se siguen para el diseño de una base de datos, detallando el proceso de diseño conceptual y lógico de una base de datos relacional.

Reto 2. De la creación a la manipulación de una base de datos relacional (conceptos básicos de SQL)

En este reto se presentan los conceptos más básicos asociados al SQL estándar. En primer lugar se presentan las principales sentencias de definición de datos (como serían, por ejemplo, tablas y vistas). A continuación se presentan las sentencias básicas de manipulación de datos (SELECT, INSERT, DELETE y UPDATE de tablas y vistas). Finalmente, se introducen las sentencias de concesión y revocación de privilegios sobre los datos, primitivas de gestión de transacciones, y otras modalidades de trabajo con el lenguaje SQL. Los materiales principales que se utilizarán en este reto serán: el módulo didáctico "Conceptos básicos de SQL", y una series de vídeos muy importantes: buenas prácticas en SQL, focalizándose en las buenas prácticas de codificación en SQL y generación de consultas. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de las series y un documento con la convención de nombres a seguir durante la asignatura. La parte práctica requerirá el uso de PostgreSQL (el sistema gestor de bases de datos que usaremos en la asignatura).

Reto 3. Procedimientos almacenados y disparadores, ¿para qué son necesarios?

En este reto se profundiza en SQL estándar. En primer lugar, se presenta la estructura básica de componentes de un entorno SQL, revisando los conceptos de servidores, catálogos y esquemas, para continuar una introducción a los conceptos de conexión, sesión y transacción. A continuación, se completará el estudio de los componentes lógicos vistos mediante la introducción de procedimientos almacenados y disparadores. Finalmente, se introducen el lenguaje procedimental PL/pgSQL y las sentencias que ofrece PostgreSQL para definir estos componentes. Los materiales principales que se utilizarán en este reto  serán: el módulo didáctico "El lenguaje SQL: Procedimientos y disparadores", la serie de vídeos de buenas prácticas en SQL, focalizándose esta en las buenas prácticas de codificación de procedimientos almacenados, y dos vídeos que contextualizarán los procedimientos y disparadores en el marco de las bases de datos operacionales y de data warehouse. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de las series y con un documento de complementos de SQL para la codificación de procedimientos almacenados. La parte práctica requerirá el uso de PostgreSQL.

Reto 4. Ampliando la caja de herramientas: common table expressions y funciones analíticas (complementos de SQL para entornos analíticos)

En este reto se presentan conceptos avanzados de SQL de aplicación en entornos Data Warehouse. En primer lugar, se presenta el concepto de clave subrogada y las diferentes posibilidades de implementar esta técnica mediante SQL. A continuación, se introducirán dos conceptos avanzados para la creación de consultas SQL, las Common Table Expression y las funciones analíticas, como aplicar estas funcionalidades y beneficios asociados. Finalmente, se verán técnicas de tratamiento de valores nulos en bases de datos operacionales y Data Warehouse, y se concluirá con una introducción a las transacciones, sus propiedades, la problemática asociada a las mismas, mecanismos de implementación de transacciones en PostgreSQL y la importancia de estas en entornos de bases de datos operacionales y Data Warehouse. Los materiales principales que se utilizarán en este reto serán: el módulo didáctico "Complementos de SQL" y la serie de vídeos de buenas prácticas en SQL, focalizándose en las buenas prácticas de codificación de transacciones. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de la serie. De nuevo, para la parte más práctica usará PostgreSQL.

Reto 5. El diablo está en los detalles: optimización de la base de datos en función de su uso (diseño físico de BD relacionales)

Este reto analizará los principales métodos y construcciones que se utilizan en el diseño físico de bases de datos. Conceptualmente, podemos definir el diseño físico de una base de datos como el proceso que, a partir del diseño lógico de la base de datos y de información sobre su uso esperado, creará una configuración física de la base de datos adaptada al entorno donde se alojará y que permita el almacenamiento y la explotación de los datos con un rendimiento adecuado. Los materiales principales que se utilizarán en este reto será el módulo didáctico "Diseño físico de bases de datos". También es posible que se utilicen recursos de biblioteca (en inglés) para complementar el estudio de estructuras de índices. Para la parte práctica se utilizará PostgreSQL.

Amunt

Módulo 5. El lenguaje SQL II PDF
Ejemplos de código SQL Web
Buenas prácticas: codificación de transacciones PDF
Complementos de SQL para procedimientos almacenados PDF
Buenas prácticas: codificación de procedimientos y funciones PDF
Buenas prácticas: codificación de consultas PDF
Contextualización de disparadores PDF
Buenas prácticas: codificación SQL PDF
Contextualización de procedimientos PDF
Contextualización de procedimientos Audiovisual
Buenas prácticas: Codificación de procedimientos y funciones Audiovisual
Buenas prácticas: Codificación de consultas Audiovisual
Buenas prácticas: Codificación SQL Audiovisual
Buenas prácticas: codificación de transacciones Audiovisual
Contextualización de disparadores Audiovisual
Diseño físico de bases de datos PDF
Complementos de SQL PDF
El modelo relacional y el álgebra relacional PDF
El lenguaje SQL I PDF
Espacio de recursos de ciencia de datos Web

Amunt

El material principal de apoyo de la asignatura son los materiales descritos en la sección de Contenidos de este plan docente.

Para conseguir las competencias relativas al aprendizaje del lenguaje SQL, tal como ya hemos comentado, usaremos el sistema gestor de bases de datos PostgreSQL. Para poder instalarlo, debéis realizar la descarga desde:

http://www.postgresql.org/download/

Os proporcionaremos indicaciones más específicas sobre qué versión utilizar y cómo se debe instalar.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt