Bases de datos para Data Warehousing Código:  22.511    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.
Las bases de datos son el mecanismo más habitual que las organizaciones utilizan para almacenar y procesar de manera no volátil los datos necesarios para su actividad diaria. A su vez, las bases de datos son gestionadas y manipuladas mediante un software altamente especializado y complejo denominado sistema gestor de bases de datos. Desde un punto de vista de uso, las bases de datos nos permiten gestionar el día a día de las organizaciones y por eso también se conocen bajo la denominación de bases de datos operacionales. Por otro lado, tenemos los almacenes de datos (data warehouse) que integran datos de diferentes fuentes, entre las que se encuentran las bases de datos operacionales, y que tienen como objetivo principal apoyar la toma de decisiones.

Para poder guardar los datos de interés de una organización, es necesario disponer de algún modelo de datos que permita su representación en un ordenador en forma de bases de datos. Este modelo de datos debe permitir, por un lado, definir la estructura de la base de datos y las reglas de integridad que garantizan que la base de datos sea consistente. Por otro lado, el modelo de datos también debe proporcionar operaciones que permitan la consulta y actualización de la base de datos. A pesar de que existen diferentes modelos de datos, nosotros nos centraremos en el modelo de datos relacional, y por tanto, en las bases de datos relacionales, dado que son las más utilizadas en las organizaciones.

Esta asignatura tiene por objetivo adquirir conceptos, procedimientos y buenas prácticas para la creación y manipulación de bases de datos que apoyan la construcción de almacenes de datos. Para ello se profundiza en el aprendizaje del lenguaje SQL, extendiéndolo mediante el estudio del lenguaje procedimental PL/pgSQL, y el estudio de otros complementos que nos ofrece SQL con fines analíticos (como serían las funciones analíticas) . Asimismo trataremos aspectos de diseño conceptual, lógico, y físico de bases de datos.

Amunt

Esta asignatura es una asignatura obligatoria del Grado de Ciencia de Datos Aplicada que forma parte del conjunto de asignaturas de la materia de bases de datos, en las que se engloban también las asignaturas obligatorias de "Diseño y uso de bases de datos analíticas" y "Bases de datos no relacionales", así como la asignatura optativa "Optimización de bases de datos en entornos analíticos".

La asignatura también puede ser cursada por futuros estudiantes del Máster en Ciencia de Datos.


Amunt

Los conocimientos adquiridos en esta asignatura serán de utilidad en la mayoría de campos profesionales, no en vano SQL es uno de los lenguajes que cualquier científico (o científica) de datos debe conocer.

Sin embargo, los contenidos de la asignatura se orientan a la formación de los perfiles más técnicos como serían los de arquitectura e ingeniería de datos, es decir, los (y las) profesionales responsables de la construcción de la arquitectura de un sistema de inteligencia inteligencia de negocio o análisis de datos que, a su vez, incluye entre otros, el diseño de la estructura de datos y los procesos ETL (Extract, Transform and Load).

Amunt

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés disponibles en la biblioteca de la UOC. También es posible que el estudiantado tenga que localizar sus propios recursos, tanto en la biblioteca, como a través de la red.

Amunt

Los principales objetivos a adquirir en el contexto de la asignatura son los que se resumen a continuación:

  • Ser capaz de consultar y actualizar de manera eficiente una base de datos mediante SQL estándar.
  • Ser capaz de codificar procedimientos almacenados utilizando lenguajes procedimentales.
  • Ser capaz de implementar diferentes técnicas de disparadores en una base de datos.
  • Ser capaz de entender y aplicar conceptos avanzados de SQL como funciones analíticas, transacciones o Common Table Expression.
  • Ser capaz de realizar el diseño conceptual de bases de datos a partir de un conjunto de requisitos.
  • Ser capaz de realizar el diseño lógico de bases de datos relacionales.
  • Ser capaz de realizar el diseño físico de bases de datos relacionales.
  • Ser capaz de aplicar los conocimientos anteriores dentro del contexto del data warehouse/OLAP.

Estos objetivos, en el caso del Grado en Ciencia de datos aplicada, se relacionan con las Competencias Específicas (CE) que se destacan a continuación:

  • CE3- Definir, evaluar y seleccionar soluciones tecnológicas, así como recursos (espaciales, temporales) necesarios para el desarrollo y ejecución de proyectos, teniendo en cuenta las alternativas disponibles, las condiciones de mercado y las normativas vigentes.
  • CE4- Diseñar un marco experimental teniendo en cuenta los métodos más adecuados para la captura, el procesamiento, el almacenamiento, el análisis y la visualización de datos.
  • CE9- Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructurados, semi-estructurados y no estructurados.

Amunt

La asignatura consta de 5 retos, cuyo contenido se detalla a continuación:

Reto 1. Las bases de datos relacionales: una historia de éxito sin precedentes

El modelo relacional nos permite representar una base de datos en un ordenador. Debemos conocer qué estructuras nos proporciona, e identificar sus ventajas. El modelo relacional también nos proporciona un lenguaje para poder consultar la base de datos. Se trata del álgebra relacional que se inspira en el álgebra de conjuntos. Aunque nos pueda parecer un lenguaje teórico, dado que realmente usaremos el lenguaje SQL para manipular nuestras bases de datos, internamente cualquier sistema gestor de bases de datos relacional (como PostgreSQL o Oracle) trabaja con álgebra relacional. Por lo tanto, necesitamos saber utilizarlo si queremos entender y programar eficientemente en SQL. Finalmente, el modelo relacional también nos da mecanismos para definir reglas de integridad. Aprenderemos a especificar reglas de integridad que nos permitirán definir las condiciones que nuestra base de datos debe cumplir si queremos que los datos en ella contenidos sean consistentes. Además, complementaremos los conocimientos sobre el modelo relacional con el diseño de bases de datos para el caso específico del modelo relacional. En particular, veremos en qué consiste y qué etapas se siguen para el diseño de una base de datos, detallando el proceso de diseño conceptual y lógico de una base de datos relacional.

Reto 2. De la creación a la manipulación de una base de datos relacional

En este reto se presentan los conceptos más básicos asociados al SQL estándar. En primer lugar se presentan las principales sentencias de definición de datos (como serían, por ejemplo, tablas y vistas). A continuación se presentan las sentencias básicas de manipulación de datos (SELECT, INSERT, DELETE y UPDATE de tablas y vistas). Finalmente, se introducen las sentencias de concesión y revocación de privilegios sobre los datos, primitivas de gestión de transacciones, y otras modalidades de trabajo con el lenguaje SQL. Los materiales principales que se utilizarán en este reto serán: el módulo didáctico "Conceptos básicos de SQL", y una serie de vídeos muy importantes: buenas prácticas en SQL, focalizándose en las buenas prácticas de codificación en SQL y generación de consultas. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de las series y un documento con la convención de nombres a seguir durante la asignatura. La parte práctica requerirá el uso de PostgreSQL (el sistema gestor de bases de datos que usaremos en la asignatura).

Reto 3. Procedimientos almacenados y disparadores, ¿para qué son necesarios?

En este reto se profundiza en SQL estándar. En primer lugar, se presenta la estructura básica de componentes de un entorno SQL, revisando los conceptos de servidores, catálogos y esquemas, para continuar una introducción a los conceptos de conexión, sesión y transacción. A continuación, se completará el estudio de los componentes lógicos vistos mediante la introducción de procedimientos almacenados y disparadores. Finalmente, se introducen el lenguaje procedimental PL/pgSQL y las sentencias que ofrece PostgreSQL para definir estos componentes. Los materiales principales que se utilizarán en este reto  serán: el módulo didáctico "El lenguaje SQL: Procedimientos y disparadores", la serie de vídeos de buenas prácticas en SQL, focalizándose esta en las buenas prácticas de codificación de procedimientos almacenados, y dos vídeos que contextualizarán los procedimientos y disparadores en el marco de las bases de datos operacionales y de data warehouse. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de las series y con documentos de complementos de SQL para la codificación de procedimientos almacenados. La parte práctica requerirá el uso de PostgreSQL.

Reto 4. Ampliando la caja de herramientas: common table expressions y funciones analíticas

En este reto se presentan conceptos avanzados de SQL de aplicación en entornos Data Warehouse. En primer lugar, se presenta el concepto de clave subrogada y las diferentes posibilidades de implementar esta técnica mediante SQL. A continuación, se introducirán dos conceptos avanzados para la creación de consultas SQL, las Common Table Expression y las funciones analíticas, como aplicar estas funcionalidades y beneficios asociados. Finalmente, se verán técnicas de tratamiento de valores nulos en bases de datos operacionales y Data Warehouse, y se concluirá con una introducción a las transacciones, sus propiedades, la problemática asociada a las mismas, mecanismos de implementación de transacciones en PostgreSQL y la importancia de estas en entornos de bases de datos operacionales y Data Warehouse. Los materiales principales que se utilizarán en este reto serán: el módulo didáctico "Complementos de SQL" y la serie de vídeos de buenas prácticas en SQL, focalizándose en las buenas prácticas de codificación de transacciones. Estos materiales se complementan con las transcripciones de cada uno de los vídeos de la serie. De nuevo, para la parte más práctica usará PostgreSQL.

Reto 5. El diablo está en los detalles: optimización de la base de datos en función de su uso

Este reto analizará los principales métodos y construcciones que se utilizan en el diseño físico de bases de datos. Conceptualmente, podemos definir el diseño físico de una base de datos como el proceso que, a partir del diseño lógico de la base de datos y de información sobre su uso esperado, creará una configuración física de la base de datos adaptada al entorno donde se alojará y que permita el almacenamiento y la explotación de los datos con un rendimiento adecuado. Los materiales principales que se utilizarán en este reto será el módulo didáctico "Diseño físico de bases de datos". También es posible que se utilicen recursos de biblioteca (en inglés) para complementar el estudio de estructuras de índices. Para la parte práctica se utilizará PostgreSQL.

Amunt

Módulo 5. El lenguaje SQL II PDF
Módulo 4. Ejemplos de código Web
Buenas prácticas: codificación de transacciones PDF
Complementos de SQL para procedimientos almacenados PDF
Buenas prácticas: codificación de procedimientos y funciones PDF
Buenas prácticas: codificación de consultas PDF
Contextualización de disparadores PDF
Buenas prácticas: codificación SQL PDF
Contextualización de procedimientos PDF
Contextualización de procedimientos Audiovisual
Buenas prácticas: Codificación de procedimientos y funciones Audiovisual
Buenas prácticas: Codificación de consultas Audiovisual
Buenas prácticas: Codificación SQL Audiovisual
Buenas prácticas: codificación de transacciones Audiovisual
Contextualización de disparadores Audiovisual
Diseño físico de bases de datos PDF
Complementos de SQL PDF
El modelo relacional y el álgebra relacional PDF
El lenguaje SQL I PDF
Espacio de recursos de ciencia de datos Web

Amunt

El material principal de apoyo de la asignatura son los materiales descritos en la sección de Contenidos de este plan docente. También se proporcionan otros materiales como casos de estudio resueltos, colecciones de ejercicios, y ejemplos de pruebas de evaluación continua de semestres anteriores, así como herramientas específicas para la elaboración del diseño conceptual de bases de datos.

Para conseguir las competencias relativas al aprendizaje del lenguaje SQL, tal como ya hemos comentado, usaremos el sistema gestor de bases de datos PostgreSQL. Para poder instalarlo, debéis realizar la descarga desde:

https://www.postgresql.org/download/

Os proporcionaremos indicaciones más específicas sobre qué versión utilizar y cómo se debe instalar.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material, software o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas, como por ejemplo redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, o porque se ha llevado a cabo cualquier otra conducta irregular.

Así mismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto evaluación continua como evaluación final, por medio de una prueba oral o los medios síncronos o asíncronos que establezca la universidad. Estos medios tendrán por objeto verificar los conocimientos y las competencias que garanticen la autoría; en ningún caso implicarán una segunda evaluación. Si no es posible garantizar la autoría del estudiante, la prueba será calificada con D, en el caso de la evaluación continua, o con un Suspenso, en el caso de la evaluación final.

    A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación; será responsabilidad del estudiante asegurar que tales dispositivos funcionan correctamente.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt