Diseño y uso de bases de datos analíticas Código:  22.510    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Desde hace unos años, la toma de decisiones basada en los datos está tomando más fuerza dentro del mundo empresarial, ya que ha quedado demostrado que estas decisiones permiten ser más eficientes.  No obstante, para poder utilizar los datos y convertirlos en información de interés, uno de los puntos más importantes es que estos estén correctamente tratados y almacenados por lo que el abanico de soportes de almacenamiento ha crecido exponencialmente. Hoy en día podemos encontrar los datos en sistemas de ficheros, directamente en formatos de audio, vídeo y texto, así como en bases de datos no-SQL. Sin embargo, el modelo de almacenamiento de datos estructurado sigue siendo sin duda líder en el mercado de soluciones analíticas.

Dentro de los sistemas de almacenamiento estructurado o SQL, podemos encontrar las siguientes bases de datos:

  • Las bases de datos operacionales, que han sido concebidas para dar respuesta al día a día de las empresas y organizaciones. El problema es que estas bases de datos no son útiles para otros fines que implican análisis de datos, como por ejemplo la extracción de conocimiento o la toma de decisiones.
  • Las bases de datos analíticas, que ofrecen respuesta a necesidades que van más allá de la operativa de las organizaciones y empresas. Se nutren principalmente de las bases de datos operacionales y de diversidad de fuentes de datos, disponibles en múltiples formatos. Dada la gran variedad de fuentes y formatos de presentación de datos, recopilar los datos provenientes de todas estas fuentes en uno o más almacenes de datos para garantizar respuesta inmediata a diversidad de consultas, implica disponer de un contexto que permita extraer, transformar y recopilar dicha información llevando a cabo una serie de procesos. Este es uno de los grandes retos a los que se enfrentan las empresas y organizaciones del siglo XXI.

Las bases de datos analíticas son las que estudiaremos en esta asignatura. El almacén de datos o data warehouse (DW) es el soporte sobre el que se disponen los datos y a partir del cual se da respuesta a las consultas. Éste, a su vez, se convierte en la pieza central de un contexto más amplio, llamado Factoría de la Información Corporativa (FIC). La FIC y el DW son a día de hoy el centro de atención de las grandes instituciones para proporcionar un mejor conocimiento de la propia organización y de sus clientes/usuarios.

El objetivo de esta asignatura es aprender a diseñar un DW y crear la FIC, con todos sus componentes, con el fin de obtener una implementación que pueda dar rápida respuesta a las consultas formuladas con finalidad analítica. Además de aprender sobre almacenes de datos, estructuras multidimensionales y procesos de transformación, se aprenderá a gestionar datos y metadatos, a administrar un sistema de data warehouse y los diferentes enfoques que existen para crear la FIC. Dado el carácter eminentemente práctico de la asignatura, el aprendizaje se realizará básicamente a través de la resolución de un proyecto de data warehousing.

Amunt

Diseño y uso de bases de datos analíticas es una asignatura obligatoria en el Grado en Ciencia de Datos Aplicada que forma parte del conjunto de asignaturas de la materia de bases de datos.
 
Dentro del plan de estudios va precedida por la asignatura "Bases de datos para data warehousing", la cual introduce al estudiante en el diseño de las bases de datos y el uso del lenguaje estructurado de consultas SQL. Partiendo de esta base, en "Diseño y uso de bases de datos analíticas" se introduce el modelo multidimensional de datos y su explotación. Posteriormente a esta asignatura se puede cursar la asignatura "Bases de datos no relacionales" para conocer otro tipo de bases de datos no basado en SQL. Opcionalmente, "Optimización de bases de datos para entornos analíticos" permitirá completar la formación en materia de bases de datos.


Esta asignatura también se cursa en el Máster Universitario en Ciencia de Datos como complemento de formación.

Amunt

Los conocimientos adquiridos en esta asignatura serán de utilidad para perfiles técnicos, tales como arquitectos, ingenieros y científicos de datos, administradores de bases de datos o consultores de business intelligence. Es decir, profesionales responsables de la construcción de la arquitectura de un sistema de análisis de datos o inteligencia de negocio, que, a su vez, se encarga entre otros del diseño de la estructura de datos y los procesos ETL (Extract, Transform and Load), que permitirán tratar los datos convirtiéndolas en información que más tarde podrá ser explotada con diferentes herramientas de reporting, análisis y cuadros de mando, entre otras visualizaciones posibles.

Amunt

Es conveniente disponer de ciertos conocimientos de SQL y diseño de bases de datos relacionales o en su defecto haber cursado la asignatura "Bases de datos para data warehousing" en el caso del Grado en Ciencia de Datos.
Además, es necesario cierto conocimiento de la lengua inglesa para comprender documentación técnica de los productos instalados y/o información de referencia disponible en la red.

Amunt

La información que los estudiantes deben conocer antes de matricularse es:

  • Es una asignatura práctica.
  • Su modelo de evaluación es EC y la PRA es la actividad de evaluación fundamental del curso. Es obligatoria y requiere una calificación mínima para aprobar.
  • Hay también otras actividades de EC.
  • Se dispone de un entorno de prácticas configurado para la realización de la práctica y soporte a dicho entorno.
  • Ver conocimientos previos en el apartado anterior.

Amunt

Las principales competencias que el estudiante debe adquirir en el contexto de la asignatura son las que se indican a continuación:

  • Dado un problema de ciencia de datos, saber diseñar e implementar un almacén de datos orientado a procesos analíticos, eligiendo la mejor infraestructura que soporte el sistema y saberlo administrar.
  • Ser capaz de poblar los almacenes de datos a partir de distintas fuentes de información mediante la creación y ejecución de procesos ETL.
  • Conocer y adquirir destreza en la utilización de diferentes tipos de aplicaciones y herramientas (EIS, OLAP) para una óptima explotación del almacén de datos.
  • Ser capaz de llegar a conclusiones importantes como consecuencia del análisis de resultados obtenido de la explotación de datos.

Estas competencias, en el caso del Grado en Ciencia de Datos Aplicada, se relacionan con las siguientes competencias específicas (CE)  que el estudiante debe adquirir en el contexto de la asignatura y son las que se indican a continuación:

  • CE3- Definir, evaluar y seleccionar soluciones tecnológicas, así como recursos (espaciales, temporales) necesarios para el desarrollo y ejecución de proyectos, teniendo en cuenta las alternativas disponibles, las condiciones de mercado y las normativas vigentes.
  • CE8- Identificar y combinar datos de diferentes fuentes y formatos en diferentes gestores de bases de datos para obtener un almacenamiento de datos eficiente en cada contexto de aplicación.
  • CE9- Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructurados, semi-estructurados y no estructurados.

Amunt

Los contenidos principales de la parte teórica de la asignatura se recogen en los módulos didácticos que se detallan a continuación:

  • Introducción a las bases de datos analíticas. Introduce los almacenes de datos o data warehouse (DW) en comparación con las bases de datos relacionales. Los sitúa en el centro de la factoría de la información corporativa (FIC), junto a los demás componentes que la forman (almacén de datos departamental, corporativo, operacional, el componente de integración y transformación de datos, las estructuras multidimensionales y los metadatos), de forma que se pueda tener una primera vista de la arquitectura lógica de las bases de datos analíticas. También resalta, en este contexto, la importancia de los datos, de su gestión y de su correcta explotación, así como la administración del sistema de data warehouse. Presenta también las tendencias actuales.
  • La construcción de la  factoría de la información corporativa. Se definen las distintas estrategias de construcción de un sistema de data warehouse, los pasos a seguir para la construcción de los almacenes de datos y el componente de transformación e integración de la FIC. Así mismo se presentan los perfiles que intervienen en el desarrollo y gestión de la FIC.
  • Diseño multidimensional y explotación de datos. Tras una introducción a las necesidades de los analistas de datos y las herramientas OLAP, se presenta el modelo multidimensional. Se explica cómo construir un modelo multidimensional, cada una de las etapas del proceso de diseño (conceptual, lógico y físico) para conseguir una implementación del cubo en un sistema relacional. También se describen algunas operaciones propias del modelo multidimensional que pueden ser ejecutadas en SQL estándar. Finalmente, se aborda la explotación de los datos, desde la necesidad de una adecuada presentación de los mismos, pasando por los distintos formatos de presentación y las herramientas de apoyo.

Los contenidos complementarios de la parte teórica de la asignatura se recogen en los siguientes módulos didácticos:

  • Los datos en la factoría de la información corporativa. En este módulo se abordan cuestiones como la calidad de los datos, la gestión de los datos maestros, gestión de los metadatos y el gobierno del dato. También se tratan los aspectos relacionados con la legalidad y la ética en el tratamiento de dato.
  • Administración de la FIC. Una vez construido el data warehouse y la FIC, hay que explotarlo y mantenerlo, de aquí la importancia de la administración de sistemas de datawarehousing. Se presenta el ciclo de vida del data warehouse, desde las primeras etapas de planificación y diseño; pasando por su puesta en marcha y crecimiento; llegando hasta las fases de monitorización, mantenimiento y optimización. También se presentan las figuras concretas encargadas de llevar a cabo conjuntos de tareas especializadas, que las organizaciones deben contemplar para asegurar el buen funcionamiento del sistema.

Amunt

Espacio de recursos de ciencia de datos Web
Pasos comunes de transformación de datos con Spoon Audiovisual
Pasos de acceso a bases de datos con PDI Audiovisual
Procesar una dimensión con Visual Studio Audiovisual
Creación de conexión a una base de datos con Spoon Audiovisual
Paso de transformación con Spoon: lectura de un fichero externo (Excel) Audiovisual
Creación de Jobs con Spoon Audiovisual
Creación de un cubo OLAP con Visual Studio Audiovisual

Amunt

A parte de los módulos didácticos previamente mencionados, la asignatura dispone de otros materiales de muestra de cursos anteriores (caso práctico y PRAs resueltas) y de soporte al caso práctico (documentos y vídeos) que se publican junto a las actividades de evaluación del curso o en su defecto, en el espacio Recursos del aula. Es necesario estudiar la teoría y tomar como ejemplo estos materiales. El caso práctico de ejemplo no se debe interpretar como un tutorial o guía paso a paso de la PRA y únicamente se facilita a modo de ejemplo de resolución de un caso similar, no necesariamente idéntico.

Destacamos por su importancia 2 documentos que hay que leer con atención para el correcto desarrollo de las prácticas:

  • DW_Entorno_Virtual_VDI.pdf: como guía de configuración y conexión.
  • Importar_base_de_datos_como_crear_Vistas_y_Cubos.pdf:  con indicaciones sobre cómo proceder en la creación de cubos.

Estos materiales se pueden encontrar junto a las actividades de evaluación que requieren de ellos (PEC1 y PRA3) para su realización. Si hiciera falta algún otro material adicional, será proporcionado durante el curso.

Así mismo, dado el carácter práctico de la asignatura se proporciona un entorno de prácticas previamente configurado para la realización de las actividades prácticas del curso.

En la parte servidor:

  • Sistema operativo: Windows Server 2016
  • Base de datos: Windows SQL  Server 2016 (SGBD  +  SQL Server Analysis Services   + SQL Server Reporting Services)

Y en la parte cliente:

  • SQL Server Management Studio 2017
  • Visual Studio 2017
  • SQL Server Data Tools
  • Report Designer Pentaho
  • Power BI Desktop
  • Pentaho Data Integration v.9

Y para ofrecer soporte técnico en este entorno y resolver las incidencias que puedan suceder con el uso del entorno VDI o del software instalado, dispondréis de un profesor/a en el aula de laboratorio. Dado que esta aula será diferente del aula de teoría, deberéis consultar frecuentemente las dos aulas.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt