Optimización de bases de datos en entornos analíticos Código:  22.513    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.
En las asignaturas previas de bases de datos, hemos trabajado con las herramientas necesarias para almacenar y analizar datos: las bases de datos relacionales, las bases de datos analíticas, las bases de datos distribuidas y las bases de datos NoSQL. Esta asignatura va más allá, indicando cómo utilizar las herramientas vistas hasta ahora de forma eficiente en entornos distribuidos y presentando otros sistemas gestores de bases de datos alternativos que podemos utilizar para tratar casos de uso concretos en entornos analíticos.

Amunt

Esta asignatura forma parte de la materia de Bases de Datos del grado de ciencia de datos aplicada, formada por las siguientes asignaturas: Diseño y uso de bases de datos analíticas, Bases de datos para Data Warehousing, Bases de datos no relacionales y Optimización de bases de datos en entornos analíticos.

Amunt

El objetivo del grado es la formación de profesionales todo-terreno con una formación en análisis y solución de problemas de negocio, estadística avanzada y minería de datos y diseño y construcción de sistemas de información, que pueden trabajar en diferentes departamentos de la empresa o en un centro de competencias transversal. Los conocimientos y habilidades desarrollados en esta asignatura serán de especial utilidad en el almacenamiento y tratamiento de datos complejos (por su estructura, volumen, frecuéncia, tamaño, etc.) y en el diseño e implementación de sistemas que requieran distribución y/o replicación de datos.

Amunt

Para realizar esta asignatura con éxito es necesario haber realizado las anteriores asignaturas de bases de datos: Diseño y uso de bases de datos analíticas, Bases de datos para Data Warehousing y Bases de datos no relacionales  

Amunt

Gran parte de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés.

Amunt

  • Ser capaz de diseñar e implementar una base de datos distribuida para satisfacer las necesidades específicas de casos de uso concretos. 
  • Conocer los procesos de fragmentación, distribución y localización de datos en un entorno distribuido y sus efectos en el rendimiento de los sistemas gestores de bases de datos distribuidos. 
  • Conocer los sistemas transaccionales que permiten garantizar la consistencia en bases de datos distribuidas. 
  • Ser capaz de optimizar consultas en entornos de bases de datos distribuidos. Saber utilizar el sistema gestor de bases de datos más adecuado en cada contexto. 
  • Ser capaz de contextualizar los conceptos fundamentales de las bases de datos NewSQL, multimodelo, de vectores y de los almacenes de columnas. 
  • Conocer las características principales y el funcionamiento de algunos productos de almacenamiento de bases de datos no tradicionales y de interés en entornos analíticos (ArangoDB, CockorachDB, Vertica y Chroma como mínimo).

Amunt

Para abordar las competencias asociadas a la asignatura, los estudiantes deberán abordar seis retos, siendo cada reto un bloque temático por sí mismo, con materiales asociados, objetivos de aprendizaje y actividades teórico/prácticas. A continuación, se describen los retos y los contenidos para cada uno de ellos.
  1. ¿Cómo diseñar una base de datos distribuida? El objetivo de este bloque es que los estudiantes entiendan las ventajas de los sistemas distribuidos, así como qué deben tener en cuenta para hacer una distribución de datos eficiente. Para ello, se presentará información sobre sistemas de bases de datos distribuidos, fragmentación, distribución (o allocation) y replicación. 
  2. ¿Cómo mantener la consistencia en una base de datos distribuida? La distribución y replicación de datos establece distintos retos a la hora de mantener la consistencia de la base de datos. Tanto por la gestión de transacciones, que deben permitir la ejecución de transacciones complejas que afectan a datos de diferentes nodos de forma atómica, como por la gestión de réplicas, que debe garantizar que las diferentes réplicas de la base de datos tienen valores consistentes. 
  3. ¿Cómo optimizar consultas en un entorno distribuido? El objetivo de este bloque es que los estudiantes comprendan qué elementos intervienen al resolver consultas en un entorno distribuido y que aprendan a optimizar dichas consultas. 
  4. ¿Como indexar datos de forma distribuida? El objetivo de este bloque es que los estudiantes comprendan las características y usos de los sistemas de indexación distribuidos. 
  5. ¿Qué otros modelos, más allá de los modelos relacionales y los NoSQL pueden ser de interés? El objetivo de este bloque es que los estudiantes vean (y trabajen) con tipos de bases de datos distintas a las que han visto hasta el momento y útiles en entornos analíticos. En este bloque se trabajará con tres tipos de bases de datos: las híbridas o multimodelo, las NewSQL y las de vectores. 
  6. ¿Qué son los almacenes de columnas y cuál es su utilidad? Almacenes de columnas: Los almacenes de columnas son bases de datos similares a las relacionales, pero donde los datos se guardan columna a columna en vez de fila a fila. Dicha organización posibilita la compresión de datos, la optimización de consultas y una consulta de datos agregados mucho más eficiente. El objetivo de este bloque es que los estudiantes vean (y trabajen) con este tipo de base de datos.

Amunt

Espacio de recursos de ciencia de datos Web
1. Introducción a CockroachDB PDF
5.4. Tutorial de ArangoDB PDF
5.4. Entorno de trabajo de ArangoDB (Manual de instalación) PDF
5.5. Entorno de trabajo de ChromaDB (Manual de instalación) PDF
1. Tutorial de CockroachDB PDF

Amunt

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material, software o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas, como por ejemplo redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, o porque se ha llevado a cabo cualquier otra conducta irregular.

Así mismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto evaluación continua como evaluación final, por medio de una prueba oral o los medios síncronos o asíncronos que establezca la universidad. Estos medios tendrán por objeto verificar los conocimientos y las competencias que garanticen la autoría; en ningún caso implicarán una segunda evaluación. Si no es posible garantizar la autoría del estudiante, la prueba será calificada con D, en el caso de la evaluación continua, o con un Suspenso, en el caso de la evaluación final.

    A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación; será responsabilidad del estudiante asegurar que tales dispositivos funcionan correctamente.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt