Data Lakes Código:  B0.484    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

En pocos años gracias a Internet hemos llegado a tener una red donde cualquier dispositivo o individuo están interconectados. Se generan y gestionan gran cantidad de datos que fluyen de forma libre. En esta asignatura veremos que la clave del éxito está en gestionar estos datos eficientemente y veremos que herramientas pueden utilizarse para hacerlo: los lagos de datos. Durante la asignatura estuidaremos a fondo los lagos de datos, los componentes que los forman, los procesos que los nutren y que explotan su información y los aspectos de governanza que hay que tener en cuenta para garantizar la seguridad y la privacidad de los datos. 

Amunt

Esta asignatura, en el contexto del Programa de Inteligencia de negocio y Big Data, forma parte de la especialidad de Big Data. En dicha especialidad se adquieren las competencias para diseñar, construir, mantener y explotar los sistemas de información de inteligencia de negocio más nuevos, basados en la captura, procesamiento y gestión de datos masivos, de diferentes procedencias y tipología. Esta especialidad incluye, además de la asignatura objeto de este plan docente, las asignaturas de tecnologías de batch y stream processing.

Amunt

La especialidad de Big Data, a la que pertenece esta asignatura, se dirige a proporcionar al profesional de perfil tecnológico capacidades prácticas para diseñar e implantar sistemas de macrodatos o big data (batch processing, data lakes) que sean compatibles con las diferentes necesidades analíticas de una organización (diferidas, en tiempo real, multipropósito, orientadas al aprendizaje automático -machine learning-). 

Esta asignatura, en concreto, abordara el diseño, creación y mantenimiento de los lagos de datos, por tanto será útil para perfiles de científicos de datos de distintas áreas (tanto para analístas de datos, como para arquitectos de soluciones, como para programadores de sistemas de Big Data) .

Amunt

El curso requiere que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte importante de los materiales de referencia, así como de otros recursos, están en dicho idioma.

Desde un punto de vista técnico, es deseable que los estudiantes tengan conocimientos de big data y bases de datos (relacionales y NoSQL) en general y de Apache Haddop, SQL y MongoDB en particular.

Amunt

El curso requiere que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte importante de los materiales de referencia, así como de otros recursos, están en dicho idioma.

Desde un punto de vista técnico, es deseable que los estudiantes tengan conocimientos de big data y bases de datos (relacionales y NoSQL) en general y de Apache Haddop, SQL y MongoDB en particular.

Amunt

  • Conocer el funcionamiento y el mercado de los sistemas de información de inteligencia de negocio y big data analytics y sus principales utilidades y componentes para proporcionar información y conocimiento que permite mejorar la toma de decisiones.
  • Conocer las nuevas tendencias en materia de inteligencia de negocio, en particular, el fenómeno de big data, que representa el tratamiento e interpretación de datos con volumen, variedad, y velocidad, procedentes de múltiples fuentes. Entender y saber aplicar su uso efectivo y las implicaciones tecnológicas, legales y éticas.
  • Conocer y saber construir y utilizar un sistema de data lakes.
  • Conocer y saber utilizar las arquitecturas y herramientas de sistemas de gestión de datos masivas.
  • Conocer y saber utilizar sistemas de procesamiento en batch.
  • Conocer y saber utilizar sistemas de procesamiento en streaming.
  • Conocer y estar en condiciones de desarrollar e implementar un proyecto de big data dentro de la empresa.

Amunt

La asignatura consta de 7 bloques temáticos, cuyo contenido se detalla a continuación:

Bloque 1: ¿Qué es un data lake?

El primer paso será analizar el significado, origen y necesidad de los lagos de datos. Se abordará el tema desde una perspectiva objetiva, rigurosa e intentando huir del potencial hype que pueda existir. Una vez presentada la semántica y necesidad de los lagos de datos se introducirán sus características arquitectónicas y funcionales; características que abordaremos en los siguientes bloques.

Bloque 2:¿Qué elementos componen un data lake?

Una vez introducidos los lagos de datos y su necesidad, profundizaremos en la arquitectura funcional y tecnológica de los lagos de datos, presentando la arquitectura lambda como una de las más utilizadas hoy en día. Desde un punto de vista funcional, se estudiarán las capas batch, speed y serving. Desde un punto de vista tecnológico, se prestará especial atención a las arquitecturas lambda como patrón de uso en el contexto de los lagos de datos.

Bloque 3: ¿Dónde y cómo almacenar los datos en un data lake?

En este bloque nos familiarizaremos con el entorno de trabajo Apache Hadoop y lo utilizaremos para hacer análisis exploratorios de los datos y procesado de datos en streaming. Para ello utilizaremos las herramientas de Apache Hive, Apache Spark y Spark streaming.

Bloque 4: ¿Cómo alimentar un data lake y evitar que se seque?

Se presentan las herramientas necesarias para leer datos en origen, procesarlos, adaptarlos y almacenarlos en un lago de datos. Esto implicará profundizar en las capas de movimiento de datos, de integración y de ingesta. Se abordarán tanto los procesos batch como en streaming necesarios para la ingesta de datos en entornos reales. Las herramientas con las que se trabajará serán Apache Sqoop, Apache Nifi, Apache Flume y Apache Kafka.

Bloque 5: ¿Cómo sacar provecho de un data lake?

Los datos por si mismos no aportan valor, hay que analizarlos, extraer conocimiento de ellos y presentarlos de manera que den soporte a la toma de decisiones. En este bloque estudiaremos como dar respuesta a esas necesidades, abordando en detalle la capa de servicio de un lago de datos y estudiando cómo hacer uso de motores de indexación distribuidos y de la generación de informes. Para ello utilizaremos Kibana y Elasticsearch.

Bloque 6: ¿Cómo garantizar la seguridad y privacidad en un data lake?

En este bloque exploraremos los problemas de seguridad y de gobierno de datos que aparecen en el contexto de los lagos de datos. Se estudiarán también distintas herramientas que dan soporte en la garantía de la privacidad y seguridad de los datos en ecosistemas Hadoop, como por ejemplo Apache Atlas y Apache Ranger.

Bloque 7: El data lake productivo: aprendamos de los otros

En este breve bloque estudiaremos distintos casos de éxito reales para aprender buenas prácticas a considerar en la implementación y despliegue de lagos de datos.

Amunt

Espacio de recursos de ciencia de datos Web
Guía de instalación. Nifi, Elasticsearch, Kibana PDF
Vídeo: Lambda: arquitectura Audiovisual
Tutorial. Recogida, procesamiento y carga de datos PDF
Vídeo: Elasticsearch: tutorial Audiovisual
Vídeo: Nifi: tutorial ingesta con Apache Nifi Audiovisual
Guía de instalación. Hortonworks Data Platform PDF
Vídeo: Kibana: tutorial Audiovisual
Vídeo: Elasticsearch: introducción Audiovisual
Vídeo: Lambda: ejemplos Audiovisual
Vídeo: Nifi: introducción Audiovisual
Vídeo: Nifi: tutorial procesado Audiovisual

Amunt

La asignatura incluye distintos tipos de material:

  • Vídeos, 
  • Libros de texto,
  • Materiales didácticos,
  • Entornos de trabajo virtuales e indicaciones instalación de software,
  • Artículos y manuales de referéncia y
  • Notebooks.

Los materiales relevantes para cada bloque temático los encontraréis en el apartado de "Recursos de aprendizaje" de la actividad en cuestión. Además, para facilitar su consumo, en el apartado "Planificación" de cada bloque temático se indica el orden en que deberían ser estudiados los distintos materiales. 

Para acabar, es posible que sea necesario la lectura de artículos de revista (que serán suministrados desde el aula) para ampliar o complementar los contenidos de la asignatura

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt