Gestión de Big Data: Tecnologías Código:  B2.339    Créditos:  4
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los materiales que dispone la asignatura   Metodología   Información sobre la evaluación en la UOC   Consulta del modelo de evaluación   Evaluación Contínua   Evaluación final   Feedback  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Esta asignatura constituye una introducción a las tecnologías relacionadas con los sistemas de Big Data.
Iniciaremos esta asignatura analizando la estructura tecnológica que se encuentra detrás de un proyecto de Big Data, y que incluye aspectos relevantes, como por ejemplo, el sistema de almacenamiento y cálculo distribuido o la gestión de los recursos hardware del cluster. Continuaremos viendo los tres principales modelos de procesamiento distribuido: procesamiento batch, real-time o streaming y basado en eventos complejos. Veremos las principales funciones y características de los frameworks más utilizados en la actualidad, prestando especial atención a los dos grandes estándares de la industria: Apache Hadoop y Apache Spark. Finalizaremos esta asignatura revisando las principales librerías de análisis de datos, incluyendo temas de aprendizaje automático (machine learning), análisis de grafos y visualización de datos masivos.

Amunt

Esta asignatura, en el contexto del Programa de Business Intelligence y Big Data, forma parte de la especialidad de "Big Data y sistemas NoSQL". En dicha especialidad se trabaja lo que algunos analistas han llamado "la gestión extrema de la información", o sea la transformación de grandes volúmenes de datos ocultos en la propia organización o presentes a su alrededor en información y conocimiento útil para el negocio. Esta especialidad incluye, además de la asignatura objeto de este plan docente, las siguientes asignaturas:

  • Gestión de Big Data: Casos y usos, presenta nuevos escenarios de negocio y tipos de datos que puedan ser relevantes en los procesos analíticos de las organizaciones, ya sean en un contexto de Big Data o no. La asignatura discute sobre los datos extraídos de redes sociales, datos geográficos, datos en abierto, datos enlazados y datos que deban ser analizados en tiempo real.
  • Bases de datos NoSQL, que constituye una introducción a las bases de datos NoSQL. En concreto, la asignatura estudia todo un conjunto de bases de datos, basadas en diferentes modelos de datos, que son especialmente idóneas para ciertos dominios de aplicación. Entre estos dominios destacan aquéllos que trabajan con grandes volúmenes de datos que se encuentran dispersos en diferentes repositorios, aquellos dominios que trabajan con datos poco estructurados y dominios en los que se establecen múltiples y complejas interrelaciones entre los datos.

Amunt

La asignatura proporciona conocimientos que serán de utilidad en diferentes ámbitos profesionales, como son la dirección de proyectos basados en sistemas Big Data, la consultoría en proyectos/productos de Big Data, la programación de sistemas que requieran el uso de datos masivos o la ciencia de datos, entre otros.
 

Amunt

El curso requiere que los estudiantes tengan conocimientos de programación (preferiblemente en lenguaje Python), así como nociones básicas de análisis de datos, aprendizaje automático (machine learning) y redes de computadores.

Asimismo también es deseable que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte de los materiales adicionales y otros recursos, están en dicho idioma.

Amunt

Los objetivos que se desea que el estudiante alcance mediante esta asignatura son los siguientes:
  • Entender los conceptos y las definiciones formales asociadas a los conceptos de Big Data y afines.
  • Identificar los elementos tecnológicos necesarios en cualquier proyecto basado en el uso de Big Data.
  • Conocer las metodologías más adecuadas para la implementación de sistemas de Big Data.
  • Conocer las principales herramientas disponibles en el ecosistema de Big Data, especialmente de los ecosistemas de Apache Hadoop y Apache Spark.
  • Construir modelos que generen conocimiento como resultado de una análisis basado en tecnología Big Data.
  • Conocer el funcionamiento básico de las principales herramientas y frameworks de Big Data, como por ejemplo HDFS o Apahe Spark.

Amunt

La asignatura consta de 4 bloques temáticos, cada uno de los cuales apoyado por un material didáctico. 
 
El contenido asociado a cada bloque temático es el que se detalla a continuación:
 
Identificación, Captura y Almacenamiento de Datos Masivos: Introducción al Cálculo Distribuido
 
En el primer módulo de esta asignatura veremos la estructura básica de un sistema Big Data. Discutiremos el almacenaje y gestión de la información, centrándonos en el sistema de ficheros distribuido HDFS y las bases de datos NoSQL. A continuación, introduciremos los dos sistemas principales de cálculo distribuido, MapReduce y Apache Spark, haciendo énfasis en sus fortalezas y debilidades. Seguidamente definiremos las tareas que realizan los gestores de recursos, centrándonos en Apache Mesos y YARN. 
 
Big Data Frameworks: Frameworks para el procesamiento distribuido de datos masivos
 
En el segundo módulo profundizaremos en los principales frameworks que dan soporte a la gestión de datos masivos. Iniciaremos el módulo especificando los distintos escenarios Big Data que podemos encontrar: procesamiento batch, procesamiento real-time o streaming, y procesamiento de datos en base a eventos complejos. A continuación hablaremos las herramientas para procesamiento en batch, haciendo especial énfasis en los ecosistemas Apache Hadoop y Apache Spark. Seguiremos con las herramientas para procesamiento en streaming, donde veremos los frameworks Apache Flume, Apache Kafka, Spark Streaming y Apache Storm. Finalizaremos en módulo viendo algunas nuevas tendencias del mercado.
 
Análisis y visualización de datos masivos
 
En el tercer módulo de esta asignatura nos centraremos en las herramientas que integran los distintos ecosistemas para el análisis y visualización de datos masivos. Iniciaremos este recorrido viendo las herramientas para análisis de datos en tiempo real, como por ejemplo, Hadoop Storm, Spark Streaming o Apache Flink. Seguiremos con la introducción de herramientas de aprendizaje automático (machine learning), y continuaremos con herramientas específicas para el análisis de grafos, como Hadoop Giraph o Spark GraphX. La parte final de este módulo estará dedicada a las herramientas de visualización utilizadas en entornos Big Data.
 
Nuevas tendencias
 
En el último módulo analizaremos algunas de la tendencias más recientes en el ecosistema de los datos masivos, y mediante un debate, comentaremos y discutiremos los principales pros y contras de cada una de estas tendencias.

Amunt

Material Soporte
Vídeo Audiovisual
Introducción al big data PDF
Tipologías y arquitecturas de un sistema big data PDF
Captura, preprocesamiento y almacenamiento de datos masivos PDF
Análisis de datos masivos PDF
Análisis de datos masivos. Técnicas avanzadas PDF
Vídeo presentación PLA 1.1. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo contenidos PLA 1.2. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo presentación PLA 2.1. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo contenidos PLA 2.2. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo presentación PLA 3.1. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo contenidos PLA 3.2. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo presentación PLA 4.1. Análisis de datos masivos Audiovisual
Vídeo contenidos PLA 4.2. Análisis de datos masivos Audiovisual
Vídeo presentación PLA 5.1. Análisis de datos masivos. Técnicas avanzadas Audiovisual
Vídeo contenidos PLA 5.2. Análisis de datos masivos. Técnicas avanzadas Audiovisual

Amunt

Para entender el enfoque metodológico general se recomienda la lectura del apartado anterior sobre materiales y herramientas de soporte, y el siguiente respecto el modelo de evaluación.

Además de lo que se ha explicado anteriormente, el consultor recordará al comienzo de cada semana los objetivos y competencias a desarrollar, así como los modelos de aprendizaje y de evaluación para cada parte cuando proceda. Del mismo modo, propondrá algunos debates, estando integrados dentro de algunas de las actividades de evaluaciones o de forma independiente. La participación en la discusión generada en dichos debates es obligatoria. También se recomienda el seguimiento y participación en todas las discusiones y preguntas publicadas en el foro del aula.

Más concretamente, recomendamos el siguiente ciclo de estudios:

  • Leer y estudiar cuidadosamente cada módulo de aprendizaje y/o lectura recomendada.
  • Participar en el foro, iniciar debates formales o publicar informalmente mensajes y opiniones. El método de enseñanza promueve la colaboración entre los miembros del grupo. El consultor y el profesor responsable pueden participar excepcionalmente o para cerrar el debate en partes o en su totalidad.
  • Comenzar a preparar las pruebas y/o actividades con antelación. Se requerirá la consulta de diferentes materiales y, por lo general, no tienen una solución única. Justificar y argumentar la solución o las soluciones propuestas es más importante para la evaluación que tener una respuesta correcta.

Amunt

La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la asignatura es una infracción que puede tener consecuencias académicas graves.

El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación correspondiente) o de otro estudiante, o por cualquier otra conducta irregular.

La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la asignatura según indique este plan docente).

Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos y la información relativos al caso.

Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si procede, de la sanción que corresponda.

La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y garantizar la excelencia y la calidad de su modelo educativo.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.


Ponderación de las calificaciones

Opción para superar la asignatura: EC

Nota final de asignatura: EC

Amunt

Este curso se evalúa únicamente a través de la evaluación continua porque no hay examen final presencial. Todas las actividades, tanto teóricas como prácticas, y la participación en las discusiones en el foro virtual son obligatorios.

La evaluación continua presenta:

  • Tres (3) pruebas de evaluación continua (PEC). La primera PEC tiene un peso de 20% en la calificación final, mientras que la segunda y tercera PECs tienen un peso del 40% cada una.
  • Un (1) debate al final de curso. La participación en calidad y cantidad en dichos debates también puede influir en la calificación final del semestre.

Advertencia: Es importante mencionar que la resolución de las pruebas, casos y prácticas propuestas se debe realizar de forma individual excepto cuando se indique lo contrario. El equipo docente tendrá en cuenta la lógica de las respuestas, el pensamiento individual y la capacidad de expresarse por escrito. Cualquier fuente externa usada para resolver las cuestiones y casos deberá indicarse claramente y ser referenciada adecuadamente. Si no fuera el caso, las actividades se evaluarán con una D. Por otro lado, siempre a criterio de la Universidad, el incumplimiento de esta obligación será comunicada a la gestión de los estudios, con el fin de evaluar si el estudiante está autorizado para aprobar cualquier otra materia o mediante una evaluación continua en el semestre o el siguiente.

Sistema de calificación

Cada actividad (PEC) tendrá una nota individual cualitativa: A, B, C+, C- o D.

La nota de la evaluación continua, que es un promedio de cada una de las actividades por módulo, será cualitativa y cuantitativa (sin decimales): A = 9/10 o B = 7/8 o C + = 5/6 o C- = 3/4 o D = 0/1/2 o no presentado (NP) = 0.

La calificación final será cuantitativa con un decimal.

Criterio de evaluación general basado en evidencia

APROBADO

  • Ha estudiado, entendido el caso y resuelto los problemas.
  • Ha leído la teoría y la ha aplicado correctamente. Proporciona evidencia de dicho conocimiento y actividad.
  • Se presentan correctamente las actividades y las participaciones sin faltas de ortografía y/o escritura.

NOTABLE

  • Todas las anteriores.
  • Conoce el tema, es capaz de vincularlo con otras materias y sacar conclusiones.
  • Aplica la teoría y la experiencia práctica en el contexto de su trabajo y/o de la vida real.
  • Buena presentación y calidad en la escritura.

EXCELENTE

  • Todas las anteriores.
  • Realiza aportaciones y proporciona nuevas soluciones creativas e innovadoras.
  • Muestra evidencia rigurosa y crítica.

Además de estos criterios generales usados a lo largo del semestre, pueden añadirse otros criterios específicos para evaluar algunas de las habilidades generales o particulares. Éstos serán informados, si procede, en el enunciado de las actividades.

Recuperación de las Pruebas de Evaluación Continua (PEC)

La recuperación de las actividades se realizará de forma individual para cada actividad que no se haya entregado o aprobado.

Detalles del proceso de recuperación:

  • No existe una PEC de recuperación final. Las actividades se recuperan de forma individual.
  • Puede optar a la recuperación cualquier estudiante que: (1) no haya presentado la PEC dentro del plazo de entrega definido o (2) tenga una nota inferior a 5. Es decir, cualquier estudiante que tenga una nota de C-, D o NP en esta actividad.
  • La nota máxima que puede obtener una PEC de recuperación es de 5 puntos (C+)
  • Cualquier actividad entregada fuera de plazo (más allá de las 23:59 de la fecha límite propuesta) se considerará una entrega de recuperación.
  • Los estudiantes podrán entregar las PEC fuera de plazo en cualquier momento durante el semestre a través de la herramienta de la REC, hasta la fecha límite (improrrogable) de las PECs de recuperación indicada en el calendario del aula.
  • Sólo es posible realizar una única entrega de recuperación, como máximo, de cada una de las PEC propuestas durante el curso.
  • Las correcciones de las PEC de recuperación no se van a realizar hasta el final del semestre, después de la fecha límite de entrega.

Amunt

Esta asignatura únicamente se puede superar a través de la realización y entrega de un mínimo de 2 de las PEC propuestas a lo largo del semestre. La nota final de evaluación continua (EC) será la media ponderada de las 3 PEC. Es importante destacar:

  • Aquellos estudiantes que únicamente hayan entregado una PEC tendrán como nota final de evaluación continuada un suspenso.
  • Las PEC entregadas que no incluyan al menos un 25% de los ejercicios propuestos resueltos serán consideradas como no presentadas.
  • Las PEC no presentadas computan como 0 en el cálculo ponderado de la nota final de EC.

Por otra parte, a lo largo del semestre, el consultor puede proponer discusiones o debates formales. La participación en calidad y cantidad en dichos debates también puede influir en la calificación final del semestre.

Amunt

A lo largo del semestre, el consultor os proporcionará retorno de vuestro progreso a través de diferentes medios:

  • Publicación de las soluciones de las actividades teóricas y prácticas en las fechas indicadas en el calendario del aula virtual. Cuando una prueba no tenga una solución única, se publicarán aquellas indicaciones que puedan ayudar a entender como evaluar una solución.
  • Publicación de las actividades destacadas de algunos estudiantes, en parte o en su totalidad.
  • Comunicación individual a aquellos estudiantes en riesgo de no superar el curso, según su evolución.

En todo caso, podéis solicitar al consultor un retorno individual, tanto de vuestra evolución dentro del semestre, como de cada prueba individual. Por el hecho de ser una evaluación mayoritariamente individual y continuada, se recomienda hacer esta petición después de cada prueba sobre la que tengáis dudas o necesidades de aclaración y no esperar a las calificaciones medias o finales.

También es posible ponerse en contacto con el profesor responsable del curso académico, si los comentarios y sugerencias recibidos por parte del consultor no son satisfactorios o no se está de acuerdo con ellos.

Amunt