Análisis de datos en entornos Big Data Código:  M2.858    Créditos:  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje que dispone la asignatura   Metodología   Información sobre la evaluación en la UOC   Consulta del modelo de evaluación   Evaluación Contínua   Evaluación final   Feedback  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.
Esta asignatura constituye una introducción a las tecnologías relacionadas con los sistemas de Big Data. Iniciaremos esta asignatura analizando la estructura tecnológica que se encuentra detrás de un proyecto de Big Data, y que incluye aspectos relevantes, como por ejemplo, el sistema de almacenamiento y cálculo distribuido o la gestión de los recursos hardware del cluster. Continuaremos viendo los tres principales modelos de procesamiento distribuido: procesamiento batch, real-time o streaming y basado en eventos complejos. Veremos las principales funciones y características de los frameworks más utilizados en la actualidad, prestando especial atención a los dos grandes estándares de la industria: Apache Hadoop y Apache Spark. Finalizaremos esta asignatura revisando las principales librerías de análisis de datos, incluyendo temas de aprendizaje automático (machine learning), análisis de grafos y visualización de datos masivos.

Amunt

Esta asignatura pertenece al conjunto de asignaturas optativas del Máster universitario en Ciencia de datos (Data Science).

Amunt

La asignatura proporciona conocimientos que serán de utilidad en diferentes ámbitos profesionales, como son la programación de sistemas que requieran el uso de datos masivos, la ciencia de datos o la dirección o consultoría de proyectos basados en sistemas Big Data, entre otros.

Amunt

El curso requiere que los estudiantes tengan conocimientos de programación (preferiblemente en lenguaje Python), así como conocimientos de análisis de datos, aprendizaje automático (machine learning) y redes de computadores.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Asimismo también es necesario que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte de los materiales adicionales y otros recursos, están en dicho idioma.

Amunt

Los objetivos que se desea que el estudiante alcance mediante esta asignatura son los siguientes:

  • Entender los conceptos y las definiciones formales asociadas a los conceptos de Big Data y afines.
  • Identificar los elementos tecnológicos necesarios en cualquier proyecto basado en el uso de Big Data.
  • Conocer las metodologías más adecuadas para la implementación de sistemas de Big Data.
  • Conocer las principales herramientas disponibles en el ecosistema de Big Data, especialmente de los ecosistemas de Apache Hadoop y Apache Spark.
  • Construir modelos que generen conocimiento como resultado de una análisis basado en tecnología Big Data.
  • Conocer el funcionamiento básico de las principales herramientas y frameworks de Big Data, como por ejemplo HDFS o Apahe Spark.

Amunt

La asignatura consta de 5 bloques temáticos, cada uno de los cuales apoyado por un material didáctico.

El contenido asociado a cada bloque temático es el que se detalla a continuación:

1) Introducción al Big Data

En este primer módulo se introduce el concepto de Big Data y se discute el cambio de modelo y paradigma que implica dicho concepto.

2) Tipologías y arquitecturas de un sistema Big Data

Entender las diferentes tipologías y arquitecturas de un sistema Big Data, siendo capaz de indentificar qué arquitectura se debería desarrollar según las características de cada problema, incluyendo las especificidades de datos y entornos.

Introduciremos los dos sistemas principales de cálculo distribuido, MapReduce y Apache Spark, haciendo énfasis en sus fortalezas y debilidades. Seguidamente definiremos las tareas que realizan los gestores de recursos, centrándonos en Apache Mesos y YARN.

3) Captura, pre-procesamiento y almacenamiento de datos masivos

Conocer las características básicas de los procesos de captura, pre-procesamiento y almacenamiento de datos en entornos Big Data. Es decir, ser capaz de entender las peculiaridades que implica el Big Data en cada una de estas fases del análisis de datos y conocer las principales herramientas y tecnologías Big Data que lo apoyan.

Discutiremos el almacenaje y gestión de la información, centrándonos en el sistema de ficheros distribuido HDFS y las bases de datos NoSQL. 

4) Análisis de datos masivos: Técnicas fundamentales

Conocer y entender las las principales técnicas y herramientas de minería de datos y machine learning para datos masivos. Saber qué las diferencia de las técnicas y herramientas minería de datos tradicionales, y cuándo y cómo hay que utilizarlas.

Veremos las herramientas para procesamiento en batch, haciendo especial énfasis en los ecosistemas Apache Hadoop y Apache Spark. Seguiremos con las herramientas para procesamiento en streaming, donde veremos los frameworks Apache Flume, Apache Kafka, Spark Streaming y Apache Storm. 

5) Análisis de datos masivos: Técnicas avanzadas

En este módulo se introducen técnicas avanzadas relacionadas con la minería de datos y el aprendizaje automático. En concreto, se verán técnicas relacionadas con el análisis de grafos (graph mining), el análisis de texto (text mining) y el procesamiento de datos en streaming.

Amunt

Material Soporte
Introducción al big data PDF
Tipologías y arquitecturas de un sistema big data PDF
Captura, preprocesamiento y almacenamiento de datos masivos PDF
Análisis de datos masivos PDF
Análisis de datos masivos. Técnicas avanzadas PDF
Vídeo presentación PLA 1.1. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo contenidos PLA 1.2. Introducción a los datos masivos (Big Data) Audiovisual
Vídeo presentación PLA 2.1. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo contenidos PLA 2.2. Tipologías y arquitecturas de un sistema Big Data Audiovisual
Vídeo presentación PLA 3.1. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo contenidos PLA 3.2. Captura, pre-procesado y almacenamiento de datos masivos Audiovisual
Vídeo presentación PLA 4.1. Análisis de datos masivos Audiovisual
Vídeo contenidos PLA 4.2. Análisis de datos masivos Audiovisual
Vídeo presentación PLA 5.1. Análisis de datos masivos. Técnicas avanzadas Audiovisual
Vídeo contenidos PLA 5.2. Análisis de datos masivos. Técnicas avanzadas Audiovisual
Espacio de recursos de ciencia de datos Web
Massive data analysis PDF
Big data capture preprocessing and storage PDF
Introduction to big data PDF
Massive data analysis. Advanced techniques PDF
Typologies and architectures of a big data system PDF
Video presentation PLA 5.1. Massive data analysis. Advanced techniques Audiovisual
Video content PLA 3.2. Capture, pre-process and store massive data Audiovisual
Video content PLA 5.2. Massive data analysis. Advanced techniques Audiovisual
Video presentation PLA 2.1. Typologies and architectures of a Big Data system Audiovisual
Video content PLA 2.2. Typologies and architectures of a Big Data system Audiovisual
Video presentation PLA 4.1. Massive data analysis Audiovisual
Video content PLA 4.2. Massive data analysis Audiovisual
Video presentation PLA 3.1. Capture, pre-process and store massive data Audiovisual
Video content PLA 1.2. Introduction to massive data (Big Data) Audiovisual
Video presentation PLA 1.1. Introduction to massive data (Big Data) Audiovisual
Uso de dataframes con Apache Spark Audiovisual
Uso de RDDs con Apache Spark Audiovisual
Apache Flume. Documentación Audiovisual
Apache Flume. Configuración Audiovisual
Apache Flume. Implementación sources Audiovisual
Apache Flume. Agente Audiovisual

Amunt

Para entender el enfoque metodológico general se recomienda la lectura de este apartado y el siguiente, respecto el modelo de evaluación.

Además de lo que se ha explicado anteriormente, el consultor recordará al comienzo de cada semana los objetivos y competencias a desarrollar, así como los modelos de aprendizaje y de evaluación para cada parte cuando proceda. También se recomienda el seguimiento y participación en todas las discusiones y preguntas publicadas en el foro del aula.

Más concretamente, recomendamos el siguiente ciclo de estudios:

  • Leer y estudiar cuidadosamente cada módulo de aprendizaje y/o lectura recomendada.
  • Participar en el foro, iniciar debates formales o publicar informalmente mensajes y opiniones. El método de enseñanza promueve la colaboración entre los miembros del grupo. El consultor y el profesor responsable pueden participar excepcionalmente o para cerrar el debate en partes o en su totalidad.
  • Comenzar a preparar las pruebas y/o actividades con antelación. Se requerirá la consulta de diferentes materiales y, por lo general, no tienen una solución única. Justificar y argumentar la solución o las soluciones propuestas es más importante para la evaluación que tener una respuesta correcta.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente –incluidas las pruebas finales– o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.


Ponderación de las calificaciones

Opción para superar la asignatura: EC

Nota final de asignatura: EC

Amunt

Este curso se evalúa únicamente a través de la evaluación continua porque no hay examen final presencial. Todas las actividades, tanto teóricas como prácticas, y la participación en las discusiones en el foro virtual son obligatorios.

Para aprobar la asignatura el estudiante debe alcanzar una nota igual o superior a 5 en un mínimo de 4 de las 5 actividades propuestas.

La evaluación continua presenta:

  • Cinco (5) pruebas de evaluación continua (PEC) con la siguiente ponderación:
    • PEC 1= 10%
    • PEC 2 = 10%
    • PEC 3 = 20%
    • PEC 4 = 25%
    • PEC 5 = 25%
  • Un (1) conjunto de tests autocorregidos sobre la teoria asociada a cada módulo. Se accede a estos tests a través del enlace a la plataforma Moodle integrada en el aula. Las condiciones de realización de los tests son las siguientes:
    • Hay un test distinto para cada uno de los módulos didácticos de esta asignatura (cinco en total).
    • El estudiante dispone de un máximo de 2 intentos en cada test.
    • Cada test tiene un límite de tiempo de 10 minutos para su realización.
    • La nota de cada test será la nota máxima obtenida de ambos intentos.
    • La nota final de todos los tests representa el 10% de la nota final de la asignatura. Por lo tanto, cada test individual representa el 2% de la nota final de la asignatura.

Advertencia: Es importante mencionar que la resolución de las pruebas, casos y prácticas propuestas se debe realizar de forma individual excepto cuando se indique lo contrario. El equipo docente tendrá en cuenta la lógica de las respuestas, el pensamiento individual y la capacidad de expresarse por escrito. Cualquier fuente externa usada para resolver las cuestiones y casos deberá indicarse claramente y ser referenciada adecuadamente. Si no fuera el caso, las actividades se evaluarán con una D. Por otro lado, siempre a criterio de la Universidad, el incumplimiento de esta obligación será comunicada a la gestión de los estudios, con el fin de evaluar si el estudiante está autorizado para aprobar cualquier otra materia o mediante una evaluación continua en el semestre o el siguiente.

Amunt

Esta asignatura únicamente se puede superar a través de la realización y entrega de las PEC propuestas a lo largo del semestre. La nota final de evaluación continua (EC) será la media ponderada de todas las actividades, según los pesos indicados en el apartado anterior.

Para aprobar la asignatura el estudiante debe alcanzar una nota igual o superior a 5 en un mínimo de 4 de las 5 actividades propuestas.

Por otra parte, a lo largo del semestre, el consultor puede proponer discusiones o debates formales. La participación en calidad y cantidad en dichos debates también puede influir en la calificación final del semestre.

Recuperación de las Pruebas de Evaluación Continua (PEC)

La recuperación de las actividades se realizará de forma individual para cada actividad que no se haya entregado o aprobado.

Detalles del proceso de recuperación:

  • No existe una PEC de recuperación final. Las actividades se recuperan de forma individual.
  • Puede optar a la recuperación cualquier estudiante que: (1) no haya presentado la PEC dentro del plazo de entrega definido o (2) tenga una nota inferior a 5. Es decir, cualquier estudiante que tenga una nota de C-, D o N en esta actividad.
  • La nota máxima que puede obtener una PEC de recuperación es de 5 puntos (C+)
  • Cualquier actividad entregada fuera de plazo (más allá de las 23:59 de la fecha límite propuesta) se considerará una entrega de recuperación.
  • Los estudiantes podrán entregar las PEC fuera de plazo en el período establecido al final del semestre. Los profesores no aceptarán preguntas de PECs fuera de plazo, hasta  el período de recuperación establecido.
  • Sólo es posible realizar una única entrega de recuperación, como máximo, de cada una de las PEC propuestas durante el curso.

Amunt

A lo largo del semestre, el consultor os proporcionará retorno de vuestro progreso y se realizará una comunicación individual a aquellos estudiantes en riesgo de no superar el curso, según su evolución. En todo caso, podéis solicitar al consultor un retorno individual, tanto de vuestra evolución dentro del semestre, como de cada ejercicio individual. Las soluciones de los ejercicios no se van a publicar. También es posible ponerse en contacto con el profesor responsable del curso académico, si los comentarios y sugerencias recibidos por parte del consultor no son satisfactorios o no se está de acuerdo con ellos.

Amunt