|
||||||||||||||||||||||||||||||||||
Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en el que se proyecta Conocimientos previos Objetivos y competencias Contenidos Consulta de los materiales de los que dispone la asignatura Informaciones sobre la evaluación a la UOC Consulta del modelo de evaluación | ||||||||||||||||||||||||||||||||||
ATENCIÓN: Esta información recoge los apartados del plan docente de la asignatura durante el último semestre con docencia. Al iniciar el periodo de matrícula, podrás consultar el calendario y modelo de evaluación para el siguiente semestre en Trámites / Matrícula / Horarios de las pruebas de evaluación final. | ||||||||||||||||||||||||||||||||||
Esta asignatura constituye una introducción a las tecnologías relacionadas con los sistemas de Big Data. Iniciaremos esta asignatura analizando la estructura tecnológica que se encuentra detrás de un proyecto de Big Data, y que incluye aspectos relevantes, como por ejemplo, el sistema de almacenamiento y cálculo distribuido o la gestión de los recursos hardware del cluster. Continuaremos viendo los tres principales modelos de procesamiento distribuido: procesamiento batch, real-time o streaming y basado en eventos complejos. Veremos las principales funciones y características de los frameworks más utilizados en la actualidad, prestando especial atención a los dos grandes estándares de la industria: Apache Hadoop y Apache Spark. Finalizaremos esta asignatura revisando las principales librerías de análisis de datos, incluyendo temas de aprendizaje automático (machine learning), análisis de grafos y visualización de datos masivos.
|
||||||||||||||||||||||||||||||||||
Esta asignatura, en el contexto del Programa de Business Intelligence y Big Data, forma parte de la especialidad de "Big Data y sistemas NoSQL". En dicha especialidad se trabaja lo que algunos analistas han llamado "la gestión extrema de la información", o sea la transformación de grandes volúmenes de datos ocultos en la propia organización o presentes a su alrededor en información y conocimiento útil para el negocio. Esta especialidad incluye, además de la asignatura objeto de este plan docente, las siguientes asignaturas:
|
||||||||||||||||||||||||||||||||||
La asignatura proporciona conocimientos que serán de utilidad en diferentes ámbitos profesionales, como son la programación de sistemas que requieran el uso de datos masivos, la ciencia de datos o la dirección o consultoría de proyectos basados en sistemas Big Data, entre otros. |
||||||||||||||||||||||||||||||||||
El curso requiere que los estudiantes tengan conocimientos de programación (preferiblemente en lenguaje Python), así como conocimientos de análisis de datos, aprendizaje automático (machine learning) y redes de computadores. Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita. Asimismo también es necesario que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte de los materiales adicionales y otros recursos, están en dicho idioma. |
||||||||||||||||||||||||||||||||||
Los objetivos que se desea que el estudiante alcance mediante esta asignatura son los siguientes:
|
||||||||||||||||||||||||||||||||||
La asignatura consta de 5 bloques temáticos, cada uno de los cuales apoyado por un material didáctico. El contenido asociado a cada bloque temático es el que se detalla a continuación: 1) Introducción al Big Data En este primer módulo se introduce el concepto de Big Data y se discute el cambio de modelo y paradigma que implica dicho concepto. 2) Tipologías y arquitecturas de un sistema Big Data Entender las diferentes tipologías y arquitecturas de un sistema Big Data, siendo capaz de indentificar qué arquitectura se debería desarrollar según las características de cada problema, incluyendo las especificidades de datos y entornos. Introduciremos los dos sistemas principales de cálculo distribuido, MapReduce y Apache Spark, haciendo énfasis en sus fortalezas y debilidades. Seguidamente definiremos las tareas que realizan los gestores de recursos, centrándonos en Apache Mesos y YARN. 3) Captura, pre-procesamiento y almacenamiento de datos masivos Conocer las características básicas de los procesos de captura, pre-procesamiento y almacenamiento de datos en entornos Big Data. Es decir, ser capaz de entender las peculiaridades que implica el Big Data en cada una de estas fases del análisis de datos y conocer las principales herramientas y tecnologías Big Data que lo apoyan. Discutiremos el almacenaje y gestión de la información, centrándonos en el sistema de ficheros distribuido HDFS y las bases de datos NoSQL. 4) Análisis de datos masivos: Técnicas fundamentales Conocer y entender las las principales técnicas y herramientas de minería de datos y machine learning para datos masivos. Saber qué las diferencia de las técnicas y herramientas minería de datos tradicionales, y cuándo y cómo hay que utilizarlas. Veremos las herramientas para procesamiento en batch, haciendo especial énfasis en los ecosistemas Apache Hadoop y Apache Spark. Seguiremos con las herramientas para procesamiento en streaming, donde veremos los frameworks Apache Flume, Apache Kafka, Spark Streaming y Apache Storm. 5) Análisis de datos masivos: Técnicas avanzadas En este módulo se introducen técnicas avanzadas relacionadas con la minería de datos y el aprendizaje automático. En concreto, se verán técnicas relacionadas con el análisis de grafos (graph mining), el análisis de texto (text mining) y el procesamiento de datos en streaming. |
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados. La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la asignatura es una infracción que puede tener consecuencias académicas graves. El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación correspondiente) o de otro estudiante, o por cualquier otra conducta irregular. La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la asignatura según indique este plan docente). Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos y la información relativos al caso. Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si procede, de la sanción que corresponda. La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y garantizar la excelencia y la calidad de su modelo educativo. |
||||||||||||||||||||||||||||||||||
|