Anàlisi de dades en entorns Big Data Codi:  M2.958    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Consulta del model d'avaluació  
ATENCIÓ: Aquest és el pla docent de l'assignatura per al primer semestre del curs 2020-2021. Us servirà per planificar la matrícula. Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)

Aquesta assignatura constitueix una introducció a les tecnologies relacionades amb els sistemes de Big Data. Iniciarem aquesta assignatura analitzant l'estructura tecnològica que es troba darrere d'un projecte de Big Data, i que inclou aspectes rellevants, com per exemple, el sistema d'emmagatzematge i càlcul distribuït o la gestió dels recursos del clúster. Continuarem veient els tres principals models de processament distribuït: processament batch, real-time o streaming i basat en esdeveniments complexos. Veurem les principals funcions i característiques dels frameworks més utilitzats en l'actualitat, prestant especial atenció als dos grans estàndards de la indústria: Apache Hadoop i Apache Spark. Finalitzarem aquesta assignatura revisant les principals llibreries d'anàlisi de dades, incloent temes d'aprenentatge automàtic (machine learning), anàlisi de grafs i visualització de dades massives.

Amunt

Aquesta assignatura pertany al conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science).

Amunt

L'assignatura proporciona coneixements que seran d'utilitat en diferents àmbits professionals, com són la programació de sistemes que requereixin l'ús de dades massius, la ciència de dades o la direcció o consultoria de projectes basats en sistemes Big Data, entre d'altres.

Amunt

El curs requereix que els estudiants tinguin coneixements de programació (preferiblement en llenguatge Python), així com coneixements d'anàlisi de dades, aprenentatge automàtic (machine learning) i xarxes de computadors.

Es recomana haver cursat l'assignatura "Models avançats de mineria de dades" abans de cursar aquesta assignatura.

A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Així mateix també cal que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials addicionals i altres recursos, estan en aquest idioma.

Amunt

Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Entendre els conceptes i les definicions formals associades als conceptes de Big Data i afins.
  • Identificar els elements tecnològics necessaris en qualsevol projecte basat en l'ús de Big Data.
  • Conèixer les metodologies més adequades per a la implementació de sistemes de Big Data.
  • Conèixer les principals eines disponibles en l'ecosistema de Big Data, especialment dels ecosistemes d'Apache Hadoop i Apache Spark.
  • Construir models que generin coneixement com a resultat d'un anàlisi basat en tecnologia Big Data.
  • Conèixer el funcionament bàsic de les principals eines i frameworks de Big Data, com ara HDFS o Apahe Spark.

Amunt

L'assignatura consta de 5 blocs temàtics, cadascun dels quals recolzat per un material didàctic.

El contingut associat a cada bloc temàtic és el que es detalla a continuació:

1) Introducció al Big Data

En aquest primer mòdul s'introdueix el concepte de Big Data i es discuteix el canvi de model i paradigma que implica aquest concepte.

2) Tipologies i arquitectures d'un sistema Big Data

Entendre les diferents tipologies i arquitectures d'un sistema Big Data, sent capaç d'identificar quines arquitectures caldria desenvolupar segons les característiques de cada problema, incloent les especificitats de dades i entorns.

Introduirem els dos sistemes principals de càlcul distribuït, MapReduce i Apache Spark, fent èmfasi en les seves fortaleses i debilitats. Seguidament definirem les tasques que realitzen els gestors de recursos, centrant-nos en Apache Mesos i YARN.

3) Captura, pre-processament i emmagatzematge de dades massives

Conèixer les característiques bàsiques dels processos de captura, pre-processament i emmagatzematge de dades en entorns Big Data. És a dir, ser capaç d'entendre les peculiaritats que implica el Big Data en cadascuna d'aquestes fases de l'anàlisi de dades i conèixer les principals eines i tecnologies Big Data que li donen suport.

Discutirem l'emmagatzematge i gestió de la informació, centrant-nos en el sistema de fitxers distribuït HDFS i les bases de dades NoSQL.

4) Anàlisi de dades massius: Tècniques fonamentals

Conèixer i entendre les principals tècniques i eines de mineria de dades i machine learning per dades massives. Saber què les diferencia de les tècniques i eines mineria de dades tradicionals, i quan i com cal utilitzar-les.

Veurem les eines per a processament en batch, fent especial èmfasi en els ecosistemes Apache Hadoop i Apache Spark. Seguirem amb les eines per a processament en streaming, on veurem els frameworks Apache Flume, Apache Kafka, Spark Streaming i Apache Storm.

5) Anàlisi de dades massius: Tècniques avançades

En aquest mòdul s'introdueixen tècniques avançades relacionades amb la mineria de dades i l'aprenentatge automàtic. En concret, es veuran tècniques relacionades amb l'anàlisi de grafs (graph mining), l'anàlisi de text (text mining) i el processament de dades en streaming.

Amunt

Tipologies i arquitectures d'un sistema big data PDF
Anàlisi de dades massives. Tècniques fonamentals PDF
Vídeo presentació PLA 5.1. Anàlisi de dades massives. Tècniques avançades Audiovisual
Vídeo presentació PLA 3.1. Captura, pre-processament i emmatgazematge de dades Audiovisual
Anàlisi de dades massives. Tècniques avançades PDF
Introducció al big data PDF
Vídeo continguts PLA 4.2. Anàlisi de dades massives Audiovisual
Vídeo continguts PLA 2.1. Tipologies i arquitectures d'un sistema Big Data Audiovisual
Vídeo presentació PLA 2.1. Tipologies i arquitectures d'un sistema Big Data Audiovisual
Vídeo presentació PLA 4.1. Anàlisi de dades massives Audiovisual
Vídeo presentació PLA 1.1. Introducció a les dades massives (Big Data) Audiovisual
Espai de recursos de ciència de dades Web
Captura, pre-processament i emmagatzematge de dades massives PDF
Vídeo continguts PLA 1.2. Introducció a les dades massives (Big Data) Audiovisual
Vídeo continguts PLA 5.2. Anàlisi de dades massives. Tècniques avançades Audiovisual
Vídeo continguts PLA 3.2. Captura, pre-processament i emmatgazematge de dades Audiovisual

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt