Anàlisi de dades en entorns Big Data Codi:  M2.958    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Aquesta assignatura constitueix una introducció a les tecnologies relacionades amb els sistemes de Big Data. Iniciarem aquesta assignatura analitzant l'estructura tecnològica que es troba darrere d'un projecte de Big Data, i que inclou aspectes rellevants, com per exemple, el sistema d'emmagatzematge i càlcul distribuït o la gestió dels recursos del clúster. Continuarem veient els tres principals models de processament distribuït: processament batch, real-time o streaming i basat en esdeveniments complexos. Veurem les principals funcions i característiques dels frameworks més utilitzats en l'actualitat, prestant especial atenció als dos grans estàndards de la indústria: Apache Hadoop i Apache Spark. Finalitzarem aquesta assignatura revisant les principals llibreries d'anàlisi de dades, incloent temes d'aprenentatge automàtic (machine learning), anàlisi de grafs i visualització de dades massives.

Amunt

Aquesta assignatura pertany al conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science).

Amunt

L'assignatura proporciona coneixements que seran d'utilitat en diferents àmbits professionals, com són la programació de sistemes que requereixin l'ús de dades massius, la ciència de dades o la direcció o consultoria de projectes basats en sistemes Big Data, entre d'altres.

Amunt

El curs requereix que els estudiants tinguin coneixements de programació (preferiblement en llenguatge Python), així com coneixements d'anàlisi de dades, aprenentatge automàtic (machine learning) i xarxes de computadors.

Es recomana haver cursat l'assignatura "Models avançats de mineria de dades" abans de cursar aquesta assignatura.

A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Així mateix també cal que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials addicionals i altres recursos, estan en aquest idioma.

Amunt

Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Entendre els conceptes i les definicions formals associades als conceptes de Big Data i afins.
  • Identificar els elements tecnològics necessaris en qualsevol projecte basat en l'ús de Big Data.
  • Conèixer les metodologies més adequades per a la implementació de sistemes de Big Data.
  • Conèixer les principals eines disponibles en l'ecosistema de Big Data, especialment dels ecosistemes d'Apache Hadoop i Apache Spark.
  • Construir models que generin coneixement com a resultat d'un anàlisi basat en tecnologia Big Data.
  • Conèixer el funcionament bàsic de les principals eines i frameworks de Big Data, com ara HDFS o Apahe Spark.

Amunt

L'assignatura consta de 6 blocs temàtics, cadascun dels quals recolzat per un material didàctic.

El contingut associat a cada bloc temàtic és el que es detalla a continuació:

1) Introducció al Big Data

En aquest primer mòdul s'introdueix el concepte de Big Data i es discuteix el canvi de model i paradigma que implica aquest concepte.

2) Tipologies i arquitectures d'un sistema Big Data

Entendre les diferents tipologies i arquitectures d'un sistema Big Data, sent capaç d'identificar quines arquitectures caldria desenvolupar segons les característiques de cada problema, incloent les especificitats de dades i entorns.

Introduirem els dos sistemes principals de càlcul distribuït, MapReduce i Apache Spark, fent èmfasi en les seves fortaleses i debilitats. Seguidament definirem les tasques que realitzen els gestors de recursos, centrant-nos en Apache Mesos i YARN.

3) Captura, pre-processament i emmagatzematge de dades massives

Conèixer les característiques bàsiques dels processos de captura, pre-processament i emmagatzematge de dades en entorns Big Data. És a dir, ser capaç d'entendre les peculiaritats que implica el Big Data en cadascuna d'aquestes fases de l'anàlisi de dades i conèixer les principals eines i tecnologies Big Data que li donen suport.

Discutirem l'emmagatzematge i gestió de la informació, centrant-nos en el sistema de fitxers distribuït HDFS i les bases de dades NoSQL.

4) Anàlisi de dades massius: Tècniques fonamentals

Conèixer i entendre les principals tècniques i eines de mineria de dades i machine learning per dades massives. Saber què les diferencia de les tècniques i eines mineria de dades tradicionals, i quan i com cal utilitzar-les.

Veurem les eines per a processament en batch, fent especial èmfasi en els ecosistemes Apache Hadoop i Apache Spark. Seguirem amb les eines per a processament en streaming, on veurem els frameworks Apache Flume, Apache Kafka, Spark Streaming i Apache Storm.

5) Anàlisi de dades massius: Tècniques avançades

En aquest mòdul s'introdueixen tècniques avançades relacionades amb la mineria de dades i l'aprenentatge automàtic. En concret, es veuran tècniques relacionades amb l'anàlisi de grafs (graph mining), l'anàlisi de text (text mining) i el processament de dades en streaming.

6) Incremental learning

En aquest mòdul de l'assignatura revisarem les oportunitats ofereix el camp de l'aprenentatge automàtic quan les dades arriben en forma de flux. Revisarem els models supervisats i no supervisats, entrant en detall en dos exemples concrets: model d'agrupament K-means (no supervisat) i la regressió lineal (supervisat). Encara que l'alumne ja conegui aquests models, àmpliament usats, veurem que la forma de treballar-los canvia substancialment quan les dades arriben en flux. Finalment, revisarem diversos casos d'ús que l'alumne podrà treballar per consolidar els conceptes vistos en aquest mòdul.

Amunt

Introducció al big data PDF
Tipologies i arquitectures d'un sistema big data PDF
Captura, pre-processament i emmagatzematge de dades massives PDF
Anàlisi de dades massives. Tècniques fonamentals PDF
Anàlisi de dades massives. Tècniques avançades PDF
Vídeo presentació PLA 1.1. Introducció a les dades massives (Big Data) Audiovisual
Vídeo continguts PLA 1.2. Introducció a les dades massives (Big Data) Audiovisual
Vídeo presentació PLA 2.1. Tipologies i arquitectures d'un sistema Big Data Audiovisual
Vídeo continguts PLA 2.1. Tipologies i arquitectures d'un sistema Big Data Audiovisual
Vídeo presentació PLA 3.1. Captura, pre-processament i emmatgazematge de dades Audiovisual
Vídeo continguts PLA 3.2. Captura, pre-processament i emmatgazematge de dades Audiovisual
Vídeo presentació PLA 4.1. Anàlisi de dades massives Audiovisual
Vídeo continguts PLA 4.2. Anàlisi de dades massives Audiovisual
Vídeo presentació PLA 5.1. Anàlisi de dades massives. Tècniques avançades Audiovisual
Vídeo continguts PLA 5.2. Anàlisi de dades massives. Tècniques avançades Audiovisual
Espai de recursos de ciència de dades Web
Ús de dataframes amb Apache Spark Audiovisual
Ús de RDDs amb Apache Spark Audiovisual
Apache Flume. Documentación Audiovisual
Apache Flume. Configuración Audiovisual
Apache Flume. Implementación sources Audiovisual
Apache Flume. Agente Audiovisual

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent - incloses les proves finals - o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

La UOC es reserva la potestat de sol·licitar a l'estudiant que s'identifiqui o que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació pels mitjans que estableixi la Universitat (síncrons o asíncrons). A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació i que s'asseguri que funcionen correctament.

La verificació dels coneixements per garantir l'autoria de la prova no implicarà en cap cas una segona avaluació.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt