Anàlisi de dades en entorns Big Data	Codi: M2.958 : 6

Consulta de les dades generals Descripció L'assignatura en el conjunt del pla d'estudis Camps professionals en què es projecta Coneixements previs Objectius i competències Continguts Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura Informacions sobre l'avaluació a la UOC Consulta del model d'avaluació

Aquest és el pla docent de l'assignatura per al segon semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Descripció

Aquesta assignatura constitueix una introducció a les tecnologies relacionades amb els sistemes de Big Data. Iniciarem aquesta assignatura analitzant l'estructura tecnològica que es troba darrere d'un projecte de Big Data, i que inclou aspectes rellevants, com per exemple, el sistema d'emmagatzematge i càlcul distribuït o la gestió dels recursos del clúster. Continuarem veient els tres principals models de processament distribuït: processament batch, real-time o streaming i basat en esdeveniments complexos. Veurem les principals funcions i característiques dels frameworks més utilitzats en l'actualitat, prestant especial atenció als dos grans estàndards de la indústria: Apache Hadoop i Apache Spark. Finalitzarem aquesta assignatura revisant les principals llibreries d'anàlisi de dades, incloent temes d'aprenentatge automàtic (machine learning), anàlisi de grafs i visualització de dades massives.

L'assignatura en el conjunt del pla d'estudis

Aquesta assignatura pertany al conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science).

Camps professionals en què es projecta

L'assignatura proporciona coneixements que seran d'utilitat en diferents àmbits professionals, com són la programació de sistemes que requereixin l'ús de dades massius, la ciència de dades o la direcció o consultoria de projectes basats en sistemes Big Data, entre d'altres.

Coneixements previs

El curs requereix que els estudiants tinguin coneixements de programació (preferiblement en llenguatge Python), així com coneixements d'anàlisi de dades, aprenentatge automàtic (machine learning) i xarxes de computadors.

Es recomana haver cursat l'assignatura "Models avançats de mineria de dades" abans de cursar aquesta assignatura.

A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Així mateix també cal que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials addicionals i altres recursos, estan en aquest idioma.

Objectius i competències

Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

Entendre els conceptes i les definicions formals associades als conceptes de Big Data i afins.
Identificar els elements tecnològics necessaris en qualsevol projecte basat en l'ús de Big Data.
Conèixer les metodologies més adequades per a la implementació de sistemes de Big Data.
Conèixer les principals eines disponibles en l'ecosistema de Big Data, especialment dels ecosistemes d'Apache Hadoop i Apache Spark.
Construir models que generin coneixement com a resultat d'un anàlisi basat en tecnologia Big Data.
Conèixer el funcionament bàsic de les principals eines i frameworks de Big Data, com ara HDFS o Apahe Spark.

Continguts

L’assignatura consta de 9 blocs temàtics, cadascun dels quals està recolzat per un material didàctic i una sèrie d'exercicis. El contingut associat a cada bloc temàtic és el següent:

1) L'Evolució de l'Anàlisi de Dades: Del Passat Manual a la Super-Computació

En aquest mòdul, s'explora l'evolució històrica de la necessitat d'analitzar dades massives, des dels primers registres en art rupestre fins a l'era del Big Data, impulsada per avanços en la supercomputació i la generació massiva de dades en camps com l'astronomia i la genètica. A més, s'estableix una distinció crucial entre dades, informació i coneixement. En el segon bloc, s'aborden conceptes essencials, com la caracterització d'algoritmes, la seva paral·lelització i complexitat algorítmica.

2) Descobrint el Big Data: Captura, Emmagatzematge i Més!

Aquest mòdul s'inicia amb una introducció al concepte de Big Data i les seves propietats essencials, abordant tecnologies clau com l'emmagatzematge distribuït i les bases de dades NoSQL. A més, s'explora la captura de dades en modalitats batch i en temps real, i s'examina com l'ús de GPUs pot potenciar l'anàlisi de dades massives.

3) Optimitzant l'Ús de Recursos en Sistemes d'Anàlisi de Dades Massives

En sistemes Big Data, complexos i utilitzats per múltiples usuaris per a diverses tasques, l'assignació equitativa de recursos com la RAM, la CPU i la capacitat de xarxa és crucial i és responsabilitat dels programes gestors de recursos. En aquest mòdul, explorarem diversos gestors de recursos a diferents nivells d'abstracció, des de conceptes bàsics fins a Apache Yarn (àmpliament utilitzat en sistemes Hadoop) i altres com Apache Mesos, Apache Myriad i Kubernetes, segons la complexitat de les tasques a coordinar.

4) Descobrint l'Anàlisi de Dades Massives: Arquitectures, MapReduce i Spark

Aquest mòdul es centra a proporcionar les bases teòriques necessàries per comprendre les eines i tecnologies en constant evolució en l'anàlisi de dades massius (Big Data), sense enumerar totes les tecnologies disponibles. Es revisen conceptes clau, com el model MapReduce en Apache Hadoop i l'enfocament d'anàlisi de dades en Apache Spark, destacant les seves diferències. A més, s'examinen diverses arquitectures de processament de dades massius, com l'arquitectura Lambda, i s'aborda el processament pràctic amb Apache Spark, incloent Resilient Distributed Datasets (RDDs) i DataFrames en diferents tipus de dades.

5) Automatització Intel·ligent: Simplificant Tasques amb Oozie, Airflow i NiFi

En sistemes informàtics, incloent el processament de dades Big Data, és comú automatitzar tasques perquè s'executin de forma desatesa. Per a aquest propòsit en l'àmbit de Big Data, existeixen eines específiques que permeten automatitzar fluxos d'execució amb o sense lògica seqüencial. En aquest mòdul, s'exploraran tres alternatives per a l'automatització de processos: Apache Oozie per a entorns Hadoop, Airflow i planificadors escalables independents. També s'abordarà la integració de dades a gran escala amb Apache Nifi i es mencionaran les opcions de planificadors a la núvol i l'evolució d'aquests sistemes en el context de les tecnologies de processament de fluxos.

6) Processat de Dades en Flux: De l'Origen a l'Anàlisi Avançat

En aquest mòdul, s'estudia el processament de fluxos de dades, començant amb conceptes bàsics i sistemes de captura de dades en flux. S'exploren les característiques necessàries en sistemes Big Data per a aquesta anàlisi i es presenten arquitectures clau com Lambda i Kappa. També es detalla una arquitectura específica amb tecnologies populars. A més, es cobreixen aspectes tècnics, algoritmes per a l'anàlisi de dades en flux i es treballa en la captura de dades utilitzant Flume i Kafka.

7) Aprenentatge Continu: Navegant les Dades en Constant Evolució

En l'era digital actual, el flux constant de dades en temps real és un desafiament crucial en la ciència de dades. Aquest mòdul es centra en l'aprenentatge incremental per abordar el processament de dades en flux, explorant com els algoritmes d'aprenentatge s'adapten a aquestes fonts de dades i superen l'enfocament d'entrenament per lots. S'analitzen les particularitats dels algoritmes de machine learning en dades en flux en lloc d'enumerar una varietat d'algoritmes.

8) Big Data a la Núvol: Els Nous Superpoders de l'Anàlisi de Dades

Aquest mòdul es centra en les tecnologies de Big Data a la núvol, que han sorgit com a solucions per superar els obstacles associats amb la instal·lació i administració de sistemes Big Data en maquinari propi. S'exploren els tres principals proveïdors a la núvol: Amazon, Azure i Google Cloud, destacant les seves avantatges i reptes. Això permet a empreses de diferents mides accedir a serveis de Big Data sense la necessitat d'una inversió inicial significativa i sense la complexitat de l'administració tècnica.

9) Exploració i Anàlisi de les Tendències Innovadores en Big Data

L'objectiu d'aquest mòdul és que els estudiants explorin les tendències més recents en el camp del Big Data, mantenint-se al dia en una àrea en constant evolució i desenvolupant una comprensió més profunda de les possibilitats de l'anàlisi de dades a gran escala. Els estudiants treballen en equips per investigar i analitzar una tendència emergent en el camp del Big Data, identificant la seva rellevància, estat actual i aplicacions, i presentant els seus descobriments de manera col·laborativa. Aquesta activitat promou l'enteniment de les innovacions en el tractament de dades massives i la seva aplicació en diversos contextos.

Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura


Introducció al big data	PDF
Tipologies i arquitectures d'un sistema big data	PDF
Captura, pre-processament i emmagatzematge de dades massives	PDF
Anàlisi de dades massives. Tècniques fonamentals	PDF
Anàlisi de dades massives. Tècniques avançades	PDF
Vídeo presentació PLA 1.1. Introducció a les dades massives (Big Data)	Audiovisual
Vídeo continguts PLA 1.2. Introducció a les dades massives (Big Data)	Audiovisual
Vídeo presentació PLA 2.1. Tipologies i arquitectures d'un sistema Big Data	Audiovisual
Vídeo continguts PLA 2.1. Tipologies i arquitectures d'un sistema Big Data	Audiovisual
Vídeo presentació PLA 3.1. Captura, pre-processament i emmatgazematge de dades	Audiovisual
Vídeo continguts PLA 3.2. Captura, pre-processament i emmatgazematge de dades	Audiovisual
Vídeo presentació PLA 4.1. Anàlisi de dades massives	Audiovisual
Vídeo continguts PLA 4.2. Anàlisi de dades massives	Audiovisual
Vídeo presentació PLA 5.1. Anàlisi de dades massives. Tècniques avançades	Audiovisual
Vídeo continguts PLA 5.2. Anàlisi de dades massives. Tècniques avançades	Audiovisual
Espai de recursos de ciència de dades	Web
Ús de dataframes amb Apache Spark	Audiovisual
Ús de RDDs amb Apache Spark	Audiovisual
Apache Flume. Documentación	Audiovisual
Apache Flume. Configuración	Audiovisual
Apache Flume. Implementación sources	Audiovisual
Apache Flume. Agente	Audiovisual

Informacions sobre l'avaluació a la UOC

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

Sol·licitar a l'estudiant que acrediti la seva identitat segons l'establert a la normativa acadèmica.
Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant avaluació contínua com avaluació final, per mitjà d'una prova oral o els mitjans síncrons o asíncrons que estableixi la Universitat. Aquests mitjans tindran per objecte verificar els coneixements i les competències que garanteixin l'autoria; en cap cas no implicaran una segona avaluació. Si no és possible garantir l'autoria de l'estudiant, la prova serà qualificada amb D, en el cas de l'avaluació contínua, o amb un Suspens, en el cas de l'avaluació final.
A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació; és responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

Consulta del model d'avaluació

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.