|
||||||||||||||||||||||||||||||||||
Consulta de les dades generals Descripció L'assignatura en el conjunt del pla d'estudis Camps professionals en què es projecta Coneixements previs Objectius i competències Continguts Consulta dels recursos d'aprenentatge de què disposa l'assignatura Consulta del model d'avaluació | ||||||||||||||||||||||||||||||||||
ATENCIÓ: Aquest és el pla docent de l'assignatura per al primer semestre del curs 2020-2021. Us servirà per planificar la matrícula. Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.) | ||||||||||||||||||||||||||||||||||
Aquesta assignatura constitueix una introducció a les tecnologies relacionades amb els sistemes de Big Data. Iniciarem aquesta assignatura analitzant l'estructura tecnològica que es troba darrere d'un projecte de Big Data, i que inclou aspectes rellevants, com per exemple, el sistema d'emmagatzematge i càlcul distribuït o la gestió dels recursos del clúster. Continuarem veient els tres principals models de processament distribuït: processament batch, real-time o streaming i basat en esdeveniments complexos. Veurem les principals funcions i característiques dels frameworks més utilitzats en l'actualitat, prestant especial atenció als dos grans estàndards de la indústria: Apache Hadoop i Apache Spark. Finalitzarem aquesta assignatura revisant les principals llibreries d'anàlisi de dades, incloent temes d'aprenentatge automàtic (machine learning), anàlisi de grafs i visualització de dades massives. |
||||||||||||||||||||||||||||||||||
Aquesta assignatura pertany al conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science). |
||||||||||||||||||||||||||||||||||
L'assignatura proporciona coneixements que seran d'utilitat en diferents àmbits professionals, com són la programació de sistemes que requereixin l'ús de dades massius, la ciència de dades o la direcció o consultoria de projectes basats en sistemes Big Data, entre d'altres. |
||||||||||||||||||||||||||||||||||
El curs requereix que els estudiants tinguin coneixements de programació (preferiblement en llenguatge Python), així com coneixements d'anàlisi de dades, aprenentatge automàtic (machine learning) i xarxes de computadors. Es recomana haver cursat l'assignatura "Models avançats de mineria de dades" abans de cursar aquesta assignatura. A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita. Així mateix també cal que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials addicionals i altres recursos, estan en aquest idioma. |
||||||||||||||||||||||||||||||||||
Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:
|
||||||||||||||||||||||||||||||||||
L'assignatura consta de 5 blocs temàtics, cadascun dels quals recolzat per un material didàctic. El contingut associat a cada bloc temàtic és el que es detalla a continuació: 1) Introducció al Big Data En aquest primer mòdul s'introdueix el concepte de Big Data i es discuteix el canvi de model i paradigma que implica aquest concepte. 2) Tipologies i arquitectures d'un sistema Big Data Entendre les diferents tipologies i arquitectures d'un sistema Big Data, sent capaç d'identificar quines arquitectures caldria desenvolupar segons les característiques de cada problema, incloent les especificitats de dades i entorns. Introduirem els dos sistemes principals de càlcul distribuït, MapReduce i Apache Spark, fent èmfasi en les seves fortaleses i debilitats. Seguidament definirem les tasques que realitzen els gestors de recursos, centrant-nos en Apache Mesos i YARN. 3) Captura, pre-processament i emmagatzematge de dades massives Conèixer les característiques bàsiques dels processos de captura, pre-processament i emmagatzematge de dades en entorns Big Data. És a dir, ser capaç d'entendre les peculiaritats que implica el Big Data en cadascuna d'aquestes fases de l'anàlisi de dades i conèixer les principals eines i tecnologies Big Data que li donen suport. Discutirem l'emmagatzematge i gestió de la informació, centrant-nos en el sistema de fitxers distribuït HDFS i les bases de dades NoSQL. 4) Anàlisi de dades massius: Tècniques fonamentals Conèixer i entendre les principals tècniques i eines de mineria de dades i machine learning per dades massives. Saber què les diferencia de les tècniques i eines mineria de dades tradicionals, i quan i com cal utilitzar-les. Veurem les eines per a processament en batch, fent especial èmfasi en els ecosistemes Apache Hadoop i Apache Spark. Seguirem amb les eines per a processament en streaming, on veurem els frameworks Apache Flume, Apache Kafka, Spark Streaming i Apache Storm. 5) Anàlisi de dades massius: Tècniques avançades En aquest mòdul s'introdueixen tècniques avançades relacionades amb la mineria de dades i l'aprenentatge automàtic. En concret, es veuran tècniques relacionades amb l'anàlisi de grafs (graph mining), l'anàlisi de text (text mining) i el processament de dades en streaming. |
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
|