|
||||||||||||||||||||||||||||||||||
Consulta de les dades generals Descripció L'assignatura en el conjunt del pla d'estudis Camps professionals en què es projecta Coneixements previs Objectius i competències Continguts Consulta dels recursos d'aprenentatge de què disposa l'assignatura Informacions sobre l'avaluació a la UOC Consulta del model d'avaluació | ||||||||||||||||||||||||||||||||||
Aquest és el pla docent de l'assignatura. Us servirà per planificar la matrícula (consulteu si l'assignatura s'ofereix aquest semestre a l'espai del Campus Més UOC / La Universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.) | ||||||||||||||||||||||||||||||||||
Aquesta assignatura constitueix una introducció a les tecnologies relacionades amb els sistemes de Big Data. Iniciarem aquesta assignatura analitzant l'estructura tecnològica que es troba darrere d'un projecte de Big Data, i que inclou aspectes rellevants, com per exemple, el sistema d'emmagatzematge i càlcul distribuït o la gestió dels recursos del clúster. Continuarem veient els tres principals models de processament distribuït: processament batch, real-time o streaming i basat en esdeveniments complexos. Veurem les principals funcions i característiques dels frameworks més utilitzats en l'actualitat, prestant especial atenció als dos grans estàndards de la indústria: Apache Hadoop i Apache Spark. Finalitzarem aquesta assignatura revisant les principals llibreries d'anàlisi de dades, incloent temes d'aprenentatge automàtic (machine learning), anàlisi de grafs i visualització de dades massives. |
||||||||||||||||||||||||||||||||||
Aquesta assignatura pertany al conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science). |
||||||||||||||||||||||||||||||||||
L'assignatura proporciona coneixements que seran d'utilitat en diferents àmbits professionals, com són la programació de sistemes que requereixin l'ús de dades massius, la ciència de dades o la direcció o consultoria de projectes basats en sistemes Big Data, entre d'altres. |
||||||||||||||||||||||||||||||||||
El curs requereix que els estudiants tinguin coneixements de programació (preferiblement en llenguatge Python), així com coneixements d'anàlisi de dades, aprenentatge automàtic (machine learning) i xarxes de computadors. Es recomana haver cursat l'assignatura "Models avançats de mineria de dades" abans de cursar aquesta assignatura. A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita. Així mateix també cal que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials addicionals i altres recursos, estan en aquest idioma. |
||||||||||||||||||||||||||||||||||
Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:
|
||||||||||||||||||||||||||||||||||
L'assignatura consta de 5 blocs temàtics, cadascun dels quals recolzat per un material didàctic. El contingut associat a cada bloc temàtic és el que es detalla a continuació: 1) Introducció al Big Data En aquest primer mòdul s'introdueix el concepte de Big Data i es discuteix el canvi de model i paradigma que implica aquest concepte. 2) Tipologies i arquitectures d'un sistema Big Data Entendre les diferents tipologies i arquitectures d'un sistema Big Data, sent capaç d'identificar quines arquitectures caldria desenvolupar segons les característiques de cada problema, incloent les especificitats de dades i entorns. Introduirem els dos sistemes principals de càlcul distribuït, MapReduce i Apache Spark, fent èmfasi en les seves fortaleses i debilitats. Seguidament definirem les tasques que realitzen els gestors de recursos, centrant-nos en Apache Mesos i YARN. 3) Captura, pre-processament i emmagatzematge de dades massives Conèixer les característiques bàsiques dels processos de captura, pre-processament i emmagatzematge de dades en entorns Big Data. És a dir, ser capaç d'entendre les peculiaritats que implica el Big Data en cadascuna d'aquestes fases de l'anàlisi de dades i conèixer les principals eines i tecnologies Big Data que li donen suport. Discutirem l'emmagatzematge i gestió de la informació, centrant-nos en el sistema de fitxers distribuït HDFS i les bases de dades NoSQL. 4) Anàlisi de dades massius: Tècniques fonamentals Conèixer i entendre les principals tècniques i eines de mineria de dades i machine learning per dades massives. Saber què les diferencia de les tècniques i eines mineria de dades tradicionals, i quan i com cal utilitzar-les. Veurem les eines per a processament en batch, fent especial èmfasi en els ecosistemes Apache Hadoop i Apache Spark. Seguirem amb les eines per a processament en streaming, on veurem els frameworks Apache Flume, Apache Kafka, Spark Streaming i Apache Storm. 5) Anàlisi de dades massius: Tècniques avançades En aquest mòdul s'introdueixen tècniques avançades relacionades amb la mineria de dades i l'aprenentatge automàtic. En concret, es veuran tècniques relacionades amb l'anàlisi de grafs (graph mining), l'anàlisi de text (text mining) i el processament de dades en streaming. |
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats. La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus. D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent incloses les proves finals o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular. De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui. |
||||||||||||||||||||||||||||||||||
|