|
||||||||||||||||||||||||||||||||||||||||||||||
Consulta de les dades generals Descripció L'assignatura en el conjunt del pla d'estudis Camps professionals en què es projecta Coneixements previs Objectius i competències Continguts Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura Informacions sobre l'avaluació a la UOC Consulta del model d'avaluació | ||||||||||||||||||||||||||||||||||||||||||||||
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2023-2024. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis. | ||||||||||||||||||||||||||||||||||||||||||||||
Aquesta assignatura constitueix una introducció a les tecnologies relacionades amb els sistemes de Big Data. Iniciarem aquesta assignatura analitzant l'estructura tecnològica que es troba darrere d'un projecte de Big Data, i que inclou aspectes rellevants, com per exemple, el sistema d'emmagatzematge i càlcul distribuït o la gestió dels recursos del clúster. Continuarem veient els tres principals models de processament distribuït: processament batch, real-time o streaming i basat en esdeveniments complexos. Veurem les principals funcions i característiques dels frameworks més utilitzats en l'actualitat, prestant especial atenció als dos grans estàndards de la indústria: Apache Hadoop i Apache Spark. Finalitzarem aquesta assignatura revisant les principals llibreries d'anàlisi de dades, incloent temes d'aprenentatge automàtic (machine learning), anàlisi de grafs i visualització de dades massives. |
||||||||||||||||||||||||||||||||||||||||||||||
Aquesta assignatura pertany al conjunt d'assignatures optatives del Màster universitari en Ciència de dades (Data Science). |
||||||||||||||||||||||||||||||||||||||||||||||
L'assignatura proporciona coneixements que seran d'utilitat en diferents àmbits professionals, com són la programació de sistemes que requereixin l'ús de dades massius, la ciència de dades o la direcció o consultoria de projectes basats en sistemes Big Data, entre d'altres. |
||||||||||||||||||||||||||||||||||||||||||||||
El curs requereix que els estudiants tinguin coneixements de programació (preferiblement en llenguatge Python), així com coneixements d'anàlisi de dades, aprenentatge automàtic (machine learning) i xarxes de computadors. Es recomana haver cursat l'assignatura "Models avançats de mineria de dades" abans de cursar aquesta assignatura. A més, com la metodologia inclou estudis de casos i la investigació autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la recerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita. Així mateix també cal que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials addicionals i altres recursos, estan en aquest idioma. |
||||||||||||||||||||||||||||||||||||||||||||||
Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:
|
||||||||||||||||||||||||||||||||||||||||||||||
L'assignatura consta de 6 blocs temàtics, cadascun dels quals recolzat per un material didàctic. El contingut associat a cada bloc temàtic és el que es detalla a continuació: 1) Introducció al Big Data En aquest primer mòdul s'introdueix el concepte de Big Data i es discuteix el canvi de model i paradigma que implica aquest concepte. 2) Tipologies i arquitectures d'un sistema Big Data Entendre les diferents tipologies i arquitectures d'un sistema Big Data, sent capaç d'identificar quines arquitectures caldria desenvolupar segons les característiques de cada problema, incloent les especificitats de dades i entorns. Introduirem els dos sistemes principals de càlcul distribuït, MapReduce i Apache Spark, fent èmfasi en les seves fortaleses i debilitats. Seguidament definirem les tasques que realitzen els gestors de recursos, centrant-nos en Apache Mesos i YARN. 3) Captura, pre-processament i emmagatzematge de dades massives Conèixer les característiques bàsiques dels processos de captura, pre-processament i emmagatzematge de dades en entorns Big Data. És a dir, ser capaç d'entendre les peculiaritats que implica el Big Data en cadascuna d'aquestes fases de l'anàlisi de dades i conèixer les principals eines i tecnologies Big Data que li donen suport. Discutirem l'emmagatzematge i gestió de la informació, centrant-nos en el sistema de fitxers distribuït HDFS i les bases de dades NoSQL. 4) Anàlisi de dades massius: Tècniques fonamentals Conèixer i entendre les principals tècniques i eines de mineria de dades i machine learning per dades massives. Saber què les diferencia de les tècniques i eines mineria de dades tradicionals, i quan i com cal utilitzar-les. Veurem les eines per a processament en batch, fent especial èmfasi en els ecosistemes Apache Hadoop i Apache Spark. Seguirem amb les eines per a processament en streaming, on veurem els frameworks Apache Flume, Apache Kafka, Spark Streaming i Apache Storm. 5) Anàlisi de dades massius: Tècniques avançades En aquest mòdul s'introdueixen tècniques avançades relacionades amb la mineria de dades i l'aprenentatge automàtic. En concret, es veuran tècniques relacionades amb l'anàlisi de grafs (graph mining), l'anàlisi de text (text mining) i el processament de dades en streaming. 6) Incremental learning En aquest mòdul de l'assignatura revisarem les oportunitats ofereix el camp de l'aprenentatge automàtic quan les dades arriben en forma de flux. Revisarem els models supervisats i no supervisats, entrant en detall en dos exemples concrets: model d'agrupament K-means (no supervisat) i la regressió lineal (supervisat). Encara que l'alumne ja conegui aquests models, àmpliament usats, veurem que la forma de treballar-los canvia substancialment quan les dades arriben en flux. Finalment, revisarem diversos casos d'ús que l'alumne podrà treballar per consolidar els conceptes vistos en aquest mòdul. |
||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||
El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats. La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus. Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular. Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC. En el marc del procés d'avaluació, la UOC es reserva la potestat de:
|
||||||||||||||||||||||||||||||||||||||||||||||
|