Mineria de textos Codi:  22.420    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de la UOC per a l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura per al primer semestre del curs 2024-2025. Podeu consultar si l'assignatura s'ofereix aquest semestre a l'espai del campus Més UOC / La universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. El pla docent pot estar subjecte a canvis.

Les dades en format de text (format no estructurat) són un dels grans recursos que tenim a disposició però que, per la seva naturalesa, són extremadament complexos d'analitzar i d'extreure automàticament la informació i coneixement que contenen.

Aquesta assignatura proposa un viatge l'interessant i rellevant món del processament del llenguatge natural (o text). Interessant perquè la temàtica dona molt de sí, fa servir continguts de diferents disciplines i és realment engrescadora. D'altra banda, la seva rellevància és clara, ja que avui en dia el text és potser el major recurs disponible i ser capaços d'entendre'l i extreure automàticament la informació que conté pot permetre'ns fer coses que anys enrere no semblaven possibles, com per exemples generar el resum d'una imatge (un caption) automàticament.

Durant aquest viatge veurem les bases del processament del llenguatge natural, bases que ens permetran endinsar-nos en l'anàlisi de sentiments i opinions, que constitueix un important camp de recerca en l'actualitat. Concretament, aprendrem a interpretar i analitzar automàticament la informació textual, a extreure sentiments i opinions dels textos i a avaluar la qualitat d'aquests sistemes. Tot això ho farem mitjançant tècniques clàssiques de lingüística computacional, així com també aplicant alguns dels principals mètodes d'aprenentatge automàtic (machine learning) i d'aprenentatge profund (deep learning).

Amunt

Aquesta assignatura pertany al conjunt d'assignatures obligatories del grau en Ciencia de Dades Aplicada

Amunt

El curs requereix que els estudiants tinguin coneixements de programació (en llenguatge Python), així com coneixements avançats d'aprenentatge automàtic (machine learning).

Es recomana haver cursat l'assignatura "Aprenentatge automàtic" abans de cursar aquesta assignatura, ja que s'utilitzen algoritmes i conceptes d'aprenentatge de màquina i aprenentatge profund estudiats allí.

A més, com la metodologia inclou estudis de casos i la recerca autònoma d'informació, és aconsellable que l'estudiant estigui familiaritzat amb la cerca de fonts d'informació, l'anàlisi de la informació quantitativa i qualitativa, la capacitat de sintetitzar i obtenir conclusions així com de posseir certes habilitats de comunicació escrita.

Així mateix també és necessari que els estudiants tinguin la capacitat de llegir i comprendre l'idioma anglès ja que una part dels materials i altres recursos, estan en aquest idioma.

Amunt

Els objectius que es desitja que l'estudiant assoleixi mitjançant aquesta assignatura són els següents:

  • Conèixer les principals tècniques i eines per al processament i comprensió del llenguatge natural.
  • Saber aplicar les tècniques i eines per a les principals tasques de comprensió del llenguatge natural, incloent la identificació automàtica de temes i idiomes i l'extracció de paraules clau.
  • Conèixer el procés, juntament amb les principals tècniques i eines, per a l'anàlisi de sentiments basats en textos.
  • Saber quan aplicar les diferents aproximacions a l'anàlisi de sentiments i les principals diferències entre elles.

Amunt

L'assignatura està estructurada en els següents blocs temàtics:

  • Què és el processament de llenguatge? Com s'aborda? I Per què serveix?
  • Com interpretar i analitzar automàticament la informació textual? 
  • Com extreure sentiments automàticament d'un text?
  • Com avaluar els sistemes de processament de llenguatge?
  • Conceptes bàsics de Deep Learning per aplicar-los al processament del llenguatge
  • Com aplicar aprenentatge profund pel processament del llenguatge?
  • Tendències

Amunt

Espai de recursos de ciència de dades Web
Mòdul 4-Introducció al deep learning aplicat al processament del llenguatge natural PDF
1.2. Introducció (Screencast) Audiovisual
Notebook: com interpretar i analitzar automàticament la informació textual Audiovisual
Named Entity Linking (Screencast) Audiovisual
Named Entity Recognition (Screencast) Audiovisual

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material, programari o dispositius no autoritzats durant l'avaluació, entre altres, són conductes irregulars en l'avaluació que poden tenir conseqüències acadèmiques i disciplinàries greus.

Aquestes conductes irregulars poden comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials, programari o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha dut a terme qualsevol altra conducta irregular.

Així mateix, i d'acord amb la normativa acadèmica, les conductes irregulars en l'avaluació també poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui, de conformitat amb l'establert a la normativa de convivència de la UOC.

En el marc del procés d'avaluació, la UOC es reserva la potestat de:

  • Sol·licitar a l'estudiant que acrediti la seva identitat segons l'establert a la normativa acadèmica.
  • Sol·licitar a l'estudiant que acrediti l'autoria del seu treball al llarg de tot el procés d'avaluació, tant avaluació contínua com avaluació final, per mitjà d'una prova oral o els mitjans síncrons o asíncrons que estableixi la Universitat. Aquests mitjans tindran per objecte verificar els coneixements i les competències que garanteixin l'autoria; en cap cas no implicaran una segona avaluació. Si no és possible garantir l'autoria de l'estudiant, la prova serà qualificada amb D, en el cas de l'avaluació contínua, o amb un Suspens, en el cas de l'avaluació final.

    A aquests efectes, la UOC pot exigir a l'estudiant l'ús d'un micròfon, una càmera o altres eines durant l'avaluació; és responsabilitat de l'estudiant assegurar que aquests dispositius funcionen correctament.

Amunt

L'assignatura només es pot aprovar amb el seguiment i la superació de l'avaluació contínua (AC). La qualificació final de l'assignatura és la nota obtinguda a l'AC.

 

Amunt