Tecnologies del Llenguatge Codi:  21.564    :  6
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
ATENCIÓ: Aquest és el pla docent de l'assignatura per al primer semestre del curs 2020-2021. Us servirà per planificar la matrícula. Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)

Enfocament conceptual i projecció professional

L'objectiu de l'assignatura és oferir a l'alumne un coneixement sòlid, teòric i pràctic, dels aspectes més centrals de la Lingüística Computacional. La Lingüística Computacional és un camp d'estudi interdisciplinari en el que, com el seu nom assenyala, conflueixen fonamentalment dues disciplines: la Lingüística i les Ciències de la Computació, o Informàtica. La primera disciplina té com a objectiu l'estudi del llenguatge en les seves dimensions: Fonètica, Fonologia, Morfologia, Sintaxis i Semàntica. Les diferents teories han de descriure i explicar el fet lingüístic i han de fer-ho amb el major rigor, adequació empírica i precisió possibles. Això s'aconsegueix mitjançant la construcció de models formals. La Informàtica té al seu càrrec la implementació en ordinadors d'aquests models. Hi ha un conjunt de disciplines que proporcionen les eines per a la formalització i que enllacen Lingüística i Informàtica, fonamentalment la Lògica i l'Estadística. Des de la perspectiva de la Informàtica, el tractament del llenguatge es contempla dins del camp de la Intel·ligència Artificial, on s'estudia la modelació i implementació del conjunt de les capacitats cognoscitives.

Amunt

L'alumne ja ha tingut un primer contacte amb al Lingüística Computacional amb l'assignatura Llengua i tecnologies, on es va oferir una panoràmica sobre les aplicacions del tractament informatitzat del llenguatge. Juntament amb la presentació dels seus diferents àmbits tecnològics es van exposar alguns dels conceptes propis de la disciplina. 

Amunt

Les aplicacions de la Lingüística en el terreny industrial o comercial tradicionalment han estat lligades a l'àmbit editorial (correcció, documentalisme), a la traducció i l'ensenyament de llengües. La irrupció de l'ordinador permet l'automatització total o parcial de les tasques pròpies d'aquestes activitats i també l'extensió de les aplicacions del coneixement lingüístic. Ens trobem així, des de mitjans del segle XX, i particularment dels anys vuitanta ençà, amb la consolidació de la Lingüística Computacional en un ampli conjunt de línies de treball:

  • Traducció automàtica
  • Classificació i recuperació documental
  • Generació automàtica d'informes i resums
  • Correcció
  • Comunicació home-màquina en llenguatge natural
  • Anàlisi i generació de parla

En les darreres dècades, amb l'explosió d'Internet, s'ha fixat el terme de Tecnologies de la Informació per a referir-se al conjunt de tècniques i eines de programació lligades a la cerca i processament de la informació recollida en suport informàtic. L'eficàcia en aquests processos resulta vital per a molts camps industrials. El volum creixent d'informació disponible està en part recollit en bases de dades i en part dispers en múltiples documents. Aquests documents estan escrits en llenguatge natural, i així els coneixements propis de la Lingüística Computacional tenen un paper fonamental en el disseny de programes eficaços per al seu processament.

Els coneixements i tècniques de la Lingüística Computacional són en general independents del llenguatge objecte del processament. Aquesta assignatura us familiaritzarà amb les principals tècniques del processament del llenguatge amb ordinadors, facilitant-vos la incorporació a projectes on es demanin lingüistes amb formació computacional i obrint-vos la porta a una posterior especialització en aquest camp mitjançant cursos de màster o doctorat.

Durant el curs aprendrem a programar aplicacions de Processament del Llenguatge Natural en el llenguatge de programació Python. Per poder superar l'assignatura no cal tenir coneixements de programació en aquest llenguatge ni en cap altre. La programació d'aplicacions es veurà molt facilitada per l'ús del paquet NLTK (Natural Language Toolkit). Aquest contacte amb la programació podrà ser de gran utilitat tant en els estudis com en la pràctica professional.

Amunt

Convé cursar aquesta assignatura després d'haver cursat Llengua i tecnologies. No és necessari cap altre coneixement previ. No és necessari saber programar.

Amunt

Objectius

L'assignatura té com a objectius generals adquirir la capacitat de formalitzar problemes lingüístics, saber expressar-los com a problemes computacionals i lligar-los a les necessitats de les principals aplicacions de la Lingüística Computacional. També té com a objectiu saber tractar els formats informàtics bàsics i l'XML.

Competències específiques:

E8. Identificar els contextos de la inserció professional i aplicar els coneixementsde llengües, traducció, lingüistica i processament del llenguatge en activitats professionals específiques.

E13. Dominar les eines informàtiques aplicades a les llengües, traducció, interpretació i documentació. e identificar les potencialitats dels entorns virtuals de comunicació.

Competències transversals

T4. Mostrar habilitats per a l'exercici professional en entorns multidisciplinars i complexos, en coordinació amb equips de treball en xarxa ja sigui tant en entorns presencials com virtuals, mitjançant l'ús informàtic i informacional de les TIC.

Amunt

1. Introducció

2. Elements bàsics del llenguatge Python

3. Natural Language Toolkit (NLTK)

4. Anàlisi textual i processament de corpus

5. Etiquetatge morfosintàctic

9. Tractament de formats textuals en Python

10. Tractament d'arxius XML en Python

Amunt

Programació en Python per a filòlegs, lingüistes i traductors Web

Amunt

El web amb els materials del curs està disponible a https://sites.google.com/view/programacio-en-python

Amunt

La Normativa acadèmica de la UOC disposa que el procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis fets.

La manca d'originalitat en l'autoria o el mal ús de les condicions en què es fa l'avaluació de l'assignatura és una infracció que pot tenir conseqüències acadèmiques greus.

Es qualificarà l'estudiant amb un suspens (D/0) si es detecta manca d'originalitat en l'autoria d'alguna activitat avaluable (pràctica, prova d'avaluació contínua (PAC) o final (PAF), o la que es defineixi al pla docent), sigui perquè ha utilitzat material o dispositius no autoritzats, sigui perquè ha copiat textualment d'internet, o ha copiat d'apunts, de materials, de manuals o d'articles (sense la citació corresponent), d'altres estudiants, o per qualsevol altra conducta irregular.

La qualificació de suspens (D/0) en les qualificacions finals d'avaluació contínua pot comportar l'obligació de fer l'examen presencial per a superar l'assignatura (si hi ha examen i si superar-lo és suficient per a superar l'assignatura segons indiqui el pla docent).

Quan aquesta mala conducta es produeixi durant la realització de les proves d'avaluació finals presencials, l'estudiant pot ser expulsat de l'aula, i l'examinador farà constar tots els elements i la informació relatius al cas.

D'altra banda, aquesta conducta pot donar lloc a la incoació d'un procediment disciplinari i l'aplicació, si escau, de la sanció que correspongui.

La UOC habilitarà els mecanismes que consideri oportuns per a vetllar per la qualitat de les seves titulacions i garantir l'excel·lència i la qualitat del seu model educatiu.

Amunt

Aquesta assignatura es pot superar per una doble via: d'una banda a partir de l'avaluació contínua (AC), i d'altra banda, mitjançant la realització d'un examen final (EX). Per a fer l'EX no cal haver superat l'AC. La fórmula d'acreditació de l'assignatura és la següent: AC o EX.

 

Amunt