Investigació en tecnologies de la traducció Codi:  M4.957    :  5
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Informació prèvia a la matrícula   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura. Us servirà per planificar la matrícula (consulteu si l'assignatura s'ofereix aquest semestre a l'espai del Campus Més UOC / La Universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)

Les tecnologies de la traducció constitueixen un camp de recerca molt ampli i multidisciplinar. S'estudien des d'aspectes altament tecnològics relacionats amb programari i maquinari on intervenen investigadors amb formació en enginyeria informàtica, fins a aspectes d'usabilitat i percepció de les tecnologies de la traducció, on intervenen investigadors amb formació en traducció, passant per aspectes lingüístics i socials. Alguns aspectes de la investigació són molt depenents de l'àmbit, però en canvi altres són força comuns, com per exemple les metodologies de disseny de la recerca i d'avaluació dels resultats.

En aquesta assignatura explorarem quatre àmbits concrets de la recerca en tecnologies de la traducció i incidirem especialmente en les metodologies de disseny i avaluació. Els quatre àmbits són:

  • Corpus: on explorem les tècniques de creació de corpus monolingües, comparables i paral·lels. Donarem una especial importància a les tècniques d'alineació automàtica de documents.
  • Extracció automàtica de terminologia i cerca automàtica d'equivalents de traducció. Aprofitarem els corpus creats en la primera activitat per explorar aquestes tècniques.
  • Traducció automàtica: aprendrem a preprocessar els corpus creats en la primera activitat per entrenar sistemes estadístics i neuronals. Veurem les maneres d'incloure la terminologia extreta en la segona activitat per incorporar-la als sistemes entrenats.
  • Word Embeddings: en aquesta activitat farem una introducció als Word Embeddings, que són una representació vectorial de les paraules i aprendrem a calcular diferents paràmetres (com la similitud entre paraules, per exemple). També veurem tècniques de mappings entre word embeddings de diferent llengües i explorarem les tècniques per a la creació de diccionaris a partir de corpus comparables. Aquestes tècniques obren la porta a la traducció automàtica no supervisada, és a dir, a sistemes de traducció automàtica entrenats a partir de corpus comparables.

Amunt

Aquesta assignatura forma part de la matèria Investigació i conforma una de les dues opcions de línies de recerca d'aquest màster. Aquesta assignatura està molt relacionada i complementa a l'assignatura Metodologia i disseny de la recerca.

Amunt

Aquesta assignatura forma part de l'orientació de recerca del màster i està orientada a formar futurs estudiants de doctorat. Tot i això, els temes que tracta poden ser d'interès a estudiants que segueixin l'orientació professionalitzadora.

Amunt

Per fer aquesta assignatura cal tenir coneixements bàsics del llenguatge de programació Python. Les primeres setmanes hi haurà activitats no avaluables per aprendre els fonaments d'aquest llenguatge de programació. Per tant, el coneixement de Python no és un requisit per cursar l'assignatura, ja que es podran adquirir els coneixements necessaris mitjantçant activitats no avaluables.

Amunt

Els futurs estudiants d'aquesta assignatura que no tinguin coneixements de Python poden preparar-se amb els següents materials de la UOC: https://xwiki.recursos.uoc.edu/wiki/matm21564ca

Cal recordar, però, que no és imprescindible fer això abans de cursar l'assignatura, ja que les primeres activitats no avaluables aniran orientades a adquirir els coneixements bàsics de Python.

Amunt

Objectius

  • Compilar un corpus monolingüe
  • Reflexionar sobre els drets d'autor en la compilació de corpus i justificar les decisions que es prenguin sobre aquests temes
  • Creació d'un corpus paral·lel mitjançant alineació automàtica de documents
  • Conèixer els corpus paral·lels disponibles lliurement a Internet
  • Investigar les utilitats dels corpus comparables
  • Justificar la decisió de classificar una determinada unitat com a terme
  • Justificar la tria d'in determinat equivalent de traducció d'un terme
  • Crear reculls terminològics monolingües a partir de corpus i tècniques d'extracció automàtica de terminologia
  • Determinar els equivalents de traducció d'un conjunt de termes a partir de corpus paral·lels i comparables aplicant tècniques automàtiques
  • Participar en un projecte terminològic col·laboratiu
  • Conèixer el funcionament dels dos paradigmes de traducció automàtica més utilitzats actualment: la TA estadística i la TA neuronal
  • Aprendre a preprocessar corpus per entrenar sistemes estadístics i neuronals
  • Avaluar de manera automàtica sistemes de TA
  • Aprendre a crear projectes de postedició i avaluar les tasques de postedició
  • Conèixer els avantatges de la traducció automàtica interactiva dins dels sistemes de traducció assistida per ordinador

Competències

CB6 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i / o aplicació d'idees, sovint en un context d'investigació.

CB7- Que els estudiants sàpiguen aplicar els coneixements adquirits i la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contextos més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.

CB9 - Que els estudiants sàpiguen comunicar les seves conclusions -i els coneixements i raons últimes que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.

CB10 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran manera autodirigida o autònoma.

CG1.- Analitzar textos o dades, fer judicis i expressar-los de manera, precisa, sintètica i consistent.

CG2.- Treballar col·laborativament en projectes individuals o col·lectius assumint les actituds i els rols més adequats.

Amunt

Activitat 1. Corpus

Activitat 2. Extracció automàtica de terminologia

Activitat 3. Traducció automàtica

Activitat 4. Traducció assistida

Amunt

La postedició de traducció automàtica XML
La postedició de traducció automàtica DAISY
La postedició de traducció automàtica EPUB 2.0
La postedició de traducció automàtica MOBIPOCKET
La postedició de traducció automàtica KARAOKE
La postedició de traducció automàtica HTML5
La postedició de traducció automàtica PDF
La postedición de traducción automática XML
La postedición de traducción automática DAISY
La postedición de traducción automática EPUB 2.0
La postedición de traducción automática MOBIPOCKET
La postedición de traducción automática KARAOKE
La postedición de traducción automática HTML5
La postedición de traducción automática PDF
Wiki - Tecnologías de la traducción Web

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent -incloses les proves finals- o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt