Investigación en tecnologías de la traducción Código:  M4.957    :  5
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura. Os servirá para planificar la matrícula (consultad si la asignatura se ofrece este semestre en el espacio del Campus Más UOC / La Universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. (El plan docente puede estar sujeto a cambios).

Las tecnologías de la traducción constituyen un campo de investigación muy amplio y multidisciplinar. Se estudian desde aspectos altamente tecnológicos relacionados con software y hardware donde intervienen investigadores con formación en ingeniería informática, hasta aspectos de usabilidad y percepción de las tecnologías de la traducción, donde intervienen investigadores con formación en traducción, pasando por aspectos lingüísticos y sociales. Algunos aspectos de la investigación son muy dependientes del ámbito, pero en cambio otros son bastante comunes, como por ejemplo las metodologías de diseño de la investigación y de evaluación de los resultados.

En esta asignatura exploraremos cuatro ámbitos concretos de la investigación en tecnologías de la traducción e incidiremos especialmente en las metodologías de diseño y evaluación. Los cuatro ámbitos son:

  • Corpus: donde exploramos las técnicas de creación de corpus monolingües, comparables y paralelos. Daremos una especial importancia a las técnicas de alineación automática de documentos.
  • Extracción automática de terminología y búsqueda automática de equivalentes de traducción. Aprovecharemos los corpus creados en la primera actividad para explorar estas técnicas.
  • Traducción automática: aprenderemos a preprocesar los corpus creados en la primera actividad para entrenar sistemas estadísticos y neuronales. Veremos las maneras de incluir la terminología extraída en la segunda actividad para incorporarla a los sistemas entrenados.
  • Word embeddings: en esta actividad haremos una introducción a Word embeddings, que son una representación vectorial de las palabras y aprenderemos a calcular diferentes parámetros (como la similitud entre palabras, por ejemplo). También veremos técnicas de mappings entre word embeddings de diferente lenguas y exploraremos las técnicas para la creación de diccionarios a partir de corpus comparables. Estas técnicas abren la puerta a la traducción automática no supervisada, es decir, sistemas de traducción automática entrenados a partir de corpus comparables.

Amunt

Esta asignatura forma parte de la materia Investigación y conforma una de las dos opciones de líneas de investigación de este máster. Esta asignatura está muy relacionada y complementa a la asignatura Metodología y diseño de la investigación.

Amunt

Esta asignatura forma parte de la orientación de investigación del máster y está orientada a formar futuros estudiantes de doctorado. Sin embargo, los temas que trata pueden ser de interés a estudiantes que sigan la orientación profesionalizadora.

Amunt

Para hacer esta asignatura es necesario tener conocimientos básicos del lenguaje de programación Python. Las primeras semanas habrá actividades no evaluables para aprender los fundamentos de este lenguaje de programación. Por tanto, el conocimiento de Python no es un requisito para cursar la asignatura, ya que se podrán adquirir los conocimientos necesarios mediante actividades no evaluables.

Amunt

Los futuros estudiantes de esta asignatura que no tengan conocimientos de Python pueden prepararse con los siguientes materiales de la UOC:  https://xwiki.recursos.uoc.edu/wiki/matm21564es

Hay que recordar, sin embargo, que no es imprescindible hacer esto antes de cursar la asignatura, ya que las primeras actividades no evaluables irán orientadas a adquirir los conocimientos básicos de Python.

Cal recordar, però, que no és imprescindible fer això abans de cursar l'assignatura, ja que les primeres activitats no avaluables aniran orientades a adquirir els coneixements bàsics de Python.

Amunt

Objetivos

  • Compilar un corpus monolingüe
  • Reflexionar sobre los derechos de autor en la compilació de corpus y justificar las decisiones que se tomen sobre estos temas
  • Creación de un corpus paralelo mediante alineación automática de documentos
  • Conocer los corpus paralelos disponibles libremente en Internet
  • Investigar las utilidades de los corpus comparables
  • Justificar la decisión de clasificar una determinada unidad como un término
  • Justificar la elección de in determinado equivalente de traducción de un término
  • Crear recopilaciones terminológicas monolingües a partir de corpus y técnicas de extracción automática de terminología
  • Determinar los equivalentes de traducción de un conjunto de términos a partir de corpus paralelos y comparables aplicando técnicas automáticas
  • Participar en un proyecto terminológico colaborativo
  • Conocer el funcionamiento de los dos paradigmas de traducción automática más utilizados actualmente: la TA estadística y la TA neuronal
  • Aprender a preprocesar corpus para entrenar sistemas estadísticos y neuronales
  • Evaluar automáticamente sistemas de TA
  • Aprender a crear proyectos de postedición y evaluar las tareas de postedición
  • Conocer las ventajas de la traducción automática interactiva dentro de los sistemas de traducción asistida por ordenador

Competencias

CB6 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.

CB7- Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.

CB9 - Que los estudiantes sepan comunicar sus conclusiones -y los conocimientos y razones últimas que las sustentan- a públicos especializados y no especializados de un modo claro y sin ambigüedades.

CB10 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

CG1.- Analizar textos o datos, hacer juicios y expresarlos de manera, precisa, sintética y consistente.

CG2.- Trabajar colaborativamente en proyectos individuales o colectivos asumiendo las actitudes y los roles más adecuados.

Amunt

Actividad 1. Corpus

Actividad 2. Extracción automática de terminología

Actividad 3. Traducción automática

Actividad 4. Traducción asistida

Amunt

La postedició de traducció automàtica XML
La postedició de traducció automàtica DAISY
La postedició de traducció automàtica EPUB 2.0
La postedició de traducció automàtica MOBIPOCKET
La postedició de traducció automàtica KARAOKE
La postedició de traducció automàtica HTML5
La postedició de traducció automàtica PDF
La postedición de traducción automática XML
La postedición de traducción automática DAISY
La postedición de traducción automática EPUB 2.0
La postedición de traducción automática MOBIPOCKET
La postedición de traducción automática KARAOKE
La postedición de traducción automática HTML5
La postedición de traducción automática PDF

Amunt

Esta asignatura sólo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt