Lingüística computacional para todos los públicos

Días específicos
Placa de todas as direcções, em Portugal. Andrevruas. CC Attribution 3.0 Unported. 2009-11-27

El grupo se concibe como un espacio de aprendizaje colectivo entre personas con o sin conocimientos sobre lingüística computacional mediante la experimentación con discursos de diversa índole (narrativa, poesía, textos cortos como los presentes en twitter o instagram; textos legales o laborales, etc) y herramientas de lingüística computacional (spacy, nltk) y de machine learning (scikit learn, etc).

La lingüística computacional se entiende como una intersección entre dos subramas de la inteligencia artificial (machine learning y procesado del lenguaje natural (NLProc)) y la lingüística de corpus.

La lingüística de corpus ha venido tradicionalmente etiquetando textos de forma manual para que las máquinas pudieran procesarlo. En los últimos años, bajo el influjo del machine learning y el NLProc, la lingüística de corpus ha variado su enfoque.

Podemos hablar de tres acercamientos:

  1. el basado en reglas, que no permite escalar ni generalizar y que requiere una actualización constante para atender nuevos casos lingüísticos. Es la aproximación más antigua y con poco desarrollo en la actualidad;
  2. el estadístico, que no necesita reglas manuales sino, básicamente, alimentar los algoritmos con datos (generalmente grandes cantidades de datos), de manera que sean los algoritmos los que «deduzcan» la estructura y significado del texto, etc;
  3. el basado en redes neuronales, que necesita aún más textos, en una proporción de 1 a 10 con respecto al estadístico. Se le llama neuronal porque se compone de «neuronas» matemáticas que, imitando las de nuestro cerebro, establecen conexiones entre sí y generan decisiones y conocimiento. Es la rama más novedosa, aunque data ya de mediados de los 90 (por entonces no se podía implementar por la falta de acceso generalizado a computadoras con gran capacidad de cálculo) e incluso algunos de sus componentes, como las redes neuronales o redes neurales, se enunciaron de manera teórica en la década de 1950.

 

Lecturas introductorias

¿Cómo ha evolucionado la traducción automática en los últimos años?
Carla Parra Escartín
. La Lintera del Traductor (Revista multilingüe de ASETRAD)

Materiales del grupo

Librería spaCy de NLProc:

spaCy 1ª parte (introducción)

spaCy 2ª parte (en preparación)

 

Contacto

El grupo lo coordina Alejandro Martín, investigador-mediador en el centro en los cursos 2019-18 y 2019-20. Su proyecto de investigación versa sobre la lingüística computaciona, el procesado del lenguaje natural y busca crear una herramienta de gestión de corpus que sirva para análisis lingüísticos complejos, al estilo del periodismo de datos, de manera que genere gráficas complejas de múltiples dimensiones y análisis automáticos en texto.

Esta investigación busca trasladar al ámbito público y comunitario el debate y el desarrollo de la lingüística computacional que en esta última oleada de impulso a la inteligencia artificial está sirviendo de negocio principal para las principales empresas tecnológicas como, entre otras, Google, Facebook, Apple y Microsoft, dedicadas ferozmente a la minería de datos con el objetivo de monetizar cada faceta de nuestras relaciones.

Organizador Actividad:
Alejandro Martín Jimeno
Materiales:
Ordenador para trabajar fundamentalmente con discursos escritos. Si además quieres traer spaCy u otras librerías preparadas, eres bienvenida/o

Sesiones de la actividad

11:30 - 14:00
17:30 - 20:00
La actividad está finalizada
Programa:
Grupos de trabajo
Tipo de actividad:
Reunión grupo de trabajo Taller de producción
Etiquetas:
#comunicación #debate #lengua #lenguaje #pln