Lingüística computacional para todos los públicos

Días específicos

Placa de todas as direcções, em Portugal. Andrevruas. CC Attribution 3.0 Unported. 2009-11-27

El grupo se concibe como un espacio de aprendizaje colectivo entre personas con o sin conocimientos sobre lingüística computacional mediante la experimentación con discursos de diversa índole (narrativa, poesía, textos cortos como los presentes en twitter o instagram; textos legales o laborales, etc) y herramientas de lingüística computacional (spacy, nltk) y de machine learning (scikit learn, etc).

La lingüística computacional se entiende como una intersección entre dos subramas de la inteligencia artificial (machine learning y procesado del lenguaje natural (NLProc)) y la lingüística de corpus.

La lingüística de corpus ha venido tradicionalmente etiquetando textos de forma manual para que las máquinas pudieran procesarlo. En los últimos años, bajo el influjo del machine learning y el NLProc, la lingüística de corpus ha variado su enfoque.

Podemos hablar de tres acercamientos:

el basado en reglas, que no permite escalar ni generalizar y que requiere una actualización constante para atender nuevos casos lingüísticos. Es la aproximación más antigua y con poco desarrollo en la actualidad;
el estadístico, que no necesita reglas manuales sino, básicamente, alimentar los algoritmos con datos (generalmente grandes cantidades de datos), de manera que sean los algoritmos los que «deduzcan» la estructura y significado del texto, etc;
el basado en redes neuronales, que necesita aún más textos, en una proporción de 1 a 10 con respecto al estadístico. Se le llama neuronal porque se compone de «neuronas» matemáticas que, imitando las de nuestro cerebro, establecen conexiones entre sí y generan decisiones y conocimiento. Es la rama más novedosa, aunque data ya de mediados de los 90 (por entonces no se podía implementar por la falta de acceso generalizado a computadoras con gran capacidad de cálculo) e incluso algunos de sus componentes, como las redes neuronales o redes neurales, se enunciaron de manera teórica en la década de 1950.

Lecturas introductorias

¿Cómo ha evolucionado la traducción automática en los últimos años?
Carla Parra Escartín. La Lintera del Traductor (Revista multilingüe de ASETRAD)

Materiales del grupo

Librería spaCy de NLProc:

spaCy 1ª parte (introducción)

spaCy 2ª parte (en preparación)

Contacto

El grupo lo coordina Alejandro Martín, investigador-mediador en el centro en los cursos 2019-18 y 2019-20. Su proyecto de investigación versa sobre la lingüística computaciona, el procesado del lenguaje natural y busca crear una herramienta de gestión de corpus que sirva para análisis lingüísticos complejos, al estilo del periodismo de datos, de manera que genere gráficas complejas de múltiples dimensiones y análisis automáticos en texto.

Esta investigación busca trasladar al ámbito público y comunitario el debate y el desarrollo de la lingüística computacional que en esta última oleada de impulso a la inteligencia artificial está sirviendo de negocio principal para las principales empresas tecnológicas como, entre otras, Google, Facebook, Apple y Microsoft, dedicadas ferozmente a la minería de datos con el objetivo de monetizar cada faceta de nuestras relaciones.

Vie, 26/04/2019 - 11:30 Mié, 22/05/2019 - 20:00 Añadir a mi calendario 2019-04-26 09:30:00 2019-05-22 18:00:00 Lingüística computacional para todos los públicos El grupo se concibe como un espacio de aprendizaje colectivo entre personas con o sin conocimientos sobre lingüística computacional mediante la experimentación con discursos de diversa índole (narrativa, poesía, textos cortos como los presentes en twitter o instagram; textos legales o laborales, etc) y herramientas de lingüística computacional (spacy, nltk) y de machine learning (scikit learn, etc). La lingüística computacional se entiende como una intersección entre dos subramas de la inteligencia artificial (machine learning y procesado del lenguaje natural (NLProc)) y la lingüística de corpus. La lingüística de corpus ha venido tradicionalmente etiquetando textos de forma manual para que las máquinas pudieran procesarlo. En los últimos años, bajo el influjo del machine learning y el NLProc, la lingüística de corpus ha variado su enfoque. Podemos hablar de tres acercamientos: el basado en reglas, que no permite escalar ni generalizar y que requiere una actualización constante para atender nuevos casos lingüísticos. Es la aproximación más antigua y con poco desarrollo en la actualidad; el estadístico, que no necesita reglas manuales sino, básicamente, alimentar los algoritmos con datos (generalmente grandes cantidades de datos), de manera que sean los algoritmos los que «deduzcan» la estructura y significado del texto, etc; el basado en redes neuronales, que necesita aún más textos, en una proporción de 1 a 10 con respecto al estadístico. Se le llama neuronal porque se compone de «neuronas» matemáticas que, imitando las de nuestro cerebro, establecen conexiones entre sí y generan decisiones y conocimiento. Es la rama más novedosa, aunque data ya de mediados de los 90 (por entonces no se podía implementar por la falta de acceso generalizado a computadoras con gran capacidad de cálculo) e incluso algunos de sus componentes, como las redes neuronales o redes neurales, se enunciaron de manera teórica en la década de 1950. Lecturas introductorias ¿Cómo ha evolucionado la traducción automática en los últimos años?Carla Parra Escartín. La Lintera del Traductor (Revista multilingüe de ASETRAD) Materiales del grupo Librería spaCy de NLProc: spaCy 1ª parte (introducción) spaCy 2ª parte (en preparación) Contacto El grupo lo coordina Alejandro Martín, investigador-mediador en el centro en los cursos 2019-18 y 2019-20. Su proyecto de investigación versa sobre la lingüística computaciona, el procesado del lenguaje natural y busca crear una herramienta de gestión de corpus que sirva para análisis lingüísticos complejos, al estilo del periodismo de datos, de manera que genere gráficas complejas de múltiples dimensiones y análisis automáticos en texto. Esta investigación busca trasladar al ámbito público y comunitario el debate y el desarrollo de la lingüística computacional que en esta última oleada de impulso a la inteligencia artificial está sirviendo de negocio principal para las principales empresas tecnológicas como, entre otras, Google, Facebook, Apple y Microsoft, dedicadas ferozmente a la minería de datos con el objetivo de monetizar cada faceta de nuestras relaciones. Minilabs Medialab-Matadero Madrid noreply@medialab-matadero.es Europe/Madrid public

Materiales:

Ordenador para trabajar fundamentalmente con discursos escritos. Si además quieres traer spaCy u otras librerías preparadas, eres bienvenida/o

Sesiones de la actividad

26/04/2019

11:30 - 14:00

22/05/2019

17:30 - 20:00

La actividad está finalizada

Programa:

Grupos de trabajo

Proyecto:

spaCiers - Grupo de aprendizaje y experimentación con spaCy y lingüística computacional

Tipo de actividad:

Reunión grupo de trabajo Taller de producción

Etiquetas:

#comunicación #debate #lengua #lenguaje #pln

Lingüística computacional para todos los públicos

Lecturas introductorias

Materiales del grupo

Aprendizaje

Comunicación

Software libre

Sesiones de la actividad

Lingüística computacional para todos los públicos

Lecturas introductorias

Materiales del grupo

Aprendizaje

Comunicación

Software libre

Sesiones de la actividad

Síguenos en:

Dirección

Contacto

Newsletter