Lingüística computacional con spaCy

Viernes 22 de marzo de 11:00 a 13:30
Fuente: Alec Willson, SP-ACY  Aero AT-3R100 at Lelystad-LEY,Netherlands,10/09/14., CC-BY-SA, https://flic.kr/p/pAyizT

Tras esta sesión nos hemos constituido como grupo de trabajo en Medialab-Prado:
>> spaCiers - grupo de aprnedizaje y experimentación con spaCy y lingüística computacional <<


JournocodersMAD continua su inmersión en el procesado de lenguaje natural y pasa de NLTK a spaCy de la mano de Jandro, mediador cultural de Medialab-Prado e investigador del Laboratorio de Datos Datalab.

spaCy es una librería libre y de código abierto escrita en Python. Posee modelos entrenados en diversos idiomas, entre ellos español, francés y alemán.

Veremos algunos ejemplos:

  • Etiquetado PdF (PoS tagging)
  • Lematización (lemmatization)
  • Análisis de dependencia (Dependency Parse)
  • REN - Reconocimiento de Entidad Nombrada (NER - Named Entity Recognition)
  • Tokenización
  • Detección de límites de frase - DLF (Sentence Boundaries Detection - SBD)
  • Coincidencias basadas en reglas (Rule-based matching)
  • Clasificación de textos (Text classification)

Los motivos para cambiar de NLTK a esta otra librería son:

  • NLTK no tiene modelos entrenados en ES ni en otros idiomas distintos al inglés
  • spaCy es una librería muy robusta con modelos en español y otros idiomas además de inglés que permite PoS, NER y muchas otras cosas.
  • spaCy 2.0.0 está escrita en python y cython y funciona bien con python >= 3.7 (debian-testing, Windows, MacOsX)
  • spaCy se puede instalar con pip: pip3 install -U spacy
  • spaCy es tecnología industrial, lista para su uso en producción.

Presentación para el curso

Organizador Actividad:
Alejandro Martín
Materiales:
Ordenador portátil, libreta y lápices

Sesiones de la actividad

11:00 - 13:30
La actividad está finalizada
Programa:
JournocodersMad
Tipo de actividad:
Taller de formación
Etiquetas:
#nlp #pln
Rango de edad:
18-199