Lingüística computacional con spaCy

Viernes 22 de marzo de 11:00 a 13:30

Fuente: Alec Willson, SP-ACY Aero AT-3R100 at Lelystad-LEY,Netherlands,10/09/14., CC-BY-SA, https://flic.kr/p/pAyizT

Tras esta sesión nos hemos constituido como grupo de trabajo en Medialab-Prado:
>> spaCiers - grupo de aprnedizaje y experimentación con spaCy y lingüística computacional <<

JournocodersMAD continua su inmersión en el procesado de lenguaje natural y pasa de NLTK a spaCy de la mano de Jandro, mediador cultural de Medialab-Prado e investigador del Laboratorio de Datos Datalab.

spaCy es una librería libre y de código abierto escrita en Python. Posee modelos entrenados en diversos idiomas, entre ellos español, francés y alemán.

Veremos algunos ejemplos:

Etiquetado PdF (PoS tagging)
Lematización (lemmatization)
Análisis de dependencia (Dependency Parse)
REN - Reconocimiento de Entidad Nombrada (NER - Named Entity Recognition)
Tokenización
Detección de límites de frase - DLF (Sentence Boundaries Detection - SBD)
Coincidencias basadas en reglas (Rule-based matching)
Clasificación de textos (Text classification)

Los motivos para cambiar de NLTK a esta otra librería son:

NLTK no tiene modelos entrenados en ES ni en otros idiomas distintos al inglés
spaCy es una librería muy robusta con modelos en español y otros idiomas además de inglés que permite PoS, NER y muchas otras cosas.
spaCy 2.0.0 está escrita en python y cython y funciona bien con python >= 3.7 (debian-testing, Windows, MacOsX)
spaCy se puede instalar con pip: pip3 install -U spacy
spaCy es tecnología industrial, lista para su uso en producción.

Presentación para el curso