Tras esta sesión nos hemos constituido como grupo de trabajo en Medialab-Prado:
>> spaCiers - grupo de aprnedizaje y experimentación con spaCy y lingüística computacional <<
JournocodersMAD continua su inmersión en el procesado de lenguaje natural y pasa de NLTK a spaCy de la mano de Jandro, mediador cultural de Medialab-Prado e investigador del Laboratorio de Datos Datalab.
spaCy es una librería libre y de código abierto escrita en Python. Posee modelos entrenados en diversos idiomas, entre ellos español, francés y alemán.
Veremos algunos ejemplos:
- Etiquetado PdF (PoS tagging)
- Lematización (lemmatization)
- Análisis de dependencia (Dependency Parse)
- REN - Reconocimiento de Entidad Nombrada (NER - Named Entity Recognition)
- Tokenización
- Detección de límites de frase - DLF (Sentence Boundaries Detection - SBD)
- Coincidencias basadas en reglas (Rule-based matching)
- Clasificación de textos (Text classification)
Los motivos para cambiar de NLTK a esta otra librería son:
- NLTK no tiene modelos entrenados en
ES
ni en otros idiomas distintos al inglés
- spaCy es una librería muy robusta con modelos en español y otros idiomas además de inglés que permite PoS, NER y muchas otras cosas.
- spaCy 2.0.0 está escrita en python y cython y funciona bien con python >= 3.7 (debian-testing, Windows, MacOsX)
- spaCy se puede instalar con pip:
pip3 install -U spacy
- spaCy es tecnología industrial, lista para su uso en producción.
Presentación para el curso