Borges y matplotlib

Borges y `matplotlib`#

(o una introducción a NLP)#

La tarea de hoy es un ejercicio de integración que, si deciden aceptarla, consiste en hacer un word cloud a partir de uno de los textos de Borges que se encuentran en el Google Drive.

Un word cloud es, básicamente, una representación gráfica de un histograma de palabras de un texto: las palabras más frecuentes aparecen más grandes. Además, siempre hay algún diseño que permite ensamblar las palabras en distintas orientaciones para que aparezcan bonitas.

Este es un ensayo muy simple de un área relativamente nueva en la informática, denominada Natural Language Processing (Procesamiento de Lenguaje Natural), que permite que una computadora “entienda” (o haga como que entiende) el lenguaje hablado o escrito humano.

Qué hay que hacer entonces?

Elegir un texto del Google Drive compartido
Leemos el texto y lo guardamos en un string.
En el texto:
- Removemos palabras comunes.
- Ponemos el texto en minúsculas.
- Removemos signos de puntuación.
Creamos la lista de palabras únicas a partir del texto.
- Quitar espacios en la lista de palabras únicas.
Creamos el histograma de palabras a partir del texto y la lista de palabras únicas (usar un dictionary de Python).
Crear el word cloud a partir del histograma.

Lista de palabras únicas:

Elegir, texto, Google, Drive, compartido, Leemos, guardamos, string, Removemos, palabras, comunes, Ponemos, minúsculas, signos, puntuación, quitar, espacios.

Histograma de palabras:

Elegir:1, texto:3, Google:1, etc. etc.

Algunas ayudas#

Siempre es útil agrupar el trabajo en funciones
¿Qué problemáticas anticipa que pueden aparecer al crear el histograma de palabras?
El archivo stopwords contiene palabras comunes del castellano
Quizás habría que usar alguna función para remover números
Instalar el paquete wordcloud ayudaría bastante.
Leer la documentación es indispensable

Otros materiales#

Acá hay varios cuentos más por si quieren leer.
Algo más sobre Procesamiento de Lenguaje Natural.

Les dejo la pregunta, que pueden responder corriendo el código: ¿Se podrá distinguir un texto literario de un discurso partidario de campaña sólo mirando su word cloud?

Borges y matplotlib

Contents

Borges y matplotlib#

(o una introducción a NLP)#

Algunas ayudas#

Otros materiales#

Borges y `matplotlib`#