Borges y matplotlib
#
(o una introducción a NLP)#
La tarea de hoy es un ejercicio de integración que, si deciden aceptarla, consiste en hacer un word cloud a partir de uno de los textos de Borges que se encuentran en el Google Drive.
Un word cloud es, básicamente, una representación gráfica de un histograma de palabras de un texto: las palabras más frecuentes aparecen más grandes. Además, siempre hay algún diseño que permite ensamblar las palabras en distintas orientaciones para que aparezcan bonitas.
Este es un ensayo muy simple de un área relativamente nueva en la informática, denominada Natural Language Processing (Procesamiento de Lenguaje Natural), que permite que una computadora “entienda” (o haga como que entiende) el lenguaje hablado o escrito humano.
Qué hay que hacer entonces?
Elegir un texto del Google Drive compartido
Leemos el texto y lo guardamos en un string.
En el texto:
Removemos palabras comunes.
Ponemos el texto en minúsculas.
Removemos signos de puntuación.
Creamos la lista de palabras únicas a partir del texto.
Quitar espacios en la lista de palabras únicas.
Creamos el histograma de palabras a partir del texto y la lista de palabras únicas (usar un
dictionary
de Python).Crear el word cloud a partir del histograma.
Lista de palabras únicas:
Elegir, texto, Google, Drive, compartido, Leemos, guardamos, string, Removemos, palabras, comunes, Ponemos, minúsculas, signos, puntuación, quitar, espacios.
Histograma de palabras:
Elegir:1, texto:3, Google:1, etc. etc.
Algunas ayudas#
Siempre es útil agrupar el trabajo en funciones
¿Qué problemáticas anticipa que pueden aparecer al crear el histograma de palabras?
El archivo
stopwords
contiene palabras comunes del castellanoQuizás habría que usar alguna función para remover números