Borges y matplotlib#

(o una introducción a NLP)#

word-cloud-lenguajes.jpeg

La tarea de hoy es un ejercicio de integración que, si deciden aceptarla, consiste en hacer un word cloud a partir de uno de los textos de Borges que se encuentran en el Google Drive.

Un word cloud es, básicamente, una representación gráfica de un histograma de palabras de un texto: las palabras más frecuentes aparecen más grandes. Además, siempre hay algún diseño que permite ensamblar las palabras en distintas orientaciones para que aparezcan bonitas.

Este es un ensayo muy simple de un área relativamente nueva en la informática, denominada Natural Language Processing (Procesamiento de Lenguaje Natural), que permite que una computadora “entienda” (o haga como que entiende) el lenguaje hablado o escrito humano.

Qué hay que hacer entonces?

  • Elegir un texto del Google Drive compartido

  • Leemos el texto y lo guardamos en un string.

  • En el texto:

    • Removemos palabras comunes.

    • Ponemos el texto en minúsculas.

    • Removemos signos de puntuación.

  • Creamos la lista de palabras únicas a partir del texto.

    • Quitar espacios en la lista de palabras únicas.

  • Creamos el histograma de palabras a partir del texto y la lista de palabras únicas (usar un dictionary de Python).

  • Crear el word cloud a partir del histograma.

Lista de palabras únicas:

Elegir, texto, Google, Drive, compartido, Leemos, guardamos, string, Removemos, palabras, comunes, Ponemos, minúsculas, signos, puntuación, quitar, espacios.

Histograma de palabras:

Elegir:1, texto:3, Google:1, etc. etc.

Algunas ayudas#

Otros materiales#

Les dejo la pregunta, que pueden responder corriendo el código: ¿Se podrá distinguir un texto literario de un discurso partidario de campaña sólo mirando su word cloud?