Esta entrada presenta nuevamente el análisis de texto, en esta ocasión examinamos el libro «Por las dos Américas: Notas y reflexiones» de Enrique Molina Garmendia publicado en 1920. El trabajo de análisis del libro permite indicar los principales procedimientos que comprende el análisis de textos (libros, actas, informes y otros escritos), la ejecución del procedimiento proporciona las nociones básicas del método de análisis que permite acceder a la información de un texto de interés. Don Enrique Molina Garmendia fue un destacado intelectual y educador chileno de la primera mitad del siglo XX, fundador de la Universidad de Concepción en 1919 y su primer rector. El libro narra la experiencia del viaje en barco del autor entre Chile y Estados Unidos, fue publicado en Santiago de Chile por la Casa Editorial Minerva y desde 2024 se encuentra disponible como ebook en el Proyecto Gutenberg. Aún cuando en las investigaciones que implementan el análisis de texto en el examen del objeto de estudio habitualmente usan corpus de textos formados por decenas de documentos, la mirada a un único libro nos facilita la descripción de aspectos centrales del modus operandi de este tipo de análisis, y que esta entrada resume en tres elementos de resultado.
El análisis de texto es un área de la ciencia de datos inicialmente conocida como minería de texto, que primeramente separa el texto en tokens o fragmentos que permiten hacer los análisis que buscan los patrones presentes en el texto; los tokens pueden ser caracteres, palabras, frases, párrafos u otros elementos del texto. Leer de otra manera significa poder acceder a conjuntos de libros o documentos que actualmente se encuentran digitalizados, separar su contenido en tokens y realizar los análisis necesarios mediante las herramientas disponibles. Las posibilidades del análisis pueden abarcar desde la búsqueda de palabras o entidades relevantes, conocer la frecuencia de aparición de palabras específicas del texto, elaborar visualizaciones que configuran gráficamente la información del texto, por ejemplo, en nubes de palabras, gráficos o cuadros de información; hasta elaborar análisis de sentimiento y/o realizar comparaciones entre textos distintos. De manera que la captura de las palabras representativas de cierta época permite comparar conceptos que son de nuestro interés en un determinado fenómeno económico, social, demográfico y otras disciplinas.
Un primer resultado del análisis de texto es su visualización, la Imagen 1 muestra la nube de palabras del libro. La imagen es el primer resultado de la «lectura de otra manera», y se obtuvo mediante la eliminación de caracteres especiales y de palabras vacías o neutras del libro. Previamente el texto fue traspasado a letra minúscula a efecto de normalizarlo para el análisis. Crear la nube de palabras fue un proceso repetitivo en el que se fueron eliminando algunas palabras que no aportaban al análisis. En la Imagen 1 aún se puede considerar la eliminación de palabras tales como, mismo, puede, menos y volver a repetir el proceso.

El análisis continuó con la observación de los bigram o secuencia de dos elementos que son adyacentes en el texto. En el libro los bigram con mayor número de menciones fueron: nueva york, mismo tiempo, nuevo mundo, doctrina monroe, aire libre, pueblos hispanoamericanos, pueblo norteamericano, américa latina, eficiencia económica, hombres mujeres, democracia americana. Estos pares de palabras corresponden a conceptos importantes del libro, por ejemplo, doctrina monroe, nuevo mundo, pueblos hispanoamericanos, pueblo americano, eficiencia económica. Hay otros que correspondían a nombres de lugares, ciudades, universidades, personas (nueva york, señor shepherd, nueva orleans, san francisco, universidad columbia). En esta parte del estudio tuvimos que tomar decisiones, en este caso fue unir o no los bigram relevantes, por ejemplo, transformar nueva york en nueva_york y eliminar mismo tiempo e incorporarlo a la bolsa de palabras vacías.
Un tercer elemento del análisis de texto fue la obtención de la frecuencia de palabras específicas o bolsa de palabras, que corresponden al conjunto de palabras que representan tópicos de interés del analista, y se fundamenta en la idea «dime con quien andas y te diré quién eres«, ya que el entorno de la palabra en el texto le provee significado. Debido al ámbito de trabajo de este blog nos interesó el conjunto de palabras asociadas a tecnologías que sostienen a la sociedad en un período determinado. En esta etapa del trabajo revisamos un conjunto de palabras relacionadas a las tecnologías y fuentes de energía asociadas que estaban en boga en la época en que escribió el libro, así encontramos: electricidad (3), gas (36), tren (24), vapor (28), barco (3), ferrocarril (1), telégrafo (0), ciudad (82), buque (8), puerto (23), automóvil (7), nave (7), tranvía (6), metropolitano (de Nueva York) (1), embarcación (2). Las cifras asociadas a cada palabra indican el número de veces que se repiten en el texto, y la relación entre las cifras es el elemento que se puede comparar con otros textos y que permitirá clasificar un conjunto de textos. También el análisis puede complementarse con el uso de otros grupos de palabras, en este caso usamos nombres de ciudades (Antofagasta, Valparaíso, Santiago, Nueva Orleans, Chicago, Berkeley, Lima, Callao, Panamá, Colón, Nueva York, San Francisco, Washington).
El análisis de texto no solo permite clasificar el documento, también entrega información sobre la forma en que las tecnologías se incorporan en la sociedad. En el libro parece curioso que el autor se refiera al barco en que viaja como «el vapor», en alusión al tipo de máquina que movía el barco. La referencia a la embarcación como «vapor» en vez de barco puede parecer trivial, pero no lo es, pues cuando él escribe que la embarcación que lo transporta es un vapor está haciendo referencia al elemento clave que resolvió el problema de transporte marítimo de grandes distancias y no a su fuente de energía, de modo que esa tecnología pasó a formar parte de la base material de la sociedad de esa época.
En resumen, la digitalización de textos no solo sirve para leer un documento escrito de forma tradicional, también es útil para «leerlo de otra manera», que significa leerlo a través de tokens (palabras, frases, párrafos) que son útiles para comprender hechos, fenómenos económicos, tecnológicos o sociales relacionados con categorías de conceptos establecidos por quien los analiza. La perspectiva del análisis de textos en este blog son las palabras que nos interesan para dar seguimiento a las transformaciones experimentadas por la sociedad debido a la incorporación de innovaciones tecnológicas (bienes y servicios, ideas) en una época determinada y las consecuencias sociales directas e indirectas que se manifiestan en el largo plazo, cuando asoman en la sociedad por la difusión de las innovaciones tecnológicas que van adoptando las personas, y que son difíciles de percibir en el momento que ocurren.
Dichos cambios sociales hoy en día se pueden seguir porque han quedado registrados en distintos textos a lo largo del tiempo. Hay buenos ejemplos de este tipo de análisis en economía, historia económica, sociología y antropología, entre ellos destacamos el trabajo de Ch. Tilly (1977) sobre la acción colectiva y movilizaciones sociales en períodos largos. Tilly estudió las huelgas en Francia entre 1830-1960 y en Gran Bretaña entre 1828-1833. Sus fuentes de información fueron los periódicos, registros y estadísticas oficiales de la época con las que llegó a establecer el número de huelgas y «eventos violentos», la duración y el número de participantes. Esta labor le permitió teorizar más tarde la dinámica de la acción colectiva junto a otros autores. Y el trabajo de Bolstanki y Chiapello (1999), que con apoyo de la tecnología computacional, analizaron las variaciones de palabras de decenas de libros y revistas francesas de gestión de empresas de las décadas del sesenta y noventa, adentrándose en el conocimiento de los cambios que experimentó el industrialismo en Francia presentados en el libro El nuevo espíritu del capitalismo.

Deja un comentario