Sociedad y Tecnología

Contenidos acerca del cambio socio tecnológico en Chile. Abordamos la adopción de tecnologías y sus consecuencias en el país.

Elaborado por Paulina Benítez M. paulinabenitez14@gmail.com


El Quijote de la Mancha 2.0

La interacción de las personas con el ciberespacio, la Web 2.0, es una fuente importante de big data, se refiere a los textos de mensajes y réplicas que dejan las personas en su interacción con las redes digitales como X (ex-Twitter), Facebook, Youtube, etc. Otra fuente son los documentos escritos creados y almacenados en el ciberespacio (listas, minutas, noticias, etc.). Este proceso comenzó hace unos cuantos años con la digitalización de libros y documentos impresos y, generó un gran corpus que puede ser analizado con herramientas digitales. Su análisis se denomina minería de texto y constituye una de las “nuevas cosas” que hoy en día podemos hacer con los textos digitalizados, además de leerlos en línea. Pero el análisis de textos no es nada nuevo, viene siendo empleado desde hace siglos en el examen de periódicos, documentos oficiales, registros institucionales, estadísticas de época y otras fuentes escritas. En este terreno lo propiamente nuevo es la utilización de tecnologías computacionales y digitales con tal propósito, la amplitud del análisis y las fuentes de textos que se pueden utilizar.

L. Bolstanki y E. Chiapello (1999) publicaron El nuevo espíritu del capitalismo. El libro describió la nueva fisonomía capitalista utilizando el análisis de texto asistido por computador para codificar y validar un corpus de revistas y libros de gestión empresarial escritos en francés en los Sesenta y Noventa; logrando especificar que en Francia el “nuevo espíritu” expresaba la coexistencia de una degradación de la situación social y económica de un número cada vez mayor de personas y de un capitalismo en plena expansión y profundamente organizado. Entonces las palabras red, equipo, proyecto, experto, visión, coach fueron algunas de las que representaron el nuevo espíritu. Y otras, tales como, dirección, jerarquía, asalariado, objetivos, sindicato fueron dejando de tener importancia en el contexto.

La entrada de hoy presenta los elementos básicos del análisis de El ingenioso hidalgo don Quijote de la Mancha, la novela de Miguel de Cervantes consta dos partes publicadas en 1605 y 1615. ¿Qué puede aportar el análisis del texto al conocimiento de la época? Para examinar la clásica obra del idioma castellano nos inspiramos en la lógica de Boltanski, es decir, efectuamos el análisis del texto apoyados por tecnología digital y estudiamos la frecuencia de palabras, seleccionando aquellas que fueron mencionadas muchas veces para trazar, a grandes rasgos, la vida de los españoles comunes de la época. Compusimos la imagen con el conjunto de palabras alusivas a los personajes, la escena doméstica y lugares que pudieren representar parte de la sencilla vida de pueblos y campo de los personajes, españoles comunes y corrientes del comienzo del siglo XVII. He aquí algunas de las palabras, que nos hablan del Quijote, Sancho, Dulcinea. Sobre la vida material doméstica nombran muebles y utensilios: cama, silla, ollas, espejo, cuchara, cucharón, taza, horno. También libros, reloj. De los alimentos: agua, trigo, cebada, además, vino, licor. De los animales: Rocinante, caballo, perro, ovejas, vacas, bueyes, gallos, gallinas, asno. Sobre armas: lanza, espada, escudo. Los lugares refieren a Castilla, La Mancha, León, El Toboso, Sevilla, además, Cataluña, Madrid.

El contenido de los textos (grupos de palabras y relaciones entre palabras claves) se puede usar para hacer el seguimiento de los cambios que van ocurriendo en las sociedades, grupos sociales, comunidades locales y, está soportado en que la estructura general de los textos se mantiene en el tiempo, en otras palabras, la frecuencia de ocurrencia de las palabras sigue un patrón relativamente persistente. El Gráfico 1 presenta las cien palabras de mayor ocurrencia (frecuencia) del libro ordenadas de mayor a menor, en la curva continua de color verde. En el extremo inferior derecho está la ecuación de tendencia y el Coeficiente de Determinación, R2. La tendencia y los datos de frecuencia obtenidos son parecidos, tal como lo ilustra el factor de determinación que está bastante cerca de 1 (máxima semejanza). Por ejemplo, la curva de tendencia indica que la palabra respondió, ubicada en la posición quince, ocurre 604 veces en el libro y la ecuación de tendencia expresa que ocurre 641 veces (3.102,7*15-0,582). Podemos notar que en el Gráfico 1 la palabra “respondió” aparece en octavo lugar y no en el quince, esto se debe a que el eje horizontal, por su extensión, no alcanza a presentar el centenar de palabras.

Fuente: Elaboración propia. Parte 1 y 2 Don Quijote de la Mancha, Biblioteca de la Junta de Castilla y León.

Las palabras del libro siguen la ley de Zipf que equivale a la tendencia de la ley de potencia. Dicha relación describe la frecuencia de aparición de las distintas palabras de un idioma, las que siguen la  distribución: en que un reducido número de palabras se usa frecuentemente y un gran número son menos utilizadas. En la novela las palabras de mayor ocurrencia son quijote, don, sancho, bien, señora, merced, dios, caballero, mundo, vida; menos nombradas son camino, pueblos, ciudad, cama, rey, vestido, tierra, manera. Además, la distribución característica que exhibe la regla de Zipf se usa como un verificador para analizan textos que pueden ser un fraude, por lo tanto, no siguen esta ley. Un ejemplo extremo de este tipo de textos es el Manuscrito Voynich, siglo XV. Es un libro raro cuyo desciframiento aún suscita dudas, aunque sus palabras cumplen la ley de Zipf.

Plantear el surgimiento de grupos de palabras en un libro a partir del análisis de texto como algo nuevo puede ser criticado, porque una persona podrá obtener la misma información con la lectura del libro. El punto a destacar es que con el análisis de texto la tarea dura algunos minutos solamente. Por lo tanto, mediante este método se pueden analizar cientos, miles de documentos en poco tiempo, algo que de otra forma es impensable que sea llevado a cabo por un investigador o un equipo de investigación. Además del análisis de textos en los términos descritos, también se pueden establecer comparaciones entre ellos, lo que agrega un nuevo nivel de análisis. Este es un hecho clave en el avance de los procesos de traducción en línea como en la aplicación Traductor de Google. Allí se manejan reglas, pero sobre todo se comparan los textos a traducir con otros ya traducidos. En lo específico, se han utilizado textos que provienen de organismos internacionales que todo el tiempo necesitan generar documentos en distintos idiomas. Por último una reflexión, puede una palabra (o unas pocas) ser utilizada como indicador “del espíritu de una época” de una sociedad o grupo social, de modo de comprender los cambios que experimenta. Pongamos por ejemplo la palabra gato, en el libro de Don Quijote aparece mencionada ocho veces, pero allí no se refiere al gato como mascota, sino que es parte de refranes o situaciones menores de la trama. Uno tiene la impresión que en la literatura actual cuando el gato aparece lo hace como un animal relevante en la vida cotidiana de las personas. Entonces, si hacemos el seguimiento a cientos de novelas escritas en un idioma determinado a lo largo de un siglo ¿podríamos saber en qué momento el gato cambió de «estatus» en la sociedad?. La respuesta es afirmativa porque el seguimiento expondrá la difusión de «estatus» del gato en la sociedad a través del cambio del patrón de frecuencia de la palabra y/o del conjunto de otras palabras que la acompañan. Probablemente, en muchas novelas actuales, la palabra gato se asocia directamente con los personajes de la historia y no con refranes o cuestiones menores de la trama, un ejemplo de lo último es la novela Kafka en la orilla de H. Murakami (2002).



Deja un comentario

About Me

Paulina es doctora en Ciencias Sociales e investigadora independiente. Actualmente, se dedica al estudio del cambio socio tecnológico en Chile basado en el análisis de datos masivos, principalmente públicos. Hasta febrero de 2022 fue profesora de la Universidad de Concepción (Chile).

Newsletter