Dime con quien andas…

En la vida diaria el refrán «dime con quien andas y te diré quién eres» expresa la posibilidad de caracterizar a una persona cuando conocemos su círculo de relaciones sociales. Esta idea fue adoptada por el procesamiento de lenguaje natural para definir el significado de una palabra conociendo el contexto en que se encuentra, algo así como «dime con que palabras te juntas y te diré cuál eres», es decir, las palabras que están a su lado en el texto son las que permiten definir el significado de la palabra específica. Aquí el contexto lo forman las palabras que están dentro de una frase y una ventana. Veamos como funciona este proceso con la primera frase de la noticia del Gobierno Regional (GORE) del Bio Bío publicada el 18 de marzo de 2026. El enunciado de la frase dice, «En Alto Biobío, se renovará la flota vehicular destinada a salud, gracias a una inversión de $685 millones«. Primeramente se procede a «limpiarla» para eliminar números, signos de puntuación, y palabras vacías que contiene, además todas las palabas se escriben en minúsculas. Así se obtiene una frase con la forma siguiente: ‘alto’, ‘biobío’, ‘renovará’, ‘flota’, ‘vehicular’, ‘destinada’, ‘salud’, ‘gracias’, ‘inversión’, ‘millones’. La ventana de cada una de las palabras está conformada por las dos palabras anteriores y las dos posteriores. Por ejemplo, si la palabra es ‘flota’ el contexto está constituido por ‘biobío’, ‘renovará’, ‘vehicular’ y ‘destinada’. Entonces, cada uno de los pares de palabras se ocuparán en el entrenamiento de la red neuronal que entregará los vectores que caracterizan a cada palabra.

Esta noción es una de las bases del LLM – Large Language Model que en español significa literalmente modelo de lenguaje grande-, con el que opera el Chat-GPT y otras herramientas avanzadas del campo de la informática que conocemos como inteligencia artificial. Los LLM se entrenan con grandes cantidades de texto y sus resultados se utilizan cuando el usuario hace una consulta. Las respuestas de estos modelos corresponden al conjunto de vectores (palabras) que están más cerca de la palabra consultada. La entrada de hoy presenta ejemplos sencillos obtenidos con el modelo generado con los textos relativos a las noticias del Gobierno Regional del Biobío (GORE Biobío) presentado en una entrada anterior. El corpus de noticias GORE Biobío (2019-marzo 2026) está compuesto por 1.511 noticias y 21.182 frases, con él se generó un modelo compuesto de 23.894 palabras caracterizadas con vectores de cien dimensiones conocidos con el nombre de embedding.

La primera consulta al modelo consistió en calcular la similitud que había entre dos palabras, estas fueron «incendios» e «inversiones». El cálculo de similitud entrega como resultado un número entre -1 y 1. El -1 indica que las palabras son disímiles, esto es, que tienen la misma dirección, pero en sentidos opuestos. El cero indica que son ortogonales, esto es, que apuntan en otra dirección, la que podríamos asimilar a una «perpendicular», y el 1 señala que tienen total similitud. El resultado obtenido fue 0.3019 que indica una baja similitud entre ellas, más cercana al cero que al 1 ó -1, son palabras que no están relacionadas y que se refieren a noticias de distinto ámbito.

Otros resultados del modelo son los siguientes. A la consulta sobre cuáles son las diez palabras más cercanas a la palabra «incendios» el modelo entregó el siguiente resultado: forestales: 0.9499, temporada: 0.8831, combate: 0.8666, prevención: 0.8225, interfaz: 0.8027, evitar: 0.7826, ocurrencia: 0.7789, problemas: 0.7722, enfrentamos: 0.7698, tiempo: 0.7696. El número que acompaña a cada palabra es el nivel de similitud que cada una tiene con la palabra «incendios». Las palabras del ejemplo fueron ordenadas de mayor a menor similitud. La respuesta a la consulta comparó los niveles de similitud entre la palabra solicitada y el resto del vocabulario del modelo. Este ejemplo pone en relieve que estos modelos no piensan sino que calculan similitudes, en base a lo cual responden preguntas. Una nueva consulta al modelo fue cuál es la palabra que no concuerda en la lista. Las palabras (comunas) de la lista eran «cañete», «contulmo», «penco», «arauco». La respuesta fue «arauco», a pesar que uno esperaría que la respuesta fuese «penco», porque es la comuna de la lista que no pertenece a la Provincia de Arauco, pero recordemos que el modelo calcula y no piensa. En este caso los niveles de similitud entre palabras indicaron que «arauco» tiene una menor similitud con las palabras restantes. Lo que puede deberse a que «arauco» es una palabra que representa a una comuna y a una provincia de la Región del Biobío, que no es el caso de las otras palabras de la lista. A continuación, las similitudes entre los posibles pares de palabras de la lista: cañete – contulmo: 0.98212165; cañete – penco: 0.9600349; cañete – arauco: 0.8334404; contulmo – penco: 0.9441603; contulmo – arauco: 0.8219406; arauco – penco: 0.70051926.

La idea de transformar las palabras de un texto en vectores está basada en el artículo de investigadores de Google del año 2013 que implementaron un algoritmo no supervisado y Softmax. La palabra al quedar representada con vectores en el modelo puede ser consultada para encontrar otras palabras que poseen vectores parecidos, estas son las palabras cercanas, que podemos identificar mediante las relaciones entre vectores. Pero el objetivo de esta entrada no es ahondar en cuestiones técnicas, sino que describir con claridad el funcionamiento de un modelo (LLM) a partir de un corpus de texto local que permite analizar cómo funciona la tecnología que admite «leer de otra manera«. La otra manera significa realizar la lectura distante, algo que en el mundo real, sin ayuda de la tecnología LLM y otras similares no es posible hacer, esto es, leer una gran cantidad de textos, procesarlos y extraer información de ellos.

Para finalizar debemos destacar que en los ejemplos presentados adoptamos el supuesto: conocido el entorno de una palabra determinada del documento podemos conocer o deducir el significado de aquella. Porque el corpus de texto no es sólo un grupo de documentos que están juntos por azar, que no tienen relación unos con otros. Por el contrario se asume que en un corpus las palabras, las frases, los párrafos están relacionados, y precisamente es esa relación la que buscan los modelos LLM. Algo que podemos ver retomando el ejemplo de la palabra «flota» del corpus de noticias GORE Biobío. En el período 2019-marzo 2026 la palabra aparece en veinticinco noticias acompañada de una variedad de palabras entre las que destacan «renovar», «vehículos», «entrega». Al solicitar la similitud entre ellas se obtuvieron los siguientes valores: «renovar»: 0.9726, «vehículos»: 0.8623, «entrega»: 0.7786. Observamos que ambos resultados concuerdan, tener similitudes altas significa que están directamente relacionadas, se podría decir que la renovación y entrega de flota de vehículos es una actividad central del quehacer del gobierno regional. Así la otra manera de leer con ayuda de la tecnología LLM efectivamente permite leer gran cantidad de textos, procesarlos y extraer información que contienen.

Sociedad y Tecnología

Deja un comentario Cancelar la respuesta

Dime con quien andas…

Comparte esto:

Deja un comentario Cancelar la respuesta

About Me

Entradas recientes

Newsletter