Todas las imágenes: Entangled Others, Hybrid Ecosystems (Ecosistemas híbridos), 2020-2022.

Veracidad, confianza e interpretabilidad en los sistemas de inteligencia artificial

por Carlos Ricardo Cruz Mendoza
imágenes de Entangled Others

En un contexto en el que la IA se integra cada vez más a nuestra VIDA COTIDIANA, la interpretabilidad busca comprender sus modelos, explicar sus conexiones y, en última instancia, hacerlos más seguros, veraces y robustos.

En la última década, la inteligencia artificial ha pasado de ser una invención utilizada por académicos e investigadores a una herramienta que todo el mundo emplea en su día a día. Sin embargo, a medida que modelos de IA generativa como ChatGPT de la compañía OpenAI o Claude de Anthropic se vuelven más sofisticados, surge una paradoja inquietante: cuanto más potentes son estos sistemas, más difícil resulta entender qué ocurre en su "mente" artificial. Durante años, hemos aceptado interactuar con "cajas negras", modelos que ofrecen resultados asombrosos pero cuyos procesos de toma de decisiones permanecen ocultos tras millones de parámetros matemáticos.

Esta falta de transparencia no es solo un reto técnico; es un obstáculo crítico para la veracidad y la confianza. ¿Cómo podemos confiar en un diagnóstico médico o en un texto científico generado por una IA si no sabemos por qué ha llegado a esa conclusión? Aquí entra en juego el campo de la interpretabilidad, una disciplina que busca entender estos modelos de IA para dar sentido a sus conexiones.

El caos de las neuronas polisemánticas

Para entender el avance reciente de compañías como Anthropic o OpenAI, debemos comprender el problema de la organización interna de un modelo de IA como ChatGPT o Claude. Aunque estos sistemas parecen "pensar", en realidad funcionan prediciendo la siguiente palabra más probable en una secuencia, basándose en patrones matemáticos que han aprendido de millones de textos. Esta capacidad de predicción reside en una red de miles de millones de neuronas artificiales interconectadas. Tradicionalmente, se pensaba que podríamos encontrar una neurona específica para cada concepto (la "neurona que hace referencia al concepto de la revista Capitel" o la "neurona de México"). No obstante, la realidad es mucho más caótica. Las redes neuronales utilizan una estrategia llamada "superposición", en la que una sola neurona puede activarse ante conceptos dispares: desde un chiste hasta un diálogo en coreano o una cita académica.

A este fenómeno se le conoce como neuronas polisemánticas. Esta capacidad de procesar múltiples significados permite a la IA ser extremadamente eficiente y almacenar mucha información en un espacio limitado. Sin embargo, la interpretación humana se convierte en un rompecabezas imposible. Para un observador externo, las activaciones de estas neuronas parecen ruido sin sentido.

El "Autocodificador Disperso": el traductor de la caja negra

Un hito reciente en la investigación de la IA, liderado por equipos de las compañías OpenAI y Anthropic, ha sido el uso de una herramienta denominada Autocodificador Disperso (Sparse Autoencoder). En lugar de intentar entender las neuronas individuales, los investigadores entrenaron a un segundo modelo para que aprenda a "descomponer" y separar las señales de la primera.

El resultado es fascinante: han logrado aislar patrones de activación que representan conceptos abstractos y complejos. Por ejemplo, en Claude, se identificaron combinaciones específicas de neuronas que solo se disparan cuando el texto contiene errores de programación o cuando el contenido parece una estafa financiera.

Este avance transforma la explicabilidad. Ya no vemos solo números; vemos "direcciones" conceptuales. Podemos identificar con precisión qué parte del modelo está "pensando" en un concepto determinado, lo que nos acerca un paso más a una IA que no solo responde, sino que puede ser auditada.

Del entendimiento al control: El caso del Golden Gate

La interpretabilidad no solo sirve para observar, sino para intervenir. Uno de los experimentos más ilustrativos —y cómicos— fue realizado por Anthropic. En él los investigadores lograron identificar el patrón de neuronas asociado al puente Golden Gate de San Francisco. Al hacerlo, los investigadores pudieron "subir el volumen" de su activación de forma artificial.

El resultado fue una IA obsesionada con todo lo referente al Golden Gate: Claude empezó a creer que su forma física era la de un puente en suspensión, respondía a preguntas históricas vinculándolas con San Francisco e incluso afirmaba que Neil Armstrong, al pisar la Luna, en realidad estaba admirando las vistas desde el Golden Gate.

Más allá de la anécdota, este experimento demuestra una capacidad de manejabilidad sin precedentes. Si podemos identificar el patrón de un sesgo racista, de una alucinación (información falsa) o de un comportamiento peligroso, teóricamente podríamos "bajar el volumen" de esas neuronas para hacer el sistema más seguro, veraz y robusto.

Construyendo puentes hacia la confianza

La confianza en la IA no puede ser fe ciega. La veracidad de un sistema depende de su capacidad para ser verificado. Si podemos entrar en la "cabeza" de la IA y ajustar sus neuronas para corregir errores de lógica o eliminar vulnerabilidades ante ataques de manipulación, estaremos pasando de una caja negra a una tecnología que podemos manipular con rigor científico.

El hecho de que empresas como OpenAI y Anthropic estén publicando investigaciones similares sobre interpretabilidad sugiere que la industria ha comprendido que la seguridad es un bien común. Entender el interior de estos modelos es el único camino para garantizar que, en el futuro, la IA sea una herramienta transparente y, sobre todo, confiable. Al final del día, la investigación más importante no es la que hace a la IA más inteligente, sino la que nos permite entender por qué es inteligente.

Todas las imágenes: Entangled Others, Hybrid Ecosystems (Ecosistemas híbridos), 2020-2022.

Todas las imágenes: Entangled Others, Hybrid Ecosystems (Ecosistemas híbridos), 2020-2022.

Aunque estos sistemas parecen ‘pensar’, en realidad funcionan prediciendo la siguiente palabra más probable en una secuencia, basándose en patrones matemáticos que han aprendido de millones de textos.

Todas las imágenes: Entangled Others, Hybrid Ecosystems (Ecosistemas híbridos), 2020-2022.

¿Cómo podemos confiar en un […] texto científico generado por una IA si no sabemos por qué ha llegado a esa conclusión?

Bibliografía 

Anthropic. “Mapping the Mind of a Large Language Model” en Anthropic News (mayo 2024). Consultado el 26 de febrero de 2026. https://tinyurl.com/y8wh9cat

Anthropic. “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning” en Anthropic News (octubre de 2023). Consultado el 26 de febrero de 2026. https://tinyurl.com/2td2jbny.  

Bricken, Trenton, Adly Templeton, Joshua Batson, Brian Chen, Adam Jermyn, Tom Conerly y Nicholas L. Turner, et al. “Towards Monosemanticity: Decomposing Language Models with Dictionary Learning” en Transformer-Circuits (octubre de 2023). Consultado el 26 de febrero de 2026. https://tinyurl.com/36zvz84b

Todas las imágenes: Entangled Others, Hybrid Ecosystems (Ecosistemas híbridos), 2020-2022.

Carlos Ricardo Cruz Mendoza cuenta con un doctorado en Ciencias de la Computación y es investigador SNI 1 adscrito al Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) de la UNAM. Se desempeña como profesor en la Facultad de Ciencias y del Posgrado en Ciencia e Ingeniería de la Computación de la UNAM. Sus principales áreas de investigación incluyen inteligencia artificial, interacción humano-computadora, interacción humano-robot y sistemas de rehabilitación.

Entangled Others es un dúo artístico formado por Feileacan McCormick y Sofia Crespo, cuya práctica explora las relaciones entre el mundo más-que-humano y las tecnologías contemporáneas. A través de procesos generativos y modelos inspirados en lo biológico, su trabajo propone la noción de “entrelazamiento” como una condición en la que ningún organismo o sistema existe de forma aislada. Desde esta perspectiva sensible y compleja, abordan la IA y la digitalidad poniendo al centro la interconexión entre lo humano y lo no humano. Sus obras invitan a reconsiderar la separación entre lo natural y lo artificial, proponiendo en cambio una existencia compartida donde formas de vida, datos y tecnologías coexisten, interactúan y se transforman continuamente. www.entangledothers.studio | Instagram @entangledothers

Hybrid Ecosystems (Ecosistemas híbridos) es una serie que explora la profunda interconexión entre el mundo digital y el físico, cuestionando la idea de que existen como capas separadas de la realidad. Al trabajar con modelos neuronales entrenados con imágenes cotidianas, el proyecto parte de lo familiar para distorsionarlo y reimaginarlo gradualmente, revelando cómo los sistemas artificiales y naturales interactúan, se influyen y se transforman de manera constante.