por Carlos Ricardo Cruz Mendoza
imágenes de Entangled Others
En un contexto en el que la IA se integra cada vez más a nuestra VIDA COTIDIANA, la interpretabilidad busca comprender sus modelos, explicar sus conexiones y, en última instancia, hacerlos más seguros, veraces y robustos.
En la última década, la inteligencia artificial ha pasado de ser una invención utilizada por académicos e investigadores a una herramienta que todo el mundo emplea en su día a día. Sin embargo, a medida que modelos de IA generativa como ChatGPT de la compañía OpenAI o Claude de Anthropic se vuelven más sofisticados, surge una paradoja inquietante: cuanto más potentes son estos sistemas, más difícil resulta entender qué ocurre en su "mente" artificial. Durante años, hemos aceptado interactuar con "cajas negras", modelos que ofrecen resultados asombrosos pero cuyos procesos de toma de decisiones permanecen ocultos tras millones de parámetros matemáticos.
Esta falta de transparencia no es solo un reto técnico; es un obstáculo crítico para la veracidad y la confianza. ¿Cómo podemos confiar en un diagnóstico médico o en un texto científico generado por una IA si no sabemos por qué ha llegado a esa conclusión? Aquí entra en juego el campo de la interpretabilidad, una disciplina que busca entender estos modelos de IA para dar sentido a sus conexiones.
El caos de las neuronas polisemánticas
Para entender el avance reciente de compañías como Anthropic o OpenAI, debemos comprender el problema de la organización interna de un modelo de IA como ChatGPT o Claude. Aunque estos sistemas parecen "pensar", en realidad funcionan prediciendo la siguiente palabra más probable en una secuencia, basándose en patrones matemáticos que han aprendido de millones de textos. Esta capacidad de predicción reside en una red de miles de millones de neuronas artificiales interconectadas. Tradicionalmente, se pensaba que podríamos encontrar una neurona específica para cada concepto (la "neurona que hace referencia al concepto de la revista Capitel" o la "neurona de México"). No obstante, la realidad es mucho más caótica. Las redes neuronales utilizan una estrategia llamada "superposición", en la que una sola neurona puede activarse ante conceptos dispares: desde un chiste hasta un diálogo en coreano o una cita académica.
A este fenómeno se le conoce como neuronas polisemánticas. Esta capacidad de procesar múltiples significados permite a la IA ser extremadamente eficiente y almacenar mucha información en un espacio limitado. Sin embargo, la interpretación humana se convierte en un rompecabezas imposible. Para un observador externo, las activaciones de estas neuronas parecen ruido sin sentido.
El "Autocodificador Disperso": el traductor de la caja negra
Un hito reciente en la investigación de la IA, liderado por equipos de las compañías OpenAI y Anthropic, ha sido el uso de una herramienta denominada Autocodificador Disperso (Sparse Autoencoder). En lugar de intentar entender las neuronas individuales, los investigadores entrenaron a un segundo modelo para que aprenda a "descomponer" y separar las señales de la primera.
El resultado es fascinante: han logrado aislar patrones de activación que representan conceptos abstractos y complejos. Por ejemplo, en Claude, se identificaron combinaciones específicas de neuronas que solo se disparan cuando el texto contiene errores de programación o cuando el contenido parece una estafa financiera.
Este avance transforma la explicabilidad. Ya no vemos solo números; vemos "direcciones" conceptuales. Podemos identificar con precisión qué parte del modelo está "pensando" en un concepto determinado, lo que nos acerca un paso más a una IA que no solo responde, sino que puede ser auditada.
Del entendimiento al control: El caso del Golden Gate
La interpretabilidad no solo sirve para observar, sino para intervenir. Uno de los experimentos más ilustrativos —y cómicos— fue realizado por Anthropic. En él los investigadores lograron identificar el patrón de neuronas asociado al puente Golden Gate de San Francisco. Al hacerlo, los investigadores pudieron "subir el volumen" de su activación de forma artificial.
El resultado fue una IA obsesionada con todo lo referente al Golden Gate: Claude empezó a creer que su forma física era la de un puente en suspensión, respondía a preguntas históricas vinculándolas con San Francisco e incluso afirmaba que Neil Armstrong, al pisar la Luna, en realidad estaba admirando las vistas desde el Golden Gate.
Más allá de la anécdota, este experimento demuestra una capacidad de manejabilidad sin precedentes. Si podemos identificar el patrón de un sesgo racista, de una alucinación (información falsa) o de un comportamiento peligroso, teóricamente podríamos "bajar el volumen" de esas neuronas para hacer el sistema más seguro, veraz y robusto.
Construyendo puentes hacia la confianza
La confianza en la IA no puede ser fe ciega. La veracidad de un sistema depende de su capacidad para ser verificado. Si podemos entrar en la "cabeza" de la IA y ajustar sus neuronas para corregir errores de lógica o eliminar vulnerabilidades ante ataques de manipulación, estaremos pasando de una caja negra a una tecnología que podemos manipular con rigor científico.
El hecho de que empresas como OpenAI y Anthropic estén publicando investigaciones similares sobre interpretabilidad sugiere que la industria ha comprendido que la seguridad es un bien común. Entender el interior de estos modelos es el único camino para garantizar que, en el futuro, la IA sea una herramienta transparente y, sobre todo, confiable. Al final del día, la investigación más importante no es la que hace a la IA más inteligente, sino la que nos permite entender por qué es inteligente.

Todas las imágenes: Entangled Others, Hybrid Ecosystems (Ecosistemas híbridos), 2020-2022.
Aunque estos sistemas parecen ‘pensar’, en realidad funcionan prediciendo la siguiente palabra más probable en una secuencia, basándose en patrones matemáticos que han aprendido de millones de textos.

¿Cómo podemos confiar en un […] texto científico generado por una IA si no sabemos por qué ha llegado a esa conclusión?
Bibliografía
Anthropic. “Mapping the Mind of a Large Language Model” en Anthropic News (mayo 2024). Consultado el 26 de febrero de 2026. https://tinyurl.com/y8wh9cat.
Anthropic. “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning” en Anthropic News (octubre de 2023). Consultado el 26 de febrero de 2026. https://tinyurl.com/2td2jbny.
Bricken, Trenton, Adly Templeton, Joshua Batson, Brian Chen, Adam Jermyn, Tom Conerly y Nicholas L. Turner, et al. “Towards Monosemanticity: Decomposing Language Models with Dictionary Learning” en Transformer-Circuits (octubre de 2023). Consultado el 26 de febrero de 2026. https://tinyurl.com/36zvz84b.


Carlos Ricardo Cruz Mendoza cuenta con un doctorado en Ciencias de la Computación y es investigador SNI 1 adscrito al Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) de la UNAM. Se desempeña como profesor en la Facultad de Ciencias y del Posgrado en Ciencia e Ingeniería de la Computación de la UNAM. Sus principales áreas de investigación incluyen inteligencia artificial, interacción humano-computadora, interacción humano-robot y sistemas de rehabilitación.








