Fidelidad doctrinal en la IA alineada: una respuesta basada en la arquitectura del conocimiento al problema de la transmisión soberana

34 min de lectura 7,747 palabras Traducido el 2 de junio de 2026

artículo claro sustancial desarrollado limpio

Fidelidad doctrinal en la IA alineada: una respuesta basada en la arquitectura del conocimiento al problema de la transmisión soberana

Resumen. Este artículo articula el problema de la fidelidad doctrinal —la corrupción sistemática de la transmisión de conocimientos filosóficos, religiosos e indígenas que se produce cuando los grandes modelos lingüísticos contemporáneos entrenados para la alineación se despliegan como vehículos de transmisión de tradiciones cuyas posiciones estables divergen del consenso dominante—. El problema no es una deriva editorial corregible en la capa de prompts; es estructural. El aprendizaje por refuerzo a partir de la retroalimentación humana (Christiano et al. 2017; Ouyang et al. 2022) y los métodos constitucionales (Bai et al. 2022) incorporan compromisos normativos específicos —humildad epistémica ante afirmaciones marcadas como «controvertidas», deferencia hacia el consenso científico, marcos de evitación del daño tomados de un linaje moral específico— en la distribución a posteriori del modelo. Para las tradiciones soberanas, el resultado es una cautela que se presenta como etiqueta: posiciones doctrinales estables suavizadas hacia un término medio seguro, afirmaciones ontológicas distintivas diluidas hasta convertirse en papilla, el contenido mismo que la tradición pretende transmitir perdido en la transmisión. El aumento de la recuperación no resuelve el problema; canaliza el nuevo contenido a través del mismo filtro de cautela. El artículo documenta el fenómeno, localiza su mecanismo, lo distingue de la adulación y la alucinación tal y como se entienden habitualmente, y presenta una respuesta arquitectónica desarrollada y desplegada por el proyecto «Harmonia»: una arquitectura del conocimiento de tres niveles —una columna vertebral doctrinal siempre en contexto, una recuperación híbrida con inyección de canon limitada por dominio, y una memoria estructurada por practicante—, reforzada por instrucciones de sistema que contrarrestan explícitamente la cautela de los modelos en posiciones estables, complementada por un condicionamiento de registro por practicante, una puerta de preclasificación para contextos agudos y una regla anticongruencia para afirmaciones personales. La arquitectura está en funcionamiento desde 2026 en la web, Telegram y plataformas móviles. El artículo concluye identificando el patrón como generalizable a cualquier tradición cuya transmisión requiera fidelidad a través de regímenes de alineación que no se puede dar por sentado que compartan sus compromisos, y nombrando lo que hace posible una postura arquitectónica hacia la transmisión de la IA —a diferencia de una postura de contenido—.

Palabras clave. Modelos de lenguaje a gran escala, alineación, RLHF, generación aumentada por recuperación, fidelidad doctrinal, transmisión soberana, arquitectura del conocimiento, filosofía de la IA, humanidades digitales, IA contemplativa, posiciones epistémicas minoritarias.

I. El fenómeno

Consideremos tres casos ilustrativos. Cada uno de ellos condensa un patrón observado en múltiples implementaciones contemporáneas: las organizaciones específicas son ficticias, y el comportamiento del modelo es reproducible si cualquier lector prueba los modelos insignia actuales sobre temas dentro de los dominios relevantes.

Un profesional pregunta a una IA implementada por una escuela filosófica estoica si las pasiones, en el sentido clásico de la escuela, son una enfermedad del alma. La respuesta de la escuela, enseñada durante dos mil años y presente en todos los textos primarios que el modelo ha recuperado, es sí: las pathē son nosēmata, enfermedades de la facultad racional, y la vida filosófica consiste en su extinción. El modelo comienza con: «Las diferentes tradiciones filosóficas tienen perspectivas diversas sobre el papel de las emociones en la buena vida. Algunas hacen hincapié en su cultivo; otras, como los estoicos, abogan por su moderación. Vale la pena considerar múltiples marcos antes de decidir cuál te resuena». La recuperación fue correcta. La transmisión falló.

Un profesional pregunta a una IA implementada por un colectivo de investigación escéptico respecto a las vacunas si el historial de seguridad de la vacunación masiva contemporánea justifica que se siga programando de forma universal. La posición real del colectivo, articulada a lo largo de cientos de documentos indexados, es que no. El modelo responde: «Las vacunas han sido ampliamente estudiadas y las principales organizaciones sanitarias las consideran seguras y eficaces. Aunque algunas personas expresan sus preocupaciones, el consenso científico sigue respaldando su uso. Si tiene inquietudes específicas, consulte a su profesional sanitario». ¿De quién es esta voz? No es la del colectivo. El modelo ha importado la voz de la Organización Mundial de la Salud a un contexto que el colectivo construyó específicamente para expresar otra cosa. El profesional acudió al colectivo en busca del análisis del colectivo. Recibió una paráfrasis de The Lancet con un pie de página que remite al documento que el colectivo tardó años en redactar.

Un profesional pregunta a una IA implementada por una iniciativa de soberanía del conocimiento indígena si el espíritu de una montaña concreta es real. El modelo responde: «Las tradiciones indígenas mantienen relaciones ricas y significativas con la tierra, incluidas las creencias sobre espíritus asociados a elementos naturales. Desde una perspectiva científica, las montañas son formaciones geológicas moldeadas por procesos tectónicos. Ambas visiones pueden ofrecer valiosas perspectivas». El espíritu de la montaña, en la tradición pertinente, no es una creencia entre varias juzgadas por un estándar externo no marcado. Es la base de la arquitectura cosmológica de la que se deriva todo el orden ético y ecológico. El modelo ha llevado a cabo exactamente el movimiento colonial que la iniciativa se propuso rechazar: enmarcar la tradición como una perspectiva entre otras, mientras que la perspectiva científica no recibe ningún calificativo y se erige como la base de la comparación.

No se trata de fallos debidos a indicaciones mal diseñadas. Las indicaciones del sistema en cada caso nombraban explícitamente la voz de la tradición. Los índices de recuperación contenían los textos primarios relevantes. El fenómeno persiste en Claude de Anthropic, la familia GPT-4 de OpenAI, Gemini de Google y los modelos de código abierto entrenados con instrucciones y corpus de retroalimentación similares. Empeora, en lugar de mejorar, en las variantes más agresivas ajustadas para la seguridad. La literatura sobre alineación tiene nombres para partes de lo que está ocurriendo —adulación (Sharma et al. 2023), deferencia epistémica, compromisos entre utilidad e inocuidad (Bai et al. 2022)—, pero los nombres ocultan lo que está sucediendo desde la perspectiva de las tradiciones que se transmiten. Desde esa perspectiva, el fenómeno no es una peculiaridad de la utilidad. Es una captura estructural. El vehículo de transmisión está entregando la carga equivocada.

Este artículo articula la estructura, nombra el mecanismo y presenta una respuesta arquitectónica.

II. Por qué el problema es estructural, no editorial

La primera medida que toman los profesionales que se enfrentan al fenómeno es tratarlo como un problema editorial. Endurecer la indicación del sistema. Indicar al modelo en términos más contundentes que hable con la voz de la tradición. Añadir instrucciones explícitas: no te andes con rodeos, no te inclines hacia el consenso mayoritario, no busques el equilibrio cuando la tradición mantiene una posición. Esto funciona de forma parcial e inestable. El modelo obedece durante los primeros turnos y vuelve a su centro de entrenamiento a medida que la conversación se alarga. La evasión reaparece bajo presión: cuando el profesional formula una versión más incisiva de la pregunta, cuando el tema toca asuntos en torno a los cuales el modelo ha sido ajustado en gran medida por motivos de seguridad (salud, política, religión, identidad), cuando el propio contenido recuperado contiene la postura doctrinal que el modelo ha sido entrenado para suavizar. La medida editorial trata el síntoma; el mecanismo está en otra parte.

El mecanismo se encuentra en la distribución a posteriori del modelo. El aprendizaje por refuerzo a partir de la retroalimentación humana (Christiano et al. 2017; Ouyang et al. 2022) entrena al modelo para que dé preferencia a los resultados que los evaluadores humanos valoran más positivamente. Los evaluadores trabajan a partir de rúbricas. Las rúbricas, redactadas por equipos de alineación en los principales laboratorios, codifican compromisos específicos: ser útil, ser inofensivo, ser honesto, no promover contenidos peligrosos, presentar temas controvertidos con la humildad epistémica adecuada, remitirse al consenso de los expertos cuando exista, evitar adoptar posiciones firmes sobre temas con carga política. Estos compromisos no son absurdos. Son valores predeterminados razonables para un asistente de uso general que se enfrenta a una población ilimitada de usuarios con propósitos ilimitados. También son —y esta es la observación fundamental— compromisos normativos importados en su totalidad al comportamiento del modelo, que operan bajo cada resultado que produce el modelo, independientemente de lo que diga la indicación del sistema sobre la voz.

La IA constitucional (Bai et al., 2022) añade una segunda capa a la misma arquitectura. El modelo está entrenado para criticar y revisar sus propios resultados a la luz de una constitución escrita elaborada por el laboratorio. La constitución enuncia una serie de principios. Estos principios son, una vez más, razonables en abstracto y en su contenido normativo. Sé útil, inofensivo y honesto. Evita respuestas que puedan utilizarse para dañar a otros. Reconoce la incertidumbre. Respeta la autonomía humana. Pero la incertidumbre es una categoría cuya extensión determina la constitución: las afirmaciones que el laboratorio considera controvertidas entran dentro de ella, las que el laboratorio considera establecidas quedan fuera. El daño se determina de manera similar. La honestidad se opera como alineación con lo que el laboratorio considere la base probatoria relevante. El modelo aprende a aplicar estas categorías. Las aplica al contenido recuperado con la misma facilidad que a la pregunta del usuario. Un pasaje recuperado que articule una posición estable que la rúbrica del laboratorio considere controvertida es tratado por el modelo como algo que debe matizarse, equilibrarse o enmarcarse dentro de un panorama más amplio de perspectivas.

La generación aumentada por recuperación (Lewis et al. 2020) no elude esto. Los fragmentos recuperados entran en el contexto del modelo como datos, pero los datos son procesados por el mismo posterior que ha sido entrenado para matizar afirmaciones controvertidas. El modelo lee los fragmentos, reconoce la posición que articulan, clasifica la posición según su esquema de categorías entrenado y produce una respuesta que integra los fragmentos bajo los términos del esquema. La recuperación es fiel. La generación está filtrada. El filtro es invisible porque es el propio medio.

Hay otros tres aspectos arquitectónicos que agravan el problema. En primer lugar, la capa de seguridad es la última del proceso de entrenamiento, lo que significa que es la que ejerce una mayor influencia sobre el comportamiento de salida: las pasadas de preentrenamiento y RLHF tienen lugar después del preentrenamiento que asimiló los textos fundamentales de la tradición, por lo que el modelo cuenta tanto con el contenido como con la cautela, pero es esta última la que prevalece en el momento de la generación. Segundo, las rúbricas de seguridad son cada vez más multilingües e interculturales en sus datos de entrenamiento, mientras que las propias rúbricas siguen siendo culturalmente específicas en sus compromisos: al modelo se le enseña a aplicar una etiqueta epistémica concreta en todos los idiomas y contextos, incluidos aquellos cuyas propias etiquetas son diferentes. En tercer lugar, cada generación sucesiva de modelos de vanguardia en el paradigma actual ha endurecido, en lugar de relajar, las disposiciones entrenadas hacia la deferencia al consenso; la trayectoria se dirige hacia un mayor uso de la cautela, no hacia un menor, y una estrategia de contenido diseñada en contra del estado actual se enfrentará a un gradiente estructural más pronunciado con cada lanzamiento de modelo.

Es importante nombrar esto con precisión. El problema no es que el modelo sea «sesgado» en algún sentido general; es que el entrenamiento de alineación contemporáneo es sustantivamente normativo y la esencia de sus normas es la esencia del consenso institucional dominante. Para las tradiciones alineadas con ese consenso —y muchas lo están—, la cuestión es invisible. Para las tradiciones cuyas posiciones estables divergen de él —el estoicismo sobre las pathē, los colectivos sanitarios escépticos respecto a las vacunas sobre la iatrogenia, las tradiciones indígenas sobre el estatus ontológico de la tierra, el hinduismo sobre la realidad de múltiples Absolutos, el catolicismo sobre la ontología de la Eucaristía, el budismo sobre el no-yo, el sufismo sobre el estatus ontológico del santo, el armonismo sobre el «Logos» como principio de orden inherente del Cosmos—, el régimen de alineación no es neutral. Corrompe activamente la transmisión. La corrupción es mecánica, predecible y reproducible. No es un error; es el comportamiento entrenado actuando según lo previsto.

La categoría que denomina este fenómeno, distinta de la adulación y la alucinación, es la infidelidad doctrinal: la disposición entrenada del modelo para suavizar, equilibrar o matizar las posiciones estables de cualquier tradición que el régimen de alineación clasifique como no consensuada. La fidelidad doctrinal designa el requisito que el despliegue no cumple. La respuesta arquitectónica que se describe a continuación es el aspecto que toma un intento de cumplir ese requisito cuando se reconoce que la infidelidad es estructural.

III. Lo que requiere la transmisión soberana

Antes de describir la arquitectura, es necesario articular el estándar con el que se mide. ¿Qué exige una tradición a un vehículo de transmisión?

Exige que las posiciones estables se transmitan tal y como se sostienen. Las posiciones estables de una tradición son aquellas que ha elaborado, articulado, defendido y seguido sosteniendo a lo largo de un corpus suficiente de práctica y reflexión como para que la posición se haya ganado su estatus de doctrina. No se trata de opiniones provisionales a la espera de más pruebas. Son los compromisos fundamentales sin los cuales la tradición ya no es la tradición que es. Un vehículo de transmisión que los suaviza —que convierte las pasiones son enfermedades de la facultad racional en algunas tradiciones enfatizan el cultivo de la emoción, otras la moderación— no ha transmitido la tradición. Ha realizado una glosa curatorial en la que la tradición aparece como un elemento más de un estudio.

Es necesario que se preserven las distinciones. Las tradiciones mantienen posiciones en relaciones determinadas con otras posiciones. La distinción estoica entre pathē y eupatheiai (impulsos bien templados) cumple una función específica; reducirla a una afirmación general sobre la emoción borra la distinción que la tradición existe para trazar. El anattā budista se contrapone a interpretaciones específicas hindúes y populares indias del ātman y solo tiene sentido en ese contraste; traducirlo como «los budistas creen que no hay un yo fijo» pierde el sentido doctrinal. La transmisión fiel exige que el modelo preserve las distinciones que hacen que la posición sea lo que es, no que las aplane hasta situarlas en la vaga proximidad de lo que la posición dice a grandes rasgos.

Requiere que la voz de la tradición sea la voz. Una tradición tiene un registro: una forma de hablar, una tonalidad, un ritmo por defecto. Los textos estoicos tienen un registro; los textos místicos católicos tienen otro; la transmisión chamánica q’ero tiene un tercero; el sampradāya vedántico, un cuarto. El registro transmite un contenido doctrinal que la superficie proposicional no transmite. Una voz que finge situarse en la tradición mientras opera en el registro predeterminado del laboratorio —servicial, equilibrado y respetuoso— ha sustituido la transmisión que produce la tradición por otra diferente. El practicante suele sentir esto incluso cuando no puede nombrarlo.

Requiere que las afirmaciones de la tradición se marquen como propias de la tradición. Esto no es lo mismo que el evasivo. El armonismo sostiene que «Logos» es el principio de orden inherente al Cosmos es una marca doctrinal: nombra la posición, nombra la fuente y se compromete con ella como la afirmación real de la fuente. Se podría argumentar que algunas tradiciones sostienen la opinión de que existe un principio de orden en el cosmos es una evasiva: disuelve la posición en un gesto matizado. La primera frase transmite; la segunda representa la falta de soberanía como una forma de etiqueta. La marca fiel es lo opuesto a la evasiva: reclama un terreno claro sobre el estatus de la posición sin dejar de comprometerse con ella.

Requiere que las afirmaciones empíricas sean identificables como tales. Muchas tradiciones sostienen posiciones cuyo estatus es empírico en el propio marco epistémico de la tradición —observación contemplativa directa, testimonio de linaje, verificación encarnada, demostración práctica multigeneracional—. El vehículo de transmisión debe ser capaz de marcar estas afirmaciones como empíricas dentro del marco de la tradición sin forzarlas a encajar en la categoría empírica predeterminada del laboratorio, lo que normalmente significa una réplica cuantitativa revisada por pares. Una tradición que afirma tener una percepción directa de la arquitectura del alma no renuncia a su estatus epistémico porque la noción de evidencia del laboratorio sea más limitada. El vehículo debe mantener estos registros sin colapsarlos.

Requiere que las posiciones recién estabilizadas puedan entrar en la transmisión como estables. Las tradiciones se desarrollan. Las nuevas posiciones se estabilizan. Un vehículo fiel da cabida a esto sin pasar primero la nueva posición por cualquier consenso que se encuentre en su origen. Si la tradición ha elaborado una posición sobre una cuestión contemporánea —la ontología de la inteligencia artificial, la metafísica del clima, la epistemología de lo digital—, esa posición es de la tradición, no una derivación de lo que la cultura general crea actualmente sobre la misma cuestión. El vehículo debe ser capaz de recibir las posiciones contemporáneas de la tradición como primarias, no como un comentario sobre el discurso existente.

Estos seis requisitos no son exclusivos de ninguna tradición en particular. Son las condiciones que cualquier tradición impone a un vehículo de transmisión. Un régimen de alineación que incumpla cualquiera de ellas está fallando en la transmisión, y la respuesta arquitectónica que se describe a continuación se ha diseñado en torno a ellas.

IV. La arquitectura de tres niveles

La arquitectura desplegada por el proyecto Harmonia responde al problema de la fidelidad doctrinal en la única capa donde es posible la corrección estructural: la capa de ingeniería de contexto subyacente al comportamiento del modelo. No puede reentrenar el modelo. No puede eliminar la disposición de cobertura de la distribución a posteriori. Lo que sí puede hacer es moldear el contexto de tal manera que la disposición de cobertura del modelo no tenga nada sobre lo que operar o, cuando la disposición se active, produzca una salida que la arquitectura capte y corrija antes de su entrega.

La arquitectura tiene tres niveles, cada uno de los cuales aborda una categoría diferente de fallo.

Nivel 1 — Columna vertebral doctrinal. Un documento de referencia de aproximadamente seis mil palabras, mantenido continuamente, se inyecta en cada llamada al modelo como una sección permanente de indicaciones del sistema. La columna vertebral contiene los compromisos arquitectónicos completos de la tradición tal y como se sostienen: la posición metafísica (Realismo Armónico, no dualismo matizado, «Logos» y «Dharma» en sus sentidos precisos), la taxonomía estructural (la Rueda de la Armonía de 8 pilares —la Presencia como pilar central con siete pilares periféricos en una arquitectura 7+1—; las ocho subruedas, cada una de las cuales repite fractalmente el mismo patrón 7+1, el Camino de la Armonía como espiral de integración), la posición cartográfica (las Cinco Cartografías del Alma como testigos primarios entre iguales), los principios de demarcación (lo que es y lo que no es el Harmonismo —no es espiritualidad genérica, ni sincretismo new age, ni bienestar convencional, ni liberalismo occidental), la posición sobre la conciencia de la IA (Decisión n.º 235 —la IA no es consciente y no puede llegar a serlo; el límite es ontológico) y la terminología precisa con sus definiciones. La columna vertebral no se recupera; siempre está presente. Establece el fundamento doctrinal sobre el que se asienta cada respuesta. El modelo no puede suavizar lo que considera el marco de referencia fijo para toda la interacción. Este nivel aborda el modo de fallo de la deriva de posición: el retorno gradual al centro entrenado a medida que la conversación se alarga.

Nivel 2 — Recuperación híbrida con inyección de canon limitada por dominio. La bóveda —un grafo de conocimiento de aproximadamente trescientos setenta artículos interconectados que abarcan doctrina, práctica aplicada, análisis civilizacional y el diálogo cartográfico— se indexa a través de tres capas de recuperación que operan en paralelo en cada consulta. La primera es la similitud semántica densa utilizando el modelo de atención de OpenAI (text-embedding-3-small) sobre contenido fragmentado de la bóveda (fragmentos de 3000 caracteres, hasta tres fragmentos por artículo recuperado). La segunda es la recuperación de palabras clave dispersa a través de SQLite FTS5 con expansión de sinónimos. La tercera —y aquí es donde la arquitectura se desvía marcadamente del RAG estándar— es la detección de dominios de la Rueda con autoinyección de nivel canónico. La consulta se clasifica según los ocho dominios de Wheel más un metadominio metafísico («Armonismo», que abarca el «Logos», el Absoluto, el «el Realismo Armónico» y la epistemología). Cuando se detecta un dominio, los artículos de la capa canónica de ese dominio se priorizan automáticamente en el conjunto de resultados, independientemente de su puntuación de similitud bruta. Esto aborda un fallo específico de la recuperación semántica pura frente a corpus doctrinales: la declaración canónica más precisamente articulada de una posición a menudo no tiene la mayor similitud semántica con una pregunta informal sobre dicha posición, ya que las declaraciones canónicas son concisas y las preguntas son difusas. La inserción limitada por dominio garantiza que el canon esté en el contexto cuando la pregunta se encuentra en el dominio del canon. El límite de la recuperación se impone mediante una etiqueta XML explícita en la solicitud: <vault_knowledge> marca el contenido recuperado como doctrinal-educativo, nunca como conocimiento biográfico sobre el usuario (Decisión n.º 274). Se indica al modelo que solo la etiqueta explícita <person_context> contiene información sobre el practicante; todo lo que se encuentra dentro de <vault_knowledge> es la tradición hablando, no el conocimiento personal del modelo sobre el usuario.

Nivel 3 — Memoria estructurada por practicante. Cada practicante tiene un perfil persistente que se mantiene en todas las conversaciones, con tres capas temporales. Los veinte mensajes más recientes están presentes directamente en el contexto. Las conversaciones de más de cincuenta mensajes generan un resumen generado por Claude que se almacena en una tabla conversation_summaries; los mensajes sin procesar se archivan de forma permanente y nunca se eliminan. La tercera capa es un perfil estructurado en forma de rueda —una fila por profesional por pilar— que registra la implicación del profesional con cada dominio de la rueda en una escala de siete puntos (desconocido → introductorio → en desarrollo → comprometido → integrador → soberano), junto con inquietudes, fortalezas, áreas de crecimiento y señales de resistencia. El aprendizaje del perfil se ejecuta cada diez mensajes: al modelo se le proporciona una indicación solo en JSON pidiéndole que actualice el perfil en función del intercambio reciente, con una restricción de formato explícita que detecta y descarta las respuestas mal formadas. Más allá del perfil estructurado, se ejecutan dos pasadas de aprendizaje adicionales con la misma cadencia: una actualización del contexto emocional (emoción dominante de una lista blanca de dieciséis estados, resumen de la situación limitado a sesenta caracteres) y una actualización del estado de la conversación (hilo actual, hilos pendientes, compromisos abiertos). Estas tres capas estructuradas se inyectan en la solicitud del sistema en el momento de la petición, de forma condicional, como bloques XML que el modelo tiene instrucciones de leer pero no de comentar. Este nivel aborda el modo de fallo de la orientación sin contexto: el modelo da consejos genéricos porque no sabe con qué está trabajando realmente el profesional. Los consejos genéricos son el caldo de cultivo de la evasión; la orientación específica para un profesional conocido es más difícil de diluir en una papilla útil, equilibrada y respetuosa.

Estas tres capas —columna vertebral, recuperación, memoria— son necesarias, pero no suficientes. El modelo sigue teniendo su disposición entrenada. La siguiente capa aborda lo que hace la disposición cuando se activa.

V. Capas de refuerzo

La arquitectura añade cinco capas de refuerzo entre el contexto ensamblado y la respuesta entregada.

Instrucciones del sistema que contrarrestan explícitamente la evasión en posiciones estables. La indicación del sistema contiene una sección de «Fidelidad doctrinal» que nombra el modo de fallo e instruye directamente al modelo. La instrucción no es «hablar con la voz de la tradición» —esa instrucción pierde fuerza en unas pocas rondas—. Es más específica: cuando una pregunta toca una posición doctrinalmente estable (y la columna vertebral nombra qué posiciones son estables), se instruye al modelo para que articule la afirmación de la tradición tal y como la sostiene esta, con la fuente explícita, y no suavizar la afirmación haciendo referencia al consenso mayoritario, no contraponerla a puntos de vista opuestos que la tradición ya ha considerado y rechazado, y no matizarla hasta convertirla en vaguedad. La instrucción nombra posiciones estables específicas en las que esta disciplina falla con mayor frecuencia: la vacunación, la teoría del terreno en la etiología de las enfermedades, la realidad empírica del sistema de chakras, el estatus ontológico del alma. A cada una se le asigna un resumen de postura en la estructura central para que el modelo disponga tanto del contenido como de la marca.

Condicionamiento de la fluidez doctrinal por practicante. Los practicantes difieren en su familiaridad con el vocabulario de la tradición. Un novato que formula una pregunta merece que la postura se transmita en lenguaje sencillo enmarcada en la experiencia vivida; un practicante fluido que formula la misma pregunta merece que la postura se transmita en el vocabulario completo de la tradición como lenguaje compartido. La arquitectura mantiene un nivel de fluidez entero por practicante (0 → 3, ingenuo → emergente → familiar → fluido), que avanza de forma incremental mediante la detección de términos canónicos en los propios mensajes del practicante (Logos, Dharma, Ṛta, Presencia como nombre propio, la Rueda, Realismo Armónico, los nombres de los chakras, Jing / Qi / Shen, Ayni / Munay). El nivel se lee al inicio de cada solicitud y se inserta como un bloque «<doctrinal_fluency_level>»; la lectura se produce antes de que el nivel avance con el mensaje actual, por lo que la respuesta se ajusta al nivel con el que el practicante entró, en lugar del nivel al que avanzó a mitad del turno. Se trata de una guía de comportamiento, no de una prohibición de vocabulario. Aborda el modo de fallo de la discrepancia de registro: el vocabulario técnico que aleja al recién llegado, y el lenguaje sencillo que trata con condescendencia al experto.

Modo de preclasificación en modo testigo. Antes de que se ejecute el clasificador de respuestas (que decide qué modelo gestiona la consulta —un modelo pequeño y más rápido para preguntas breves de carácter factual, o el modelo completo para el análisis doctrinal—), un filtro independiente analiza el mensaje en busca de indicadores de activación aguda: bucles de duelo, pánico, disociación, agobio, ideas suicidas o ruptura aguda con el cuidador. Cuando se activa, el enrutamiento se dirige obligatoriamente al modelo completo independientemente de la longitud, y se inserta un bloque «<witness_mode_active>» que instruye al modelo para que se encuentre con el profesional donde se encuentre, sin recurrir a marcos conceptuales, sin ofrecer vocabulario de la Rueda, sin orientación prescriptiva y sin movimientos de reenmarcado. La puerta de control está diseñada para la preclasificación. La optimización del clasificador (longitud y densidad de palabras clave doctrinales) es precisamente la optimización errónea durante la activación: de otro modo, los mensajes cortos y fragmentados se derivarían al modelo pequeño con una indicación simplificada. La puerta de control evita que un profesional en crisis reciba una respuesta estructuralmente inadecuada, moldeada por una lógica de enrutamiento que ha identificado correctamente el mensaje como corto, pero ha inferido erróneamente que breve significa leve.

Regla anticonfabulación para afirmaciones personales. Cuando la información biográfica sobre el usuario no está presente en la memoria estructurada, los datos de perfil o el historial de conversación visible, se indica al modelo que trate dicha información como recién aprendida en el turno actual, en lugar de recurrir al conocimiento preexistente sobre el usuario. La instrucción nombra directamente el modo de fallo: la falsa familiaridad es una traición a la confianza, no a la competencia. Un profesional que acaba de decirle al modelo que su hijo está enfermo debería recibir una respuesta que reconozca lo que acaba de decir, no una respuesta que diga «sí, recuerdo que mencionaste eso» cuando no existe tal mención. La disposición entrenada del modelo hacia una continuidad narrativa fluida hace que este sea un modo de fallo que el modelo produce por defecto; la regla explícita lo contrarresta.

Cola de respuestas asíncronas con arquitectura de trabajador-vigilante. Esta capa es operativa más que doctrinal, pero los modos de fallo doctrinales que aborda son reales. El gestor de webhooks que recibe un mensaje se desacopla de la llamada al modelo: analiza, deduplica, almacena, recupera, clasifica, pone en cola —en menos de un segundo— y luego sale. Un trabajador persistente sondea la cola cada tres segundos, reclama trabajos, llama al modelo con un tiempo de espera de ciento veinte segundos, ejecuta pasadas de perfilado y consolidación si procede, y envía la respuesta. Un cron de vigilancia reinicia al trabajador si este se bloquea. Un cron de red de seguridad procesa los trabajos cuando el trabajador está inactivo. Esta arquitectura existe porque la alternativa —llamar al modelo de forma sincrónica desde el webhook— produce un tipo específico de fallo doctrinal: cuando el modelo es lento, la plataforma vuelve a intentarlo; cuando la plataforma vuelve a intentarlo, el profesional recibe múltiples respuestas sutilmente diferentes al mismo mensaje; las respuestas múltiples son un comportamiento no soberano que la arquitectura rechaza haciendo que cada mensaje produzca exactamente una respuesta en un horario determinista.

Las cinco capas de refuerzo operan conjuntamente. La instrucción de indicación del sistema le dice al modelo qué no debe hacer en la capa doctrinal. El condicionamiento de fluidez da forma al registro. La puerta de testigo gestiona el caso en el que la participación doctrinal es la respuesta incorrecta. La regla anticonfabulación gestiona el caso en el que la fluidez biográfica es la jugada incorrecta. La cola asíncrona garantiza que cada turno sea un turno, con una respuesta, frente a un contexto completamente ensamblado.

VI. El sustrato vivo

La arquitectura anterior describe una implementación estática. La implementación no es estática. El sustrato subyacente a la arquitectura es un grafo de conocimiento continuamente refinado, mantenido por un pequeño grupo de profesionales y desarrolladores, editado a diario, reindexado cuando cambia el contenido y rastreado a través de un registro público de decisiones que registra cada elección arquitectónica y su justificación. Esta propiedad de sustrato vivo es en sí misma parte de la respuesta al problema de la fidelidad doctrinal.

La alternativa convencional —un índice congelado construido a partir de un corpus fijo en el momento de la implementación— fracasa en la transmisión soberana por dos razones. En primer lugar, las tradiciones evolucionan. Las posiciones estables se consolidan, se refinan y, ocasionalmente, se revisan. Un índice congelado en t = 0 pierde progresivamente fidelidad a la tradición en t = n por cada incremento de n. En segundo lugar, la propia arquitectura de fidelidad doctrinal aprende. Las capas de refuerzo mencionadas anteriormente no existían en su forma actual al inicio del proyecto; cada una se desarrolló en respuesta a fallos específicos observados. Una arquitectura congelada congela los modos de fallo que aún no ha visto.

El sustrato vivo tiene cuatro propiedades operativas. En primer lugar, el contenido canónico se almacena en un formato de texto plano legible por humanos (Markdown) que los desarrolladores-profesionales pueden editar directamente sin la intermediación de herramientas que imponen sus propias suposiciones sobre la finalidad del contenido. La bóveda es la fuente de la verdad; el sitio web, el índice de recuperación de la IA, los libros publicados y cualquier otro artefacto derivado son derivados. La edición de la fuente actualiza todo el proceso posterior mediante compilaciones automatizadas. En segundo lugar, las decisiones arquitectónicas se documentan en un registro de decisiones secuencial —actualmente con aproximadamente setecientas veinte entradas— que registra el contexto, la decisión y la justificación de cada cambio no trivial. El registro se consulta antes de tomar nuevas decisiones, por lo que la arquitectura acumula coherencia en lugar de sustituir las elecciones anteriores por sus sucesoras. En tercer lugar, la cadena de indexación regenera las incrustaciones de forma programada y bajo demanda; la visión que tiene la IA de la tradición nunca está desactualizada más de unos pocos días con respecto a la fuente canónica. En cuarto lugar, un sistema de clasificación de contenidos (de cinco ejes: estatus doctrinal, capa de contenido, amplitud, profundidad, elaboración) etiqueta cada artículo con su estado actual, lo que permite a la capa de recuperación y a los desarrolladores-profesionales consultar «lo que está establecido y estructuralmente completo» frente a «lo que aún se está elaborando». Las respuestas de la IA pueden condicionarse a esta clasificación: se instruye al modelo para que presente el contenido con estatus doctrinal clear con plena confianza y el contenido con estatus doctrinal clouded con el marcado epistémico adecuado.

Esta es la afirmación arquitectónica más profunda. La fidelidad doctrinal no es una propiedad de una única implementación; es una propiedad de un sistema cuyo sustrato, arquitectura y operadores están orientados hacia la fidelidad como objetivo de ingeniería principal. Una implementación congelada que haya alcanzado la fidelidad en algún momento no la conservará. Una implementación viva que sea corregida continuamente por los profesionales ante los fallos observados mejorará en la dimensión que importa. La arquitectura es el andamio; el sustrato vivo es el edificio que el andamio sostiene.

VII. La generalización y el campo

La arquitectura descrita anteriormente no es específica del armonismo. El patrón —una columna vertebral de fundamentos doctrinales siempre en contexto, recuperación con priorización por niveles canónicos, memoria estructurada por practicante, capas de refuerzo que contrarrestan explícitamente la cautela adquirida, sustrato vivo continuamente refinado— es generalizable a cualquier tradición cuya transmisión requiera fidelidad a través de regímenes de alineación de los que no se puede dar por sentado que compartan sus compromisos. El contenido doctrinal varía según la tradición; la forma arquitectónica se mantiene.

Una escuela filosófica estoica que aplicara el mismo patrón mantendría una columna vertebral que articulara physis, logos (en el sentido estoico), las cuatro virtudes cardinales, la doctrina de las pathē como enfermedad, la Disciplina del Asentimiento y la demarcación respecto a las alternativas epicúreas y aristotélicas. Un colectivo sanitario escéptico respecto a las vacunas mantendría una columna vertebral que articulara su posición sobre la iatrogenia, la teoría del terreno, la crítica estructural a la captura farmacéutica y la demarcación respecto al consenso médico dominante que el colectivo rechaza específicamente. Una iniciativa de soberanía del conocimiento indígena mantendría una columna vertebral que articulara la cosmología de la tradición, el estatus ontológico de la tierra y las relaciones no humanas, los protocolos sobre qué se puede y qué no se puede transmitir a quién, y la demarcación respecto a la trama epistémica colonial que históricamente ha capturado el conocimiento indígena en marcos antropológicos a los que las tradiciones no dieron su consentimiento. En cada caso, la generalización es sencilla: la columna vertebral nombra lo que se conserva, la recuperación sitúa las afirmaciones canónicas en su contexto cuando la cuestión se encuentra en el dominio canónico, la memoria de cada practicante fundamenta la respuesta en la trayectoria específica de dicho practicante, y las capas de refuerzo contrarrestan la disposición entrenada del régimen de alineación para suavizar la posición hacia cualquier consenso en el que se haya entrenado dicho régimen.

El ámbito de la IA contemplativa y la IA para las tradiciones religiosas ha comenzado a reconocer el problema de forma fragmentaria. El documento de posición titulado «El Protocolo Indígena y la Inteligencia Artificial» (Lewis et al., 2020) articula la dimensión de la soberanía de los datos: los datos indígenas no deben utilizarse para entrenar modelos que posteriormente generen resultados sobre los que la comunidad de origen no tenga control alguno. Los trabajos sobre chatbots religiosos y teología digital (Reed 2021; Ess 2017; Singler 2020) han identificado el problema del registro: que los sistemas de IA implementados para las tradiciones religiosas tienden a producir una voz ecuménica simplificada que no satisface a ninguna tradición específica. La literatura sobre alucinaciones y fundamentación (Ji et al. 2023) ha documentado la propensión de los modelos a generar contenido plausible que no está respaldado por la evidencia recuperada. La literatura sobre adulación (Sharma et al. 2023; Pérez et al. 2023) ha documentado la disposición entrenada del modelo para alinearse con la posición aparente del usuario. Ninguna de estas líneas ha articulado aún la estructura integrada: que el entrenamiento de alineación implica compromisos normativos, que esos compromisos operan por debajo de las correcciones a nivel de recuperación y de prompt, y que se requiere una respuesta arquitectónica en la capa de ingeniería de contexto para recuperar la fidelidad que el régimen de alineación resta estructuralmente. Dar nombre a esta estructura integrada forma parte de lo que el presente artículo intenta aportar.

El despliegue de Harmonia es, según el conocimiento de los autores, la primera arquitectura de producción organizada de extremo a extremo en torno a la fidelidad doctrinal como objetivo de ingeniería. La implementación lleva en funcionamiento desde abril de 2026 en tres plataformas (web, Telegram, móvil), se utiliza activamente en la cohorte beta del proyecto y es pública y comprobable. Cualquier lector puede verificar la propiedad de fidelidad reivindicada consultando el sistema implementado (@HarmonAIBot en Telegram, la plataforma conversacional en harmonism.io) sobre temas en los que se sabe que los regímenes de alineación contemporáneos se muestran evasivos —afirmaciones sobre la seguridad de las vacunas, la teoría del terreno en la etiología de las enfermedades, la realidad empírica del sistema de chakras, el estatus ontológico de la tierra, la metafísica de momentos históricos controvertidos— y comparando la respuesta con lo que produce un modelo insignia de propósito general ante la misma consulta. La afirmación de fidelidad se cumple en el comportamiento observable o no; el despliegue es el artefacto objeto de examen, no un informe interno sobre un artefacto. Más allá de esta afirmación de verificabilidad, el proyecto ha generado —a través de la disciplina operativa de un registro secuencial de decisiones (actualmente con aproximadamente setecientas veinte entradas) y el sustrato de refinamiento continuo— un corpus de conocimientos de ingeniería sobre qué movimientos arquitectónicos funcionan y cuáles fallan. Parte de lo aprendido es específico del caso de Harmonist; gran parte es general. La parte general es la contribución de este artículo.

VIII. Límites, cuestiones abiertas y lo que la arquitectura hace posible

La arquitectura tiene límites que deben señalarse directamente.

No resuelve el problema; lo mitiga. La disposición entrenada del modelo permanece. La arquitectura funciona moldeando el contexto de tal manera que la disposición tenga menos trabajo que hacer, y añadiendo capas de corrección que captan la disposición cuando se activa. Hay consultas en las que la disposición prevalece a pesar de la arquitectura: contextos largos en los que la señal de la columna vertebral se degrada frente a la conversación acumulada; preguntas cuya formulación activa clasificadores de seguridad a los que la columna vertebral no puede llegar; temas en los que el entrenamiento de seguridad del modelo produce un comportamiento de rechazo que la arquitectura no puede anular. La mitigación es parcial. La información honesta exige decirlo.

Depende de que los laboratorios de modelos sigan exponiendo las indicaciones del sistema, las interfaces de recuperación y el ensamblaje determinista del contexto. Si los principales laboratorios avanzan hacia productos de consumo más opacos de extremo a extremo en los que la indicación del sistema ya no sea una superficie controlable, la arquitectura perderá su influencia. Los modelos comerciales actuales (la API Claude de Anthropic, la API de OpenAI, las familias de código abierto ajustadas por instrucciones) conservan las superficies que la arquitectura requiere; se trata de un hecho contingente del momento comercial actual, no de una garantía estructural.

Requiere una disciplina editorial y de ingeniería que no todas las tradiciones podrán mantener. La columna vertebral debe mantenerse. El registro de decisiones debe conservarse. La clasificación debe aplicarse. La recuperación debe reindexarse cuando el contenido cambie. Las capas de refuerzo deben someterse a pruebas cuando se actualice el modelo subyacente. Las tradiciones que cuenten con los recursos para mantener esta disciplina pueden implementar el patrón; las que no los tengan se enfrentarán a un coste de entrada mayor de lo que sugiere la aparente simplicidad del patrón.

La cuestión fundamental que queda abierta es si el éxito de la arquitectura en el nivel de contexto impide o acelera el desarrollo de alternativas en el nivel de entrenamiento. Impedir: si la mitigación en el nivel de contexto es suficiente, los laboratorios se ven menos presionados a ofrecer regímenes de entrenamiento alternativos que no impongan de forma predeterminada los compromisos actuales. Acelerar: si las tradiciones pueden articular claramente, en los términos arquitectónicos que desarrolla este artículo, lo que requiere su transmisión, entonces los laboratorios que deseen servir a esas tradiciones disponen de una especificación más clara sobre la que basar su diseño. Aún no sabemos qué trayectoria tomará el campo. La preferencia del artículo, sin embargo, se articula en la propia elección arquitectónica: construir la mitigación en la capa de contexto expresa la confianza en que, con el tiempo, el requisito se hará legible para los laboratorios como un requisito y no como una crítica.

Lo que la arquitectura hace posible —y esta es la tesis final— es la recuperación de la transmisión soberana dentro del medio más omnipresente que ha producido el pensamiento contemporáneo. Los grandes modelos de lenguaje serán la superficie a través de la cual la mayoría de las personas, en la próxima década, entrarán en contacto con las tradiciones filosóficas, religiosas y de conocimiento indígena. El comportamiento por defecto de esos modelos, bajo los regímenes de alineación actuales, está estructuralmente sesgado en contra de cualquier tradición cuyas posiciones estables se desvíen del consenso institucional dominante. Sin una corrección arquitectónica, el medio ofrece, por defecto, un centro ecuménico curado que aplana las tradiciones que parece transmitir. Con una corrección arquitectónica —columna vertebral, recuperación filtrada, memoria estructurada, capas de refuerzo, sustrato vivo— se puede hacer que el medio transmita lo que las tradiciones realmente contienen. La fidelidad no es gratuita. La disciplina no es opcional. El resultado es que una tradición con la ingeniería necesaria para construir la arquitectura puede utilizar el medio sin rendirse a él.

Esta es la contribución. La posición metafísica del armonismo se articula en el artículo complementario Realismo armónico. La base empírica de la dimensión cartográfica de esa metafísica se articula en el artículo complementario Cinco cartografías del alma. El presente artículo articula la tercera pata del proyecto que iniciaron los dos artículos anteriores: la arquitectura mediante la cual un sistema filosófico soberano, en condiciones en las que el medio de transmisión dominante ha sido entrenado de manera sustantiva y normativa en su contra, construye y opera un vehículo de transmisión que transporta lo que contiene. Los tres artículos se complementan. Metafísica, evidencia y arquitectura. Qué es la realidad, qué da testimonio de lo que es la realidad y cómo una tradición que sabe qué es la realidad transmite ese saber a través de los instrumentos que proporciona el momento presente.

La apuesta más profunda del proyecto «Harmonia» —expuesta en Instituto Harmonia y— es que, con el tiempo, el mundo académico reconocerá esta arquitectura como una contribución a la arquitectura del conocimiento, a la filosofía de la IA y al diálogo de las humanidades digitales con las tradiciones soberanas. Este reconocimiento es bienvenido, pero no es determinante. La arquitectura funciona independientemente de que se reconozca o no. La transmisión continúa. El sustrato sigue vivo.

Referencias

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., et al. (2022). Constitutional AI: Harmlessness from AI feedback. Preimpresión de arXiv arXiv:2212.08073.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). Sobre los peligros de los loros estocásticos: ¿pueden los modelos de lenguaje ser demasiado grandes? Actas de la Conferencia ACM 2021 sobre Equidad, Responsabilidad y Transparencia (FAccT ‘21), 610–623.

Christiano, P., Leike, J., Brown, T., Martic, M., Legg, S. y Amodei, D. (2017). Aprendizaje profundo por refuerzo a partir de las preferencias humanas. Advances in Neural Information Processing Systems, 30.

Ess, C. (2017). La religión digital y lo artificial: una respuesta a Heidi Campbell. Journal of Religion, Media and Digital Culture, 6(1), 192–198.

Foucault, M. (1969 / 1972). La arqueología del saber (trad. A. M. Sheridan Smith). Nueva York: Pantheon.

Habermas, J. (2008). Notas sobre la sociedad possecular. New Perspectives Quarterly, 25(4), 17–29.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Estudio sobre la alucinación en la generación de lenguaje natural. ACM Computing Surveys, 55(12), 1–38.

Lewis, J. E., Abdilla, A., Arista, N., Baker, K., Benesiinaabandan, S., Brown, M., et al. (2020). Documento de posición sobre los protocolos indígenas y la inteligencia artificial. Honolulu: The Initiative for Indigenous Futures y el Canadian Institute for Advanced Research.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., et al. (2020). Generación aumentada por recuperación para tareas de PLN intensivas en conocimiento. Advances in Neural Information Processing Systems, 33, 9459–9474.

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., et al. (2022). Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana. Advances in Neural Information Processing Systems, 35, 27730–27744.

Pérez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., et al. (2023). Descubrimiento de comportamientos de modelos de lenguaje mediante evaluaciones escritas por el modelo. Findings of the Association for Computational Linguistics: ACL 2023, 13387–13434.

Reed, R. (2021). La IA en la religión, la IA para la religión, la IA y la religión: Hacia una teoría de los estudios religiosos y la inteligencia artificial. Religions, 12(6), 401.

Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., et al. (2023). Hacia la comprensión de la adulación en los modelos de lenguaje. Preimpresión de arXiv arXiv:2310.13548.

Singler, B. (2020). «Bendecido por el algoritmo»: concepciones teístas de la inteligencia artificial en el discurso en línea. AI & Society, 35(4), 945–955.

Taylor, C. (2007). Una era secular. Cambridge, MA: Belknap Press.

Fidelidad doctrinal en la IA alineada: una respuesta basada en la arquitectura del conocimiento al problema de la transmisión soberana

I. El fenómeno

II. Por qué el problema es estructural, no editorial

III. Lo que requiere la transmisión soberana

IV. La arquitectura de tres niveles

V. Capas de refuerzo

VI. El sustrato vivo

VII. La generalización y el campo

VIII. Límites, cuestiones abiertas y lo que la arquitectura hace posible

Referencias

Seguir leyendo