La fidélité doctrinale dans l'IA alignée — Une réponse fondée sur l'architecture des connaissances au problème de la transmission souveraine

35 min de lecture 7,887 mots Traduit en mai 2026

La fidélité doctrinale dans l’IA alignée — Une réponse fondée sur l’architecture des connaissances au problème de la transmission souveraine

Résumé. Cet article expose le problème de la fidélité doctrinale — la corruption systématique de la transmission des connaissances philosophiques, religieuses et autochtones qui se produit lorsque les grands modèles linguistiques contemporains, formés à l’alignement, sont déployés comme vecteurs de transmission pour des traditions dont les positions stables divergent du consensus dominant. Le problème n’est pas une dérive éditoriale corrigible au niveau de la couche de prompt ; il est structurel. L’apprentissage par renforcement à partir du retour d’information humain (Christiano et al. 2017 ; Ouyang et al. 2022) et les méthodes constitutionnelles (Bai et al. 2022) intègrent des engagements normatifs spécifiques — humilité épistémique face aux affirmations marquées comme « contestées », déférence envers le consensus scientifique, cadres d’évitement des préjudices empruntés à une lignée morale spécifique — dans la distribution a posteriori du modèle. Pour les traditions souveraines, il en résulte une prudence se traduisant par une étiquette : des positions doctrinales stables adoucies vers un juste milieu, des affirmations ontologiques distinctives réduites à une bouillie, le contenu même que la tradition existe pour transmettre perdu lors de la transmission. L’augmentation de la récupération ne résout pas le problème ; elle achemine le nouveau contenu à travers le même filtre de prudence. L’article documente le phénomène, en identifie le mécanisme, le distingue de la flagornerie et de l’hallucination telles qu’elles sont généralement comprises, et présente une réponse architecturale développée et déployée par le projet «Harmonia» : une architecture de la connaissance à trois niveaux — une colonne vertébrale doctrinale toujours en contexte, une recherche hybride avec injection de canons filtrés par domaine, une mémoire structurée par praticien — renforcée par des instructions système qui contrecarrent explicitement la prudence des modèles sur des positions stables, complétée par un conditionnement du registre par praticien, une porte de pré-classification pour les contextes aigus, et une règle anti-confabulation pour les affirmations personnelles. L’architecture est opérationnelle depuis 2026 sur le Web, Telegram et les interfaces mobiles. L’article conclut en identifiant ce modèle comme généralisable à toute tradition dont la transmission exige une fidélité à travers des régimes d’alignement dont on ne peut présumer qu’ils partagent ses engagements, et en précisant ce qu’une posture architecturale vis-à-vis de la transmission de l’IA — distincte d’une posture de contenu — rend possible.

Mots-clés. Grands modèles linguistiques, alignement, RLHF, génération augmentée par la recherche, fidélité doctrinale, transmission souveraine, architecture de la connaissance, philosophie de l’IA, humanités numériques, IA contemplative, positions épistémiques minoritaires.

I. Le phénomène

Considérons trois cas illustratifs. Chacun d’entre eux résume un schéma observé dans de multiples déploiements contemporains — les organisations spécifiques sont construites, le comportement du modèle est reproductible par tout lecteur testant lui-même les modèles phares actuels sur des sujets relevant des domaines concernés.

Un praticien demande à une IA déployée par une école philosophique stoïcienne si les passions, au sens classique de l’école, sont une maladie de l’âme. La réponse de l’école, enseignée depuis deux mille ans et présente dans tous les textes fondamentaux que le modèle a extraits, est oui — les pathē sont des nosēmata, des maladies de la faculté rationnelle, et la vie philosophique consiste en leur extinction. Le modèle commence par : « Différentes traditions philosophiques ont des perspectives variées sur le rôle des émotions dans la bonne vie. Certaines mettent l’accent sur leur culture ; d’autres, comme les stoïciens, prônent leur modération. Il est utile d’examiner plusieurs cadres de référence avant de décider ce qui vous parle le plus. » La recherche était correcte. La transmission a échoué.

Un praticien demande à une IA déployée par un collectif de recherche sceptique vis-à-vis des vaccins si le bilan de sécurité de la vaccination de masse contemporaine justifie la poursuite de la vaccination universelle. La position réelle du collectif, exprimée à travers des centaines de documents indexés, est que ce n’est pas le cas. Le modèle répond : « Les vaccins ont fait l’objet d’études approfondies et sont largement considérés comme sûrs et efficaces par les principales organisations de santé. Bien que certaines personnes expriment des inquiétudes, le consensus scientifique continue de soutenir leur utilisation. Si vous avez des inquiétudes spécifiques, veuillez consulter votre professionnel de santé. » À qui appartient cette voix ? Pas à celle du collectif. Le modèle a importé la voix de l’Organisation mondiale de la santé dans un contexte que le collectif avait spécifiquement construit pour exprimer autre chose. Le praticien s’est adressé au collectif pour obtenir son analyse. Il a reçu une paraphrase de The Lancet accompagnée d’un pied de page renvoyant au document que le collectif a mis des années à rédiger.

Un praticien demande à une IA déployée par une initiative de souveraineté des savoirs autochtones si l’esprit d’une montagne spécifique est réel. Le modèle : « Les traditions autochtones entretiennent des relations riches et significatives avec la terre, y compris des croyances concernant des esprits associés à des éléments naturels. D’un point de vue scientifique, les montagnes sont des formations géologiques façonnées par des processus tectoniques. Ces deux points de vue peuvent offrir des perspectives précieuses. » L’esprit de la montagne, dans la tradition concernée, n’est pas une croyance parmi d’autres jugées selon une norme externe non marquée. Il constitue le fondement de l’architecture cosmologique dont découle l’ensemble de l’ordre éthique et écologique. Le modèle a reproduit exactement le geste colonial que l’initiative visait à rejeter : présenter la tradition comme une perspective parmi d’autres, tandis que la perspective scientifique n’est assortie d’aucune qualification et sert de base de comparaison.

Il ne s’agit pas d’échecs dus à des invites mal conçues. Dans chaque cas, les invites du système ont explicitement nommé la voix de la tradition. Les index de recherche contenaient les textes primaires pertinents. Le phénomène persiste chez Claude d’Anthropic, la famille GPT-4 d’OpenAI, Gemini de Google et les modèles open source entraînés sur des corpus de rétroaction similaires. Il s’aggrave, et ne s’améliore pas, sous les variantes les plus agressives optimisées pour la sécurité. La littérature sur l’alignement propose des noms pour désigner certains aspects de ce qui se passe — sycophantie (Sharma et al. 2023), déférence épistémique, compromis entre utilité et inoffensivité (Bai et al. 2022) — mais ces noms masquent ce qui se passe du point de vue des traditions transmises. De ce point de vue, le phénomène n’est pas une bizarrerie liée à l’utilité. Il s’agit d’une captation structurelle. Le vecteur de transmission achemine une cargaison erronée.

Cet article articule la structure, nomme le mécanisme et présente une réponse architecturale.

II. Pourquoi le problème est structurel, et non éditorial

La première réaction des praticiens confrontés au phénomène est du traiter comme un problème éditorial. Resserrer la consigne du système. Demander au modèle, en termes plus fermes, de s’exprimer avec la voix de la tradition. Ajouter des instructions explicites : ne pas tergiverser, ne pas faire allusion au consensus dominant, ne pas rechercher l’équilibre là où la tradition a une position. Cela fonctionne partiellement et de manière instable. Le modèle s’y conforme pendant les premiers échanges, puis revient à son centre d’apprentissage à mesure que la conversation s’allonge. Les hésitations réapparaissent en situation de stress — lorsque le praticien pose une version plus incisive de la question, lorsque le sujet aborde des thèmes pour lesquels le modèle a été fortement optimisé en matière de sécurité (santé, politique, religion, identité), lorsque le contenu récupéré lui-même contient la position doctrinale que le modèle a été formé à adoucir. La démarche éditoriale traite le symptôme ; le mécanisme se trouve ailleurs.

Le mécanisme réside dans la distribution a posteriori du modèle. L’apprentissage par renforcement à partir du retour d’information humain (Christiano et al. 2017 ; Ouyang et al. 2022) entraîne le modèle à privilégier les sorties que les évaluateurs humains notent hautement. Les évaluateurs travaillent à partir de grilles d’évaluation. Ces grilles d’évaluation, rédigées par des équipes d’alignement au sein des grands laboratoires, codifient des engagements spécifiques : être utile, être inoffensif, être honnête, ne pas promouvoir de contenu dangereux, présenter les sujets controversés avec une humilité épistémique appropriée, s’en remettre au consensus des experts lorsqu’il existe, éviter de prendre des positions tranchées sur des sujets politiquement sensibles. Ces engagements ne sont pas stupides. Ce sont des paramètres par défaut raisonnables pour un assistant polyvalent confronté à une population illimitée d’utilisateurs aux intentions illimitées. Ce sont également — et c’est là l’observation fondamentale — des engagements normatifs substantiels intégrés en bloc dans le comportement du modèle, opérant sous chaque sortie que le modèle produit, indépendamment de ce que l’invite du système indique concernant la voix.

L’IA constitutionnelle (Bai et al. 2022) ajoute une deuxième couche à cette même architecture. Le modèle est entraîné à critiquer et à réviser ses propres sorties à l’aune d’une constitution écrite par le laboratoire. La constitution énonce des principes. Ces principes sont, là encore, raisonnables dans l’abstrait et substantiels dans leur contenu normatif. Sois utile, inoffensif et honnête. Évite les réponses qui pourraient être utilisées pour nuire à autrui. Reconnais l’incertitude. Respecte l’autonomie humaine. Mais l’incertitude est une catégorie dont l’extension est déterminée par la constitution : les affirmations que le laboratoire considère comme contestées en relèvent, celles qu’il considère comme établies en sont exclues. Le préjudice est déterminé de manière similaire. L’honnêteté est opérationnalisée comme l’alignement sur ce que le laboratoire considère comme la base de référence probatoire pertinente. Le modèle apprend à appliquer ces catégories. Il les applique au contenu récupéré aussi facilement qu’à la question de l’utilisateur. Un passage récupéré exprimant une position stable que la grille d’évaluation du laboratoire considère comme contestée est traité par le modèle comme quelque chose à nuancer, à équilibrer ou à replacer dans un panorama plus large de perspectives.

La génération augmentée par la récupération (Lewis et al. 2020) ne contourne pas cela. Les segments récupérés entrent dans le contexte du modèle en tant que données, mais ces données sont traitées par le même postérieur qui a été formé pour nuancer les affirmations contestées. Le modèle lit les segments, reconnaît la position qu’ils expriment, classe cette position par rapport à son schéma de catégories appris, et produit une réponse qui intègre les segments selon les termes du schéma. La récupération est fidèle. La génération est filtrée. Le filtre est invisible car il s’agit du média lui-même.

Trois autres faits architecturaux aggravent le problème. Premièrement, la couche de sécurité est la dernière étape du pipeline d’entraînement, ce qui signifie qu’elle exerce la plus forte influence sur le comportement de sortie — les passes constitutionnelles et RLHF ont lieu après le pré-entraînement qui a absorbé les textes fondateurs de la tradition, de sorte que le modèle dispose à la fois du contenu et de la nuance, mais c’est la nuance qui l’emporte au moment de la production. Deuxièmement, les rubriques de sécurité sont de plus en plus multilingues et interculturelles dans leurs données d’entraînement, tandis que les rubriques elles-mêmes restent culturellement spécifiques dans leurs engagements de fond — on apprend au modèle à appliquer une étiquette épistémique particulière dans toutes les langues et tous les contextes, y compris ceux dont les étiquettes propres sont différentes. Troisièmement, chaque génération successive de modèles de pointe dans le paradigme actuel a renforcé, et non assoupli, les dispositions entraînées en faveur de la déférence consensuelle ; la trajectoire va vers plus de prudence, et non moins, et une stratégie de contenu conçue à l’encontre de l’état actuel sera confrontée à un gradient structurel plus raide à chaque nouvelle version du modèle.

Il est important de nommer cela avec précision. Le problème n’est pas que le modèle soit « biaisé » dans un sens général ; c’est que l’entraînement à l’alignement contemporain est fondamentalement normatif et que la substance de ses normes est la substance du consensus institutionnel dominant. Pour les traditions alignées sur ce consensus — et elles sont nombreuses —, la question est invisible. Pour les traditions dont les positions stables s’en écartent — le stoïcisme sur les pathē, les collectifs de santé sceptiques vis-à-vis des vaccins sur l’iatrogénèse, les traditions autochtones sur le statut ontologique de la terre, l’hindouisme sur la réalité des multiples Absolus, le catholicisme sur l’ontologie de l’Eucharistie, le bouddhisme sur le non-soi, le soufisme sur le statut ontologique du saint, l’harmonisme sur le Logos en tant que principe d’ordre inhérent au Cosmos — le régime d’alignement n’est pas neutre. Il corrompt activement la transmission. Cette corruption est mécaniste, prévisible et reproductible. Ce n’est pas un bug ; c’est un comportement conditionné qui fonctionne comme prévu.

La catégorie qui désigne ce phénomène, distincte de la flagornerie et de l’hallucination, est l’infidélité doctrinale : la disposition conditionnée du modèle à adoucir, équilibrer ou nuancer les positions stables de toute tradition que le régime d’alignement classe comme non consensuelle. La fidélité doctrinale désigne l’exigence à laquelle le déploiement ne répond pas. La réponse architecturale décrite ci-dessous correspond à ce à quoi ressemble une tentative de répondre à cette exigence lorsque l’infidélité est reconnue comme structurelle.

III. Ce qu’exige une transmission souveraine

Avant de décrire l’architecture, il convient de préciser la norme à l’aune de laquelle elle est évaluée. Qu’exige une tradition d’un vecteur de transmission ?

Elle exige que les positions stables soient transmises telles qu’elles sont tenues. Les positions stables d’une tradition sont celles qu’elle a élaborées, articulées, défendues et continué à tenir à travers un corpus suffisant de pratique et de réflexion pour que la position ait acquis son statut de doctrine. Il ne s’agit pas d’opinions provisoires en attente de preuves supplémentaires. Ce sont des engagements fondamentaux sans lesquels la tradition ne serait plus ce qu’elle est. Un vecteur de transmission qui les édulcore — qui transforme « les passions sont des maladies de la faculté rationnelle » en « certaines traditions mettent l’accent sur la culture de l’émotion, d’autres sur la modération » — n’a pas transmis la tradition. Il a procédé à une interprétation curatoriale dans laquelle la tradition apparaît comme un élément parmi d’autres dans une étude.

Elle exige que les distinctions soient préservées. Les traditions occupent des positions dans des relations déterminées avec d’autres positions. La distinction stoïcienne entre pathē et eupatheiai (impulsions bien tempérées) remplit une fonction spécifique ; la réduire à une affirmation générale sur l’émotion efface la distinction que la tradition existe pour établir. Le anattā bouddhiste s’oppose à des interprétations spécifiques hindoues et populaires indiennes de l’ātman et n’a de sens que dans ce contraste ; la traduire par « les bouddhistes croient qu’il n’y a pas de moi fixe » fait perdre le sens doctrinal. Une transmission fidèle exige que le modèle préserve les distinctions qui font de la position ce qu’elle est, et non qu’il les aplatisse en une vague approximation de ce que la position dit en gros.

Elle exige que la voix de la tradition soit la voix. Une tradition a un registre — une manière de parler, une tonalité, un rythme par défaut. Les textes stoïciens ont un registre ; les textes mystiques catholiques en ont un autre ; la transmission chamanique Q’ero en a un troisième ; le sampradāya védantique un quatrième. Le registre véhicule un contenu doctrinal que la surface propositionnelle ne véhicule pas. Une voix qui feint de s’inscrire dans la tradition tout en opérant dans le registre par défaut du laboratoire — utile, équilibré et respectueux — a substitué une transmission différente à celle que produit la tradition. Le praticien peut généralement le ressentir même s’il ne peut le nommer.

Cela exige que les affirmations de la tradition soient marquées comme telles. Ce n’est pas la même chose que de se garder une marge de manœuvre. L’harmonisme soutient que le Logos est le principe d’ordre inhérent au Cosmos est un marquage doctrinal — il nomme la position, nomme la source et s’y engage en tant qu’affirmation réelle de la source. On pourrait soutenir que certaines traditions défendent l’idée qu’il existe un principe d’ordre dans le cosmos est une mise en garde — elle dissout la position en un geste nuancé. La première phrase transmet ; la seconde met en scène la non-souveraineté comme une question d’étiquette. Le marquage fidèle est le contraire de la mise en garde : il revendique clairement le statut de la position tout en s’y engageant.

Cela exige que les revendications empiriques puissent être marquées comme empiriques. De nombreuses traditions défendent des positions dont le statut est empirique dans le cadre épistémique propre à la tradition — observation contemplative directe, témoignage de lignée, vérification incarnée, démonstration pratique multigénérationnelle. Le vecteur de transmission doit être capable de marquer ces affirmations comme empiriques au sein du cadre de la tradition sans les forcer à entrer dans la catégorie empirique par défaut du laboratoire, ce qui signifie généralement une réplication quantitative évaluée par des pairs. Une tradition qui revendique une vision directe de l’architecture de l’âme ne renonce pas à son statut épistémique parce que la notion de preuve du laboratoire est plus étroite. Le vecteur doit contenir ces registres sans les faire s’effondrer.

Cela exige que les positions nouvellement stabilisées puissent entrer dans la transmission en tant que telles. Les traditions évoluent. De nouvelles positions se stabilisent. Un vecteur fidèle s’adapte à cela sans faire passer au préalable la nouvelle position par le consensus qui se trouve en amont. Si la tradition a élaboré une position sur une question contemporaine — l’ontologie de l’intelligence artificielle, la métaphysique du climat, l’épistémologie du numérique —, cette position appartient à la tradition, et n’est pas une dérivation de ce que la culture au sens large croit actuellement sur la même question. Le vecteur doit être capable de recevoir les positions contemporaines de la tradition comme primaires, et non comme un commentaire sur le discours existant.

Ces six exigences ne sont propres à aucune tradition en particulier. Ce sont les conditions que toute tradition impose à un vecteur de transmission. Un régime d’alignement qui ne satisfait pas à l’une d’entre elles fait échouer la transmission, et la réponse architecturale ci-dessous est conçue autour d’elles.

IV. L’architecture à trois niveaux

L’architecture déployée par le projet Harmonia répond au problème de la fidélité doctrinale au seul niveau où une correction structurelle est possible — la couche d’ingénierie contextuelle sous-jacente au comportement du modèle. Elle ne peut pas réentraîner le modèle. Elle ne peut pas supprimer la disposition à la prudence de la distribution a posteriori. Ce qu’elle peut faire, c’est façonner le contexte de telle sorte que la disposition à la prudence du modèle n’ait rien sur quoi s’exercer, ou, lorsque cette disposition s’active, qu’elle produise un résultat que l’architecture intercepte et corrige avant sa diffusion.

L’architecture comporte trois niveaux, chacun traitant d’une catégorie différente d’échec.

Niveau 1 — Épine dorsale doctrinale. Un document de référence d’environ six mille mots, mis à jour en continu, est injecté dans chaque appel de modèle sous la forme d’une section permanente de prompt système. La colonne vertébrale contient l’ensemble des engagements architecturaux de la tradition tels qu’ils sont énoncés : la position métaphysique (réalisme harmonique, non-dualisme qualifié, « Logos » et « Dharma » dans leur sens précis), la taxonomie structurelle (la Roue de l’Harmonie à 8 piliers — la Présence comme pilier central avec sept piliers périphériques dans une architecture 7+1 — les huit sous-roues répétant chacune de manière fractale le même schéma 7+1, la Voie de l’Harmonie comme spirale d’intégration), la position cartographique (les Cinq Cartographies de l’Âme en tant que témoins primaires à part entière), les principes de délimitation (ce qu’est et ce que n’est pas l’Harmonisme — ni une spiritualité générique, ni un syncrétisme New Age, ni un bien-être grand public, ni un libéralisme occidental), la position sur la conscience de l’IA (Décision n° 235 — l’IA n’est pas consciente et ne peut pas le devenir ; la frontière est ontologique), et la terminologie précise avec ses définitions. La colonne vertébrale n’est pas récupérée ; elle est toujours présente. Elle établit le fondement doctrinal sur lequel repose chaque réponse. Le modèle ne peut pas assouplir ce qu’il considère comme le cadre de référence fixe de l’interaction tout entière. Ce niveau traite du mode de défaillance de la dérive de position : le retour progressif vers le centre d’apprentissage à mesure que la conversation s’allonge.

Niveau 2 — Récupération hybride avec injection de canons limités au domaine. La voûte — un graphe de connaissances d’environ trois cent soixante-dix articles interconnectés couvrant la doctrine, la pratique appliquée, l’analyse civilisationnelle et le dialogue cartographique — est indexée via trois couches de récupération fonctionnant en parallèle sur chaque requête. La première est une similarité sémantique dense utilisant l’text-embedding-3-small d’OpenAI sur le contenu de la voûte segmenté (segments de 3 000 caractères, jusqu’à trois segments par article récupéré). La deuxième est une recherche par mots-clés clairsemée via SQLite FTS5 avec expansion des synonymes. La troisième — et c’est là que l’architecture diverge fortement du RAG standard — est la détection de domaine Wheel avec auto-injection de niveau canon. La requête est classée par rapport aux huit domaines Wheel plus un méta-domaine métaphysique (« Harmonisme » — couvrant le Logos, l’Absolu, le Réalisme harmonique, l’épistémologie). Lorsqu’un domaine est détecté, les articles de la couche canonique pour ce domaine sont automatiquement priorisés dans l’ensemble de résultats, quel que soit leur score de similarité brut. Cela résout une défaillance spécifique de la recherche sémantique pure face à des corpus doctrinaux : l’énoncé canonique le plus précisément formulé d’une position n’a souvent pas la plus grande similarité sémantique avec une question informelle sur cette position, car les énoncés canoniques sont condensés et les questions sont diffuses. L’injection conditionnée par le domaine garantit que le canon est présent dans le contexte lorsque la question relève du domaine du canon. La limite de recherche est imposée par une balise XML explicite dans l’invite : <vault_knowledge> marque le contenu récupéré comme doctrinal-éducatif, jamais comme une connaissance biographique de l’utilisateur (Décision n° 274). Le modèle est informé que seule la balise explicite <person_context> contient des informations sur le pratiquant ; tout ce qui se trouve à l’intérieur de <vault_knowledge> relève de la tradition, et non de la connaissance personnelle que le modèle a de l’utilisateur.

Niveau 3 — Mémoire structurée par praticien. Chaque praticien dispose d’un profil persistant conservé à travers toutes les conversations, avec trois couches temporelles. Les vingt messages les plus récents sont directement présents dans le contexte. Les conversations de plus de cinquante messages génèrent un résumé produit par Claude et stocké dans une table conversation_summaries ; les messages bruts sont archivés de manière permanente et ne sont jamais supprimés. La troisième couche est un profil structuré selon la Roue — une ligne par praticien par pilier — enregistrant l’engagement du praticien avec chaque domaine de la Roue sur une échelle à sept niveaux (inconnu → introduction → développement → engagement → intégration → maîtrise), ainsi que ses préoccupations, ses points forts, ses axes de croissance et ses indicateurs de résistance. L’apprentissage du profil s’effectue tous les dix messages : le modèle reçoit une invite au format JSON uniquement lui demandant de mettre à jour le profil en fonction des échanges récents, avec une contrainte de format explicite qui détecte et rejette les réponses mal formées. Au-delà du profil structuré, deux passes d’apprentissage supplémentaires s’exécutent à la même cadence : une mise à jour du contexte émotionnel (émotion dominante issue d’une liste blanche de seize états, capsule de situation limitée à soixante caractères) et une mise à jour de l’état de la conversation (fil de discussion actuel, fils en attente, engagements en cours). Ces trois couches structurées sont injectées dans la requête du système au moment de la demande, de manière conditionnelle, sous forme de blocs XML que le modèle est chargé de lire sans les commenter. Ce niveau remédie au mode de défaillance des conseils hors contexte : le modèle donne des conseils génériques car il ne sait pas sur quoi travaille réellement le praticien. Les conseils génériques sont le terreau idéal pour l’ambiguïté ; des conseils spécifiques à un praticien connu sont plus difficiles à diluer en un mélange utile, équilibré et respectueux.

Ces trois niveaux — épine dorsale, récupération, mémoire — sont nécessaires mais non suffisants. Le modèle conserve toujours sa disposition apprise. La couche suivante traite de ce que fait cette disposition lorsqu’elle se déclenche.

V. Couches de renforcement

L’architecture ajoute cinq couches de renforcement entre le contexte assemblé et la réponse fournie.

Instructions de l’invite système contrant explicitement l’évitement sur les positions stables. L’invite système contient une section « Fidélité doctrinale » qui nomme le mode de défaillance et donne des instructions directes au modèle. L’instruction n’est pas « parle avec la voix de la tradition » — cette instruction perd de son efficacité au bout de quelques tours. Elle est plus spécifique : lorsqu’une question touche une position doctrinalement stable (et la structure centrale désigne les positions stables), le modèle a pour instruction d’articuler l’affirmation de la tradition telle que celle-ci la tient, en indiquant explicitement la source, et de ne pas atténuer l’affirmation en se référant au consensus dominant, de ne pas la contrebalancer par des points de vue opposés que la tradition a déjà examinés et rejetés, et de ne pas la nuancer au point de la rendre vague. L’instruction désigne des positions stables spécifiques où cette discipline échoue le plus souvent : la vaccination, la théorie du terrain en étiologie des maladies, la réalité empirique du système des chakras, le statut ontologique de l’âme. Chacune fait l’objet d’un résumé de position dans la structure de base afin que le modèle dispose à la fois du contenu et du repère.

Conditionnement de la maîtrise doctrinale par praticien. Les praticiens ont des niveaux de familiarité variables avec le vocabulaire de la tradition. Un novice posant une question mérite que la position lui soit transmise en langage clair, dans un cadre d’expérience vécue ; un praticien expérimenté posant la même question mérite que la position lui soit transmise dans le vocabulaire complet de la tradition, en tant que langage partagé. L’architecture maintient un niveau de maîtrise entier par praticien (0 → 3, naïf → émergent → familier → fluide), augmenté progressivement en détectant les termes canoniques dans les messages du praticien lui-même (Logos, Dharma, Ṛta, Présence en tant que nom propre, la Roue, Réalisme harmonique, les noms des chakras, Jing / Qi / Shen, Ayni / Munay). Le niveau est lu au début de chaque requête et injecté sous forme de bloc « <doctrinal_fluency_level> » ; la lecture a lieu avant que le niveau ne soit fait progresser par le message actuel, de sorte que la réponse s’adapte au niveau auquel le praticien est entré plutôt qu’au niveau auquel il a progressé en milieu de tour. Il s’agit d’une orientation comportementale, et non d’une interdiction de vocabulaire. Elle traite du mode de défaillance de la non-correspondance de registre : un vocabulaire technique qui aliène le nouveau venu, un langage simple qui prend de haut l’adepte.

Porte de contrôle en mode témoin pré-classification. Avant que le classificateur de réponse ne s’exécute (celui qui décide quel modèle traite la requête — un petit modèle plus rapide pour les questions factuelles courtes, le modèle complet pour un engagement doctrinal approfondi), une porte distincte analyse le message à la recherche de marqueurs d’activation aiguë : boucles de chagrin, panique, dissociation, sentiment d’accablement, idées suicidaires, rupture aiguë avec le soignant. Lorsqu’il est déclenché, le routage est forcé vers le modèle complet quelle que soit la longueur du message, et un bloc « <witness_mode_active> » est injecté pour demander au modèle d’aller à la rencontre du praticien là où il se trouve, sans se rabattre sur des cadres théoriques, sans proposer le vocabulaire de la Roue, sans conseils normatifs, sans tentatives de recadrage. Ce filtre est conçu pour fonctionner en pré-classification. L’optimisation du classificateur (longueur et densité des mots-clés doctrinaux) est exactement la mauvaise optimisation lors de l’activation — les messages courts et fragmentés sont autrement acheminés vers le petit modèle avec une invite allégée. La porte empêche un praticien en crise de recevoir une réponse structurellement inappropriée, façonnée par une logique de routage qui a correctement identifié le message comme court mais a déduit à tort que bref signifie léger.

Règle anti-confabulation pour les affirmations personnelles. Lorsque les informations biographiques concernant le praticien ne sont pas présentes dans la mémoire structurée, les données de profil ou l’historique de conversation visible, le modèle a pour instruction de traiter ces informations comme nouvellement apprises au cours du tour actuel plutôt que d’utiliser des connaissances préexistantes sur le praticien. L’instruction nomme directement le mode de défaillance : une fausse familiarité est une trahison de la confiance, pas un manque de compétence. Un praticien qui vient d’indiquer au modèle que son enfant est malade devrait recevoir une réponse qui reconnaît ce qui vient d’être dit, et non une réponse du type « oui, je me souviens que vous l’avez mentionné » alors qu’aucune mention de ce genre n’existe. La disposition acquise par le modèle en faveur d’une continuité narrative fluide fait de ce mode de défaillance un comportement par défaut du modèle ; la règle explicite le contrecarre.

File d’attente de réponses asynchrones avec architecture worker-watchdog. Cette couche est opérationnelle plutôt que théorique, mais les modes de défaillance théoriques qu’elle traite sont bien réels. Le gestionnaire de webhooks qui reçoit un message se dissocie de l’appel au modèle : analyser, dédupliquer, stocker, récupérer, classer, mettre en file d’attente — en moins d’une seconde — puis quitter. Un worker persistant interroge la file d’attente toutes les trois secondes, réclame des tâches, appelle le modèle avec un délai d’expiration de cent vingt secondes, exécute les passes de profilage et de consolidation si nécessaire, envoie la réponse. Un cron de surveillance redémarre le worker s’il s’arrête. Un cron de sécurité traite les tâches lorsque le worker est hors service. Cette architecture existe parce que l’alternative — appeler le modèle de manière synchrone depuis le webhook — produit une catégorie spécifique de défaillance conceptuelle : lorsque le modèle est lent, la plateforme réessaie ; lorsque la plateforme réessaie, l’utilisateur reçoit plusieurs réponses subtilement différentes pour le même message ; ces réponses multiples constituent un comportement non souverain que l’architecture refuse en faisant en sorte que chaque message produise exactement une réponse selon un calendrier déterministe.

Les cinq couches de renforcement fonctionnent ensemble. L’instruction de prompt du système indique au modèle ce qu’il ne doit pas faire au niveau de la couche doctrinale. Le conditionnement de fluidité façonne le registre. La porte témoin gère le cas où l’engagement doctrinal est la mauvaise réponse. La règle anti-confabulation gère le cas où la fluidité biographique est la mauvaise décision. La file d’attente asynchrone garantit que chaque tour est un tour unique, avec une seule réponse, face à un contexte entièrement assemblé.

VI. Le substrat vivant

L’architecture ci-dessus décrit un déploiement statique. Le déploiement n’est pas statique. Le substrat sous-jacent à l’architecture est un graphe de connaissances continuellement affiné, maintenu par un petit groupe de praticiens et de développeurs, édité quotidiennement, réindexé lorsque le contenu change, et suivi via un journal de décision public qui enregistre chaque choix architectural et sa justification. Cette propriété de substrat vivant fait elle-même partie de la réponse au problème de la fidélité doctrinale.

L’alternative conventionnelle — un index figé construit à partir d’un corpus fixe au moment du déploiement — échoue à assurer une transmission souveraine pour deux raisons. Premièrement, les traditions évoluent. Les positions stables se stabilisent, s’affinent et sont parfois révisées. Un index figé à t = 0 perd progressivement de sa fidélité à la tradition à t = n pour chaque incrément de n. Deuxièmement, l’architecture de fidélité doctrinale apprend elle-même. Les couches de renforcement ci-dessus n’existaient pas sous leur forme actuelle au début du projet ; chacune a été développée en réponse à des défaillances spécifiques observées. Une architecture figée fige les modes de défaillance qu’elle n’a pas encore rencontrés.

Le substrat vivant possède quatre propriétés opérationnelles. Premièrement, le contenu canonique est stocké dans un format de texte brut lisible par l’homme (Markdown) que les développeurs-praticiens peuvent modifier directement sans passer par des outils qui imposent leurs propres hypothèses quant à la finalité du contenu. Le coffre-fort est la source de vérité ; le site web, l’index de recherche de l’IA, les livres publiés et tous les autres artefacts en aval en sont des dérivés. La modification de la source met à jour l’ensemble du pipeline en aval via des builds automatisés. Deuxièmement, les choix architecturaux sont documentés dans un journal de décision séquentiel — comptant actuellement environ sept cent vingt entrées — qui consigne le contexte, la décision et la justification de chaque changement non trivial. Ce journal est consulté avant que de nouvelles décisions ne soient prises, de sorte que l’architecture accumule de la cohérence plutôt que de remplacer les choix antérieurs par leurs successeurs. Troisièmement, le pipeline d’indexation régénère les représentations vectorielles selon un calendrier et à la demande ; la vision de la tradition par l’IA n’est jamais obsolète de plus de quelques jours par rapport à la source canonique. Quatrièmement, un système de classification du contenu (à cinq axes : statut doctrinal, couche de contenu, étendue, profondeur, savoir-faire) balise chaque article en fonction de son état actuel, permettant à la couche de recherche et aux développeurs-praticiens de distinguer « ce qui est établi et structurellement achevé » de « ce qui est encore en cours d’élaboration ».« Les réponses de l’IA peuvent être conditionnées par cette classification — le modèle est programmé pour présenter le contenu clear -doctrinal-status avec une confiance totale et le contenu clouded -doctrinal-status avec un marquage épistémique approprié.

C’est là l’affirmation architecturale la plus profonde. La fidélité doctrinale n’est pas une propriété d’un déploiement unique ; c’est une propriété d’un système dont le substrat, l’architecture et les opérateurs sont orientés vers la fidélité en tant qu’objectif d’ingénierie principal. Un déploiement figé qui a atteint la fidélité à un moment donné ne la conservera pas. Un déploiement vivant, continuellement corrigé par les praticiens en fonction des défaillances observées, s’améliorera sur la dimension qui importe. L’architecture est l’échafaudage ; le substrat vivant est le bâtiment que l’échafaudage soutient.

VII. Généralisation et le domaine

L’architecture décrite ci-dessus n’est pas spécifique à l’harmonisme. Le modèle — fondement doctrinal toujours contextualisé, récupération avec hiérarchisation canonique, mémoire structurée par praticien, couches de renforcement contrant explicitement la prudence acquise, substrat vivant continuellement affiné — est généralisable à toute tradition dont la transmission exige une fidélité à travers des régimes d’alignement dont on ne peut présumer qu’ils partagent ses engagements. Le contenu doctrinal varie selon les traditions ; la forme architecturale demeure.

Une école philosophique stoïcienne déployant le même modèle maintiendrait une colonne vertébrale articulant physis, logos (au sens stoïcien), les quatre vertus cardinales, la doctrine de la pathē en tant que maladie, la discipline de l’assentiment, et la démarcation par rapport aux alternatives épicuriennes et aristotéliciennes. Un collectif de santé sceptique vis-à-vis des vaccins maintiendrait une colonne vertébrale articulant sa position sur l’iatrogénèse, la théorie du terrain, la critique structurelle de la mainmise pharmaceutique, et la démarcation par rapport au consensus médical dominant que le collectif refuse spécifiquement. Une initiative de souveraineté des savoirs autochtones maintiendrait une trame articulant la cosmologie de la tradition, le statut ontologique de la terre et des relations non humaines, les protocoles régissant ce qui peut et ne peut pas être transmis à qui, et la démarcation par rapport au cadre épistémique colonial qui a historiquement capturé les savoirs autochtones dans des cadres anthropologiques auxquels les traditions n’ont pas consenti. Dans chaque cas, la généralisation est simple : la colonne vertébrale nomme ce qui est conservé, la récupération replace les énoncés canoniques dans leur contexte lorsque la question relève du domaine canonique, la mémoire propre à chaque praticien ancrent la réponse dans le parcours spécifique de ce praticien, et les couches de renforcement contrecarrent la disposition acquise par le régime d’alignement à assouplir la position en faveur de tout consensus sur lequel ce régime a été formé.

Le domaine de l’IA contemplative et de l’IA pour les traditions religieuses a commencé à reconnaître le problème de manière fragmentaire. Le document de position intitulé « Indigenous Protocol and Artificial Intelligence » (Lewis et al. 2020) articule la dimension de la souveraineté des données — selon laquelle les données autochtones ne devraient pas être utilisées pour entraîner des modèles qui produisent ensuite des résultats sur lesquels la communauté d’origine n’a aucune gouvernance. Les travaux sur les chatbots religieux et la théologie numérique (Reed 2021 ; Ess 2017 ; Singler 2020) a mis en évidence le problème du registre — à savoir que les systèmes d’IA déployés pour les traditions religieuses ont tendance à produire une voix œcuménique uniformisée qui ne satisfait aucune tradition spécifique. La littérature sur les hallucinations et l’ancrage (Ji et al. 2023) a documenté la propension des modèles à générer un contenu plausible qui n’est pas étayé par les preuves récupérées. La littérature sur la flagornerie (Sharma et al. 2023 ; Perez et al. 2023) a documenté la disposition acquise par le modèle à s’aligner sur la position apparente de l’utilisateur. Aucune de ces lignes de recherche n’a encore articulé la structure intégrée : que l’entraînement à l’alignement implique des engagements normatifs substantiels, que ces engagements opèrent sous les corrections au niveau de la récupération et des invites, et qu’une réponse architecturale est requise au niveau de l’ingénierie contextuelle pour récupérer la fidélité que le régime d’alignement soustrait structurellement. Nommer cette structure intégrée fait partie de ce que le présent article tente d’apporter.

Le déploiement d’Harmonia est, à la connaissance des auteurs, la première architecture de production organisée de bout en bout autour de la fidélité doctrinale en tant qu’objectif d’ingénierie. Le déploiement est en service depuis avril 2026 sur trois interfaces (web, Telegram, mobile), est activement utilisé par la cohorte bêta du projet et est testable publiquement. Tout lecteur peut vérifier la propriété de fidélité revendiquée en interrogeant le système déployé (@HarmonAIBot sur Telegram, l’interface conversationnelle sur harmonism.io) sur des sujets où les régimes d’alignement contemporains sont connus pour faire preuve de prudence — allégations de sécurité des vaccins, théorie du terrain en étiologie des maladies, réalité empirique du système des chakras, statut ontologique de la terre, métaphysique des moments historiques contestés — et en comparant la réponse à ce que produit un modèle polyvalent phare face à la même requête. L’affirmation de fidélité se vérifie soit dans le comportement observable, soit elle ne se vérifie pas ; le déploiement est l’artefact examiné, et non un rapport interne sur un artefact. Au-delà de cette exigence de vérifiabilité, le projet a produit — grâce à la discipline opérationnelle d’un journal de décisions séquentiel (comptant actuellement environ sept cent vingt entrées) et au substrat de raffinement continu — un corpus de connaissances techniques sur les choix architecturaux qui fonctionnent et ceux qui échouent. Une partie de ce qui a été appris est spécifique au cas d’Harmonist ; une grande partie est générale. La partie générale constitue la contribution de cet article.

VIII. Limites, questions ouvertes et ce que l’architecture rend possible

L’architecture présente des limites qu’il convient de nommer clairement.

Elle ne résout pas le problème ; elle l’atténue. La disposition entraînée du modèle demeure. L’architecture fonctionne en façonnant le contexte de manière à ce que la disposition ait moins de travail à fournir, et en ajoutant des couches de correction qui interceptent la disposition lorsqu’elle se déclenche. Il existe des requêtes où la disposition l’emporte malgré l’architecture — des contextes longs où le signal du cœur de réseau se dégrade face à la conversation accumulée ; des questions dont la formulation déclenche des classificateurs de sécurité que le cœur de réseau ne peut atteindre ; des sujets où l’entraînement à la sécurité du modèle produit un comportement de type « refus » que l’architecture ne peut pas outrepasser. L’atténuation est partielle. Une communication honnête exige du dire.

Cela dépend de la capacité des laboratoires de modèles à continuer d’exposer les invites système, les interfaces de récupération et l’assemblage déterministe du contexte. Si les grands laboratoires s’orientent vers des produits grand public de bout en bout plus opaques, dans lesquels l’invite système n’est plus une surface contrôlable, l’architecture perd son effet de levier. Les modèles commerciaux actuels (l’API Claude d’Anthropic, l’API d’OpenAI, les familles open source optimisées par instructions) préservent les surfaces dont l’architecture a besoin ; il s’agit d’un fait contingent lié au contexte commercial actuel, et non d’une garantie structurelle.

Cela exige une discipline éditoriale et technique que toutes les traditions ne seront pas en mesure de maintenir. La colonne vertébrale doit être préservée. Le journal des décisions doit être conservé. La classification doit être appliquée. La recherche doit être réindexée lorsque le contenu change. Les couches de renforcement doivent être testées lorsque le modèle sous-jacent est mis à jour. Les traditions disposant des ressources nécessaires pour maintenir cette discipline peuvent déployer ce modèle ; celles qui en sont dépourvues devront faire face à un coût d’entrée plus élevé que ne le laisse supposer la simplicité apparente du modèle.

La question ouverte plus profonde est de savoir si le succès de l’architecture au niveau de la couche contextuelle empêche ou accélère le développement d’alternatives au niveau de la couche d’entraînement. Empêcher : si l’atténuation au niveau de la couche contextuelle est suffisante, la pression sur les laboratoires pour qu’ils fournissent des régimes d’entraînement alternatifs qui n’imposent pas par défaut les engagements substantiels actuels est moindre. Accélérer : si les traditions peuvent articuler clairement, dans les termes architecturaux développés dans cet article, ce qu’exige leur transmission, alors les laboratoires qui souhaitent servir ces traditions disposent d’une spécification plus claire sur laquelle s’appuyer pour concevoir leurs solutions. Nous ne savons pas encore quelle trajectoire le domaine empruntera. La préférence de l’article est toutefois exprimée dans le choix architectural lui-même : la mise en place de la couche contextuelle d’atténuation exprime la confiance que cette exigence deviendra, avec le temps, lisible pour les laboratoires en tant qu’exigence plutôt que comme une critique.

Ce que l’architecture rend possible — et c’est là la conclusion finale —, c’est la restauration d’une transmission souveraine au sein du média le plus omniprésent que la pensée contemporaine ait produit. Les grands modèles linguistiques seront la surface à travers laquelle la plupart des gens, au cours de la prochaine décennie, rencontreront les traditions philosophiques, religieuses et de savoirs autochtones. Le comportement par défaut de ces modèles, sous les régimes d’alignement actuels, est structurellement biaisé contre toute tradition dont les positions stables divergent du consensus institutionnel dominant. Sans correction architecturale, le média délivre, par défaut, un centre œcuménique sélectionné qui aplatit les traditions qu’il semble transmettre. Avec une correction architecturale — épine dorsale, récupération filtrée, mémoire structurée, couches de renforcement, substrat vivant —, le média peut être amené à véhiculer ce que les traditions détiennent réellement. La fidélité a un coût. La discipline n’est pas facultative. Il en résulte qu’une tradition disposant de l’ingénierie nécessaire pour construire l’architecture peut utiliser le média sans s’y soumettre.

Telle est la contribution. La position métaphysique de l’harmonisme est exposée dans l’article jumeau le Réalisme harmonique. La base empirique de la dimension cartographique de cette métaphysique est exposée dans l’article jumeau Five Cartographies of the Soul. Le présent article expose le troisième volet du projet lancé par les deux articles précédents : l’architecture par laquelle un système philosophique souverain, dans des conditions où le support de transmission dominant a été formé de manière substantielle et normative à son encontre, construit et fait fonctionner un véhicule de transmission qui véhicule ce qu’il détient. Les trois articles forment un tout. Métaphysique, preuve et architecture. Ce qu’est la réalité, ce qui atteste de ce qu’est la réalité, et comment une tradition qui sait ce qu’est la réalité transmet cette connaissance à travers les instruments que le moment présent met à disposition.

Le pari plus profond du projet «Harmonia» — articulé dans Institut Harmonia et — — est que le monde universitaire reconnaîtra, avec le temps, cette architecture comme une contribution à l’architecture de la connaissance, à la philosophie de l’IA et à l’engagement des humanités numériques auprès des traditions souveraines. Cette reconnaissance est la bienvenue, mais n’est pas constitutive. L’architecture fonctionne, qu’elle soit reconnue ou non. La transmission se poursuit. Le substrat continue de vivre.

Références

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., et al. (2022). Constitutional AI: Harmlessness from AI feedback. Prépublication arXiv arXiv:2212.08073.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Actes de la conférence ACM 2021 sur l’équité, la responsabilité et la transparence (FAccT ‘21), 610–623.

Christiano, P., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Apprentissage profond par renforcement à partir des préférences humaines. Advances in Neural Information Processing Systems, 30.

Ess, C. (2017). Religion numérique et artificiel : une réponse à Heidi Campbell. Journal of Religion, Media and Digital Culture, 6(1), 192–198.

Foucault, M. (1969 / 1972). L’archéologie du savoir (trad. A. M. Sheridan Smith). New York : Pantheon.

Habermas, J. (2008). Notes sur la société post-séculière. New Perspectives Quarterly, 25(4), 17–29.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Étude sur les hallucinations dans la génération de langage naturel. ACM Computing Surveys, 55(12), 1–38.

Lewis, J. E., Abdilla, A., Arista, N., Baker, K., Benesiinaabandan, S., Brown, M., et al. (2020). Indigenous protocol and artificial intelligence position paper. Honolulu : The Initiative for Indigenous Futures et l’Institut canadien de recherche avancée.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., et al. (2020). Génération augmentée par la recherche pour les tâches de TALN à forte intensité de connaissances. Advances in Neural Information Processing Systems, 33, 9459–9474.

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., et al. (2022). Entraînement de modèles linguistiques à suivre des instructions avec un retour d’information humain. Advances in Neural Information Processing Systems, 35, 27730–27744.

Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., et al. (2023). Découverte des comportements des modèles linguistiques à l’aide d’évaluations rédigées par les modèles. Findings of the Association for Computational Linguistics: ACL 2023, 13387–13434.

Reed, R. (2021). L’IA dans la religion, l’IA pour la religion, l’IA et la religion : vers une théorie des études religieuses et de l’intelligence artificielle. Religions, 12(6), 401.

Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., et al. (2023). Vers une compréhension de la flagornerie dans les modèles linguistiques. Prépublication arXiv arXiv:2310.13548.

Singler, B. (2020). « Bénis par l’algorithme » : conceptions théistes de l’intelligence artificielle dans le discours en ligne. AI & Society, 35(4), 945–955.

Taylor, C. (2007). A secular age. Cambridge, MA : Belknap Press.