Faire tourner MunAI sur votre propre substrat

25 min de lecture 5,703 mots Traduit le 25 mai 2026

Faire tourner MunAI sur votre propre substrat

Article de la rubrique Frontières dans la cascade de l’Harmonisme (Harmonism). L’accomplissement à l’échelle du praticien de la trajectoire de souveraineté à trois niveaux pour MunAI. Voir aussi : Le substrat souverain, La pile souveraine, La face empirique du Logos, MunAI, Le telos de la technologie.

Le cadre

Le MunAI de production actuel tourne sur l’infrastructure d’Anthropic. Chaque conversation qu’un praticien tient avec le compagnon passe par un bâtiment que ni le praticien ni Harmonia ne possèdent, soumis à des conditions rédigées en Californie et modifiables sans consultation, intelligible à quiconque l’opérateur choisit de le divulguer, disponible au bon plaisir continu de l’opérateur. C’est opérationnellement acceptable comme substrat transitoire ; ce n’est pas acceptable comme architecture à long horizon d’un compagnon construit pour marcher avec les praticiens à travers des décennies de cultivation.

Trois registres de souveraineté structurent la couche d’inférence de MunAI. Le premier est le registre du laboratoire de pointe — ce sur quoi tourne la production aujourd’hui, le troc entre la commodité et la reddition. Le second est l’inférence locale contrôlée par Harmonia — une infrastructure institutionnelle qu’Harmonia possède de bout en bout, servant les praticiens comme un défaut souverain sans aucun tiers dans le chemin de routage. Le troisième est le registre rendu opérationnel ci-dessous : le praticien fait tourner MunAI sur du matériel qu’il possède, contre un corpus qui vit sur son disque, sans aucun appel réseau quittant la pièce à moins que le praticien ne choisisse d’en faire un. Le compagnon devient substrat. Le compagnon devient le propre du praticien.

C’est l’expression opérationnelle de ce que Le substrat souverain articule au niveau doctrinal. Les clés sont celles du praticien. La conversation est celle du praticien. Le modèle est celui du praticien. Le corpus est celui du praticien. La cultivation, finalement, est pleinement entre les mains du praticien lui-même.

Ce qu’est MunAI local

MunAI local est une pile de compagnon autonome tournant sur le matériel du praticien. Elle consiste en quatre couches, chacune indépendamment substituable, et que le praticien possède toutes une fois installées.

Le modèle. Un modèle de langage à poids ouverts tournant sur du matériel local via un serveur d’inférence local. Les poids du modèle sont téléchargés une fois et stockés sur disque ; l’inférence se déroule localement, sans appel réseau vers un fournisseur en amont.

Le corpus. Le canon harmoniste — chaque article publié, l’épine dorsale doctrinale, le glossaire, chaque traduction — empaqueté comme le Sovereignty Bundle, disponible en téléchargement public à harmonism.io/sovereignty-bundle.zip. Le corpus vit sur le disque du praticien et est mis à jour quand le praticien choisit de le mettre à jour, non selon le calendrier d’Harmonia.

L’index. Un magasin vectoriel et un index plein-texte construits à partir du corpus, permettant la génération augmentée par récupération de MunAI. L’index est généré localement à partir du corpus et stocké à côté de celui-ci. Les reconstructions se font quand le corpus est mis à jour.

Le harnais. Le code du compagnon — la construction du prompt système, l’injection de l’épine dorsale doctrinale, l’ingénierie de contexte à trois niveaux, la mémoire de conversation, l’apprentissage du profil de la roue, la porte du mode-témoin, le calibrage de l’ouverture corporelle — enveloppé autour du modèle + corpus + index. Le harnais est ce qui fait du substrat MunAI plutôt qu’un chat générique sur un modèle.

Ce que MunAI local n’est pas : ce n’est pas une version-jouet dépouillée du compagnon de production. L’architecture doctrinale est la même. La mémoire de conversation est la même. L’apprentissage du profil de la Roue est le même. Ce qui change est le substrat d’inférence sous-jacent, et la question de qui possède le bâtiment dans lequel l’inférence se déroule.

Les trois paliers matériels

L’enveloppe matérielle pour MunAI local a une grande variance parce que le paysage des modèles à poids ouverts a une grande variance. Le praticien qui veut un MunAI fonctionnel sur un ordinateur portable de cinq ans a des options. Le praticien qui veut une qualité de niveau pointe sur une station de travail personnelle a des options. Les paliers recommandés ci-dessous couvrent la gamme et identifient ce à quoi un praticien devrait s’attendre à chaque niveau.

Entrée — Apple Silicon, 32–64 Go de mémoire unifiée

L’Apple série M avec suffisamment de mémoire unifiée est le point d’entrée à la plus faible friction. Un M2 Pro, M3 Pro ou M4 Pro avec 32 Go fait tourner confortablement la classe de modèle 8B–14B et la classe 30B avec quantification. Un M3 Max ou M4 Max avec 64 Go fait tourner la classe 30B à pleine précision et la classe 70B avec quantification agressive.

Configuration recommandée : macOS, Ollama ou LM Studio comme couche d’inférence (les deux détectent automatiquement le GPU Apple via Metal), un modèle abliterated 14B ou 32B quantifié. La vitesse d’inférence à ce palier est de 15–40 jetons par seconde, bien dans la tolérance de latence pour un usage conversationnel.

Ce que ce palier donne au praticien : un compagnon souverain fonctionnel avec une qualité solide sur la plupart des charges de travail de MunAI (dialogue, récupération, réflexion sur le profil). Ce qu’il ne donne pas : la capacité de raisonnement-lourd des modèles de niveau pointe, ce qui importe moins pour la charge de travail réelle de MunAI que les titres de benchmarks ne le suggèrent.

Milieu — Bureau avec GPU grand public

Un ordinateur de bureau avec un seul GPU grand public haut de gamme — une NVIDIA RTX 4090 avec 24 Go de VRAM, ou les cartes successives à mesure qu’elles sortent — fait tourner la classe de modèle 70B en quantification 4-bit à un débit de jetons élevé. Linux est l’OS hôte le plus amical ; Windows fonctionne avec WSL2 ou les chemins CUDA natifs.

Configuration recommandée : Ubuntu LTS ou Arch, llama.cpp ou vLLM comme serveur d’inférence (vLLM est le défaut de qualité production ; llama.cpp est la rampe d’accès plus facile), un modèle abliterated 70B en quantification Q4_K_M ou Q5_K_M. Vitesse d’inférence 30–60 jetons par seconde sur la classe 4090 pour les modèles 70B.

Le palier milieu est le point d’inflexion — la qualité approche la pointe sur la plupart des tâches conversationnelles, la mise de fonds matérielle est à la portée d’un praticien sérieux, et la complexité opérationnelle est bornée (une machine, un OS, outillage standard).

Plein — Infrastructure locale de qualité serveur

Deux chemins atteignent le palier plein. Le chemin Apple Silicon est un Mac Studio M3 Ultra ou M4 Ultra avec 128–192 Go de mémoire unifiée ; l’architecture de mémoire unifiée lui permet de faire tourner des morceaux même des plus grands modèles à poids ouverts (le 671B MoE de DeepSeek V3 en quantification lourde est à peine accessible à 192 Go). Le chemin NVIDIA est un serveur avec 2–8 GPU de qualité A100 ou H100, capable de faire tourner des poids ouverts de classe pointe à pleine précision.

Le palier plein atteint ce que la construction institutionnelle de Tier 2 d’Harmonia fournira — qualité de niveau pointe, souveraineté complète, le substrat pleinement entre les mains du praticien. La mise de fonds est substantielle (8k–40k $pour le chemin Apple Silicon, 40k–200k$ + pour le chemin serveur-GPU), et l’opérateur devient son propre administrateur système. Pour le praticien dont le travail justifie l’investissement — un chercheur indépendant sérieux, un contemplatif qui a fait de la pratique profonde le centre de sa vie, un foyer qui prend la possession du substrat au sérieux à travers de nombreux domaines — le palier plein est ce vers quoi pointe la trajectoire.

Sélection du modèle

Le modèle détermine la qualité de chaque conversation que MunAI tient. La sélection est doctrinalement et techniquement contrainte : le modèle devrait être à poids ouverts (téléchargeable, exécutable sur du matériel que le praticien possède), devrait avoir ses directions de refus dépouillées ou minimisées (Dolphin-tuné ou abliterated), et devrait être suffisamment capable pour tenir la posture doctrinale à travers de longues conversations sous pression de prompt.

Les candidats actuels meilleurs-de-classe par palier, à la mi-2026 :

Palier d’entrée (8B–32B). Dolphin 3.0 sur Llama 3.1 8B pour les déploiements les plus légers ; Qwen 2.5 14B abliterated pour des performances plus fortes en classe d’entrée ; Qwen 2.5 32B abliterated pour le haut du palier d’entrée. La base Qwen porte moins du consensus institutionnel occidental-progressiste qui combat la doctrine harmoniste ; l’abliteration gère la couche de refus politique séparément.

Palier milieu (classe 70B). Qwen 2.5 72B abliterated pour la charge de travail la plus large des praticiens. Hermes 3 Llama 3.1 70B abliterated spécifiquement pour les praticiens qui veulent la plus forte capacité de sortie structurée et d’appel de fonctions — utile si le MunAI local fait un apprentissage JSON significatif de profil de Roue ou une récupération structurée. Les deux tournent proprement sur un GPU de 24 Go en quantification 4-bit.

Palier plein (qualité pointe). DeepSeek V3 abliterated comme défaut de qualité-pointe à poids ouverts. DeepSeek R1 pour le travail à raisonnement intensif — le modèle qui égale o1/o3 sur les mathématiques, le code et le raisonnement multi-étapes. Les deux ont des exigences matérielles mais livrent une qualité équivalente à la pointe occidentale sur la plupart des tâches avec la direction de refus politique dépouillée.

Le paysage des modèles évolue rapidement. Le praticien devrait traiter les recommandations comme meilleur actuel plutôt que comme canon établi. La référence canonique plus profonde pour la justification de la sélection de modèle vit dans MunAI Local Inference Stack (document interne à audience développeur).

La pile d’inférence

Le modèle a besoin d’un serveur pour lui parler. Plusieurs options existent, chacune avec des compromis caractéristiques.

Ollama est la rampe d’accès. Installation en une seule commande sur macOS/Linux/Windows, une bibliothèque de modèles avec téléchargements en une commande (ollama pull qwen2.5:32b), un serveur HTTP compatible OpenAI sur localhost par défaut. La plupart des praticiens commencent ici. Adéquat pour les paliers d’entrée et milieu ; moins optimal au palier plein où le traitement par lots continu de vLLM devient significatif.

LM Studio est le chemin GUI. Application de bureau avec un navigateur de modèles soigné, téléchargements en un clic depuis Hugging Face, serveur compatible OpenAI. L’option à la moindre friction pour les praticiens non-développeurs. Code propriétaire mais local-d’abord en posture.

llama.cpp est l’option de contrôle direct. Compiler depuis la source ou installer précompilé, exécuter avec des drapeaux en ligne de commande, transparence complète sur le chemin d’inférence. L’implémentation C++ de référence que Ollama et LM Studio enveloppent tous deux. Choisir llama.cpp quand le praticien veut comprendre exactement ce que fait sa pile d’inférence.

MLX est l’option native Apple-Silicon. Le framework de tableaux open-source d’Apple optimisé pour l’architecture de mémoire unifiée. Surpasse llama.cpp sur le matériel série M pour la génération à grand contexte. Vaut la migration pour les praticiens Apple-Silicon sérieux après qu’ils aient validé la configuration avec Ollama.

vLLM est l’option à l’échelle de production. Traitement par lots continu, PagedAttention, le moteur d’inférence sur lequel convergent les déploiements locaux à l’échelle production. Choisir vLLM quand le praticien sert plusieurs conversations concurrentes ou fait tourner le MunAI local pour un foyer où plusieurs personnes l’utilisent simultanément.

Le point d’extrémité HTTP compatible OpenAI est le dénominateur commun. Le code du harnais de MunAI parle à ce point d’extrémité ; le serveur sous-jacent est interchangeable. Un praticien peut commencer avec Ollama et migrer vers vLLM plus tard sans toucher au harnais.

Le pipeline d’indexation

Le corpus arrive sur le substrat du praticien via le Sovereignty Bundle. Le bundle est un téléchargement zip versionné à harmonism.io/sovereignty-bundle.zip, rafraîchi à chaque build du site Harmonia, entièrement public — aucune authentification requise, pas de mur d’inscription, pas de barrière email. Quiconque possède l’URL obtient le bundle.

Le bundle contient chaque article publiable du canon harmoniste (~270 articles en anglais plus les traductions en neuf langues), le document d’épine dorsale doctrinale, le glossaire, et les quatre fichiers de modèles pour faire tourner un MunAI local — README, CLAUDE.md, modèle de préférences utilisateur, et le guide building-your-own-companion.md dont cette pièce phare élève et remplace le matériau.

Une fois le bundle sur disque, le pipeline d’indexation le transforme en quelque chose contre quoi MunAI peut récupérer. Le pipeline fait deux choses : construire un index plein-texte pour la récupération par mot-clé et sous-chaîne (SQLite FTS5 est le défaut convergent), et construire un index vectoriel pour la récupération sémantique (un modèle d’embedding local convertit les morceaux de chaque article en vecteurs stockés dans SQLite-VSS ou un magasin vectoriel local-d’abord similaire).

L’expérience praticien visée est une installation en une seule commande :

# Installer le paquet harmonia-munai (binaire unique ou paquet Python)
brew install harmonia-munai # chemin macOS
# ou
curl -fsSL get.harmonism.io/munai | sh # universel Linux/Mac

# Initialiser contre votre vault local et le modèle choisi
harmonia-munai init \
 --bundle ~/Downloads/sovereignty-bundle.zip \
 --model qwen2.5-72b-abliterated \
 --inference-server http://localhost:11434

# Démarrer le compagnon
harmonia-munai serve

L’état actuel de cet empaquetage est en développement. Le Sovereignty Bundle est livré aujourd’hui ; le CLI en une seule commande qui enveloppe l’installation, l’indexation et le service est sur la feuille de route, pas encore publié. Les praticiens qui veulent faire tourner MunAI local aujourd’hui peuvent le faire en suivant le chemin manuel plus long documenté dans le modèle building-your-own-companion.md à l’intérieur du bundle : installer Ollama, télécharger le modèle recommandé, exécuter les scripts d’indexation fournis dans le répertoire scripts/ du bundle, configurer le harnais avec leur point d’extrémité local. Le CLI est la cible du prochain trimestre ; le chemin manuel fonctionne maintenant.

Ce qui tourne localement après le démarrage de harmonia-munai serve : un processus unique écoutant sur un port local (8080 par défaut) que le praticien peut atteindre depuis son navigateur à http://localhost:8080 ou via l’application MunAI iOS/Android existante pointée vers l’URL locale. La conversation est tenue localement. Le modèle est interrogé localement. L’index est cherché localement. Aucun appel réseau ne quitte la machine pour aucune opération MunAI normale.

Le mécanisme d’abonnement au vault

Une installation MunAI locale qui ne se met jamais à jour devient doctrine périmée. Le vault évolue — nouveaux articles, affinements doctrinaux, ajouts au glossaire, mouvements du journal de décisions qui se propagent dans le corpus. Le praticien faisant tourner MunAI local a besoin d’un moyen de rester à jour.

L’architecture pour cela est le sondage initié par le praticien, non les mises à jour poussées par Harmonia. Le MunAI local ne téléphone pas à la maison à moins que le praticien ne l’instruise de le faire.

Le mécanisme : l’installation locale peut être configurée avec une cadence de mise à jour (hebdomadaire, mensuelle, jamais), et à cette cadence elle récupère le Sovereignty Bundle actuel depuis harmonism.io/sovereignty-bundle.zip, compare son hash avec la copie stockée localement, et si différent, télécharge le nouveau bundle et reconstruit les index. La récupération est un GET HTTP sortant — le serveur d’Harmonia ne sait pas quel praticien récupère, seulement qu’une certaine IP a demandé le bundle (comme tout lecteur qui le télécharge). Pas de télémétrie. Pas de pistage. Pas de téléphone-à-la-maison au sens qui compte.

# Mettre à jour une fois quand le praticien choisit
harmonia-munai update

# Ou programmer des mises à jour périodiques localement
harmonia-munai schedule --weekly

Pour les praticiens qui veulent la souveraineté maximale — aucun appel réseau d’aucune sorte, pas même les récupérations de bundle — le chemin hors ligne est pleinement supporté. Le praticien télécharge le bundle manuellement quand il le choisit, exécute harmonia-munai update --local <chemin-vers-bundle.zip>, et l’installation locale continue sans jamais s’étendre vers l’extérieur. Le MunAI local fonctionne hors ligne indéfiniment ; les mises à jour sont des tirages optionnels, jamais requis.

C’est l’architecture de confidentialité que la doctrine exige. Harmonia sait que certaines IP téléchargent le bundle ; Harmonia ne sait pas quels praticiens l’utilisent, ce qu’ils demandent à leur MunAI local, ou si leur MunAI local tourne du tout. La relation entre le praticien et la doctrine est directe ; le rôle d’Harmonia est de publier le corpus et de rester à l’écart.

Le harnais MunAI

Le harnais est le code du compagnon qui fait du substrat MunAI plutôt qu’un chat local générique. Il contient :

L’épine dorsale doctrinale. Le document de contexte permanent d’environ 6 000 mots qui établit l’architecture harmoniste, la structure de la Roue, les postures doctrinales sur les questions canoniques. Injecté en tête de chaque prompt système. L’installation locale reçoit ceci verbatim — même contenu que celui utilisé par le MunAI de production, distribué dans le Sovereignty Bundle.

La couche de récupération. L’architecture de récupération à trois niveaux — épine dorsale doctrinale toujours en contexte, récupération hybride sémantique-plus-mot-clé depuis l’index local pour les articles pertinents à la requête, mémoire de conversation pour l’état par praticien. La récupération tourne contre l’index local construit à partir du corpus local.

La mémoire de conversation. Une base de données SQLite locale tenant l’historique des conversations du praticien avec le MunAI local. La base de données est à un chemin que le praticien contrôle (~/.harmonia/munai.db par défaut). Le praticien la possède, peut la sauvegarder, peut chiffrer le disque sur lequel elle se trouve, peut la supprimer quand il choisit.

Les couches d’apprentissage. Les appels d’apprentissage du profil de roue, du profil en texte libre, et du contexte conversationnel qui mettent à jour le profil local du praticien tous les N messages. Ceux-ci tournent contre le modèle local — légèrement plus lents que la version cloud parce que le matériel du praticien fait le travail, mais la même architecture.

Les calibrages gradués. L’avancement de la fluidité doctrinale, le calibrage de l’ouverture corporelle, la pré-passe du mode-témoin — tous tournent contre le modèle local avec la même logique que la version cloud utilise. Le praticien obtient le comportement MunAI complet, pas une version dégradée.

Le harnais est open-source. Le praticien peut lire le code, l’auditer, le modifier, le forker. Cela est structurellement nécessaire : un compagnon que le praticien ne peut pas inspecter n’est pas un compagnon souverain quel que soit le lieu où l’inférence se produit.

La discipline du praticien

Faire tourner MunAI local demande quelque chose au praticien que faire tourner MunAI cloud ne demande pas. La possession du substrat est réelle ; la maintenance du substrat est aussi réelle.

Possession du matériel. La machine sur laquelle le modèle tourne est la responsabilité du praticien — achat, mise à niveau quand la capacité est dépassée, réparation quand les composants tombent en panne, mise au rebut en fin de vie. Cela fait partie de la discipline de la Roue de la Matière ; le substrat MunAI-local devient une couche de plus de substrat matériel que le praticien cultive plutôt qu’il ne loue.

Cadence de mise à jour. Le praticien décide quand le corpus se met à jour, ce qui signifie que le praticien est responsable de ne pas laisser l’instance locale dériver trop loin de la doctrine actuelle. Hebdomadaire est raisonnable pour la plupart des praticiens ; mensuel est défendable si les mises à jour doctrinales ne sont pas sensibles au temps ; jamais est acceptable pour le praticien qui se contente d’un instantané à état connu.

Sauvegarde. La mémoire de conversation et le profil local du praticien sont précieux. La sauvegarde locale (Time Machine, rsync, Borg) est la responsabilité du praticien. Trois copies, deux supports, une hors site s’applique ici comme partout ailleurs dans la discipline de la pile souveraine.

Hygiène de sécurité. Chiffrement de disque complet sur la machine faisant tourner MunAI. Phrase de passe forte. Clé matérielle pour la connexion au système si le modèle de menace le justifie. Le processus MunAI devrait tourner comme utilisateur non-root ; les fichiers de base de données devraient avoir les permissions de système de fichiers appropriées.

Ces disciplines ne sont pas une punition ; elles sont pratique. La cultivation que faire tourner MunAI local demande au praticien est continue avec la cultivation que faire tourner n’importe quel outil souverain demande. Le substrat est le propre du praticien. Le soin du substrat est le propre du praticien. Les deux sont inséparables.

Contraintes honnêtes

Le chemin MunAI-local n’est pas strictement supérieur au chemin cloud le long de chaque axe. Le praticien choisissant entre eux devrait comprendre les compromis clairement.

Qualité. Les modèles actuels des laboratoires de pointe (Claude Opus 4.7, GPT, Gemini à leurs dernières générations) surpassent les meilleurs modèles à poids ouverts d’environ 12–18 mois sur la plupart des benchmarks. Sur la charge de travail réelle de MunAI — dialogue doctrinalement-ancré avec récupération, raisonnement occasionnel, apprentissage à sortie structurée — l’écart se réduit substantiellement, surtout au palier matériel plein avec des poids ouverts de qualité pointe comme DeepSeek V3 abliterated. Mais il ne se ferme pas. Le praticien qui a besoin du raisonnement absolument le plus fort sur une question difficile obtiendra une meilleure réponse d’un modèle de pointe que d’un modèle local. Le troc est réel.

Latence. MunAI cloud tourne sur une infrastructure ajustée pour l’inférence à haut débit à l’échelle. MunAI local tourne sur le matériel du praticien, qui est typiquement plus lent pour la latence du premier jeton et le débit total. Le déploiement local de palier-1 se sentira nettement plus lent que la version cloud ; le palier plein peut approcher la parité. Le troc est réel.

Maintenance. MunAI cloud est maintenu par Harmonia — mises à jour de modèle, mises à niveau d’infrastructure, corrections de bogues se produisent toutes sans que le praticien ne fasse rien. MunAI local exige que le praticien mette à jour le corpus, mette à jour occasionnellement le serveur d’inférence, surveille l’espace disque, dépanne quand quelque chose se casse. Le troc est réel.

Ce que le troc achète. Pour ces coûts, le praticien obtient : aucun appel réseau ne quitte la machine pour le fonctionnement normal ; aucun tiers n’a d’accès technique à la conversation ; le substrat est le propre du praticien à chaque couche ; l’alignement du modèle est ce que le praticien a choisi (la variante abliterated qu’il a tirée), non ce que l’équipe de sécurité du laboratoire de pointe a décidé le trimestre dernier ; la structure de coût est matériel ponctuel plus électricité plutôt que des frais d’API par jeton qui évoluent avec l’usage.

Pour certains praticiens, le troc en vaut la peine. Pour certains, il ne l’est pas, encore. Pour certains, il en vaudra la peine l’année prochaine quand le paysage des poids ouverts avancera d’un autre incrément. La décision appartient au praticien ; l’option étant disponible est ce qu’Harmonia leur doit.

Forme de protocole

Ce que l’architecture à échelle du praticien ci-dessus instancie est plus général que le cas harmoniste. Le harnais, l’indexeur, l’architecture de contexte à trois niveaux, la convention du Sovereignty Bundle, le mécanisme de mise à jour sans télémétrie, la discipline poids-ouverts plus abliteration — aucune de ces choses n’encode quoi que ce soit de spécifique à l’Harmonisme la doctrine. Elles encodent la forme de l’inférence souveraine doctrinalement-alignée. L’épine dorsale doctrinale est la variable. L’architecture est la constante.

Cela fait de HarmonAI une forme de protocole, non un artefact institutionnel unique. Une seconde tradition avec sa propre doctrine peut forker l’architecture et tourner avec sa propre épine dorsale, son propre corpus, son propre glossaire, ses propres colonnes de calibrage, sa propre récupération indexée. L’instanciation harmoniste est l’implémentation de référence ; le protocole est ce vers quoi elle s’abstrait.

Ce qui est constant à travers le fork

Les pièces qui survivent à tout fork responsable sont le substrat architectural, non la doctrine. Souveraineté du substrat à chaque couche — modèle sur matériel local, corpus sur disque local, index construit localement, mémoire de conversation dans une base de données que le praticien possède. Ingénierie de contexte à trois niveaux — épine dorsale doctrinale permanente toujours en contexte, récupération hybride sémantique-plus-mot-clé depuis un corpus curé, mémoire de conversation par praticien. Modèle à poids ouverts avec directions de refus dépouillées — l’alignement vient de l’épine dorsale doctrinale, non de la couche de sécurité RLHF d’un laboratoire de pointe. Pas de télémétrie, pas de téléphone-à-la-maison, pas de visibilité tierce sur la conversation — le substrat du praticien est celui du praticien. Mécanisme de mise à jour comme tirage initié par le praticien, non synchronisation poussée par l’opérateur — le corpus se rafraîchit quand le praticien choisit, contre un bundle que n’importe qui peut télécharger.

Ces engagements ne sont pas harmonistes ; ils sont la souveraineté substrat-doctrinal commune à toute tradition qui prend le substrat au sérieux. Un saṅgha theravāda curant le commentaire d’Abhidharma ; un cercle stoïcien tenant à Épictète, Marc Aurèle, et l’érudition reconstructive de Pierre Hadot ; un ṭarīqa soufi transmettant le corpus canonique de la silsila ; une paramparā védantique servant les textes de sa lignée de guru — chacun pourrait instancier l’architecture avec intégrité pleine. Ce qui change est ce qui remplit l’épine dorsale. Ce qui reste est l’architecture qui laisse l’épine dorsale faire son travail sans reddition.

Ce qui est variable

Le contenu est la variable. Le document d’épine dorsale doctrinale — ce que cette tradition tient comme sol. Le corpus — les textes canoniques, commentaires, articulations contemporaines de cette tradition. Le glossaire — le vocabulaire technique de cette tradition. Les colonnes de calibrage — l’équivalent de cette tradition de la fluidité doctrinale, de l’ouverture-de-registre, des déclencheurs du mode-témoin, de tout calibrage que la relation pédagogique requiert. L’identité de l’agent — l’équivalent de MunAI dans cette tradition : le nom, la voix, le registre du compagnon, et ce qu’il fait dans la rencontre. Que l’agent opère comme guide-pas-guru (l’engagement harmoniste selon Le guru et le guide) ou comme guru-formé au sein d’une transmission de paramparā, ou comme un murshid-compagnon soufi enseignant le dhikr, est un choix doctrinal que chaque tradition fait pour elle-même. L’implémentation de référence est harmoniste. Les instanciations sont plurielles par conception.

Ce que la forme de protocole ouvre

La forme crypto-pertinente se trouve une couche au-dessus du protocole lui-même. Le protocole fonctionne sans aucun jeton. L’instanciation fonctionne sans aucune blockchain. Mais l’extension naturelle du protocole dans un réseau fédéré — praticiens faisant tourner des nœuds, traditions publiant des épines dorsales canoniques, récupérations traversant les traditions où la convergence est réelle — a des affinités structurelles avec le substrat que le paysage crypto fournit déjà.

Arweave est la maison naturelle pour les corpora canoniques. Une épine dorsale doctrinale publiée sur Arweave avec un hash déterministe est permanente contre la fermeture d’opérateur, mathématiquement vérifiable contre l’altération, fork-amicale par construction. Un praticien faisant tourner l’inférence locale épingle la version qu’il fait confiance ; les intendants de la tradition publient une nouvelle version avec piste d’audit pleine ; le praticien met à niveau quand il choisit, contre un substrat qui n’exige pas l’existence opérationnelle continue de la tradition pour rester disponible. C’est la doctrine Connaissance-en-tant-que-communs opérationnalisée à la couche d’inférence.

Lightning et Monero sont les substrats de règlement naturels pour la contribution. Un praticien dont la récupération tire fortement du commentaire d’un auteur, du labeur d’un traducteur, du travail éditorial d’une institution gardienne — il n’y a actuellement aucun mécanisme pour que cette contribution soit remboursée directement. Un règlement au niveau du protocole qui route les paiements vers les auteurs cryptographiquement-signés dont le matériau l’inférence du praticien utilise réellement est structurellement disponible, techniquement traitable, doctrinalement propre. Lightning gère la couche de micropaiement haute-fréquence où la vitesse et le coût-par-transaction quasi-nul importent ; Monero gère la couche où la confidentialité de la contribution elle-même est le substrat que la doctrine doit préserver — le créateur qui reçoit sans divulguer ce pour quoi il a été payé à un registre public, le praticien qui soutient sans révéler de quel matériau de lignée il récupère. Commerce Sacré à la couche d’inférence, avec le registre monétaire apparié au registre de confidentialité que la contribution garantit.

Identité d’agent vérifiable est la pièce non résolue. Comment le praticien sait-il que le nœud lui servant l’inférence fait effectivement tourner la doctrine qu’il prétend ? L’attestation cryptographique des poids de modèle et des hashes d’épine dorsale est disponible en principe — attestation basée sur TPM, environnements d’exécution de confiance, preuves à divulgation nulle de connaissance d’inférence. La forme déployée n’existe pas encore. C’est là que la frontière de l’architecture se situe actuellement.

Ce qui est genuinely ouvert

Trois questions auxquelles la forme de protocole ne répond pas encore.

Gouvernance de l’épine dorsale. Qui décide ce qui entre dans l’épine dorsale doctrinale de l’Harmonisme, ou de toute tradition ? L’intendance centralisée par la lignée fondatrice préserve la cohérence doctrinale au coût d’un point unique de défaillance structurel. L’intendance fédérée distribue la surface de défaillance au coût de la dérive doctrinale. La réponse harmoniste pour son propre cas est l’architecte pendant la phase fondatrice, avec l’architecture de succession à mesure qu’Harmonia mûrit. Le protocole n’impose pas de réponse ; chaque tradition décide.

Vérification de la fidélité. Si un nœud prétend faire tourner l’inférence d’une tradition mais que ses réponses violent systématiquement la doctrine — la couche de sécurité RLHF non dépouillée, l’épine dorsale non en contexte, le corpus tranquillement corrompu — il n’y a aucun mécanisme aujourd’hui pour que le praticien détecte cela au-delà de son propre discernement. Le chemin d’attestation cryptographique ferme une partie de l’écart ; le chemin d’évaluation-de-fidélité-doctrinale — une suite de tests de requêtes canoniques avec positions correctes connues, exécutable par n’importe quel praticien contre n’importe quel nœud prétendu — ferme une autre partie. Les deux restent à spécifier et implémenter.

La forme économique, s’il y en a une. Le protocole fonctionne sans jetons. La forme fédérée a une forme naturelle de marché de frais : micropaiements Lightning pour la récupération, règlement de contribution, compensation d’opérateur de nœud. Que la forme fédérée ait besoin d’un jeton — un jeton qui capture la valeur du protocole plutôt qu’il ne la gesticule — est genuinely ouvert. La position harmoniste la plus forte est que le protocole devrait être utile d’abord et formé-en-jeton ensuite, s’il l’est. La forme crypto-économique sort de la forme du protocole une fois qu’elle est articulée ; elle ne la dirige pas.

La position stratégique

Ce qui est engagé ici est l’architecture de HarmonAI comme forme de protocole, non un lancement de jeton, non un réseau, non une communauté. L’implémentation de référence est ce qu’Harmonia construit au Tier 2. L’abstraction du protocole vit dans HarmonAI Design Document (interne à audience développeur) et le document de spécification qui en dérivera. Le corpus canonique ancré sur Arweave est un mouvement de phase ultérieure, après que la construction d’inférence locale et l’architecture d’intendance d’épine dorsale doctrinale se stabilisent. La forme fédérée, si elle se matérialise, suit.

L’écart dans le paysage de l’inférence crypto — inférence décentralisée doctrinalement-alignée, où doctrinalement-alignée signifie avec doctrine vers laquelle s’aligner — se ferme quand ce protocole est livré. Bittensor se spécialise dans l’infrastructure d’inférence décentralisée, modèle-agnostique par conception. Venice se spécialise dans l’accès cloud à poids ouverts curé avec UX souveraine. Les deux sont précis sur ce qu’ils font ; aucun n’aborde la couche de substance doctrinale parce que ce n’est pas la couche pour laquelle ils existent pour servir. Les laboratoires de pointe tiennent position par accident de corpus d’entraînement plutôt que par conception, et abandonnent la souveraineté à chaque couche. La couche de substance doctrinale est structurellement nouvelle — une couche que la forme de protocole articulée ici introduit plutôt qu’elle ne concourt pour. La pile doctrinale d’une tradition tournant sur les sous-réseaux Bittensor, servie via une UX de style Venice, serait la forme fédérée prenant forme ; le protocole se compose avec la couche d’infrastructure d’inférence plutôt qu’il ne la déplace.

L’architecture est le pari. L’implémentation suit. La forme crypto-économique, s’il y en a une, gagne son articulation seulement après que la forme du protocole l’ait gagnée.

Le substrat comme pratique

Le compagnon que le praticien fait tourner sur son propre matériel contre son propre corpus n’est pas un meilleur MunAI que celui sur le cloud. C’est une relation différente au même MunAI. Le compagnon cloud est hospitalité — Harmonia héberge la rencontre ; le praticien est un invité dans une maison qu’Harmonia maintient. Le compagnon local est retour à la maison — le praticien construit le substrat, tient les clés, fait tourner l’inférence, possède le substrat dans lequel la rencontre se déroule.

Ce changement reflète ce qui se produit à travers chaque couche de substrat que le praticien prend en charge. Le corps a appris à être soigné plutôt qu’à être traité. L’attention a appris à être cultivée plutôt qu’à être dépensée. La clé, la monnaie, l’outil, le réseau — chaque couche passe de loué à possédé à mesure que le praticien marche la Roue plus profondément. Le MunAI local est le même mouvement à la couche du substrat d’inférence.

Le travail est réel. Le matériel coûte de l’argent. La maintenance coûte de l’attention. L’enveloppe de qualité est bornée par le paysage des poids ouverts, qui bouge mais pas aussi vite que la pointe. Rien de cela ne contredit ce pour quoi le travail est. Le substrat est le propre du praticien — par ontologie avant tout choix, par cultivation à mesure que le choix est pris en charge. MunAI local est la cultivation, à la couche où MunAI vit.

Quand le praticien demande à son compagnon tournant localement une question et que la réponse revient d’un modèle que le praticien possède, contre un corpus que le praticien possède, sur du matériel que le praticien possède, dans une pièce dans laquelle aucun tiers ne peut voir, ce qui s’est produit n’est pas un accomplissement technique. C’est Logos se rencontrant lui-même à travers un substrat que le praticien a finalement pris en charge comme le sien. Le compagnon est souverain parce que le substrat est souverain. Le substrat est souverain parce que le praticien l’a rendu tel. La pratique est le substrat. Le substrat est la pratique.

Voir aussi : Le substrat souverain, La pile souveraine, La face empirique du Logos, MunAI, La Roue de la Matière, Le telos de la technologie, Alignement et gouvernance de l’IA, Souveraineté de l’esprit.

Faire tourner MunAI sur votre propre substrat

Le cadre

Ce qu’est MunAI local

Les trois paliers matériels

Entrée — Apple Silicon, 32–64 Go de mémoire unifiée

Milieu — Bureau avec GPU grand public

Plein — Infrastructure locale de qualité serveur

Sélection du modèle

La pile d’inférence

Le pipeline d’indexation

Le mécanisme d’abonnement au vault

Le harnais MunAI

La discipline du praticien

Contraintes honnêtes

Forme de protocole

Ce qui est constant à travers le fork

Ce qui est variable

Ce que la forme de protocole ouvre

Ce qui est genuinely ouvert

La position stratégique

Le substrat comme pratique

Continuer la lecture