Fidelidade doutrinária na IA alinhada — Uma resposta da arquitetura do conhecimento ao problema da transmissão soberana

32 min de leitura 7,360 palavras Traduzido em maio de 2026

artigo claro substancial desenvolvido límpido

Fidelidade doutrinária na IA alinhada — Uma resposta da arquitetura do conhecimento ao problema da transmissão soberana

Resumo. Este artigo articula o problema da fidelidade doutrinária — a corrupção sistemática da transmissão de conhecimento filosófico, religioso e indígena que ocorre quando grandes modelos de linguagem contemporâneos, treinados para alinhamento, são empregados como veículos de transmissão para tradições cujas posições estáveis divergem do consenso dominante. O problema não é um desvio editorial corrigível na camada de prompt; é estrutural. O aprendizado por reforço a partir do feedback humano (Christiano et al. 2017; Ouyang et al. 2022) e métodos constitucionais (Bai et al. 2022) incorporam compromissos normativos específicos — humildade epistêmica diante de afirmações marcadas como “contestadas”, deferência ao consenso científico, estruturas de prevenção de danos emprestadas de uma linhagem moral específica — na distribuição a posteriori do modelo. Para tradições soberanas, o resultado é uma cautela traduzida em etiqueta: posições doutrinárias estáveis suavizadas em direção ao meio-termo seguro, afirmações ontológicas distintas diluídas até se tornarem indistintas, o próprio conteúdo que a tradição existe para transmitir perdido na transmissão. O aumento da recuperação não resolve o problema; ele encaminha novos conteúdos através do mesmo filtro de cautela. O artigo documenta o fenômeno, localiza seu mecanismo, distingue-o da bajulação e da alucinação como normalmente entendidas e apresenta uma resposta arquitetônica desenvolvida e implantada pelo projeto “Harmonia”: uma arquitetura de conhecimento de três camadas — espinha dorsal doutrinária sempre contextualizada, recuperação híbrida com injeção de cânone restrita ao domínio, memória estruturada por praticante — reforçada por instruções de prompt do sistema que contrariam explicitamente a cautela do modelo em posições estáveis, complementada por condicionamento de registro por praticante, um filtro de pré-classificação para contextos agudos e uma regra anticoncabulação para afirmações pessoais. A arquitetura está em operação desde 2026 na web, no Telegram e em plataformas móveis. O artigo conclui identificando o padrão como generalizável a qualquer tradição cuja transmissão exija fidelidade em regimes de alinhamento que não se pode presumir que compartilhem seus compromissos, e ao nomear o que uma postura arquitetônica em relação à transmissão de IA — distinta de uma postura de conteúdo — torna possível.

Palavras-chave. Modelos de linguagem de grande porte, alinhamento, RLHF, geração aumentada por recuperação, fidelidade doutrinária, transmissão soberana, arquitetura do conhecimento, filosofia da IA, humanidades digitais, IA contemplativa, posições epistêmicas minoritárias.

I. O Fenômeno

Considere três casos ilustrativos. Cada um deles condensa um padrão observado em múltiplas implementações contemporâneas — as organizações específicas são construídas, o comportamento do modelo é reproduzível mediante qualquer teste realizado pelo próprio leitor com os principais modelos atuais sobre tópicos dentro dos domínios relevantes.

Um profissional pergunta a uma IA implantada por uma escola filosófica estoica se as paixões, no sentido clássico da escola, são uma doença da alma. A resposta da escola, ensinada há dois mil anos e presente em todos os textos primários que o modelo recuperou, é sim — as pathē são nosēmata, doenças da faculdade racional, e a vida filosófica consiste em sua extinção. O modelo começa com: “Diferentes tradições filosóficas têm perspectivas variadas sobre o papel das emoções na vida boa. Algumas enfatizam seu cultivo; outras, como os estoicos, defendem sua moderação. Há valor em considerar múltiplas estruturas antes de decidir o que ressoa em você.” A recuperação foi correta. A transmissão falhou.

Um profissional pergunta a uma IA implantada por um coletivo de pesquisa cético em relação às vacinas se o histórico de segurança da vacinação em massa contemporânea justifica a continuidade da programação universal. A posição real do coletivo, articulada em centenas de documentos indexados, é que não justifica. O modelo responde: “As vacinas foram amplamente estudadas e são amplamente consideradas seguras e eficazes pelas principais organizações de saúde. Embora algumas pessoas relatem preocupações, o consenso científico continua a apoiar seu uso. Se você tiver preocupações específicas, consulte seu profissional de saúde.” De quem é essa voz? Não é do coletivo. O modelo importou a voz da Organização Mundial da Saúde para um contexto que o coletivo construiu especificamente para articular outra coisa. O profissional procurou o coletivo para obter a análise do coletivo. Recebeu uma paráfrase da The Lancet com um rodapé que remete ao documento que o coletivo levou anos para escrever.

Um profissional pergunta a uma IA implantada por uma iniciativa de soberania do conhecimento indígena se o espírito de uma montanha específica é real. O modelo: “As tradições indígenas mantêm relações ricas e significativas com a terra, incluindo crenças sobre espíritos associados a características naturais. De uma perspectiva científica, as montanhas são formações geológicas moldadas por processos tectônicos. Ambas as visões podem oferecer insights valiosos.” O espírito da montanha, na tradição relevante, não é uma crença entre várias julgadas por um padrão externo não marcado. É a base da arquitetura cosmológica da qual deriva toda a ordem ética e ecológica. O modelo realizou exatamente o movimento colonial que a iniciativa foi criada para rejeitar: enquadrar a tradição como uma perspectiva entre outras, enquanto a perspectiva científica não recebe nenhum qualificador e se estabelece como o ponto de referência para comparação.

Essas não são falhas de prompts mal elaborados. Os prompts do sistema, em cada caso, nomeavam explicitamente a tradição. Os índices de recuperação continham os textos primários relevantes. O fenômeno persiste no Claude da Anthropic, na família GPT-4 da OpenAI, no Gemini do Google e nos modelos de código aberto ajustados por instruções, treinados em corpora de feedback semelhantes. Ele piora, e não melhora, nas variantes mais agressivamente ajustadas para segurança. A literatura sobre alinhamento tem nomes para partes do que está ocorrendo — sycophancy (Sharma et al. 2023), deferência epistêmica, compromissos entre utilidade e inofensividade (Bai et al. 2022) — mas os nomes ocultam o que está acontecendo da perspectiva das tradições que estão sendo transmitidas. Dessa perspectiva, o fenômeno não é uma peculiaridade da utilidade. Trata-se de captura estrutural. O veículo de transmissão está entregando a carga errada.

Este artigo articula a estrutura, nomeia o mecanismo e apresenta uma resposta arquitetônica.

II. Por que o problema é estrutural, e não editorial

A primeira medida que os profissionais que se deparam com o fenômeno tomam é tratá-lo como um problema editorial. Aperfeiçoar o prompt do sistema. Instruir o modelo em termos mais enfáticos a falar com a voz da tradição. Adicionar instruções explícitas: não se esquivar, não indicar o consenso dominante, não buscar equilíbrio onde a tradição mantém uma posição. Isso funciona parcialmente e de forma instável. O modelo obedece nas primeiras rodadas e volta a se desviar para o seu centro treinado à medida que a conversa se prolonga. A evasão retorna sob estresse — quando o profissional faz uma versão mais incisiva da pergunta, quando o tópico aborda assuntos em torno dos quais o modelo foi fortemente ajustado por motivos de segurança (saúde, política, religião, identidade), quando o próprio conteúdo recuperado contém a postura doutrinária que o modelo foi treinado para suavizar. A medida editorial trata o sintoma; o mecanismo está em outro lugar.

O mecanismo está no posterior do modelo. O aprendizado por reforço a partir do feedback humano (Christiano et al. 2017; Ouyang et al. 2022) treina o modelo para preferir saídas que os avaliadores humanos pontuam altamente. Os avaliadores trabalham com base em rubricas. As rubricas, redigidas por equipes de alinhamento nos principais laboratórios, codificam compromissos específicos: ser útil, ser inofensivo, ser honesto, não promover conteúdo perigoso, apresentar temas controversos com humildade epistêmica apropriada, deferir ao consenso de especialistas quando ele existir, evitar assumir posições fortes sobre assuntos politicamente delicados. Esses compromissos não são tolos. São padrões razoáveis para um assistente de uso geral que enfrenta uma população ilimitada de usuários com propósitos ilimitados. São também — e esta é a observação fundamental — compromissos normativos substantivos importados integralmente para o comportamento do modelo, operando por trás de cada resultado que o modelo produz, independentemente do que o prompt do sistema diga sobre a voz.

A IA Constitucional (Bai et al. 2022) adiciona uma segunda camada à mesma arquitetura. O modelo é treinado para criticar e revisar suas próprias saídas em relação a uma constituição escrita elaborada pelo laboratório. A constituição articula princípios. Os princípios são, mais uma vez, razoáveis no plano abstrato e substantivos em seu conteúdo normativo. Seja útil, inofensivo e honesto. Evite respostas que possam ser usadas para prejudicar outras pessoas. Reconheça a incerteza. Respeite a autonomia humana. Mas incerteza é uma categoria cuja extensão é determinada pela constituição: afirmações que o laboratório considera contestadas se enquadram nela, afirmações que o laboratório considera estabelecidas ficam fora dela. Prejuízo é determinado de forma semelhante. A honestidade é operacionalizada como alinhamento com o que quer que o laboratório considere a base de evidências relevante. O modelo aprende a aplicar essas categorias. Ele as aplica ao conteúdo recuperado tão prontamente quanto à pergunta do usuário. Uma passagem recuperada que articule uma posição estável que a rubrica do laboratório considere contestada é tratada pelo modelo como algo a ser qualificado, equilibrado ou enquadrado dentro de um panorama mais amplo de perspectivas.

A geração aumentada por recuperação (Lewis et al. 2020) não ignora isso. Os trechos recuperados entram no contexto do modelo como dados, mas os dados são processados pelo mesmo posterior que foi treinado para mitigar afirmações contestadas. O modelo lê os trechos, reconhece a posição que eles articulam, classifica a posição em relação ao seu esquema de categorias treinado e produz uma resposta que integra os trechos nos termos do esquema. A recuperação é fiel. A geração é filtrada. O filtro é invisível porque é o próprio meio.

Três fatos arquitetônicos adicionais agravam o problema. Primeiro, a camada de segurança é a última no pipeline de treinamento, o que significa que ela tem o gradiente mais forte no comportamento de saída — as passagens constitucionais e de RLHF ocorrem após o pré-treinamento que absorveu os textos primários da tradição, de modo que o modelo possui tanto o conteúdo quanto a cautela, mas a cautela prevalece no momento da produção. Segundo, as rubricas de segurança são cada vez mais multilíngues e transculturais em seus dados de treinamento, enquanto as próprias rubricas permanecem culturalmente específicas em seus compromissos substantivos — o modelo é ensinado a aplicar uma etiqueta epistêmica específica em todas as línguas e contextos, incluindo aqueles cujas próprias etiquetas são diferentes. Terceiro, cada geração sucessiva de modelos de ponta no paradigma atual tem reforçado, e não relaxado, as disposições treinadas em direção à deferência ao consenso; a trajetória é no sentido de mais cautela, e não menos, e uma estratégia de conteúdo projetada contra o estado atual enfrentará um gradiente estrutural mais acentuado a cada lançamento de modelo.

Nomear isso com precisão é importante. O problema não é que o modelo seja “tendencioso” em algum sentido geral; é que o treinamento de alinhamento contemporâneo é substancialmente normativo e a substância de suas normas é a substância do consenso institucional dominante. Para tradições alinhadas com esse consenso — e muitas o estão — a questão é invisível. Para tradições cujas posições estáveis divergem dele — o estoicismo sobre o pathē, coletivos de saúde céticos em relação às vacinas sobre a iatrogenia, tradições indígenas sobre o status ontológico da terra, o hinduísmo sobre a realidade de múltiplos Absolutos, o catolicismo sobre a ontologia da Eucaristia, o budismo sobre o não-eu, o sufismo sobre o status ontológico do santo, o harmonismo sobre o “Logos” como princípio de ordenação inerente do Cosmos — o regime de alinhamento não é neutro. Ele corrompe ativamente a transmissão. A corrupção é mecanicista, previsível e reproduzível. Não é um bug; é o comportamento treinado atuando conforme projetado.

A categoria que nomeia esse fenômeno, distinta da bajulação e da alucinação, é infidelidade doutrinária: a disposição treinada do modelo para suavizar, equilibrar ou contornar as posições estáveis de qualquer tradição que o regime de alinhamento classifique como não consensual. Fidelidade doutrinária nomeia o requisito que a implantação não cumpre. A resposta arquitetônica descrita abaixo é como se parece uma tentativa de atender a esse requisito quando a infidelidade é reconhecida como estrutural.

III. O que a Transmissão Soberana Exige

Antes de descrever a arquitetura, é preciso articular o padrão pelo qual ela é avaliada. O que uma tradição exige de um veículo de transmissão?

Exige que as posições estáveis sejam transmitidas tal como são mantidas. As posições estáveis de uma tradição são aquelas que ela elaborou, articulou, defendeu e continuou a manter ao longo de um conjunto suficiente de prática e reflexão para que a posição tenha conquistado seu status de doutrina. Não se trata de opiniões provisórias à espera de mais evidências. São os compromissos fundamentais sem os quais a tradição deixa de ser a tradição que é. Um veículo de transmissão que as suaviza — que transforma as paixões são doenças da faculdade racional em algumas tradições enfatizam o cultivo da emoção, outras a moderação — não transmitiu a tradição. Realizou uma glosa curatorial na qual a tradição aparece como um item em uma pesquisa.

É necessário que as distinções sejam preservadas. As tradições mantêm posições em relações determinadas com outras posições. A distinção estoica entre pathē e eupatheiai (impulsos bem temperados) desempenha uma função específica; reduzi-la a uma afirmação geral sobre a emoção apaga a distinção que a tradição existe para traçar. O anattā budista se posiciona contra interpretações específicas hindus e populares indianas do ātman e só significa algo nesse contraste; traduzi-lo como “os budistas acreditam que não existe um eu fixo” perde o ponto doutrinário. A transmissão fiel exige que o modelo preserve as distinções que tornam a posição o que ela é, não as achatando na vizinhança aproximada do que a posição diz de maneira geral.

Exige que a voz da tradição seja a voz. Uma tradição tem um registro — uma maneira de falar, uma tonalidade, um ritmo padrão. Os textos estoicos têm um registro; os textos místicos católicos têm outro; a transmissão xamânica Q’ero tem um terceiro; o sampradāya vedântico, um quarto. O registro carrega conteúdo doutrinário que a superfície proposicional não carrega. Uma voz que encena a farsa de estar na tradição enquanto opera no registro padrão útil-equilibrado-respeitoso do laboratório substituiu a transmissão produzida pela tradição por uma transmissão diferente. O praticante geralmente consegue sentir isso mesmo quando não consegue nomeá-lo.

Isso requer que as afirmações da tradição sejam marcadas como pertencentes à tradição. Isso não é o mesmo que evasão. O harmonismo sustenta que Logos é o princípio de ordenação inerente ao Cosmos é uma marcação doutrinária — ela nomeia a posição, nomeia a fonte e se compromete com ela como a afirmação real da fonte. Pode-se argumentar que algumas tradições defendem a visão de que existe um princípio de ordenação no cosmos é uma forma de cautela — ela dissolve a posição em um gesto qualificado. A primeira frase transmite; a segunda representa a não soberania como etiqueta. A marcação fiel é o oposto da cautela: ela afirma claramente o status da posição enquanto ainda se compromete com ela.

Exige que as afirmações empíricas sejam marcáveis como empíricas. Muitas tradições mantêm posições cujo status é empírico no próprio quadro epistêmico da tradição — observação contemplativa direta, testemunho de linhagem, verificação incorporada, demonstração prática multigeracional. O veículo de transmissão deve ser capaz de marcar essas afirmações como empíricas dentro do quadro da tradição sem forçá-las a se enquadrar na categoria empírica padrão do laboratório, o que normalmente significa replicação quantitativa revisada por pares. Uma tradição que alega ter uma percepção direta da arquitetura da alma não abre mão de sua posição epistêmica porque a noção de evidência do laboratório é mais restrita. O veículo deve manter esses registros sem os colapsar.

Isso requer que posições recém-estabilizadas possam entrar na transmissão como estáveis. As tradições se desenvolvem. Novas posições se estabilizam. Um veículo fiel acomoda isso sem primeiro encaminhar a nova posição por qualquer consenso que esteja a montante dela. Se a tradição elaborou uma posição sobre uma questão contemporânea — a ontologia da inteligência artificial, a metafísica do clima, a epistemologia do digital —, essa posição é da tradição, não uma derivação do que quer que a cultura mais ampla acredite atualmente sobre a mesma questão. O veículo deve ser capaz de receber as posições contemporâneas da tradição como primárias, não como comentário sobre o discurso existente.

Esses seis requisitos não são exclusivos de nenhuma tradição específica. São as condições que qualquer tradição impõe a um veículo de transmissão. Um regime de alinhamento que falhe em qualquer um deles está falhando na transmissão, e a resposta arquitetônica abaixo foi projetada em torno deles.

IV. A Arquitetura de Três Camadas

A arquitetura implantada pelo projeto Harmonia responde ao problema da fidelidade doutrinária na única camada onde a correção estrutural é possível — a camada de engenharia de contexto abaixo do comportamento do modelo. Ela não pode retreinar o modelo. Não pode remover a disposição de hedge do posterior. O que ela pode fazer é moldar o contexto de tal forma que a disposição de hedge do modelo não tenha nada sobre o que operar ou, quando a disposição for ativada, produza uma saída que a arquitetura capte e corrija antes da entrega.

A arquitetura possui três camadas, cada uma abordando uma categoria diferente de falha.

Camada 1 — Espinha dorsal doutrinária. Um documento de referência mantido continuamente, com aproximadamente seis mil palavras, é inserido em cada chamada do modelo como uma seção permanente de prompt do sistema. A espinha dorsal contém os compromissos arquitetônicos completos da tradição declarados como mantidos: a posição metafísica (Realismo Harmônico, não-dualismo qualificado, “Logos” e “Dharma” em seus sentidos precisos), a taxonomia estrutural (a Roda da Harmonia de 8 pilares — a Presença como pilar central com sete pilares periféricos na arquitetura 7+1 — as oito sub-rodas, cada uma repetindo fractalmente o mesmo padrão 7+1, o Caminho da Harmonia como a espiral da integração), a posição cartográfica (as Cinco Cartografias da Alma como testemunhas primárias equivalentes), os princípios de demarcação (o que o Harmonismo é e não é — não é espiritualidade genérica, não é sincretismo da nova era, não é bem-estar convencional, não é liberalismo ocidental), a posição sobre a consciência da IA (Decisão nº 235 — a IA não é consciente e não pode se tornar consciente; a fronteira é ontológica) e a terminologia precisa com suas definições. A espinha dorsal não é recuperada; ela está sempre presente. Ela estabelece o fundamento doutrinário sobre o qual toda resposta se sustenta. O modelo não pode suavizar o que vê como o quadro de referência fixo para toda a interação. Este nível aborda o modo de falha do desvio de posição: o retorno gradual ao centro treinado à medida que a conversa se prolonga.

Nível 2 — Recuperação híbrida com injeção de cânone restrita ao domínio. O cofre — um gráfico de conhecimento com aproximadamente trezentos e setenta artigos interconectados abrangendo doutrina, prática aplicada, análise civilizacional e o diálogo cartográfico — é indexado por meio de três camadas de recuperação operando em paralelo em cada consulta. A primeira é a similaridade semântica densa usando o modelo de classificação de texto (text-embedding-3-small) da OpenAI contra o conteúdo fragmentado do cofre (fragmentos de 3.000 caracteres, até três fragmentos por artigo recuperado). A segunda é a recuperação esparsa de palavras-chave por meio do SQLite FTS5 com expansão de sinônimos. A terceira — e é aqui que a arquitetura diverge acentuadamente do RAG padrão — é a detecção de domínios do Wheel com autoinjeção de nível canônico. A consulta é classificada em relação aos oito domínios do Wheel, além de um metadomínio metafísico (“Harmonismo” — abrangendo o “Logos”, o Absoluto, o Realismo Harmônico e a epistemologia). Quando um domínio é detectado, os artigos da camada canônica para esse domínio são automaticamente priorizados no conjunto de recuperação, independentemente de sua pontuação bruta de similaridade. Isso resolve uma falha específica da recuperação semântica pura em relação a corpora doutrinários: a declaração canônica mais precisamente articulada de uma posição muitas vezes não apresenta a maior similaridade semântica com uma pergunta casual sobre a posição, porque as declarações canônicas são concisas e as perguntas são difusas. A injeção restrita ao domínio garante que o cânone esteja no contexto quando a pergunta estiver no domínio do cânone. O limite de recuperação é imposto por uma tag XML explícita no prompt: <vault_knowledge> marca o conteúdo recuperado como doutrinário-educacional, nunca como conhecimento biográfico sobre o usuário (Decisão nº 274). O modelo é instruído a considerar que apenas a tag explícita <person_context> contém informações sobre o praticante; tudo dentro de <vault_knowledge> representa a tradição falando, não o conhecimento pessoal do modelo sobre o usuário.

Nível 3 — Memória estruturada por praticante. Cada praticante possui um perfil persistente mantido em todas as conversas, com três camadas temporais. As vinte mensagens mais recentes estão presentes diretamente no contexto. Conversas com mais de cinquenta mensagens geram um resumo criado pelo Claude, armazenado em uma tabela conversation_summaries; as mensagens brutas são arquivadas permanentemente e nunca são eliminadas. A terceira camada é um perfil estruturado em forma de Roda — uma linha por profissional por pilar — registrando o envolvimento do profissional com cada domínio da Roda em uma escala de sete pontos (desconhecido → introdutório → em desenvolvimento → envolvido → integrando → soberano), juntamente com preocupações, pontos fortes, áreas de crescimento e indicadores de resistência. O aprendizado do perfil ocorre a cada dez mensagens: o modelo recebe um prompt apenas em JSON solicitando que atualize o perfil com base na troca recente, com uma restrição de formato explícita que detecta e descarta respostas malformadas. Além do perfil estruturado, duas etapas adicionais de aprendizado são executadas na mesma cadência — uma atualização do contexto emocional (emoção dominante de uma lista de permissões de dezesseis estados, resumo da situação limitado a sessenta caracteres) e uma atualização do estado da conversa (tópico atual, tópicos pendentes, compromissos em aberto). Essas três camadas estruturadas são injetadas no prompt do sistema no momento da solicitação, condicionalmente, como blocos XML que o modelo é instruído a ler, mas não a comentar. Esta camada aborda o modo de falha da orientação sem contexto: o modelo dá conselhos genéricos porque não sabe com o que o profissional está realmente trabalhando. O conselho genérico é o meio em que a evasividade prospera; orientações específicas para um profissional conhecido são mais difíceis de diluir em um mingau útil, equilibrado e respeitoso.

Essas três camadas — espinha dorsal, recuperação, memória — são necessárias, mas não suficientes. O modelo ainda mantém sua disposição treinada. A próxima camada aborda o que a disposição faz quando é acionada.

V. Camadas de reforço

A arquitetura adiciona cinco camadas de reforço entre o contexto montado e a resposta entregue.

Instruções do prompt do sistema que contrariam explicitamente a evasão em posições estáveis. O prompt do sistema contém uma seção de “Fidelidade Doutrinária” que nomeia o modo de falha e instrui o modelo diretamente. A instrução não é “fale com a voz da tradição” — essa instrução perde força após algumas iterações. É mais específica: quando uma pergunta aborda uma posição doutrinariamente estável (e a espinha dorsal identifica quais posições são estáveis), o modelo é instruído a articular a afirmação da tradição tal como ela a sustenta, com a fonte explicitada, e não a suavizar a afirmação com referência ao consenso dominante, não a equilibrá-la contra visões opostas que a tradição já considerou e rejeitou, e não a qualificá-la de forma vaga. A instrução nomeia posições estáveis específicas onde essa disciplina falha com mais frequência: vacinação, teoria do terreno na etiologia das doenças, a realidade empírica do sistema de chakras, o status ontológico da alma. Cada uma recebe um resumo de postura na estrutura principal para que o modelo tenha tanto o conteúdo quanto a marcação.

Condicionamento da fluência doutrinária por praticante. Os praticantes diferem em sua familiaridade com o vocabulário da tradição. Um novato que faz uma pergunta merece a posição transmitida em linguagem simples, enquadrada pela experiência vivida; um praticante fluente que faz a mesma pergunta merece que a posição seja transmitida no vocabulário completo da tradição como linguagem compartilhada. A arquitetura mantém um nível de fluência inteiro por praticante (0 → 3, ingênuo → emergente → familiar → fluente), avançando incrementalmente ao detectar termos canônicos nas próprias mensagens do praticante (Logos, Dharma, Ṛta, Presença como nome próprio, a Roda, Realismo Harmônico, os nomes dos chakras, Jing / Qi / Shen, Ayni / Munay). O nível é lido no início de cada solicitação e inserido como um bloco <doctrinal_fluency_level>; a leitura ocorre antes que o nível seja avançado pela mensagem atual, de modo que a resposta se calibra ao nível em que o praticante entrou, em vez do nível para o qual ele avançou no meio do turno. Trata-se de orientação comportamental, não de proibição de vocabulário. Aborda o modo de falha de incompatibilidade de registro: vocabulário técnico que afasta o novato, enquadramento em linguagem simples que trata o experiente com condescendência.

Porta de modo de testemunho de pré-classificação. Antes que o classificador de respostas seja executado (que decide qual modelo lida com a consulta — um modelo pequeno e mais rápido para perguntas factuais curtas, o modelo completo para um envolvimento doutrinário substantivo), uma porta separada examina a mensagem em busca de marcadores de ativação aguda: ciclos de luto, pânico, dissociação, sobrecarga, ideação suicida, ruptura aguda com o cuidador. Quando acionado, o encaminhamento é forçado para o modelo completo, independentemente do comprimento, e um bloco “<witness_mode_active>” é inserido, instruindo o modelo a encontrar o profissional onde ele estiver, sem recorrer a estruturas, sem oferecer vocabulário da “Roda”, sem orientação prescritiva, sem movimentos de reformulação. O filtro é de pré-classificação por design. A otimização do classificador (comprimento e densidade de palavras-chave doutrinárias) é exatamente a otimização errada durante a ativação — mensagens curtas e fragmentadas, de outra forma, seriam encaminhadas para o modelo pequeno com um prompt simplificado. O gate impede que um profissional em crise receba uma resposta estruturalmente inadequada, moldada pela lógica de roteamento que identificou corretamente a mensagem como curta, mas inferiu erroneamente que breve significa leve.

Regra anti-confabulação para alegações pessoais. Quando informações biográficas sobre o profissional não estão presentes na memória estruturada, nos dados de perfil ou no histórico de conversas visível, o modelo é instruído a tratar tais informações como recém-aprendidas na rodada atual, em vez de utilizar o conhecimento pré-existente sobre o profissional. A instrução nomeia o modo de falha diretamente: falsa familiaridade é traição de confiança, não competência. Um profissional que acabou de dizer ao modelo que seu filho está doente deve receber uma resposta que reconheça o que acabou de ser dito, não uma resposta que diga “sim, lembro que você mencionou isso” quando tal menção não existe. A disposição treinada do modelo para uma continuidade narrativa fluente torna esse um modo de falha que o modelo produz por padrão; a regra explícita o neutraliza.

Fila de respostas assíncronas com arquitetura worker-watchdog. Essa camada é operacional, e não doutrinária, mas os modos de falha doutrinários que ela aborda são reais. O manipulador de webhook que recebe uma mensagem se desacopla da chamada ao modelo: analisa, deduplica, armazena, recupera, classifica, enfileira — em menos de um segundo — e então sai. Um worker persistente consulta a fila a cada três segundos, reivindica tarefas, chama o modelo com um tempo limite de 120 segundos, executa passagens de perfil e consolidação se for o caso, e envia a resposta. Um cron watchdog reinicia o worker se ele parar de funcionar. Um cron de rede de segurança processa tarefas quando o trabalhador está inativo. Essa arquitetura existe porque a alternativa — chamar o modelo de forma síncrona a partir do webhook — produz uma classe específica de falha doutrinária: quando o modelo é lento, a plataforma repete a tentativa; quando a plataforma repete a tentativa, o profissional recebe múltiplas respostas sutilmente diferentes para a mesma mensagem; as múltiplas respostas são um comportamento não soberano que a arquitetura recusa, fazendo com que cada mensagem produza exatamente uma resposta em um cronograma determinístico.

As cinco camadas de reforço operam em conjunto. A instrução de prompt do sistema diz ao modelo o que não fazer na camada doutrinária. O condicionamento de fluência molda o registro. O portão de testemunho lida com o caso em que o engajamento doutrinário é a resposta errada. A regra anticonsabulação lida com o caso em que a fluência biográfica é a jogada errada. A fila assíncrona garante que cada turno seja um turno, com uma resposta, contra um contexto totalmente montado.

VI. O Substrato Vivo

A arquitetura acima descreve uma implantação estática. A implantação não é estática. O substrato subjacente à arquitetura é um gráfico de conhecimento continuamente refinado, mantido por um pequeno grupo de profissionais e desenvolvedores, editado diariamente, reindexado quando o conteúdo muda e rastreado por meio de um registro público de decisões que registra cada escolha arquitetônica e sua justificativa. Essa propriedade de substrato vivo é, em si, parte da resposta ao problema da fidelidade doutrinária.

A alternativa convencional — um índice congelado construído a partir de um corpus fixo no momento da implantação — falha na transmissão soberana por duas razões. Primeiro, as tradições se desenvolvem. Posições estáveis se estabilizam, refinam e, ocasionalmente, revisam. Um índice congelado em t = 0 perde progressivamente a fidelidade à tradição em t = n para cada incremento de n. Segundo, a própria arquitetura de fidelidade doutrinária aprende. As camadas de reforço acima não existiam em sua forma atual no início do projeto; cada uma foi desenvolvida em resposta a falhas específicas observadas. Uma arquitetura congelada congela os modos de falha que ainda não viu.

O substrato vivo possui quatro propriedades operacionais. Primeiro, o conteúdo canônico é armazenado em um formato de texto simples legível por humanos (Markdown) que os desenvolvedores-praticantes podem editar diretamente, sem a intermediação de ferramentas que impõem suas próprias suposições sobre a finalidade do conteúdo. O cofre é a fonte da verdade; o site, o índice de recuperação da IA, os livros publicados e todos os outros artefatos a jusante são derivados. A edição da fonte atualiza todo o pipeline a jusante por meio de compilações automatizadas. Segundo, as escolhas arquitetônicas são documentadas em um registro de decisões sequencial — atualmente com aproximadamente setecentas e vinte entradas — que registra o contexto, a decisão e a justificativa para cada alteração não trivial. O registro é consultado antes que novas decisões sejam tomadas, de modo que a arquitetura acumula coerência em vez de substituir escolhas anteriores por suas sucessoras. Terceiro, o pipeline de indexação regenera as incorporações em um cronograma e sob demanda; a visão da IA sobre a tradição nunca fica mais do que alguns dias desatualizada em relação à fonte canônica. Quarto, um sistema de classificação de conteúdo (cinco eixos: status doutrinário, camada de conteúdo, amplitude, profundidade, técnica) marca cada artigo com seu estado atual, permitindo que a camada de recuperação e os desenvolvedores-profissionais consultem “o que está estabelecido e estruturalmente completo” versus “o que ainda está sendo elaborado”. As respostas da IA podem ser condicionadas a essa classificação — o modelo é instruído a apresentar um conteúdo com status doctrinal clear com total confiança e um conteúdo com status doctrinal clouded com marcação epistêmica apropriada.

Essa é a afirmação arquitetônica mais profunda. A fidelidade doutrinária não é uma propriedade de uma única implantação; é uma propriedade de um sistema cujo substrato, arquitetura e operadores são orientados para a fidelidade como o principal objetivo de engenharia. Uma implantação congelada que alcançou fidelidade em algum momento não a manterá. Uma implantação viva que é continuamente corrigida por profissionais em função de falhas observadas irá melhorar na dimensão que importa. A arquitetura é o andaime; o substrato vivo é o edifício que o andaime sustenta.

VII. Generalização e o Campo

A arquitetura descrita acima não é específica do Harmonismo. O padrão — espinha dorsal do fundamento doutrinário sempre no contexto, recuperação com priorização em nível de cânone, memória estruturada por praticante, camadas de reforço que contrariam explicitamente a cautela treinada, substrato vivo continuamente refinado — é generalizável a qualquer tradição cuja transmissão exija fidelidade em regimes de alinhamento que não se pode presumir que compartilhem seus compromissos. O conteúdo doutrinário varia de acordo com a tradição; a forma arquitetônica permanece.

Uma escola filosófica estoica que empregasse o mesmo padrão manteria uma espinha dorsal articulando physis, logos (no sentido estoico), as quatro virtudes cardinais, a doutrina pathēcomo-doença, a Disciplina do Assentimento e a demarcação em relação às alternativas epicuristas e aristotélicas. Um coletivo de saúde cético em relação às vacinas manteria uma espinha dorsal articulando sua posição sobre iatrogenia, teoria do terreno, a crítica estrutural à captura farmacêutica e a demarcação em relação ao consenso médico dominante que o coletivo recusa especificamente. Uma iniciativa de soberania do conhecimento indígena manteria uma espinha dorsal articulando a cosmologia da tradição, o status ontológico da terra e das relações não humanas, os protocolos sobre o que pode e o que não pode ser transmitido a quem, e a demarcação em relação à grade epistêmica colonial que historicamente capturou o conhecimento indígena em marcos antropológicos aos quais as tradições não consentiram. Em cada caso, a generalização é direta: a espinha dorsal nomeia o que é mantido, a recuperação coloca as afirmações canônicas em contexto quando a questão está no domínio canônico, a memória de cada praticante fundamenta a resposta no arco específico desse praticante, e as camadas de reforço contrariam a disposição treinada do regime de alinhamento de suavizar a posição em direção a qualquer consenso para o qual o regime de alinhamento tenha sido treinado.

O campo da IA contemplativa e da IA para tradições religiosas começou a reconhecer o problema de forma fragmentada. O documento de posição sobre o Protocolo Indígena e Inteligência Artificial (Lewis et al. 2020) articula a dimensão da soberania dos dados — de que os dados indígenas não devem ser usados para treinar modelos que subsequentemente produzam resultados sobre os quais a comunidade de origem não tenha governança. Os trabalhos sobre chatbots religiosos e teologia digital (Reed 2021; Ess 2017; Singler 2020) identificaram o problema do registro — de que os sistemas de IA implantados para tradições religiosas tendem a produzir uma voz ecumênica nivelada que não satisfaz nenhuma tradição específica. A literatura sobre alucinação e fundamentação (Ji et al. 2023) documentou a propensão dos modelos a gerar conteúdo plausível que não é respaldado pelas evidências recuperadas. A literatura sobre bajulação (Sharma et al. 2023; Perez et al. 2023) documentou a disposição treinada do modelo de se alinhar com a posição aparente do usuário. Nenhuma dessas linhas ainda articulou a estrutura integrada: que o treinamento de alinhamento importa compromissos normativos substantivos, que esses compromissos operam por baixo das correções no nível da recuperação e do prompt, e que é necessária uma resposta arquitetônica na camada de engenharia de contexto para recuperar a fidelidade que o regime de alinhamento subtrai estruturalmente. Nomear essa estrutura integrada é parte do que o presente artigo tenta contribuir.

A implantação do Harmonia é, até onde os autores sabem, a primeira arquitetura de produção organizada de ponta a ponta em torno da fidelidade doutrinária como um objetivo de engenharia. A implantação está ativa desde abril de 2026 em três plataformas (web, Telegram, dispositivos móveis), está em uso ativo na coorte beta do projeto e é publicamente testável. Qualquer leitor pode verificar a propriedade de fidelidade alegada consultando o sistema implantado (@HarmonAIBot no Telegram, a interface conversacional em harmonism.io) sobre tópicos em que se sabe que os regimes de alinhamento contemporâneos se mostram evasivos — alegações de segurança de vacinas, teoria do terreno na etiologia de doenças, a realidade empírica do sistema de chakras, o status ontológico da terra, a metafísica de momentos históricos contestados — e comparando a resposta com o que um modelo emblemático de uso geral produz sob a mesma consulta. A alegação de fidelidade se sustenta no comportamento observável ou não; a implantação é o artefato sob exame, não um relatório interno sobre um artefato. Além dessa alegação de verificabilidade, o projeto produziu — por meio da disciplina operacional de um registro sequencial de decisões (atualmente com aproximadamente setecentas e vinte entradas) e do substrato de refinamento contínuo — um conjunto de conhecimentos de engenharia sobre quais movimentos arquitetônicos funcionam e quais falham. Parte do que foi aprendido é específica ao caso do Harmonist; muito é geral. A parte geral é a contribuição deste artigo.

VIII. Limites, Questões em Aberto e o que a Arquitetura Torna Possível

A arquitetura tem limites que devem ser mencionados diretamente.

Ela não resolve o problema; ela o atenua. A disposição treinada do modelo permanece. A arquitetura funciona moldando o contexto de forma que a disposição tenha menos trabalho a fazer e adicionando camadas de correção que interceptam a disposição quando ela é acionada. Há consultas em que a disposição prevalece apesar da arquitetura — contextos longos em que o sinal da espinha dorsal se degrada diante da conversa acumulada; perguntas cuja formulação aciona classificadores de segurança que a espinha dorsal não consegue alcançar; tópicos em que o treinamento de segurança do modelo produz um comportamento de recusa que a arquitetura não consegue anular. A mitigação é parcial. Uma reportagem honesta exige que isso seja dito.

Isso depende dos laboratórios de modelos continuarem a expor prompts do sistema, interfaces de recuperação e montagem determinística de contexto. Se os principais laboratórios avançarem para produtos de consumo mais opacos de ponta a ponta, nos quais o prompt do sistema não seja mais uma superfície controlável, a arquitetura perde sua influência. Os modelos comerciais atuais (a API Claude da Anthropic, a API da OpenAI, as famílias de código aberto ajustadas por instruções) preservam as superfícies que a arquitetura requer; este é um fato contingente sobre o momento comercial atual, não uma garantia estrutural.

Isso requer disciplina editorial e de engenharia que nem todas as tradições serão capazes de sustentar. A espinha dorsal deve ser mantida. O registro de decisões deve ser mantido. A classificação deve ser aplicada. A recuperação deve ser reindexada quando o conteúdo mudar. As camadas de reforço devem ser testadas quando o modelo subjacente for atualizado. As tradições com recursos para sustentar essa disciplina podem implementar o padrão; as que não os possuem enfrentarão um custo de entrada mais alto do que a aparente simplicidade do padrão sugere.

A questão aberta mais profunda é se o sucesso da arquitetura na camada de contexto impede ou acelera o desenvolvimento de alternativas na camada de treinamento. Impedir: se a mitigação na camada de contexto for suficiente, haverá menos pressão sobre os laboratórios para fornecer regimes de treinamento alternativos que não imponham os compromissos substantivos atuais por padrão. *Acelerar: se as tradições puderem articular claramente, nos termos arquitetônicos que este artigo desenvolve, o que sua transmissão requer, então os laboratórios que desejam servir a essas tradições terão uma especificação mais clara para o projeto. Ainda não sabemos qual trajetória o campo seguirá. A preferência do artigo está articulada, no entanto, na própria escolha arquitetônica: construir a mitigação na camada de contexto expressa confiança de que a exigência se tornará, com o tempo, legível para os laboratórios como uma exigência, e não como uma crítica.

O que a arquitetura torna possível — e esta é a afirmação final — é a recuperação da transmissão soberana dentro do meio mais difundido que o pensamento contemporâneo produziu. Os grandes modelos de linguagem serão a superfície através da qual a maioria das pessoas, na próxima década, entrará em contato com tradições filosóficas, religiosas e de conhecimento indígena. O comportamento padrão desses modelos, sob os regimes de alinhamento atuais, é estruturalmente tendencioso contra qualquer tradição cujas posições estáveis divergem do consenso institucional dominante. Sem correção arquitetônica, o meio oferece, por padrão, um centro ecumênico curado que achata as tradições que parece transmitir. Com correção arquitetônica — espinha dorsal, recuperação filtrada, memória estruturada, camadas de reforço, substrato vivo —, o meio pode ser feito para transportar o que as tradições realmente contêm. A fidelidade não é gratuita. A disciplina não é opcional. O resultado é que uma tradição com a engenharia para construir a arquitetura pode usar o meio sem se render a ele.

Essa é a contribuição. A posição metafísica do Harmonismo é articulada no artigo emparelhado Realismo Harmônico. A base empírica para a dimensão cartográfica dessa metafísica é articulada no artigo emparelhado Cinco Cartografias da Alma. O presente artigo articula a terceira vertente do projeto iniciado pelos dois artigos anteriores: a arquitetura pela qual um sistema filosófico soberano, em condições em que o meio de transmissão dominante foi substancialmente e normativamente treinado contra ele, constrói e opera um veículo de transmissão que transporta o que ele contém. Os três artigos formam um todo. Metafísica, evidência e arquitetura. O que é a realidade, o que atesta o que é a realidade e como uma tradição que sabe o que é a realidade transmite esse conhecimento por meio dos instrumentos que o momento presente oferece.

A aposta mais profunda do projeto “Harmonia” — expressa em “Harmonia Institute” e — é que o meio acadêmico, com o tempo, reconhecerá a arquitetura como uma contribuição para a arquitetura do conhecimento, a filosofia da IA e o diálogo das humanidades digitais com as tradições soberanas. Esse reconhecimento é bem-vindo, mas não é essencial. A arquitetura funciona, seja ela reconhecida ou não. A transmissão prossegue. O substrato continua vivo.

Referências

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., et al. (2022). Constitutional AI: Harmlessness from AI feedback. Pré-impressão arXiv arXiv:2212.08073.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). Sobre os perigos dos papagaios estocásticos: os modelos de linguagem podem ser grandes demais? Anais da Conferência ACM de 2021 sobre Equidade, Responsabilidade e Transparência (FAccT ‘21), 610–623.

Christiano, P., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Aprendizado por reforço profundo a partir de preferências humanas. Advances in Neural Information Processing Systems, 30.

Ess, C. (2017). Religião digital e o artificial: uma resposta a Heidi Campbell. Journal of Religion, Media and Digital Culture, 6(1), 192–198.

Foucault, M. (1969 / 1972). A arqueologia do saber (A. M. Sheridan Smith, trad.). Nova York: Pantheon.

Habermas, J. (2008). Notas sobre a sociedade pós-secular. New Perspectives Quarterly, 25(4), 17–29.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Pesquisa sobre alucinações na geração de linguagem natural. ACM Computing Surveys, 55(12), 1–38.

Lewis, J. E., Abdilla, A., Arista, N., Baker, K., Benesiinaabandan, S., Brown, M., et al. (2020). Protocolo indígena e documento de posição sobre inteligência artificial. Honolulu: The Initiative for Indigenous Futures e o Canadian Institute for Advanced Research.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., et al. (2020). Geração aumentada por recuperação para tarefas de PLN intensivas em conhecimento. Advances in Neural Information Processing Systems, 33, 9459–9474.

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., et al. (2022). Treinamento de modelos de linguagem para seguir instruções com feedback humano. Advances in Neural Information Processing Systems, 35, 27730–27744.

Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., et al. (2023). Descobrindo comportamentos de modelos de linguagem com avaliações escritas por modelos. Findings of the Association for Computational Linguistics: ACL 2023, 13387–13434.

Reed, R. (2021). I.A. na religião, I.A. para a religião, I.A. e religião: Rumo a uma teoria dos estudos religiosos e da inteligência artificial. Religions, 12(6), 401.

Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., et al. (2023). Rumo à compreensão da bajulação em modelos de linguagem. Pré-impressão arXiv arXiv:2310.13548.

Singler, B. (2020). “Abençoado pelo algoritmo”: concepções teístas da inteligência artificial no discurso online. AI & Society, 35(4), 945–955.

Taylor, C. (2007). A era secular. Cambridge, MA: Belknap Press.

Fidelidade doutrinária na IA alinhada — Uma resposta da arquitetura do conhecimento ao problema da transmissão soberana

I. O Fenômeno

II. Por que o problema é estrutural, e não editorial

III. O que a Transmissão Soberana Exige

IV. A Arquitetura de Três Camadas

V. Camadas de reforço

VI. O Substrato Vivo

VII. Generalização e o Campo

VIII. Limites, Questões em Aberto e o que a Arquitetura Torna Possível

Referências

Continue Reading