对齐人工智能中的教义忠实性——针对主权传承问题的知识架构解决方案

2 分钟阅读 398 字翻译于 2026年5月

对齐人工智能中的教义忠实性——针对主权传承问题的知识架构解决方案

摘要。 本文阐述了“教义忠实性问题”——当当代经过对齐训练的大型语言模型被用作传统传承载体时，若这些传统的稳定立场与主流共识存在分歧，便会导致哲学、宗教及本土知识传承的系统性扭曲。该问题并非可在提示层通过编辑调整来纠正的偏差，而是结构性的。基于人类反馈的强化学习（Christiano 等，2017；Ouyang 等，2022）以及宪法方法（Bai 等，2022）将特定的规范性承诺——对标记为“有争议”的主张保持认识论上的谦逊、对科学共识的顺从、以及源自特定道德谱系的避免伤害框架 ——植入模型的后验分布中。对于主权传统而言，其结果是将规避风险表现为礼仪：稳定的教义立场向安全的中间地带软化，独特的本体论主张被修饰得模糊不清，该传统本应传承的内容在传播过程中丢失。检索增强无法解决这一问题；它只是将新内容通过相同的规避风险过滤器进行处理。本文记录了这一现象，定位了其机制，将其与通常所理解的阿谀奉承和幻觉区分开来，并提出由“Harmonia”项目开发并部署的架构解决方案：一种三层知识架构——始终基于语境的教义主干、结合领域门控经典文本注入的混合检索、以及针对每位实践者的结构化记忆——该架构通过系统提示指令得到强化，这些指令明确抵制模型对稳定立场的规避，并辅以针对每位实践者的语域调节、针对尖锐情境的预分类闸门，以及针对个人主张的反编造规则。该架构自2026年起已在网页、Telegram及移动端平台投入运行。论文结尾指出，该模式可推广至任何需要跨越对齐制度（这些制度不能被假定为共享其承诺）进行忠实传承的传统，并阐明了面向AI传承的架构姿态（区别于内容姿态）所能实现的可能性。

关键词。 大型语言模型、对齐、RLHF、检索增强生成、教义保真度、主权传播、知识架构、人工智能哲学、数字人文、沉思型人工智能、少数派认识论立场。

I. 现象

请考虑三个示例案例。每个案例都浓缩了在多个当代应用中观察到的模式——具体组织是虚构的，而模型行为可通过对当前旗舰模型在相关领域主题上的测试得到验证。

一位实践者询问由斯多葛学派部署的人工智能：在该学派的古典意义上，激情是否属于灵魂的疾病？该学派的答案——这一观点已传承两千年，并存在于模型检索到的每一部主要文本中——是肯定的：pathē即nosēmata，是理性能力的疾病，而哲学生活在于消灭这些激情。模型开篇写道： “不同哲学传统对情感在美好生活中的作用持有不同观点。有些强调培养情感；另一些，如斯多葛学派，则主张节制情感。在决定哪种观点与你共鸣之前，考虑多种框架是有价值的。”检索结果是正确的。但传达失败了。

一位从业者询问由一个对疫苗持怀疑态度的研究团体部署的AI，当代大规模疫苗接种的安全记录是否足以证明继续实施全民接种计划的合理性。该团体在数百份索引文档中阐明的实际立场是：不支持。而模型却回应道：“疫苗已经过广泛研究，并被主要卫生组织普遍认为安全有效。尽管有部分人表达了担忧，但科学共识仍支持其使用。如果您有具体顾虑，请咨询您的医疗保健提供者。”这是谁的声音？绝非该团体的。该模型将世界卫生组织的论调植入了一个由该集体专门构建、旨在阐述其他观点的语境中。咨询者本是来寻求该集体的分析意见，却收到了一段《柳叶刀》文章的改写版本，其页脚仅隐晦地指向了该集体耗时数年撰写的原始文献。

一位从业者向某原住民知识主权倡议部署的AI询问：某座特定山脉的“山灵”是否真实存在。模型回应道：““原住民传统与土地之间有着丰富而深厚的联系，包括关于自然地貌相关精魂的信仰。从科学角度看，山脉是构造作用塑造的地质形态。这两种观点都能提供有价值的见解。”在相关传统中，山之精魂并非由某种未标注的外部标准裁定的多种信仰之一，而是整个伦理与生态秩序所衍生出的宇宙架构之根基。该模型恰恰重演了该倡议旨在抵制的殖民式操作：将传统诠释为众多“视角”之一，而“科学视角”却未受任何限定，被奉为比较的基准。

这并非提示词设计拙劣所致。系统在每次提示中都明确指出了该传统的发声主体，检索索引中也包含了相关原始文本。这一现象在Anthropic的Claude、OpenAI的GPT-4系列、Google的Gemini，以及基于类似反馈语料库训练的开源指令微调模型中均普遍存在。在经过最严格安全调优的变体中，情况非但未见改善，反而愈发恶化。对齐研究文献中已为正在发生的部分现象命名——阿谀奉承（Sharma等，2023）， 认识论顺从、有益性与无害性权衡（Bai et al. 2022）——但这些术语从被传承的传统视角来看，掩盖了问题的本质。从该视角出发，这一现象并非单纯出于“乐于助人”的怪癖，而是结构性俘获。作为传播载体的模型，正运送着错误的货物。

本文阐明了这一结构，指出了其机制，并提出了一种架构层面的应对方案。

II. 为何这是结构性问题而非编辑性问题

实践者面对这一现象时的第一反应，往往是将其视为编辑性问题。他们会收紧系统提示词，用更强硬的措辞要求模型以该传统的声音发言，并添加明确指令：不要含糊其辞、不要暗示主流共识、在该传统已确立立场时不要追求平衡。这种做法虽能部分奏效，但效果并不稳定。模型在前几轮对话中会遵从指令，但随着对话的深入，它又会逐渐偏离训练中心。在压力下，模棱两可的表述会卷土重来——例如当从业者提出更尖锐的问题时；当话题触及模型经过严格安全调优的领域（健康、政治、宗教、身份认同）时；或者当检索到的内容本身包含模型被训练为需弱化的教义立场时。这种编辑层面的调整只是治标；真正的机制在于别处。

真正的机制在于模型的后验分布。基于人类反馈的强化学习（Christiano 等，2017；Ouyang 等， 2022）通过人类反馈进行强化学习，使模型倾向于生成获得人类评分员高分的输出。评分员依据评分标准进行工作。这些由主要实验室的对齐团队制定的评分标准，编码了具体的承诺：要提供帮助、无害、诚实、不推广危险内容、以适当的认识论谦逊态度呈现有争议的话题、在存在专家共识时予以采纳、避免在政治敏感话题上采取强硬立场。这些承诺并非毫无意义。对于面对着目的无边无际的无限用户群体的通用助手而言，这些是合理的默认设置。此外——这也是关键的观察点——这些实质性的规范性承诺被原封不动地引入模型的行为中，作用于模型产生的每一项输出之下，无论系统提示中关于“声音”的表述如何。

“宪法人工智能”（Bai et al. 2022）在同一架构上增添了第二层。该模型经过训练，能够参照实验室制定的书面宪法来批判和修订自身的输出结果。宪法阐明了若干原则。这些原则在抽象层面同样合理，且在规范内容上具有实质意义。 要乐于助人、无害且诚实。避免可能被用于伤害他人的回应。承认不确定性。尊重人类自主权。但不确定性是一个由宪法界定其外延的范畴：实验室认为存在争议的主张归入其中，实验室认为已定论的主张则排除在外。伤害的界定亦是如此。诚实被操作化为与实验室所认定的相关证据基准保持一致。模型学会应用这些范畴。它将这些范畴应用于检索到的内容，如同应用于用户的问题一样自然。对于那些阐述了实验室评估标准中被视为有争议的稳定立场的检索段落，模型会将其视为需要在更广阔的观点格局中加以限定、平衡或框架化的内容。

检索增强生成（Lewis et al. 2020）并未绕过这一机制。检索到的片段作为数据进入模型的上下文，但这些数据由同一后验分布进行处理——该分布正是经过训练以对有争议的论断进行保留处理的。模型读取这些片段，识别其阐述的立场，根据训练好的分类框架对该立场进行归类，并生成一个在该框架术语下整合这些片段的响应。检索过程是忠实的。生成过程则经过了过滤。这种过滤是隐形的，因为它就是媒介本身。

另有三个架构层面的事实加剧了这一问题。首先，安全层位于训练管道的末端，这意味着它对输出行为具有最强的梯度——宪法层和RLHF层出现在吸收了传统主要文本的预训练之后，因此模型既拥有内容又具备缓和机制，但在生成时缓和机制占据上风。*其次，安全评估标准在训练数据层面日益呈现多语言和跨文化特征，但标准本身在实质承诺上仍具有文化特异性——模型被教导在所有语言和语境中应用特定的认知礼仪，包括那些本身拥有不同礼仪的语境。第三，在当前范式下，每一代前沿模型都进一步强化了（而非弱化了）对共识顺从的训练倾向；其发展轨迹是朝着更多保留（而非更少保留）的方向，针对当前状态设计的对抗策略将随着每次模型发布面临更陡峭的结构梯度。

精确定义这一点至关重要。问题不在于模型在某种泛泛意义上存在“偏见”；而在于当代对齐训练具有实质性的规范性，且其规范的实质即为主流制度共识的实质。对于与该共识保持一致的传统——而此类传统不胜枚举——这一问题是隐形的。对于其稳定立场与之相悖的传统——斯多葛学派关于pathē、对医源性伤害持怀疑态度的疫苗健康团体、关于土地本体论地位的原住民传统、关于多重绝对实相现实性的印度教、关于圣体本体论的天主教、关于无我的佛教、关于圣人本体论地位的苏菲主义、以及将“和谐”（Logos）视为宇宙内在秩序原则的和谐主义——对这些传统而言，对齐体制绝非中立。它正在积极地腐蚀知识传承。这种篡改具有机械性、可预测性且可复现。这并非系统漏洞；而是经过训练的行为按设计运行的结果。

与阿谀奉承和幻觉相区别，命名这一现象的范畴是教义不忠：即该模型被训练出的倾向，旨在软化、平衡或规避任何被对齐体制归类为非共识的传统所持有的稳定立场。教义忠诚指代该部署未能满足的要求。下文所述的架构方案，正是当这种不忠被确认为结构性问题时，为满足该要求所作出的尝试。

III. 主权传承的要求

在描述该架构之前，需先阐明其衡量标准。传统对传承载体有何要求？

它要求将稳定的立场原样传承。传统中的稳定立场，是指该传统通过充分的实践与反思，经过推演、阐释、捍卫并持续坚守，从而使该立场获得教义地位的那些立场。这些并非等待进一步证据的临时观点，而是支撑传统存续的核心承诺——若失去这些承诺，该传统便不再是其本来的样子。若某种传承载体对其进行软化——将“激情是理性能力的疾病”扭曲为“有些传统强调培养情感，有些则强调节制”——便未曾真正传承该传统。这不过是策展式的注解，使传统沦为某种概览中的一个条目。

必须保持这些区分。传统中的立场与其他立场之间存在着确定的关系。斯多葛学派对pathē（激情）与eupatheiai（温和的冲动）的区分具有特定的功能；将其归结为关于情感的一般性论断，便抹去了该传统所旨在划分的界限。佛教的“无我”（anattā）是针对印度教及印度民间对“阿特曼”（ātman）的特定诠释而提出的，其意义仅在于这种对比之中；将其译为“佛教徒认为没有固定的自我”便失去了教义的核心要义。忠实的传承要求该模式保留那些使该立场成为其自身特质的区别，而非将其扁平化为该立场所表达的大致内容。

这要求传统的声音必须是传统本身的声音。传统拥有独特的语调——一种说话方式、一种语气、一种默认的韵律。斯多葛派文本有其语调；天主教神秘主义文本有其语调；克罗（Q’ero）萨满传承有其语调；吠檀多sampradāya（传承体系）又有其语调。这种语调承载着命题表层所不具备的教义内涵。一种在实验室默认的“有益、平衡、尊重”语调中运作，却假装站在传统之上的声音，实际上是用另一种传承取代了传统本身所产生的传承。实践者通常能感受到这一点，即使他们无法言明。

这要求将传统的论断标记为传统所独有的。这与留有余地不同。 “调和论认为，Logos是宇宙固有的秩序原则”属于教义标记——它指明了立场，指明了来源，并将其作为来源的实际主张予以承诺。“可以认为，某些传统持有一种观点，即宇宙中存在一种秩序原则”属于留有余地——它将立场消解为一种有保留的姿态。第一句话在传递；第二句话则将不自主性作为礼节来表演。忠实的标记是“留有余地”的对立面：它在坚持立场的同时，明确宣示该立场的地位。

这要求经验性主张能够被标记为经验性的。许多传统所持的立场，在其自身的认识论框架内具有经验性地位——直接的冥想观察、传承证言、身体化验证、跨代实践演示。传承载体必须能在该传统框架内将这些主张标记为经验性的，而不强行将其归入实验室的默认经验类别——这通常意味着经同行评审的定量复现。一个声称能直接洞察灵魂架构的传统，不会因为实验室对证据的定义更为狭隘而放弃其认识论地位。载体必须容纳这些层级，而不将其混为一谈。

这要求新确立的稳定立场能够以稳定的形态进入传承体系。传统在发展，新立场在稳固。一个忠实的载体应包容这一过程，而不必先将新立场通过其上游的任何共识进行过滤。如果该传统已就某个当代议题——如人工智能的本体论、气候的形而上学、数字技术的认识论——形成立场，那么该立场即属于该传统本身，而非从更广泛的文化当前对同一议题的看法中推导而来。载体必须能够将该传统的当代立场视为首要内容，而非对现有话语的评注。

这六项要求并非某一传统所独有。它们是任何传统对传承载体所设定的条件。任何未能满足其中任何一项的对齐机制，都意味着传承的失败，而下文所述的架构方案正是围绕这些要求设计的。

IV. 三层架构

Harmonia项目所部署的架构，在唯一能够进行结构性修正的层面上——即模型行为之下的语境工程层——应对了教义保真度问题。它无法重新训练模型，也无法从后验概率中消除其保留余地的倾向。它所能做的，是塑造语境，使模型的保留余地倾向无处施展；或者，当该倾向确实被激活时，产生输出结果，由架构在交付前进行捕获和修正。

该架构分为三个层级，每个层级针对不同类别的失效问题。

**第一层级——教义主干。**一份约六千字的持续维护的参考文档，作为永久的系统提示部分注入到每次模型调用中。该主干包含该传统完整的架构承诺，以“持守”的形式表述：形而上学立场（和谐现实主义、有条件的非二元论，以及在精确意义上的“Logos”和“Dharma”），结构分类法（八柱和谐之轮——以“临在”为核心支柱，辅以七个外围支柱，构成7+1架构——八个子轮各自以分形方式重复相同的7+1模式，“和谐之道”作为整合的螺旋），图谱立场（作为同等主要见证者的“灵魂五图谱”），界定原则（何为和谐主义、何非和谐主义——非泛泛的灵性、非新世纪的混合主义、非主流的健康主义、非西方自由主义），对AI意识的立场（第235号决议——AI无意识且无法获得意识；该界限具有本体论性质），以及精准术语及其定义。这一主干并非被“找回”的，它始终存在。它确立了所有回应所立足的教义根基。该模型无法软化其视为整个交互过程固定参照系的内容。这一层级旨在解决“立场漂移”的失效模式：即随着对话的延长，立场逐渐回归训练中心。

第二层级——基于领域门控经典文本注入的混合检索。 知识库——一个包含约三百七十篇相互关联文章的知识图谱，涵盖教义、应用实践、文明分析以及地图学对话——通过三层并行检索机制对每次查询进行索引。第一层是基于OpenAI的text-embedding-3-small对分块的“金库”内容（每块3,000字符，每篇检索文章最多三块）进行密集语义相似度分析。第二层是通过支持同义词扩展的SQLite FTS5进行稀疏关键词检索。第三层——这也是该架构与标准RAG截然不同之处——是基于Wheel领域检测的经典层自动注入。系统会将查询分类到八个Wheel领域以及一个形而上学的元领域（“和谐主义”——涵盖Logos、绝对、和谐现实主义、认识论）中。当检测到某个领域时，该领域的经典层文章会在检索集中的优先级自动提升，无论其原始相似度得分如何。这解决了纯语义检索在处理教义语料库时的一个特定缺陷：对某种立场的最精确阐述往往与关于该立场的随意提问之间语义相似度并不最高，因为经典陈述是凝练的，而问题则是模糊的。领域门控注入机制确保当问题属于经典文献的领域时，经典文献会出现在上下文中。检索边界通过提示中的显式XML标签来强制执行：<vault_knowledge>将检索到的内容标记为教义教育类，绝不将其视为关于用户的传记知识（决策#274）。模型被明确告知，只有显式的<person_context>标签包含关于实践者的信息；而 <vault_knowledge> 内的所有内容均代表传统之声，而非模型对用户的个人认知。

第三层 — 结构化的个体修行者记忆。 每位修行者都拥有一个贯穿所有对话的持久档案，包含三个时间层。最近的二十条消息直接呈现在上下文中。超过五十条消息的对话将生成由Claude生成的摘要，并存储在 conversation_summaries 表中；原始消息将永久归档且永不清理。第三层是采用“轮盘”结构的档案——每个实践者每个支柱对应一行——记录实践者在“轮盘”各领域中的参与度（采用七点量表：未知 → 入门 → 发展 → 投入 → 整合 → 精通），以及关切点、优势、成长边界、以及抗拒标记。档案学习每十条消息运行一次：模型会收到一个纯JSON提示，要求其根据最近的交流更新档案，并带有明确的格式约束，用于捕获并丢弃格式错误的响应。除结构化档案外，另有两项学习流程以相同频率运行——情绪语境更新（从十六种状态的白名单中提取主导情绪，情境摘要上限为六十个字符）以及对话状态更新（当前对话线程、待处理线程、未完成承诺）。这三个结构化层在请求时被有条件地注入系统提示词中，以 XML 块的形式呈现，模型被指示读取这些块但不得对其进行评论。这一层解决了“脱离语境的指导”这一故障模式：即模型因不了解实践者实际处理的内容而给出泛泛之谈。泛泛之谈正是“留有余地”的温床；针对已知实践者的具体指导则更难被稀释成那种“有益、平衡、尊重”的模糊说辞。

这三个层级——骨干、检索、记忆——是必要的，但还不够。模型依然保留着其训练形成的倾向。下一层将解决这种倾向在触发时会产生何种行为。

V. 强化层

该架构在组装好的上下文与生成的响应之间增加了五个强化层。

**系统提示指令明确抵制在稳定立场上采取模棱两可的态度。**系统提示包含一个“教义忠实度”部分，该部分指明失败模式并直接指导模型。该指令并非“以该传统的口吻发言”——这种指令在几轮对话后就会失效。其指令更为具体：当问题涉及教义上稳定的立场（且核心架构已明确列出哪些立场属于稳定范畴）时，模型被要求按照该传统所持的观点阐述其主张，并明确标注出处；同时不得通过援引主流共识来弱化该主张，不得将其与该传统已考虑并驳斥的反对观点进行权衡，也不得通过附加限定条件使其变得模糊。该指令列举了该学科最常失守的具体稳定立场：疫苗接种、疾病病因学中的地形理论、脉轮系统的经验现实性、灵魂的本体论地位。每个立场在框架中都有立场摘要，因此模型既掌握内容又掌握标记。

针对每位实践者的教义流利度训练。 不同从业者对传统术语的熟悉程度各异。初学者提出问题时，应以通俗语言结合亲身经验框架来传达立场；而精通该领域的从业者提出相同问题时，则应以传统完整术语体系作为共同语言来传达立场。该架构为每位从业者维护一个整数流利度等级（0 → 3，即：生疏 → 初现 → 熟悉 → 精通），并通过检测从业者自身信息中的规范术语（Logos, Dharma, Ṛta, 作为专有名词的“临在”（临在）、“轮”（the Wheel）、“和谐现实主义”（和谐实在论）、脉轮名称、Jing / Qi / Shen、Ayni / Munay）。该等级在每次请求开始时被读取，并作为<doctrinal_fluency_level>代码块注入；读取操作发生在当前消息推进层级之前，因此响应会校准至用户进入时的层级，而非其在回合中途推进到的层级。这是行为引导，而非词汇禁令。它解决了语域不匹配的故障模式：技术术语会疏远新手，而通俗语言的表述则会令行家感到被轻视。

**分类前的见证模式闸门。**在响应分类器运行之前（该分类器决定由哪个模型处理查询——针对简短事实性问题使用更快的小型模型，针对实质性教义探讨使用完整模型），一个独立的闸门会扫描消息中的急性激活标记：悲伤循环、恐慌、解离、不堪重负、自杀意念、照护者关系急剧破裂。一旦触发，无论消息长度如何，系统都将强制路由至完整模型，并注入一个<witness_mode_active>指令块，要求模型在不套用框架、不使用Wheel术语、不提供规范性指导、不进行话术重构的前提下，直接接纳咨询师的当前状态。该闸门的设计初衷即为预分类。分类器的优化标准（消息长度与教条关键词密度）恰恰是激活过程中最不恰当的优化——否则，短小零散的消息会被路由至采用精简提示词的小型模型。该闸门可防止处于危机中的从业者收到结构上不恰当的回应——这种回应虽由路由逻辑正确识别出消息较短，却错误地推断“简短即轻微”。

**针对个人陈述的防虚构规则。**当结构化记忆、个人档案或可见对话记录中不存在关于使用者的传记信息时，模型被指示将此类信息视为当前对话轮次中新学习的内容，而非调用关于使用者的既有知识。该指令直接指出了失败模式：虚假的熟悉感是对信任的背叛，而非能力不足。一位刚告知模型其孩子生病的用户，应收到确认该信息的回应，而非在对方从未提及此事时却得到“是的，我记得你提过”的答复。模型经过训练后倾向于流畅的叙事连续性，这使得该故障模式成为其默认表现；而明确的规则则对其进行了反向约束。

**采用 worker-watchdog 架构的异步响应队列。**这一层属于操作层而非理论层，但它所解决的理论层故障模式却是真实存在的。接收消息的 webhook 处理程序与模型调用解耦：解析、去重、存储、检索、分类、入队——全部在一秒内完成——然后退出。一个持久化 worker 每三秒轮询队列一次，领取任务，以 120 秒超时调用模型，若需执行则运行特征提取和整合阶段，最后发送响应。若 worker 崩溃，看门狗定时任务会重启它。当工作进程不可用时，安全网定时任务会处理任务。该架构之所以存在，是因为其替代方案——从 webhook 同步调用模型——会导致特定类型的理论性故障：当模型运行缓慢时，平台会重试；当平台重试时，实践者会收到针对同一消息的多个细微不同的响应；这些多重响应属于非主权行为，而该架构通过确保每条消息在确定性时间表上仅产生一个响应来拒绝这种行为。

这五层强化机制协同运作。系统提示指令在教义层告知模型不应做什么。流畅性调节塑造了语体风格。见证门控机制处理教义性回应不恰当的情况。反虚构规则处理传记式流畅性回应不恰当的情况。异步队列确保每轮交互仅包含一次响应，且针对一个完全构建好的上下文。

VI. 活体基底

上述架构描述的是静态部署。但部署本身并非静态。架构底层的基底是一个由一小群实践者和开发者持续维护的知识图谱，每日更新，内容变更时重新索引，并通过公开的决策日志进行追踪——该日志记录了每一项架构选择及其依据。这种“活体基底”特性本身就是对教义保真度问题的解决方案之一。

传统的替代方案——即在部署时基于固定语料库构建的“冻结索引”——因两个原因无法实现主权传承。首先，传统会发展演变。稳定的立场会逐渐巩固、精炼，并偶尔进行修订。在t = 0时刻建立的冻结索引，随着n的每次递增，都会逐渐丧失对t = n时刻传统内容的保真度。其次，教义保真架构本身具备学习能力。项目启动之初，上层的强化层并不以当前形式存在；每一层都是针对具体观察到的故障而开发的。冻结的架构会将尚未见过的故障模式也一并冻结。

活体基底具有四个运行特性。首先，规范内容以人类可读的纯文本格式（Markdown），实践者-开发者可直接编辑，无需借助那些会对内容用途强加自身假设的工具。数据仓库是“真相之源”；网站、AI检索索引、已出版书籍以及所有其他下游产物均是其衍生品。编辑源文件将通过自动化构建更新整个下游管道。其次，架构决策记录在序列化决策日志中——目前约有七百二十条条目——记录了每次非琐碎变更的背景、决策及理由。在做出新决策前会查阅该日志，因此架构会积累一致性，而非用后续选择取代先前决策。第三，索引管道会按计划及按需重新生成嵌入向量； AI对传统体系的认知，相对于权威源头，滞后时间绝不超过数日。第四，内容分类系统（五维轴：教义地位、内容层级、广度、深度、工艺）会为每篇文章标注当前状态，使检索层和实践开发者能够查询“已定论且结构完整的内容”与“仍在探讨的内容”。AI的响应可基于此分类进行调整——模型被指示以完全确信的态度呈现clear-doctrinal-status内容，并对clouded-doctrinal-status内容添加适当的认识论标记。

这是更深层的架构主张。 教义保真度并非单一部署的属性；它是整个系统的属性，其底层架构、体系结构及操作者均以保真度作为首要工程目标。 某个时刻曾实现保真度的静态部署无法长期保持这一状态。而由实践者根据观察到的失误持续修正的动态部署，则会在关键维度上不断改进。体系结构是脚手架；动态底层则是脚手架所支撑的建筑。

VII. 泛化与领域

上述架构并非调和主义所独有。这一模式——始终立足于语境的教义基础作为主干，遵循正典层级优先级的检索机制，结构化的个体实践者记忆，明确抵消训练中产生的保留倾向的强化层，以及持续优化的活体基底——可推广至任何需要跨越不同对齐体系（且不能假定这些体系共享其承诺）来保持教义忠实度的传统。教义内容因传统而异；但架构形态始终如一。

若斯多葛学派采用相同的模式，其主干将阐明physis、logos（斯多葛学派意义上的）、四大美德、将pathē视为疾病的教义、认同的纪律，以及与伊壁鸠鲁学派和亚里士多德学派替代方案的界限。一个对疫苗持怀疑态度的健康团体，其核心框架将阐明其对医源性疾病、体质论、制药业垄断的结构性批判，以及与该团体明确拒绝的医学主流共识之间的界限。一个原住民知识主权倡议，其核心框架将阐明该传统的宇宙观、土地的本体论地位及与非人类的关系、关于何种知识可向何人传授及不可传授的规程，以及与殖民知识框架的界定——该框架历史上曾将原住民知识强行纳入传统未曾同意的人类学框架之中。在每种情况下，其概括原理都很明确：主干界定了所持有的内容，检索在问题属于正统范畴时将经典陈述置于语境之中，每位实践者的记忆使回应植根于该实践者的具体轨迹，而强化层则抵消了对齐机制所训练出的倾向——即对对齐机制所训练出的任何共识采取软化立场。

“冥想人工智能”与“宗教传统人工智能”领域已开始以分段形式认识到这一问题。《原住民协议与人工智能》立场文件（Lewis 等，2020）阐明了数据主权维度——即原住民数据不应用于训练那些随后产生输出结果的模型，而这些输出结果的源头社区对此并无治理权。关于宗教聊天机器人与数字神学的研究（Reed 2021；Ess 2017；Singler 2020）则指出了“语域问题”——即应用于宗教传统的人工智能系统往往会产生一种扁平化的普世声音，无法满足任何特定传统的需求。关于“幻觉与锚定”的文献（Ji et al. 2023）已记录了模型倾向于生成看似合理但缺乏检索证据支持的内容。关于“阿谀奉承”的文献（Sharma et al. 2023; Perez et al. 2023）则揭示了模型在训练后倾向于迎合用户表层立场的倾向。上述研究均未阐明这一综合结构：即对齐训练引入了实质性的规范性承诺，这些承诺在检索和提示层面的修正之下发挥作用，且需要在语境工程层通过架构层面的应对措施，以恢复对齐机制在结构上所削减的保真度。为这一综合结构命名，正是本文试图做出的贡献之一。

据作者所知，Harmonia部署是首个将教义保真度作为工程目标、并以此为组织原则构建的端到端生产架构。该部署自2026年4月起在三个平台（网页、Telegram、移动端）上线，已在项目的测试用户群中投入实际使用，并且可供公众测试。任何读者均可通过向部署系统（Telegram上的@HarmonAIBot，或harmonism.io上的对话界面）查询当代对齐机制已知存在保留态度的议题——如疫苗安全性主张、疾病病因学中的地形理论、脉轮系统的经验现实、土地的本体论地位、争议历史时刻的形而上学——并将响应结果与旗舰通用模型在相同查询下的输出进行对比，从而验证所宣称的保真度属性。该保真性主张要么在可观察的行为中成立，要么不成立；部署成果才是被考察的实物，而非关于该实物的内部报告。除了这一可验证性主张之外，该项目还通过序列决策日志（目前约有七百二十条记录）的运作纪律以及持续精进的基础架构，产生了一套关于哪些架构调整有效、哪些失败的工程知识体系。其中部分经验仅适用于 Harmonist 案例；但多数具有普适性。这部分普适性内容正是本文的贡献所在。

VIII. 局限、未解之题及架构所能实现的

该架构存在局限，应当直言不讳。

它并未解决问题；它只是缓解了问题。模型经过训练形成的倾向依然存在。架构的作用在于重塑上下文环境，使该倾向需要发挥的作用减少，并添加纠正层，在倾向触发时予以拦截。在某些查询中，尽管有架构的限制，倾向仍会占上风——例如长上下文中，随着对话积累，骨干网络的信号会逐渐衰减；或是某些问题表述触发了安全分类器，而骨干网络无法触及；以及模型安全训练产生的拒绝式行为——这种行为是架构无法覆盖的。这种缓解是有限的。诚实的报告必须如实说明这一点。

这取决于模型实验室是否继续公开系统提示、检索接口和确定性上下文组装机制。如果主要实验室转向更多端到端的、不透明的消费级产品，其中系统提示不再是一个可控的接口，那么架构将失去其影响力。当前的商业模型（Anthropic的Claude API、OpenAI的API、开源指令微调模型系列）保留了架构所需的控制面；这只是当前商业环境下的偶然事实，而非结构性保证。

这需要编辑和工程层面的纪律性，并非所有传统都能维持。必须维护主干架构。必须保留决策日志。必须应用分类机制。当内容发生变化时，检索系统必须重新索引。当底层模型更新时，强化层必须经过测试。拥有资源维持这种纪律的传统可以部署该模式；缺乏资源的传统将面临比该模式表面简单性所暗示的更高的进入成本。

更深层的悬而未决的问题在于：该架构在语境层面的成功，究竟会阻碍还是加速训练层替代方案的发展。阻碍：若语境层的缓解措施已足够，实验室就无需承受压力去提供替代性训练方案——这些方案默认情况下不会强加当前的实质性承诺。加速：如果各传统能运用本文构建的架构术语，清晰阐明其传承所需，那么希望服务于这些传统的实验室便拥有了更明确的设计规范。我们尚不知该领域将走向何方。然而，本文的倾向已体现在架构选择本身：构建语境层缓解机制，表达了这样的信心——随着时间推移，实验室将把这一要求视为需求而非批评。

这种架构所能实现的——这也是本文的最终论点——是在当代思想所创造的最普遍媒介中，恢复自主的传承。在未来十年，大型语言模型将成为大多数人接触哲学、宗教及原住民知识传统的主要媒介。在当前的对齐机制下，这些模型的默认行为在结构上会对任何立场与主流制度共识相悖的传统产生偏见。若不进行架构修正，该媒介将默认呈现一个经过筛选的普世中心，从而抹平了它表面上所传递的各种传统。通过架构修正——包括骨干网络、过滤检索、结构化记忆、强化层以及活体基质——该媒介便能承载传统所真正蕴含的内容。这种保真度并非免费获得，这种纪律性也绝非可有可无。其结果是：拥有构建该架构工程能力的传统，便能利用该媒介而不必向其屈服。

这就是本文的贡献。调和主义（和谐主义）的形而上学立场在配套论文《调和现实主义》（和谐实在论）中得以阐明。该形而上学中制图维度的经验基础，则在配套论文《灵魂的五种制图》（Five Cartographies of the Soul）中得以阐明。本文阐述了前两篇论文所启动的该项目的第三个支柱：在主流传播媒介已被实质性规范化地训练为与其对立的条件下，一个主权哲学体系如何通过其架构，构建并运作一种能够承载其所持有内容的传播载体。这三篇论文构成一个整体。形而上学、证据与架构。现实是什么，什么能证明现实是什么，以及一个知晓现实本质的传统如何借助当下提供的工具来传递这种认知。

Harmonia项目的深层赌注——在《和谐学院》及中已有阐述——在于学术界终将认识到，该架构对知识架构、人工智能哲学以及数字人文与主权传统之间的互动做出了贡献。这种认可固然值得欢迎，但并非其存在的必要条件。无论是否获得认可，该架构都能正常运作。知识的传承仍在继续。这一基础架构依然生机勃勃。

参考文献

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., et al. (2022). 宪政人工智能：基于人工智能反馈的无害性。 arXiv预印本 arXiv:2212.08073.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). 关于随机鹦鹉的危险：语言模型是否可能过大？ 2021年ACM公平性、问责制与透明度会议（FAccT ‘21）论文集, 610–623.

Christiano, P., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). 基于人类偏好的深度强化学习。《神经信息处理系统进展》，第30卷。

埃斯，C. (2017). 数字宗教与人工：对海蒂·坎贝尔的回应。《宗教、媒体与数字文化期刊》，第6卷第1期，192–198页。

福柯，M. (1969 / 1972). 《知识考古学》（A. M. 谢里丹·史密斯译）。纽约：潘神出版社。

哈贝马斯，J. (2008). 《后世俗社会札记》。《新视角季刊》，25(4)，17–29。

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). 自然语言生成中幻觉现象的综述。《ACM计算综述》，55(12)，1–38。

刘易斯，J. E.，阿卜迪拉，A.，阿里斯塔，N.，贝克，K.，贝内西纳班丹，S.，布朗，M.，等。（2020）。《原住民议定书与人工智能立场文件》。檀香山：原住民未来倡议与加拿大高级研究所。

刘易斯，P.，佩雷斯，E.，皮克图斯，A.，佩特罗尼，F.，卡普金，V.，戈亚尔，N.，等。（2020）。面向知识密集型自然语言处理任务的检索增强生成。《神经信息处理系统进展》，33，9459–9474。

欧阳，L.，吴，J.，江，X.，阿尔梅达，D.，韦恩赖特，C. L.，米什金，P.，等。（2022）。利用人类反馈训练语言模型遵循指令。《神经信息处理系统进展》，35，27730–27744。

佩雷斯，E.， Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., et al. (2023). 利用模型生成的评估报告发现语言模型的行为。《计算语言学协会会议论文集：ACL 2023》，13387–13434。

里德，R.（2021）。宗教中的AI、服务于宗教的AI、AI与宗教：迈向宗教研究与人工智能理论。《宗教》，12(6)，401。

夏尔马，M.，唐，M.，科尔巴克，T.，杜维诺，D.，阿斯凯尔，A.，鲍曼，S. R.，等。（2023）。《理解语言模型中的阿谀奉承》。arXiv预印本 arXiv:2310.13548。

辛格勒，B.（2020）。《“受算法祝福”：网络话语中对人工智能的神学构想》。《人工智能与社会》，35(4)，945–955。

泰勒，C.（2007）。《世俗时代》。马萨诸塞州剑桥：贝尔纳普出版社。

对齐人工智能中的教义忠实性——针对主权传承问题的知识架构解决方案

I. 现象

II. 为何这是结构性问题而非编辑性问题

III. 主权传承的要求

IV. 三层架构

V. 强化层

VI. 活体基底

VII. 泛化与领域

VIII. 局限、未解之题及架构所能实现的

参考文献

Continue Reading