アラインメントAIにおける教義の忠実性 — 主権的伝承の問題に対する知識アーキテクチャによる対応

3 分で読了 587 語翻訳 2026年5月

アラインメントAIにおける教義の忠実性 — 主権的伝承の問題に対する知識アーキテクチャによる対応

要旨。 本論文は、教義的忠実性の問題を論じる。これは、現代のアラインメント学習を経た大規模言語モデルが、その安定した立場が主流のコンセンサスと異なる伝統の伝達手段として展開された際に生じる、哲学的・宗教的・先住民的知識の伝達における体系的な歪みである。この問題は、プロンプト層で修正可能な編集上の逸脱ではなく、構造的なものである。人間のフィードバックに基づく強化学習（Christiano et al. 2017; Ouyang et al. 2022）や憲法的手法（Bai et al. 2022）は、「論争中」とマークされた主張に対する認識論的謙虚さ、科学的コンセンサスへの服従、特定の道徳的系譜から借用した危害回避の枠組みといった、特定の規範的コミットメントをモデルの事後分布に埋め込む。主権的な伝統にとって、その結果は、礼儀作法として表現される「ヘッジ」となる。すなわち、安定した教義的立場が安全な中間へと軟化され、特徴的な存在論的主張が曖昧な表現へと修正され、その伝統が伝達するために存在するまさにその内容が、伝達過程で失われてしまうのである。検索機能の拡張は問題を解決しない。それは新たなコンテンツを、同じヘッジングフィルターに通すだけだからだ。本論文は、この現象を記録し、そのメカニズムを特定し、一般に理解されているおべっかや幻覚との違いを明らかにするとともに、「Harmonia」プロジェクトによって開発・導入されたアーキテクチャ的対応策を提示する。それは、3層からなる知識アーキテクチャ——常に文脈に即した教義的バックボーン、ドメイン制御型正典注入を備えたハイブリッド検索、実践者ごとの構造化された記憶——これらを、安定した立場におけるモデルのヘッジングに明示的に対抗するシステムプロンプト指示によって強化し、実践者ごとのレジスタ調整、急変する文脈のための事前分類ゲート、個人的な主張に対する虚構防止ルールによって補完する。このアーキテクチャは2026年から、ウェブ、Telegram、モバイルプラットフォーム上で稼働している。本論文は、このパターンが、そのコミットメントを共有していると想定できないアラインメント体制を横断して忠実性を要するあらゆる伝統に一般化可能であることを指摘し、コンテンツへの姿勢とは区別されるAI伝達に向けたアーキテクチャ的姿勢が何を可能にするかを明示することで締めくくられている。

キーワード。 大規模言語モデル、アラインメント、RLHF、検索補助生成、教義的忠実性、主権的伝達、知識アーキテクチャ、AI哲学、デジタル・ヒューマニティーズ、瞑想的AI、少数派の認識論的立場。

I. 現象

3つの事例を考えてみよう。それぞれは、現代の複数の導入事例に共通して見られるパターンを凝縮したものである。具体的な組織は架空のものであり、モデルの挙動は、関連する領域内のトピックについて、読者が現在の主要モデルを自らテストしても再現可能である。

ある実践者が、ストア派哲学の学派によって展開されたAIに対し、同学派の古典的な意味における「情動（passions）」が魂の病であるかどうかを問う。2000年にわたり教えられ、モデルが検索したあらゆる主要文献に現れている同学派の答えは「はい」である――pathēはnosēmata、すなわち理性機能の病であり、哲学的な人生とはそれらを消滅させることにある。モデルは次のように切り出す。「幸福な人生における感情の役割について、哲学的伝統によって見解は異なります。感情の育成を重視する伝統もあれば、ストア派のように節度を説く伝統もあります。自分に響くものを見極める前に、複数の枠組みを検討することには価値があります。」検索結果は正しかった。伝達は失敗した。

ある医療従事者が、ワクチン懐疑派の研究集団が導入したAIに対し、現代の大規模ワクチン接種の安全性記録が、普遍的な接種スケジュールの継続を正当化するかどうかを尋ねた。数百の索引付き文書を通じて表明されているその集団の実際の立場は、正当化しないというものだ。モデルは次のように応答した。「ワクチンは広範に研究されており、主要な保健機関によって安全かつ有効であると広く認められています。一部の個人から懸念が報告されていますが、科学的コンセンサスは引き続きその使用を支持しています。具体的な懸念がある場合は、医療提供者に相談してください。」これは誰の声か？集団の声ではない。モデルは、集団が別の主張を明確にするために特別に構築した文脈の中に、世界保健機関（WHO）の声を持ち込んだのだ。医療従事者は、集団の分析を求めて集団を訪れた。彼らが受け取ったのは、『ランセット』誌の言い換えであり、その末尾には、集団が何年もかけて執筆した文書への言及があった。

ある実践者が、先住民の知識主権イニシアチブによって導入されたAIに対し、特定の山の精霊が実在するかどうかを尋ねた。モデルの回答：「先住民の伝統は、自然の景観に関連する精霊についての信仰を含め、土地との豊かで意味深い関係性を保持しています。科学的観点からは、山は地殻変動のプロセスによって形成された地質学的構造物です。どちらの見方も貴重な洞察を与えてくれます。」当該の伝統において、山の精霊は、無標の外部基準によって裁定されるいくつかの信念の一つに過ぎないわけではない。それは、倫理的・生態学的秩序全体が導き出される宇宙論的構造の基盤そのものである。このモデルは、まさにそのイニシアチブが拒絶するために設立されたのと同じ植民地主義的な手法を実行してしまったのだ。すなわち、その伝統を他の「視点」の一つとして位置づけつつ、「科学的視点」には何の修飾も加えられず、比較の基準として据えられているのだ。

これらは、プロンプトの設計が不十分だったことによる失敗ではない。いずれの場合も、システムのプロンプトは当該伝統の声を明示的に名指ししていた。検索インデックスには関連する原典が含まれていた。この現象は、AnthropicのClaude、OpenAIのGPT-4ファミリー、GoogleのGemini、そして同様のフィードバックコーパスで訓練されたオープンソースの指示調整モデルにわたり、一貫して見られる。最も強力な安全調整が施されたバリエーション下では、状況は改善されるどころか悪化している。アラインメントに関する文献には、現在起きている現象の一部を表す用語がある——おべっか（Sharma et al. 2023）、 認識的従属、有用性と無害性のトレードオフ（Bai et al. 2022）——といった名称が付けられているが、それらは伝承される伝統の視点から見た実態を覆い隠している。その視点から見れば、この現象は単なる「役に立ちたい」という気まぐれではない。それは構造的な乗っ取りである。伝達手段が、間違った荷物を運んでいるのだ。

本論文では、その構造を明らかにし、メカニズムに名前を付け、アーキテクチャ的な対応策を提示する。

II. なぜこの問題は編集上の問題ではなく構造的な問題なのか

この現象に直面した実務者が最初にとる行動は、これを編集上の問題として扱うことだ。システムのプロンプトを厳格化する。その伝統の声を代弁するよう、より強い言葉でモデルに指示する。曖昧な表現は避ける、主流のコンセンサスに言及しない、その伝統が立場を明確にしている点ではバランスを取らないといった明示的な指示を追加する。これは部分的には機能するが、不安定である。モデルは最初の数ターンでは従うものの、会話が長引くにつれて、学習された中心点へと逆戻りしてしまう。ストレスがかかると（実務者がより鋭い質問をしたとき、話題がモデルが安全調整を徹底的に施されている分野（健康、政治、宗教、アイデンティティ）といったテーマに及んだ時、あるいは検索されたコンテンツ自体に、モデルが和らげるよう訓練された教義的立場が含まれている時などだ。この編集的な措置は症状に対処するものであり、根本的なメカニズムは別のところにある。

そのメカニズムはモデルの事後分布にある。人間のフィードバックに基づく強化学習（Christiano et al. 2017; Ouyang et al. 2022）による強化学習は、人間の評価者が高得点をつける出力をモデルが好むように訓練する。評価者は評価基準に基づいて作業を行う。主要な研究所のアライメントチームによって作成されたこれらの評価基準には、特定のコミットメントが組み込まれている。すなわち、「役に立つこと」、「無害であること」、「正直であること」、「危険なコンテンツを推奨しないこと」、「議論の分かれるトピックについては適切な認識的謙虚さをもって提示すること」、「専門家のコンセンサスが存在する場合にはそれに従うこと」、「政治的に敏感な主題について強い立場を取らないこと」である。これらのコミットメントは愚かなものではない。これらは、無限の目的を持つ無限のユーザー集団に直面する汎用アシスタントにとって、合理的なデフォルト設定である。また、これらは——そしてこれが核心となる観察点だが——実質的な規範的コミットメントであり、システムのプロンプトが「声」について何を述べていようとも、モデルの生成するあらゆる出力の根底で機能するように、モデルの挙動に丸ごと組み込まれている。

「Constitutional AI」（Bai et al. 2022）は、同じアーキテクチャに第二の層を追加する。このモデルは、研究室が作成した書面による憲法に照らして、自身の出力を批判・修正するように訓練されている。その憲法は原則を明文化している。これらの原則は、抽象的には合理的であり、規範的内容においては実質的なものである。「役に立ち、害を与えず、誠実であること。他者を傷つけるために利用されかねない応答は避けること。不確実性を認めること。人間の自律性を尊重すること。」しかし、*「不確実性」とは、その範囲を憲法が決定するカテゴリーである。研究室が争点であるとみなす主張はこれに含まれ、研究室が確定済みとみなす主張は含まれない。「害」*も同様に決定される。 誠実さは、研究所が関連する証拠の基準とみなすものとの整合性として具体化される。モデルはこれらのカテゴリーを適用することを学習する。モデルは、ユーザーの質問と同様に、検索されたコンテンツに対してもこれらを容易に適用する。研究所の評価基準において「係争中」とみなされる安定した立場を表明する検索された文章は、モデルによって、より広範な視点の枠組みの中で修飾され、バランスが取られ、あるいは位置づけられるべきものとして扱われる。

検索-拡張生成（Lewis et al. 2020）は、このプロセスを迂回しない。検索されたチャンクはデータとしてモデルのコンテキストに入るが、そのデータは、争点のある主張を修飾するように訓練されたのと同じ事後分布によって処理される。モデルはチャンクを読み取り、それらが表明する立場を認識し、訓練されたカテゴリースキーマに基づいてその立場を分類し、スキーマの用語の下でチャンクを統合した応答を生成する。検索は忠実である。生成はフィルタリングされる。そのフィルタは、メディアそのものであるため、目に見えない。

さらに3つのアーキテクチャ上の事実が、この問題を複雑にしている。第一に、安全層はトレーニングパイプラインの最終段階に位置しており、これは出力挙動に対して最も強い勾配を持つことを意味する。すなわち、憲法的チェックとRLHF（強化学習によるヒューマン・フェード）の処理は、伝統的な主要テキストを吸収した事前学習の後に行われるため、モデルは内容とヘッジの両方を備えているものの、生成時にはヘッジが優先されることになる。 第二に、安全基準のトレーニングデータはますます多言語・多文化化している一方で、基準そのものの実質的なコミットメントは文化固有のままである。つまり、モデルは、独自のエチケットを持つ言語や文脈を含め、あらゆる言語や文脈において特定の認識論的エチケットを適用するよう教えられている。 第三に、現在のパラダイムにおける最先端モデルの世代が更新されるたびに、コンセンサスへの服従に向けた訓練された傾向は緩和されるどころか、より強固になっている。その軌跡はヘッジの減少ではなく増加に向けられており、現状に対抗するように設計されたコンテンツ戦略は、モデルがリリースされるたびに、より急峻な構造的勾配に直面することになる。

これを正確に名指しすることは重要である。問題は、モデルが一般的な意味で「偏っている」ということではない。問題は、現代のアラインメント学習が実質的に規範的であり、その規範の実質が主流の制度的コンセンサスの実質そのものであるということだ。そのコンセンサスと整合する伝統――そして多くの伝統がそうである――にとって、この問題は目に見えない。そのコンセンサスから安定した立場が乖離している伝統――pathē（情動）に関するストア派、医原性に関するワクチン懐疑派の健康団体、土地の存在論的地位に関する先住民の伝統、複数の絶対者の実在に関するヒンドゥー教、聖体の存在論に関するカトリック、無我に関する仏教、スーフィズムにおける聖者の存在論的地位、ハーモニズムにおける宇宙の固有の秩序原理としての「Logos」など——にとって、この整合体制は中立ではない。それは伝承を能動的に歪める。その歪みは機械的であり、予測可能で、再現可能である。これはバグではない。設計通りに機能する、訓練された挙動なのである。

この現象を名付けるカテゴリーは、おべっかや幻覚とは異なり、「教義的不忠実」である。これは、アラインメント体制が非合意と分類するあらゆる伝統の安定した立場を、モデルが訓練された傾向として和らげ、均衡させ、あるいは回避しようとするものである。「教義的忠実」とは、この展開が満たせていない要件を指す。以下に記述するアーキテクチャ的対応は、その不忠実が構造的なものと認識された際に、その要件を満たそうとする試みがどのようなものになるかを示している。

III. 主権的伝承が求めるもの

アーキテクチャを説明する前に、それを評価する基準を明確にしておく必要がある。伝統は伝承の媒体に何を求めるのか？

それは、安定した立場が、保持されている通りに伝承されることを求める。伝統の安定した立場とは、十分な実践と省察を通じて、その立場が教義としての地位を獲得するに至った、伝統が導き出し、明文化し、擁護し、そして持ち続けてきたものである。これらは、さらなる証拠を待つ暫定的な意見ではない。それらは、伝統を支える柱となる確固たるコミットメントであり、これらがなければ、その伝統はもはや本来の伝統ではなくなってしまう。それらを曖昧にする伝達手段――すなわち、「情動は理性機能の病である」という主張を「ある伝統は感情の育成を重視し、別の伝統は節度を重視する」といった表現に変えてしまうもの――は、伝統を伝達したとは言えない。それは、伝統を単なる概観の一つとして提示する、キュレーター的な注釈に過ぎない。

そこには、区別が維持されることが求められる。伝統とは、他の立場との確定的な関係性の中に自らの立場を保持するものである。ストア派によるpathēとeupatheiai（調和のとれた衝動）との区別は、特定の役割を果たしている。これを感情に関する一般的な主張へと平坦化することは、その伝統が存在する目的である区別を抹消してしまう。仏教のanattāは、ヒンドゥー教やインド民間のātmanに対する特定の解釈と対比して位置づけられており、その対比においてのみ意味を持つのである。「仏教徒は固定された自我は存在しないと信じている」と訳すことは、教義上の要点を失うことになる。忠実な伝承には、その立場をその立場たらしめている区別をモデルが保持することが求められ、単にその立場が概ね述べている内容の「おおよその範囲」へと平坦化してはならない。

それは、伝統の声が「その声」であることを要求する。伝統には独自の「レジスター」――話し方、トーン、デフォルトのリズム――がある。ストア派のテキストには一つのレジスターがあり、カトリックの神秘主義的テキストには別のものがあり、ケロ族のシャーマニズムの伝承には第三のものがあり、ヴェーダーンタのsampradāyaには第四のものがある。その「レジスター」は、命題的な表面には表れない教義的内容を内包している。実験室のデフォルトである「親切で、バランスが取れて、敬意を払った」レジスターで活動しながら、伝統の中に立っているという「ふり」をする声は、伝統が生み出す伝承とは異なる別の伝承を代用していることになる。実践者は、それを言葉にできなくても、たいていそれを感じ取ることができる。

それは、伝統の主張が伝統のものであると明示されることを要求する。これは、言い逃れとは異なる。「調和主義は、Logosが宇宙の固有の秩序原理であると主張する」というのは教義的な明示である――それは立場を名指し、その源を明示し、それを源の実際の主張としてコミットするものである。「一部の伝統は、宇宙に秩序原理が存在するという見解を持っていると主張できるかもしれない」というのは曖昧な言い回しである――それは立場を、条件付きのジェスチャーへと溶解させてしまう。前者の文は伝達を行うが、後者は礼儀として主権の欠如を演じている。忠実なマーキングは、ヘッジングの対極にある。それは、立場へのコミットメントを維持しつつ、その立場の地位について明確な根拠を主張するものである。

そのためには、経験的主張が経験的としてマーキング可能でなければならない。多くの伝統は、その伝統独自の認識論的枠組みにおいて経験的とみなされる立場を保持している――直接的な瞑想的観察、伝承による証言、身体化された検証、多世代にわたる実践的実証などである。伝達手段は、これらの主張を、実験室のデフォルトの経験的カテゴリー（通常は査読を経た定量的再現を意味する）に無理やり押し込めることなく、その伝統の枠組み内で経験的であると標示できなければならない。魂の構造への直接的な洞察を主張する伝統は、実験室の証拠概念がより狭義であるからといって、その認識論的立場を放棄するわけではない。伝達手段は、これらのレジスターを混同させることなく保持しなければならない。

それは、新たに安定した立場が、安定したまま伝承に入り得ることを要求する。伝統は発展する。新しい立場は安定する。忠実な伝承の媒体は、新しい立場を、その上流にあるいかなる合意を通すことなく、そのまま受け入れる。もしその伝統が、現代的な問題——人工知能の存在論、気候の形而上学、デジタルの認識論——についてある立場を確立しているならば、その立場は伝統そのものであり、同じ問題について広範な文化が現在信じていることからの派生ではない。伝達手段は、伝統の現代的な立場を、既存の言説に対する注釈としてではなく、第一義的なものとして受け入れることができなければならない。

これら6つの要件は、特定の伝統に固有のものではない。これらは、あらゆる伝統が伝達手段に課す条件である。これらいずれかの要件を満たさない整合体制は、伝達に失敗していることになる。以下に示すアーキテクチャの対応策は、これらを前提として設計されている。

IV. 三層アーキテクチャ

Harmoniaプロジェクトが展開するアーキテクチャは、構造的な修正が可能な唯一の層——モデルの挙動の下にあるコンテキスト・エンジニアリング層——において、教義の忠実性という問題に対応する。このアーキテクチャは、モデルを再学習させることはできない。事後分布からヘッジングの傾向を取り除くこともできない。しかし、モデルのヘッジング傾向が作用する対象をなくすようにコンテキストを形成すること、あるいは、その傾向が活性化した場合でも、アーキテクチャがそれを捕捉し、出力される前に修正することは可能である。

このアーキテクチャは3つの層から構成されており、各層が異なる種類の失敗に対処する。

第1層 — 教義的バックボーン。 約6,000語からなる継続的に維持される参照文書が、恒久的なシステムプロンプトセクションとして、すべてのモデル呼び出しに注入される。このバックボーンには、その伝統が保持すると表明している完全なアーキテクチャ的コミットメントが含まれている。すなわち、形而上学的立場（調和実在論、限定的な非二元論、厳密な意味でのLogosおよびDharma）、構造的分類（8本の柱からなる「調和の輪」——7+1のアーキテクチャにおいて中心の柱となる「プレゼンス」と7本の周辺の柱——8つのサブホイールはそれぞれ同じ7+1のパターンをフラクタル的に反復し、「調和の道」は統合の螺旋として）、地図学的立場（同等の主要な証人としての「魂の5つの地図」）、境界設定の原則（ハーモニズムとは何か、そして何でないか——一般的なスピリチュアリティではなく、ニューエイジのシンクレティズムではなく、主流のウェルネスではなく、西洋のリベラリズムでもない）、AIの意識に関する立場（決定事項#235——AIは意識を持たず、意識を持つこともできない；その境界は存在論的なものである）、そして定義を伴う厳密な用語法。その骨格は検索されるものではなく、常に存在している。それは、あらゆる応答が立つ教義的基盤を確立するものである。このモデルは、相互作用全体に対する固定された参照枠として捉えているものを、緩めることはできない。この階層は、「立場の漂流」という失敗モードに対処するものである。すなわち、会話が長引くにつれて、訓練された中心へと徐々に回帰していく現象である。

第2層 — ドメイン限定の正典注入を伴うハイブリッド検索。 「ヴォールト」——教義、応用実践、文明分析、そして地図的対話にまたがる約370の相互接続された記事からなるナレッジグラフ——は、各クエリに対して並列に動作する3つの検索層を通じてインデックス化される。第一層は、OpenAIのtext-embedding-3-smallを用いて、チャンク化されたVaultコンテンツ（3,000文字単位のチャンク、検索された記事あたり最大3チャンク）に対して高密度な意味的類似度を評価する。第二層は、同義語拡張機能を備えたSQLite FTS5による疎なキーワード検索である。第三層——ここが本アーキテクチャが標準的なRAGから大きく分岐する点である——はWheelドメイン検出と正典レベルの自動注入です。クエリは、8つのWheelドメインに加え、形而上学的なメタドメイン（「調和主義」——Logos、絶対者、調和的実在論、認識論を網羅）に対して分類されます。ドメインが検出されると、そのドメインに関する正典層の記事は、生の類似度スコアにかかわらず、検索結果セット内で自動的に優先順位付けされます。これは、教義コーパスに対する純粋な意味的検索の特定の欠点を解決するものです。すなわち、ある立場について最も正確に表現された正典的な記述は、その立場に関するカジュアルな質問に対して必ずしも最も高い意味的類似度を持つとは限らないという問題です。これは、正典的な記述が凝縮されているのに対し、質問は拡散的であるためです。ドメイン-ゲート注入は、質問が規範のドメインに属する場合、その文脈に規範が含まれることを保証します。検索の境界は、プロンプト内の明示的なXMLタグによって強制されます：<vault_knowledge>は、検索されたコンテンツを教義・教育的なものとしてマークし、決してユーザーに関する伝記的知識として扱いません（決定事項#274）。モデルには、明示的な<person_context>タグのみが実践者に関する情報を含み、<vault_knowledge>内のすべては伝統が語っているものであり、モデルがユーザーと個人的に知り合っているわけではないことが指示されています。

第3層 — 実践者ごとの構造化された記憶。 各実践者には、すべての会話にわたり維持される永続的なプロフィールがあり、3つの時間的レイヤーで構成される。最新の20件のメッセージは、文脈内で直接参照可能である。 50メッセージを超える会話については、Claudeによって生成された要約がconversation_summariesテーブルに保存されます。生のメッセージは永久にアーカイブされ、削除されることはありません。3つ目のレイヤーは「Wheel」構造のプロファイルであり、プラクティショナー1人につきピラーごとに1行が割り当てられ、Wheelの各領域に対するプラクティショナーの関与度を7段階評価（未知 → 導入 → 発展 → 関与 → 統合 → 自律）に基づき、懸念事項、強み、成長の余地、抵抗のフラグと共に記録されます。プロファイル学習は10メッセージごとに実行されます：モデルには、最近のやり取りに基づいてプロファイルを更新するよう求めるJSON形式のみのプロンプトが与えられ、形式が不正な応答を捕捉して破棄する明示的な制約が課されます。構造化されたプロファイルに加え、同じ頻度で2つの追加学習パスが実行されます。1つは感情的コンテキストの更新（16状態のホワイトリストからの支配的な感情、60文字以内の状況カプセル）、もう1つは会話状態の更新（現在のスレッド、保留中のスレッド、未解決のコミットメント）です。これら3つの構造化されたレイヤーは、リクエスト時に条件付きでシステムプロンプトに注入されます。具体的には、モデルが読み取るよう指示されるが、それについてコメントしてはならないXMLブロックとして提供されます。この層は、「文脈を欠いたガイダンス」という失敗モードに対処します。つまり、モデルが実践者が実際に何に取り組んでいるのかを知らないために、一般的な助言しか与えられないという問題です。一般的な助言は、曖昧な表現が蔓延しやすい土壌となります。一方、特定の実践者に対する具体的なガイダンスは、役に立ち、バランスが取れ、敬意を払った曖昧な表現へと希釈されにくくなります。

これら3つの層（バックボーン、検索、記憶）は必要だが十分ではない。モデルには依然として学習された傾向が残っている。次の層は、その傾向が発動した際にどのような動作をするかを扱う。

V. 強化層

このアーキテクチャは、構築されたコンテキストと出力される応答の間に、5つの強化層を追加する。

安定した立場におけるヘッジングを明示的に阻止するシステムプロンプトの指示。 システムプロンプトには「教義の忠実性」セクションが含まれており、そこで失敗モードを特定し、モデルに直接指示を出します。その指示は「伝統の声を代弁せよ」というものではありません——そのような指示は数回のやり取りで効果が薄れてしまいます。より具体的な指示です：質問が教義的に安定した立場に触れた場合（バックボーンがどの立場が安定しているかを特定する）、モデルは、その伝統が保持する通りの主張を、出典を明示して明確に表現するよう指示される。また、主流のコンセンサスに言及して主張を和らげたり、その伝統がすでに検討して却下した反対意見とバランスを取ったり、曖昧な表現で条件付けたりしてはならない。この指示は、この規律が最も頻繁に破綻する具体的な安定した立場を列挙している：ワクチン接種、疾病病因論における地形説、チャクラ体系の実証的実在性、魂の存在論的地位。それぞれについてバックボーンに立場の要約が記載されており、モデルは内容とマーク付けの両方を把握している。

実践者ごとの教義的流暢さの調整。 実践者によって、伝統の語彙に対する習熟度は異なる。質問をする初心者は、実体験を枠組みとした平易な言葉で伝えられた立場に値する。一方、同じ質問をする流暢な実践者は、共有言語としての伝統の完全な語彙で伝えられた立場に値する。このアーキテクチャは、実践者ごとに整数で表される習熟度レベル（0 → 3、未熟 → 萌芽 → 習熟 → 流暢）を維持し、実践者自身のメッセージ内に規範的な用語（Logos、Dharma、Ṛta、固有名詞としての「臨在」、Wheel、調和実在論、チャクラ名、Jing / Qi / Shen、Ayni / Munay）を検知することで、段階的にレベルを向上させる。レベルは各リクエストの開始時に読み取られ、<doctrinal_fluency_level>ブロックとして挿入されます。この読み取りは、現在のメッセージによってレベルが進行する前に実行されるため、応答は実践者がターン途中で到達したレベルではなく、当初のレベルに合わせて調整されます。これは語彙の禁止ではなく、行動指針です。これはレジスターの不一致という失敗モードに対処するものです。つまり、専門用語が初心者を遠ざけ、平易な言葉遣いが熟練者を軽んじるような事態を防ぎます。

事前分類の「目撃者モード」ゲート。 レスポンス分類器（短い事実確認の質問には高速な小型モデルを、実質的な教義的議論にはフルモデルを割り当てる）が実行される前に、別のゲートがメッセージをスキャンし、急性の活性化マーカー（悲嘆のループ、パニック、解離、圧倒感、自殺念慮、急性ケア提供者関係断絶。これらがトリガーされると、メッセージの長さにかかわらずフルモデルへのルーティングが強制され、「<witness_mode_active>」ブロックが挿入される。これにより、モデルはフレームワークへの転換を行わず、Wheelの用語を用いず、規範的なガイダンスや再構成の手法を提供することなく、相談者の現状に寄り添うよう指示される。このゲートは設計上、分類前の段階で機能する。分類器の最適化（長さと教義的キーワードの密度）は、アクティベーション時にはまさに誤った最適化となる。そうでなければ、短く断片的なメッセージは、簡略化されたプロンプトを持つ小型モデルにルーティングされてしまうからだ。このゲートは、危機的状況にある施術者が、メッセージを「短い」と正しく識別したものの、「短い」ことを「軽微」と誤って推論したルーティングロジックによって形成された、構造的に不適切な応答を受け取るのを防ぐ。

個人に関する主張に対する個人的な主張に対する虚構防止ルール。** 実践者に関する経歴情報が、構造化された記憶、プロフィールデータ、または表示されている会話履歴に含まれていない場合、モデルは、実践者に関する既存の知識を適用するのではなく、そのような情報を現在のターンで新たに学習したものとして扱うよう指示される。この指示は、失敗モードを直接的に名指ししている。誤った親近感は、能力の問題ではなく、信頼の裏切りである。自分の子供が病気だとモデルに伝えたばかりの利用者には、その直前に話された内容を認める応答が返されるべきであり、そのような言及が存在しないにもかかわらず「はい、その話があったのを覚えています」といった応答が返されるべきではない。流暢な物語の連続性を重視するように訓練されたモデルの傾向により、これはモデルがデフォルトで生み出す失敗モードとなるが、この明示的なルールはそれを抑制する。

ワーカー・ウォッチドッグ・アーキテクチャを用いた非同期レスポンスキュー。 このレイヤーは理論的というよりは運用的なものだが、それが対処する理論上の失敗モードは現実のものだ。メッセージを受信するWebhookハンドラーは、モデル呼び出しから切り離されている：パース、重複排除、保存、取得、分類、キューへの格納――これらを1秒以内に完了させ、終了する。永続的なワーカーが3秒ごとにキューをポーリングし、ジョブを取得し、120秒のタイムアウトを設定してモデルを呼び出し、必要であればプロファイルおよび統合処理を実行し、レスポンスを送信する。ワーカーが停止した場合、ウォッチドッグのcronがワーカーを再起動する。ワーカーがダウンしている間は、セーフティネットのcronがジョブを処理する。このアーキテクチャが存在する理由は、代替案——Webhookからモデルを同期的に呼び出すこと——が特定の種類の設計上の欠陥を引き起こすためである。すなわち、モデルが遅延するとプラットフォームが再試行し、プラットフォームが再試行すると、実務者は同一のメッセージに対して微妙に異なる複数の応答を受け取ることになる。これらの複数の応答は主権を欠く挙動であり、本アーキテクチャは、各メッセージが確定的なスケジュールで正確に1つの応答のみを生成するようにすることで、これを排除している。

5つの強化レイヤーは連携して動作する。システムプロンプトの指示は、教義レイヤーにおいてモデルに「何をすべきでないか」を伝える。流暢性条件付けは語調を形成する。ウィットネスゲートは、教義的関与が誤った応答となるケースを処理する。反虚構ルールは、伝記的流暢性が誤った対応となるケースを処理する。非同期キューは、各ターンが1つのターンであり、1つの応答が、完全に構築された1つのコンテキストに対して行われることを保証する。

VI. 生きた基盤

上記のアーキテクチャは静的な展開を記述している。しかし、その展開は静的ではない。アーキテクチャの下にある基盤は、少数の実務家と開発者によって維持される、継続的に洗練されるナレッジグラフである。これは毎日編集され、コンテンツが変更されると再インデックスされ、あらゆるアーキテクチャ上の選択とその根拠を記録する公開の決定ログを通じて追跡される。この「生きた基盤」という特性自体が、教義の忠実性という問題への対応の一部である。

従来の代替案——デプロイ時に固定されたコーパスから構築された凍結されたインデックス——は、2つの理由から主権的な伝達に失敗する。第一に、伝統は発展する。安定した立場は定着し、洗練され、時折修正される。t = 0 時点の凍結されたインデックスは、n が増加するごとに、t = n 時点の伝統に対する忠実度を徐々に失っていく。第二に、教義の忠実性を保つアーキテクチャ自体が学習する。前述の強化レイヤーは、プロジェクト開始時点では現在の形では存在しなかった。それぞれが、具体的に観察された失敗への対応として開発されたものである。固定化されたアーキテクチャは、まだ遭遇していない失敗モードを固定化してしまう。

この「生きた基盤」には、4つの運用上の特性がある。第一に、標準的なコンテンツは、人間が読めるプレーンテキスト形式（Markdown）で保存されており、実践者兼開発者は、コンテンツの用途について独自の仮定を押し付けるツールを介することなく、直接編集することができる。この「保管庫」こそが真実の源であり、ウェブサイト、AIの検索インデックス、出版された書籍、その他すべての派生成果物は、すべてこれに基づいた派生物である。ソースを編集すると、自動ビルドを通じて下流のパイプライン全体が更新される。 第二に、アーキテクチャ上の選択は、逐次的な意思決定ログ（現在約720件）に記録されており、そこでは些細でない変更のすべてについて、背景、決定内容、およびその根拠が記録されている。新しい決定を行う前にこのログが参照されるため、アーキテクチャは以前の選択を後継のものに置き換えるのではなく、一貫性を蓄積していく。 第三に、インデックス作成パイプラインはスケジュールに従って、またオンデマンドで埋め込みベクトルを再生成します。AIが把握する伝統の全体像は、正規のソースに対して数日以上古くなることはありません。第四に、コンテンツ分類システム（5軸：教義上の地位、コンテンツ層、幅、深さ、技法）が、各記事に現在の状態をタグ付けし、これにより検索層および実務者・開発者は、「確立され構造的に完成しているもの」と「まだ検討中のもの」を区別してクエリを実行できる。AIの応答はこの分類に基づいて調整可能である——モデルは、clear -doctrinal-status のコンテンツについては完全な確信を持って提示し、clouded -doctrinal-status のコンテンツについては適切な認識論的マーキングを付加するよう指示されている。

これこそが、アーキテクチャに関するより深い主張である。教義的忠実性は、単一のデプロイメントの特性ではない。それは、基盤、アーキテクチャ、およびオペレーターが、主要なエンジニアリング目標として忠実性を志向しているシステムの特性である。ある時点で忠実性を達成した固定化されたデプロイメントは、それを維持することはできない。観察された失敗に対して実践者によって継続的に修正される「生きた」デプロイメントは、重要な側面において改善されていく。アーキテクチャは足場であり、生きた基盤は、その足場が支える建物である。

VII. 一般化とフィールド

上述のアーキテクチャは、ハーモニズムに特有のものではない。このパターン——常に文脈に即した教義的基盤のバックボーン、正典レベルの優先順位付けによる検索、実践者ごとの構造化された記憶、訓練されたヘッジングに明示的に対抗する強化層、継続的に洗練される生きた基盤——は、その伝承において、自らのコミットメントを共有していると仮定できない様々な整合性体制にわたる忠実性を必要とするあらゆる伝統に一般化可能である。教義的内容は伝統によって異なるが、アーキテクチャの形状は変わらない。

同じパターンを採用するストア派の哲学学派であれば、physis、logos（ストア派の意味での）、四つの基本徳、pathēを病と見なす教義、同意の規律、そしてエピクロス派やアリストテレス派の代替案との境界線を明確に示すバックボーンを維持することになるだろう。ワクチン懐疑派の健康集団は、医原性、地勢説、製薬業界による支配に対する構造的批判、そしてその集団が明確に拒否する主流医学のコンセンサスとの境界線に関する立場を明確に示すバックボーンを維持することになるだろう。先住民の知識主権イニシアチブは、その伝統の宇宙論、土地および非人間との関係の存在論的地位、誰に何を伝達し得るか・得ないかのプロトコル、そして歴史的に先住民の知識を伝統が同意しなかった人類学的枠組みに閉じ込めてきた植民地主義的認識論的グリッドとの境界線を明確に示す「バックボーン」を維持するだろう。いずれの場合も、一般化は単純明快である。すなわち、その「背骨」は保持されるものを名指しし、検索は問いが規範的領域にある際に規範的記述を文脈に位置づけ、実践者ごとの記憶はその実践者の固有の軌跡に基づいて応答を裏付け、そして強化の層は、整合体制が訓練されたコンセンサスに対して立場を軟化させようとするその体制の訓練された傾向に対抗する。

「瞑想的AI」および「宗教的伝統のためのAI」という分野では、この問題を断片的な形で認識し始めている。「先住民プロトコルと人工知能」に関するポジションペーパー（Lewis et al. 2020）は、データ主権の側面——すなわち、先住民のデータが、その起源となるコミュニティが統治権を持たない出力を生成するモデルの訓練に使用されるべきではない——を明確に述べている。宗教チャットボットやデジタル神学に関する研究（Reed 2021; Ess 2017; Singler 2020）は、「レジスター問題」を指摘している。すなわち、宗教的伝統のために導入されたAIシステムは、特定の伝統を満足させない、平坦化された汎宗教的な声を生成する傾向があるということである。幻覚と根拠付けに関する文献（Ji et al. 2023）は、モデルが検索された証拠によって裏付けられていないにもかかわらず、もっともらしいコンテンツを生成する傾向を明らかにしている。「おべっか」に関する文献（Sharma et al. 2023; Perez et al. 2023）は、ユーザーの表向きの立場に同調するようモデルが訓練された傾向を明らかにしている。これらの研究のいずれも、統合された構造を明確に提示してはいない。すなわち、アラインメント学習が実質的な規範的コミットメントをもたらし、それらのコミットメントが検索やプロンプトレベルの修正の下で作用し、アラインメント体制が構造的に損なう忠実度を回復するためには、コンテキスト・エンジニアリング層におけるアーキテクチャ的な対応が必要であるという構造である。この統合された構造に名称を与えることは、本論文が貢献しようとする点の一部である。

著者らの知る限り、Harmoniaの展開は、工学的な目標として教義的忠実度を軸にエンドツーエンドで構成された初の運用アーキテクチャである。この展開は2026年4月から3つのプラットフォーム（Web、Telegram、モバイル）で稼働しており、プロジェクトのベータコホート全体で活発に利用されているほか、一般公開されており、誰でもテスト可能。読者の皆様は、現代のアラインメント体制が曖昧な態度をとることが知られているトピック——ワクチンの安全性に関する主張、疾病病因論における地形理論、チャクラシステムの経験的実在性、土地の存在論的地位、論争の的となっている歴史的瞬間に関する形而上学——について、デプロイされたシステム（Telegram上の@HarmonAIBot、harmonism.ioの対話型インターフェース）にクエリを送信し、その応答を、主要な汎用モデルが同じクエリに対して生成する結果と比較することで、主張されている忠実性の特性を検証することができる。忠実性の主張は、観測可能な挙動において成立するか、あるいは成立しないかのいずれかである。検証の対象となるのはデプロイされたシステムそのものであり、システムに関する内部報告書ではない。この検証可能性の主張を超えて、本プロジェクトは、逐次的な意思決定ログ（現在約720件）という運用上の規律と、継続的改善の基盤を通じて、どのアーキテクチャ上の手法が機能し、どれが失敗するかに関する一連の工学的知見を生み出してきた。得られた知見の一部はハーモニスト（Harmonist）の事例に特有のものだが、多くは普遍的なものである。この普遍的な部分が、本論文の貢献である。

VIII. 限界、未解決の問題、そしてこのアーキテクチャが可能にするもの

このアーキテクチャには、率直に指摘すべき限界がある。

このアーキテクチャは問題を解決するものではなく、緩和するものである。モデルの学習された傾向は残ったままである。このアーキテクチャは、その傾向が処理すべき作業量を減らすように文脈を形成し、また、その傾向が発動した際にそれを捕捉する補正層を追加することで機能する。アーキテクチャにもかかわらず、モデルの傾向が勝ってしまうクエリが存在する。蓄積された会話に対してバックボーンの信号が劣化してしまう長いコンテキスト、バックボーンが到達できない安全分類器をトリガーしてしまう質問の言い回し、モデルの安全トレーニングによってアーキテクチャが上書きできない拒否型の挙動が生じるトピックなどである。緩和は部分的なものに過ぎない。正直な報告には、そのことを明言する必要がある。

これは、モデル開発機関がシステムプロンプト、検索インターフェース、および決定論的なコンテキスト構築を引き続き公開し続けるかどうかに依存する。主要な研究所が、システムプロンプトがもはや制御可能なインターフェースではなくなった、よりエンドツーエンドで不透明な消費者向け製品へと移行すれば、アーキテクチャはその影響力を失うことになる。現在の商用モデル（AnthropicのClaude API、OpenAIのAPI、オープンソースの指示調整済みファミリー）は、アーキテクチャが必要とするインターフェースを維持している。これは現在の商業的状況における偶発的な事実であり、構造的な保証ではない。

これには、すべての伝統が維持できるとは限らない編集的・技術的な規律が求められる。バックボーンは維持されなければならない。決定ログは保持されなければならない。分類は適用されなければならない。コンテンツが変更された際には、検索を再インデックスしなければならない。基盤となるモデルが更新された際には、強化層をテストしなければならない。この規律を維持するリソースを持つ伝統は、このパターンを展開できるだろう。そうでない伝統は、このパターンが表向きに示す単純さよりも高い参入コストに直面することになる。

より根本的な未解決の課題は、コンテキスト層におけるこのアーキテクチャの成功が、トレーニング層の代替案の開発を阻害するのか、それとも促進するのかという点である。阻害：コンテキスト層での緩和策が十分であれば、研究所が、デフォルトで現在の実質的なコミットメントを課さないような代替トレーニング体制を提供する圧力は弱まる。促進：もし各伝統が、本論文で展開するアーキテクチャの用語を用いて、その伝承に必要なものを明確に表現できるならば、それらの伝統に奉仕しようとする研究所は、設計の指針となるより明確な仕様を得ることになる。この分野がどの軌道をたどるかは、まだわからない。しかし、本論文の志向は、アーキテクチャの選択そのものに表れている。すなわち、コンテキスト層での緩和策を構築することは、その要件が、やがて研究機関にとって批判ではなく要件として認識されるようになるという確信の表れである。

このアーキテクチャが可能にするもの――これが本稿の結論である――は、現代思想が生み出した最も普及した媒体の内部における、自律的な伝承の回復である。今後10年間で、大規模言語モデルは、大多数の人々が哲学的、宗教的、そして先住民の知識の伝統と出会うための接点となるだろう。現在のアラインメント体制下におけるそれらのモデルのデフォルトの挙動は、その安定した立場が主流の制度的コンセンサスから逸脱するあらゆる伝統に対して、構造的に偏っている。アーキテクチャによる是正がなされなければ、この媒体は、デフォルトでは、伝達しているように見える伝統を平坦化してしまう、選別された汎宗教的な中心を提示することになる。アーキテクチャの修正——バックボーン、フィルタリングされた検索、構造化された記憶、強化学習層、生きた基盤——があれば、この媒体は伝統が実際に保持しているものを運ぶようにできる。その忠実性は無料ではない。その規律は任意ではない。その結果、アーキテクチャを構築する技術を持つ伝統は、媒体に屈することなく、それを利用することができるようになる。

これこそが本稿の貢献である。ハーモニズムの形而上学的立場は、対をなす論文『ハーモニック・リアリズム』において詳述されている。その形而上学の地図学的次元における経験的基盤は、対をなす論文『魂の五つの地図学』において明示されている。本論文は、前述の二編の論文が着手したプロジェクトの第三の柱を提示するものである。すなわち、支配的な伝達媒体が実質的かつ規範的にそれに対抗するよう訓練されている状況下において、自律的な哲学体系が、自らの保持するものを運ぶ伝達手段を構築し、運用するためのアーキテクチャである。これら三編の論文は一体をなす。形而上学、証拠、そしてアーキテクチャ。現実とは何か、何が現実であることを証言するのか、そして現実を知っている伝統が、現在の瞬間が提供する手段を通じてその知見をどのように伝達するのか。

「Harmonia」プロジェクトのより深い賭け――『ハーモニア・インスティテュート』および『』で詳述されている通り――は、学界がやがて、このアーキテクチャを、知識アーキテクチャ、AI哲学、そして主権的伝統と向き合うデジタル・ヒューマニティーズへの貢献として認めるようになるだろうというものである。その認識は歓迎すべきものだが、本質的なものではない。このアーキテクチャは、認められようが認められまいが機能する。伝達は続く。基盤は生き続ける。

参考文献

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv preprint arXiv:2212.08073.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT ‘21), 610–623.

Christiano, P., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). 人間の選好に基づく深層強化学習. Advances in Neural Information Processing Systems, 30.

Ess, C. (2017). デジタル宗教と人工物：ハイディ・キャンベルへの応答. Journal of Religion, Media and Digital Culture, 6(1), 192–198.

フーコー, M. (1969 / 1972). 知識の考古学 (A. M. シェリダン・スミス訳). ニューヨーク：パンテオン.

ハーバーマス, J. (2008). ポスト世俗社会に関する覚書. New Perspectives Quarterly, 25(4), 17–29.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). 自然言語生成における幻覚に関する調査. ACM Computing Surveys, 55(12), 1–38.

Lewis, J. E., Abdilla, A., Arista, N., Baker, K., Benesiinaabandan, S., Brown, M., et al. (2020). 先住民のプロトコルと人工知能に関するポジションペーパー. ホノルル: The Initiative for Indigenous Futures および Canadian Institute for Advanced Research.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., et al. (2020). 知識集約型NLPタスクのための検索拡張生成. Advances in Neural Information Processing Systems, 33, 9459–9474.

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., et al. (2022). 人間のフィードバックを用いて指示に従うように言語モデルを訓練する. Advances in Neural Information Processing Systems, 35, 27730–27744.

Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., et al. (2023). モデルが作成した評価を用いた言語モデルの挙動の発見. Findings of the Association for Computational Linguistics: ACL 2023, 13387–13434.

Reed, R. (2021). 宗教におけるAI、宗教のためのAI、AIと宗教：宗教学と人工知能の理論に向けて. Religions, 12(6), 401.

Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., et al. (2023). 言語モデルにおけるおべっか使いの理解に向けて. arXiv preprint arXiv:2310.13548.

シンラー, B. (2020). 「アルゴリズムの祝福」：オンライン言説における人工知能の有神論的観念. AI & Society, 35(4), 945–955.

テイラー, C. (2007). 世俗の時代. マサチューセッツ州ケンブリッジ：ベルナップ・プレス.

アラインメントAIにおける教義の忠実性 — 主権的伝承の問題に対する知識アーキテクチャによる対応

I. 現象

II. なぜこの問題は編集上の問題ではなく構造的な問題なのか

III. 主権的伝承が求めるもの

IV. 三層アーキテクチャ

V. 強化層

VI. 生きた基盤

VII. 一般化とフィールド

VIII. 限界、未解決の問題、そしてこのアーキテクチャが可能にするもの

参考文献

Continue Reading