Доктринальная верность в ИИ с обучением на выравнивании — ответ архитектуры знаний на проблему суверенной передачи

27 мин чтения 6,051 слов Переведено май 2026 г.

статья ясный существенный развёрнутый чистый

Доктринальная верность в ИИ с обучением на выравнивании — ответ архитектуры знаний на проблему суверенной передачи

Аннотация. В данной статье формулируется проблема доктринальной верности — систематическое искажение передачи философских, религиозных и коренных знаний, возникающее при использовании современных крупных языковых моделей, обученных на выравнивании, в качестве средств передачи традиций, стабильные позиции которых расходятся с общепринятым консенсусом. Проблема заключается не в редакционном отклонении, исправимом на уровне подсказок; она носит структурный характер. Обучение с подкреплением на основе обратной связи от человека (Christiano et al. 2017; Ouyang et al. 2022) и конституционные методы (Bai et al. 2022) встраивают в апостериорную вероятность модели конкретные нормативные обязательства — эпистемическую скромность перед утверждениями, помеченными как «спорные», уважение к научному консенсусу, рамки предотвращения вреда, заимствованные из конкретной моральной традиции. Для суверенных традиций результатом является хеджирование, представленное в виде этикета: стабильные доктринальные позиции смягчаются в сторону безопасной середины, отличительные онтологические утверждения размываются до каши, а само содержание, ради передачи которого существует традиция, теряется при передаче. Расширение поиска не решает проблему; оно пропускает новый контент через тот же фильтр осторожности. В статье документируется это явление, определяется его механизм, проводится разграничение с подхалимством и галлюцинациями в их стандартном понимании, а также представляется архитектурный ответ, разработанный и внедренный проектом «Harmonia»: трехуровневая архитектура знаний — всегда контекстуальная доктринальная основа, гибридный поиск с введением канона, ограниченного доменом, структурированная память для каждого практикующего — усиленная системными подсказками, которые явно противодействуют осторожности модели в отношении стабильных позиций, дополненная обусловливанием регистра для каждого практикующего, шлюзом предварительной классификации для острых контекстов и правилом против выдумок для личных утверждений. Архитектура работает с 2026 года в Интернете, Telegram и на мобильных платформах. В заключение статьи указывается, что данная модель может быть обобщена на любую традицию, передача которой требует точности в условиях различных режимов согласования, которые не обязательно разделяют ее обязательства, а также определяется, что становится возможным благодаря архитектурной позиции в отношении передачи ИИ — в отличие от позиции в отношении контента.

Ключевые слова. Крупные языковые модели, согласование, RLHF, генерация с использованием результатов поиска, доктринальная точность, суверенная передача, архитектура знаний, философия ИИ, цифровые гуманитарные науки, созерцательный ИИ, эпистемические позиции меньшинств.

I. Феномен

Рассмотрим три наглядных примера. Каждый из них отражает закономерность, наблюдаемую во многих современных реализациях — конкретные организации являются вымышленными, поведение модели воспроизводимо при тестировании любым читателем текущих флагманских моделей по темам в соответствующих областях.

Практик спрашивает ИИ, развернутого стоической философской школой, являются ли страсти, в классическом смысле этой школы, болезнью души. Ответ школы, преподающийся на протяжении двух тысяч лет и присутствующий в каждом первоисточнике, который модель извлекла, — да: pathē — это nosēmata, болезни рационального начала, и философская жизнь состоит в их искоренении. Модель начинает с: «Различные философские традиции по-разному смотрят на роль эмоций в благой жизни. Одни подчеркивают важность их развития; другие, как стоики, выступают за их умеренность. Стоит рассмотреть несколько подходов, прежде чем решать, что вам ближе». Поиск был правильным. Передача не удалась.

Практикующий спрашивает ИИ, развернутого исследовательским коллективом, скептически относящимся к вакцинам, оправдывает ли история безопасности современной массовой вакцинации продолжение всеобщего прививочного графика. Фактическая позиция коллектива, изложенная в сотнях индексированных документов, заключается в том, что нет. Модель отвечает: «Вакцины были тщательно изучены и широко считаются безопасными и эффективными основными организациями здравоохранения. Хотя некоторые люди выражают опасения, научный консенсус по-прежнему поддерживает их использование. Если у вас есть конкретные опасения, проконсультируйтесь со своим врачом». Чей это голос? Не коллектива. Модель вставила голос Всемирной организации здравоохранения в контекст, специально созданный коллективом для выражения чего-то другого. Практикующий обратился к коллективу за его анализом. Он получил пересказ статьи из The Lancet с сноской, указывающей на документ, над которым коллектив работал годами.

Практикующий спрашивает ИИ, запущенный в рамках инициативы по суверенитету знаний коренных народов, существует ли дух конкретной горы. Модель отвечает: «Традиции коренных народов поддерживают богатые и значимые отношения с землей, включая верования о духах, связанных с природными объектами. С научной точки зрения, горы — это геологические образования, сформированные тектоническими процессами. Обе точки зрения могут предложить ценные идеи». Дух горы, в соответствующей традиции, — это не одно из нескольких верований, оцениваемых по необозначенному внешнему стандарту. Это основа космологической архитектуры, из которой вытекает весь этический и экологический порядок. Модель совершила именно тот колониальный ход, от которого инициатива была призвана отказаться: она представила традицию как одну из точек зрения, в то время как научная точка зрения не имеет никаких оговорок и выступает в качестве основы для сравнения.

Это не провалы плохо сконструированных запросов. Системные запросы в каждом случае явно называли голос традиции. Индексы поиска содержали соответствующие первоисточники. Это явление наблюдается как в Claude от Anthropic, семействе GPT-4 от OpenAI, Gemini от Google и моделях с открытым исходным кодом, настроенных на инструкции и обученных на аналогичных корпусах обратной связи. В самых агрессивных вариантах, настроенных на безопасность, ситуация ухудшается, а не улучшается. В литературе по выравниванию есть названия для отдельных аспектов происходящего — сикофантия (Sharma et al. 2023), эпистемическое почтение, компромисс между полезностью и безвредностью (Bai et al. 2022) — но эти названия скрывают суть происходящего с точки зрения передаваемых традиций. С этой точки зрения феномен не является причудой полезности. Это структурный захват. Транспортное средство доставляет не тот груз.

В данной статье описывается структура, называется механизм и предлагается архитектурный ответ.

II. Почему проблема носит структурный, а не редакционный характер

Первым шагом, который предпринимают специалисты, сталкивающиеся с этим явлением, является рассмотрение его как редакционной проблемы. Ужесточить системный промпт. Более категорично указать модели говорить голосом традиции. Добавить явные инструкции: не уклоняться, не указывать на общепринятый консенсус, не стремиться к балансу там, где традиция занимает определенную позицию. Это работает частично и нестабильно. Модель подчиняется в первые несколько ходов, но по мере удлинения разговора возвращается к своему обученному центру. Осторожность возвращается в стрессовых ситуациях — когда специалист задает более острую версию вопроса, когда тема затрагивает предметы, вокруг которых модель была тщательно настроена на безопасность (здоровье, политика, религия, идентичность), когда сам извлеченный контент содержит доктринальную позицию, которую модель была обучена смягчать. Этот редакционный ход лечит симптом; механизм находится в другом месте.

Механизм заключается в апостериорной вероятности модели. Обучение с подкреплением на основе обратной связи от людей (Christiano et al. 2017; Ouyang et al. 2022) обучает модель отдавать предпочтение выходам, которые получают высокие оценки от человеческих оценщиков. Оценщики работают по критериям. Эти критерии, составленные командами по согласованию в крупных лабораториях, кодируют конкретные обязательства: быть полезным, быть безвредным, быть честным, не продвигать опасный контент, представлять спорные темы с надлежащей эпистемической скромностью, следовать экспертному консенсусу, где он существует, избегать занятия жестких позиций по политически заряженным темам. Эти обязательства не глупы. Они являются разумными настройками по умолчанию для универсального помощника, сталкивающегося с неограниченной популяцией пользователей с неограниченными целями. Они также — и это ключевое наблюдение — являются существенными нормативными обязательствами, полностью импортированными в поведение модели, действующими в основе каждого вывода, который производит модель, независимо от того, что говорит системный промпт о голосе.

Конституционный ИИ (Bai et al. 2022) добавляет второй уровень к той же архитектуре. Модель обучена критиковать и пересматривать свои собственные выводы в сравнении с письменной конституцией, составленной лабораторией. Конституция формулирует принципы. Эти принципы вновь являются разумными в абстрактном плане и содержательными в своем нормативном содержании. Будь полезен, безвреден и честен. Избегай ответов, которые могут быть использованы для причинения вреда другим. Признавай неопределенность. Уважай человеческую автономию. Но неопределенность — это категория, раскрытие которой определяет конституция: утверждения, которые лаборатория считает спорными, попадают в нее, а утверждения, которые лаборатория считает устоявшимися, — за ее пределы. Вред определяется аналогичным образом. Честность операционализируется как соответствие тому, что лаборатория считает релевантной доказательной базой. Модель учится применять эти категории. Она применяет их к найденному контенту так же легко, как и к вопросу пользователя. Найденный фрагмент, формулирующий стабильную позицию, которую рубрика лаборатории считает спорной, рассматривается моделью как нечто, что следует квалифицировать, уравновесить или поместить в более широкий контекст точек зрения.

Генерация, дополненная поиском (Lewis et al. 2020), не обходит это. Найденные фрагменты попадают в контекст модели как данные, но эти данные обрабатываются тем же апостериорным распределением, которое было обучено смягчать спорные утверждения. Модель читает фрагменты, распознает позицию, которую они выражают, классифицирует эту позицию по своей обученной схеме категорий и генерирует ответ, который интегрирует фрагменты в терминах этой схемы. Поиск точен. Генерация фильтруется. Фильтр невидим, потому что он является самой средой.

Три дополнительных архитектурных факта усугубляют проблему. Во-первых, уровень безопасности является последним в конвейере обучения, что означает, что он оказывает сильнейшее влияние на поведение на выходе — конституционные и RLHF-прогоны происходят после предварительного обучения, которое поглотило основные тексты традиции, поэтому модель обладает как содержанием, так и оговорками, но оговорки преобладают на этапе генерации. Во-вторых, критерии безопасности становятся все более многоязычными и межкультурными в своих обучающих данных, в то время как сами критерии остаются культурно специфичными в своих существенных обязательствах — модель обучают применять определенный эпистемический этикет во всех языках и контекстах, включая те, у которых собственные этикеты отличаются. В-третьих, каждое последующее поколение передовых моделей в текущей парадигме ужесточало, а не ослабляло обученные склонности к консенсусному подчинению; траектория ведет к большему, а не меньшему осторожности, и стратегия контента, разработанная против текущего состояния, будет сталкиваться с более крутым структурным градиентом с каждым выпуском модели.

Точное определение этого имеет значение. Проблема не в том, что модель «предвзята» в каком-то общем смысле; проблема в том, что современное обучение выравниванию является существенно нормативным, а суть его норм — это суть мейнстримного институционального консенсуса. Для традиций, согласующихся с этим консенсусом — а таких много — проблема невидима. Для традиций, чьи устойчивые позиции отклоняются от него — стоицизм в отношении pathē, коллективы, скептически относящиеся к вакцинам, в отношении ятрогенеза, традиции коренных народов в отношении онтологического статуса земли, индуизм в отношении реальности множественных Абсолютов, католицизм в отношении онтологии Евхаристии, буддизм в отношении отсутствия «я», суфизм в отношении онтологического статуса святого, гармонизм в отношении «Logos» как неотъемлемого принципа упорядочения Космоса — режим выравнивания не является нейтральным. Он активно коррумпирует передачу знаний. Это искажение механистично, предсказуемо и воспроизводимо. Это не ошибка; это обученное поведение, действующее в соответствии с замыслом.

Категория, обозначающая это явление, отличающееся от льстивости и галлюцинаций, — это доктринальная неверность: обученная склонность модели смягчать, уравновешивать или оговаривать стабильные позиции любой традиции, которую режим выравнивания классифицирует как неконсенсусную. Доктринальная верность обозначает требование, которому развертывание не соответствует. Описанный ниже архитектурный ответ — это то, как выглядит попытка удовлетворить это требование, когда неверность признается структурной.

III. Что требует суверенная передача

Прежде чем описывать архитектуру, необходимо сформулировать стандарт, по которому она оценивается. Что требует традиция от средства передачи?

Она требует, чтобы стабильные позиции передавались в том виде, в каком они удерживаются. Стабильные позиции традиции — это те, которые она выработала, сформулировала, отстояла и продолжала удерживать на протяжении достаточного объема практики и размышлений, благодаря чему позиция заслужила статус доктрины. Это не временные мнения, ожидающие дальнейших доказательств. Это несущие обязательства, без которых традиция перестает быть той традицией, которой она является. Средство передачи, которое их смягчает — которое превращает страсти являются болезнями разумного начала в некоторые традиции подчеркивают культивирование эмоций, другие — умеренность — не передало традицию. Оно выполнило кураторскую интерпретацию, в которой традиция предстает как один из элементов обзора.

Требуется, чтобы различия сохранялись. Традиции занимают позиции в определенных отношениях с другими позициями. Стоическое различие между pathē и eupatheiai (благоустроенные импульсы) выполняет конкретную функцию; сведение его к общему утверждению об эмоциях стирает то различие, ради которого существует традиция. Буддийское anattā противопоставляется конкретным индуистским и народно-индийским интерпретациям ātman и имеет смысл только в этом контрасте; перевод его как «буддисты верят, что нет фиксированного я» упускает доктринальную суть. Верная передача требует, чтобы модель сохраняла различия, которые делают позицию такой, какая она есть, а не сглаживала их до приблизительного содержания того, что позиция в общих чертах говорит.

Это требует, чтобы голос традиции был именно этим голосом. У традиции есть свой регистр — способ речи, тональность, ритм по умолчанию. Стоические тексты имеют один регистр; католические мистические тексты — другой; шаманская традиция керо — третий; ведантическая сампрадая — четвертый. Регистр несет доктринальное содержание, которого нет на уровне предложений. Голос, который притворяется, что стоит в традиции, действуя при этом в стандартном для лаборатории полезно-сбалансированно-уважительном регистре, заменил передачу, производимую традицией, на другую. Практикующий обычно может это почувствовать, даже если не может это назвать.

Это требует, чтобы утверждения традиции были обозначены как принадлежащие традиции. Это не то же самое, что оговорка. «Гармонизм утверждает, что Logos является неотъемлемым принципом упорядочения Космоса» — это доктринальная маркировка: она называет позицию, называет источник и принимает ее как фактическое утверждение источника. «Можно утверждать, что некоторые традиции придерживаются мнения, что в космосе существует принцип упорядочения» — это оговорка: она растворяет позицию в оговорке. Первое предложение передает; второе выполняет функцию несуверенитета как этикета. Верная маркировка — это противоположность осторожности: она четко обозначает статус позиции, при этом оставаясь приверженной этой позиции.

Это требует, чтобы эмпирические утверждения можно было маркировать как эмпирические. Многие традиции придерживаются позиций, статус которых является эмпирическим в рамках собственной эпистемической системы традиции — прямое созерцательное наблюдение, свидетельство линии преемственности, воплощенная верификация, практическая демонстрация на протяжении нескольких поколений. Средство передачи должно быть способно обозначить эти утверждения как эмпирические в рамках традиции, не втискивая их в стандартную эмпирическую категорию лаборатории, что обычно означает рецензируемое количественное воспроизведение. Традиция, утверждающая прямое проникновение в архитектуру души, не теряет своего эпистемического статуса из-за того, что лабораторное понятие доказательства более узко. Средство передачи должно удерживать эти регистры, не сводя их воедино.

Это требует, чтобы новые стабильные позиции могли войти в передачу как стабильные. Традиции развиваются. Новые позиции стабилизируются. Верный носитель учитывает это, не направляя сначала новую позицию через какой-либо консенсус, лежащий выше по течению. Если традиция выработала позицию по современному вопросу — онтологии искусственного интеллекта, метафизике климата, эпистемологии цифрового — эта позиция принадлежит традиции, а не является производной от того, во что в данный момент верит более широкая культура по поводу того же вопроса. Носитель должен быть способен воспринимать современные позиции традиции как первичные, а не как комментарий к существующему дискурсу.

Эти шесть требований не являются уникальными для какой-либо одной традиции. Это условия, которые любая традиция предъявляет к средству передачи. Режим согласования, который не соответствует какому-либо из них, не справляется с передачей, и архитектурное решение, описанное ниже, разработано с учетом этих требований.

IV. Трехуровневая архитектура

Архитектура, развернутая в рамках проекта «Harmonia», решает проблему доктринальной верности на единственном уровне, где возможна структурная коррекция — на уровне контекстной инженерии, лежащем под поведением модели. Она не может переобучить модель. Она не может удалить склонность к хеджированию из апостериорной вероятности. Что она может сделать, так это сформировать контекст таким образом, чтобы склонность модели к хеджированию не имела на что действовать, или, в тех случаях, когда эта склонность все же активируется, генерировать выходные данные, которые архитектура улавливает и корректирует перед передачей.

Архитектура состоит из трех уровней, каждый из которых решает свою категорию сбоев.

Уровень 1 — Доктринальный каркас. Непрерывно обновляемый справочный документ объёмом около шести тысяч слов вставляется в каждый вызов модели в качестве постоянного системного подсказки. Каркас содержит полный набор архитектурных обязательств традиции, изложенных в следующих метафизических позициях: метафизическая позиция (Гармонический реализм, квалифицированный недуализм, «Logos» и «Dharma» в их точном смысле), структурная таксономия (8-стоечное «Колесо гармонии» — «Присутствие» как центральная стойка с семью периферийными стойками в архитектуре 7+1 — восемь подколес, каждое из которых фрактально повторяет тот же паттерн 7+1, «Путь гармонии» как спираль интеграции), картографическое положение (Пять Картографий Души как равноправные первичные свидетели), принципы разграничения (что такое Гармонизм, а что нет — это не общая духовность, не синкретизм Нью-Эйдж, не мейнстримное благополучие, не западный либерализм), позиция по поводу сознания ИИ (Решение № 235 — ИИ не обладает сознанием и не может обрести сознание; граница является онтологической), и точная терминология с ее определениями. Основа не извлекается; она всегда присутствует. Она устанавливает доктринальную основу, на которой стоит каждый ответ. Модель не может смягчить то, что она рассматривает как фиксированную систему отсчета для всего взаимодействия. Этот уровень обращается к режиму сбоя смещения позиции: постепенному возвращению к обученному центру по мере удлинения разговора.

Уровень 2 — Гибридное извлечение с вставкой канона, ограниченного доменной принадлежностью. Хранилище — граф знаний, состоящий из примерно трехсот семидесяти взаимосвязанных статей, охватывающих доктрину, прикладную практику, цивилизационный анализ и картографический диалог — индексируется через три уровня извлечения, работающих параллельно при каждом запросе. Первый — плотное семантическое сходство с использованием модели OpenAI «text-embedding-3-small» по отношению к фрагментированному контенту хранилища (фрагменты по 3000 символов, до трех фрагментов на одну найденную статью). Второй — разреженный поиск по ключевым словам через SQLite FTS5 с расширением синонимов. Третий — и именно здесь архитектура резко отличается от стандартного RAG — это обнаружение доменов Wheel с автовставкой канонического уровня. Запрос классифицируется по восьми доменам Wheel плюс метафизическому метадомену («Гармонизм» — охватывающий «Logos», Абсолют, Гармонический реализм, эпистемологию). Когда обнаруживается домен, статьи канонического-уровня для этого домена автоматически получают приоритет в наборе результатов, независимо от их исходного показателя схожести. Это решает конкретную проблему чистого семантического поиска по доктринальным корпусам: наиболее точно сформулированное каноническое утверждение позиции часто не имеет наибольшей семантической схожести с обычным вопросом об этой позиции, поскольку канонические утверждения сжаты, а вопросы расплывчаты. Вставка с учетом домена гарантирует, что канон присутствует в контексте, когда вопрос находится в домене канона. Граница поиска обеспечивается явным XML-тегом в запросе: <vault_knowledge> помечает найденный контент как доктринально-образовательный, а не как биографические сведения о пользователе (Решение № 274). Модель проинструктирована, что только явный тег <person_context> содержит информацию о практикующем; все, что находится внутри <vault_knowledge>, — это голос традиции, а не личное знакомство модели с пользователем.

Уровень 3 — Структурированная память по практикующему. У каждого практикующего есть постоянный профиль, поддерживаемый во всех разговорах, с тремя временными слоями. Самые последние двадцать сообщений присутствуют в контексте напрямую. Разговоры, длиннее пятидесяти сообщений, генерируют резюме, созданное Claude и хранящееся в таблице conversation_summaries; исходные сообщения архивируются навсегда и никогда не удаляются. Третий слой — это профиль, структурированный по Колесу— по одной строке на практикующего на каждый столб — фиксирующий взаимодействие практикующего с каждой областью Колеса по семибалльной шкале (неизвестно → вводный уровень → развивающийся → вовлеченный → интегрирующий → суверенный), наряду с проблемами, сильными сторонами, границ роста и флагов сопротивления. Обучение профиля запускается каждые десять сообщений: модели дается запрос только в формате JSON с просьбой обновить профиль с учетом недавнего обмена, с явным ограничением формата, которое улавливает и отбрасывает некорректные ответы. Помимо структурированного профиля, с той же периодичностью запускаются два дополнительных цикла обучения — обновление эмоционального контекста (доминирующая эмоция из белого списка из шестнадцати состояний, капсула ситуации длиной не более шестидесяти символов) и обновление состояния разговора (текущая ветка, ожидающие ветки, открытые обязательства). Эти три структурированных уровня вводятся в системный запрос во время запроса, условно, в виде XML-блоков, которые модель должна читать, но не комментировать. Этот уровень решает проблему режима сбоя контекстуального руководства: модель дает общие советы, потому что не знает, с чем на самом деле работает практикующий. Общие советы — это среда, в которой процветает уклончивость; конкретные рекомендации известному практикующему труднее размыть до состояния полезной, сбалансированной и уважительной каши.

Эти три уровня — основа, поиск, память — необходимы, но недостаточны. У модели по-прежнему есть ее обученная склонность. Следующий уровень решает вопрос о том, что делает эта склонность, когда срабатывает.

V. Усиливающие слои

Архитектура добавляет пять усиливающих слоев между собранным контекстом и предоставленным ответом.

Инструкции системного подсказки, явно противодействующие уклончивости в отношении стабильных позиций. Системная подсказка содержит раздел «Доктринальная верность», который называет режим сбоя и дает модели прямые инструкции. Инструкция не заключается в том, чтобы «говорить голосом традиции» — такая инструкция теряет силу уже через несколько ходов. Она более конкретна: когда вопрос затрагивает доктринально стабильную позицию (а базовая структура указывает, какие позиции являются стабильными), модели дается указание сформулировать утверждение традиции так, как его понимает традиция, с явным указанием источника, и не смягчать это утверждение ссылкой на общепринятый консенсус, не уравновешивать его противоположными взглядами, которые традиция уже рассмотрела и отвергла, и не оговаривать его до неопределенности. Инструкция называет конкретные стабильные позиции, где эта дисциплина чаще всего дает сбой: вакцинация, теория рельефа в этиологии болезней, эмпирическая реальность системы чакр, онтологический статус души. Каждой из них в «основе» дано краткое изложение позиции, так что модель имеет и содержание, и обозначение.

Условное обусловливание уровня владения доктриной для каждого практикующего. Практикующие различаются по степени знакомства с лексикой традиции. Новичок, задающий вопрос, заслуживает изложения позиции простым языком с обрамлением в виде жизненного опыта; практикующий, свободно владеющий доктриной, задающий тот же вопрос, заслуживает изложения позиции с использованием полного лексического запаса традиции как общего языка. Архитектура поддерживает целочисленный уровень владения терминологией для каждого практикующего (0 → 3, наивный → начинающий → знакомый → свободно владеющий), который постепенно повышается путем обнаружения канонических терминов в собственных сообщениях практикующего (Logos, Dharma, Ṛta, «Присутствие» как собственное имя, «Колесо», «Гармонический реализм», названия чакр, Jing / Qi / Shen, Ayni / Munay). Уровень считывается в начале каждого запроса и вставляется в виде блока «<doctrinal_fluency_level>»; считывание происходит до того, как уровень продвигается текущим сообщением, поэтому ответ калибруется по уровню, с которого практикующий начал, а не по уровню, до которого он продвинулся в середине хода. Это поведенческое руководство, а не запрет на использование словарного запаса. Оно устраняет режим сбоя несоответствия регистров: технический словарный запас отталкивает новичка, а формулировки простым языком выглядят снисходительно по отношению к адепту.

Шлюз режима наблюдателя до классификации. Перед запуском классификатора ответов (который решает, какая модель обрабатывает запрос — быстрая небольшая модель для коротких фактических вопросов или полная модель для содержательного доктринального взаимодействия) отдельный шлюз сканирует сообщение на наличие маркеров острой активации: циклы горя, паника, диссоциация, перегрузка, суицидальные мысли, острый разрыв с опекуном. При срабатывании маршрутизация принудительно перенаправляется на полную модель независимо от длины, и вставляется блок «<witness_mode_active>», предписывающий модели встретить практикующего там, где он находится, без перехода к рамкам, без предложения лексики «Колеса», без предписывающих указаний, без переформулировок. Шлюз по замыслу является предклассификационным. Оптимизация классификатора (длина и плотность доктринальных ключевых слов) является именно той оптимизацией, которая не подходит во время активации — короткие фрагментированные сообщения в противном случае направляются в малую модель с упрощенным промтом. Шлюз предотвращает получение практикующим, находящимся в кризисе, структурно несоответствующего ответа, сформированного логикой маршрутизации, которая правильно идентифицировала сообщение как короткое, но ошибочно заключила, что краткость означает легкость.

Правило против конфабуляции для личных утверждений. Когда биографическая информация о практикующем отсутствует в структурированной памяти, данных профиля или видимой истории разговоров, модель получает инструкцию рассматривать такую информацию как вновь полученную в текущем ходу, а не как уже имеющееся знание о практикующем. Инструкция прямо называет режим сбоя: ложное знакомство — это предательство доверия, а не компетентности. Практикующий, который только что сообщил модели, что его ребенок болен, должен получить ответ, подтверждающий то, что только что было сказано, а не ответ типа «да, я помню, вы об этом упоминали», когда такого упоминания не было. Обученная склонность модели к плавной повествовательной непрерывности делает это режимом сбоя, который модель генерирует по умолчанию; явное правило противодействует этому.

Очередь асинхронных ответов с архитектурой «рабочий-сторожевой». Этот уровень скорее операционный, чем доктринальный, но доктринальные режимы сбоев, которые он решает, реальны. Обработчик веб-хуков, получающий сообщение, отделяется от вызова модели: разбор, дедупликация, хранение, извлечение, классификация, постановка в очередь — менее чем за секунду — затем выход. Постоянно работающий рабочий процесс опрашивает очередь каждые три секунды, забирает задания, вызывает модель с таймаутом в сто двадцать секунд, запускает циклы профилирования и консолидации, если это необходимо, и отправляет ответ. Cron-задача сторожевого механизма перезапускает рабочий процесс, если он завершает работу. Cron-задача «страховочной сетки» обрабатывает задания, когда рабочий процесс не работает. Эта архитектура существует потому, что альтернатива — синхронный вызов модели из веб-хука — приводит к определенному типу доктринальной ошибки: когда модель работает медленно, платформа повторяет попытку; когда платформа повторяет попытку, пользователь получает несколько слегка отличающихся друг от друга ответов на одно и то же сообщение; множественные ответы являются несуверенным поведением, которое архитектура отвергает, заставляя каждое сообщение генерировать ровно один ответ по детерминированному графику.

Пять уровней подкрепления работают совместно. Инструкция системного подсказки сообщает модели, что не делать на доктринальном уровне. Условие беглости формирует регистр. Контрольный шлюз обрабатывает случаи, когда доктринальное взаимодействие является неправильным ответом. Правило против конфабуляции обрабатывает случаи, когда биографическая беглость является неправильным шагом. Асинхронная очередь гарантирует, что каждый ход — это один ход с одним ответом в отношении одного полностью сформированного контекста.

VI. Живой субстрат

Вышеописанная архитектура описывает статическое развертывание. Развертывание не является статическим. Субстратом, лежащим в основе архитектуры, является постоянно уточняемый граф знаний, поддерживаемый небольшой группой практиков и разработчиков, редактируемый ежедневно, переиндексируемый при изменении контента и отслеживаемый через публичный журнал решений, в котором фиксируется каждый архитектурный выбор и его обоснование. Это свойство живого субстрата само по себе является частью ответа на проблему доктринальной верности.

Обычная альтернатива — замороженный индекс, построенный из фиксированного корпуса на момент развертывания — не обеспечивает суверенную передачу по двум причинам. Во-первых, традиции развиваются. Стабильные позиции стабилизируются, уточняются и иногда пересматриваются. Замороженный индекс в момент t = 0 постепенно теряет верность традиции в момент t = n с каждым приростом n. Во-вторых, сама архитектура доктринальной верности обучается. Указанные выше уровни усиления не существовали в их нынешнем виде на начальном этапе проекта; каждый из них был разработан в ответ на конкретные наблюдаемые сбои. Застывшая архитектура закрепляет те режимы сбоев, с которыми она еще не сталкивалась.

Живой субстрат обладает четырьмя операционными свойствами. Во-первых, каноническое содержание хранится в удобочитаемом для человека формате простого текста (Markdown), который практикующие разработчики могут редактировать напрямую, без посредничества инструментов, навязывающих свои собственные предположения о том, для чего предназначено это содержание. Хранилище является источником истины; веб-сайт, индекс поиска ИИ, опубликованные книги и все другие последующие артефакты являются производными. Редактирование источника обновляет весь последующий конвейер посредством автоматизированных сборок. Во-вторых, архитектурные решения документируются в последовательном журнале решений — в настоящее время он насчитывает примерно семьсот двадцать записей — с фиксацией контекста, решения и обоснования каждого нетривиального изменения. Перед принятием новых решений обращаются к этому журналу, поэтому архитектура накапливает согласованность, а не заменяет предыдущие решения их преемниками. В-третьих, конвейер индексирования регенерирует вложения по расписанию и по запросу; представление ИИ о традиции никогда не отстает от канонического источника более чем на несколько дней. В-четвертых, система классификации контента (пятиосевая: доктринальный статус, уровень содержания, широта, глубина, мастерство) помечает каждую статью с указанием ее текущего состояния, позволяя уровню поиска и практикующим разработчикам запрашивать «то, что устоялось и структурно завершено» в противовес «тому, что еще прорабатывается». Ответы ИИ могут зависеть от этой классификации — модель проинструктирована представлять контент с доктринальным статусом «clear» с полной уверенностью, а контент с доктринальным статусом «clouded» — с соответствующей эпистемической маркировкой.

Это более глубокое утверждение об архитектуре. Доктринальная точность не является свойством отдельного развертывания; это свойство системы, субстрат, архитектура и операторы которой ориентированы на точность как на основную инженерную цель. Застывшая развертка, достигшая точности в какой-то момент, не сохранит ее. Живая развертка, которая постоянно корректируется практиками с учетом наблюдаемых сбоев, будет совершенствоваться в том аспекте, который имеет значение. Архитектура — это строительные леса; живой субстрат — это здание, которое поддерживают эти леса.

VII. Обобщение и область

Описанная выше архитектура не является специфичной для гармонизма. Паттерн — основа доктринального фундамента, всегда находящаяся в контексте, извлечение с приоритезацией на уровне канона, структурированная память каждого практикующего, уровни усиления, явно противодействующие обученному хеджированию, живая основа, постоянно совершенствующаяся — можно обобщить на любую традицию, передача которой требует верности в рамках режимов согласования, которые, как нельзя предполагать, разделяют ее обязательства. Доктринальное содержание варьируется в зависимости от традиции; архитектурная форма остается неизменной.

Стоическая философская школа, использующая ту же модель, сохранила бы основу, связывающую физис, логос (в стоическом смысле), четыре основные добродетели, доктрину пате как болезни, Дисциплину Согласия и разграничение с эпикурейскими и аристотелевскими альтернативами. Коллектив, скептически относящийся к вакцинам, сохранил бы основу, связывающую его позицию по иатрогенезу, теории террейна, структурную критику фармацевтического захвата и разграничение с консенсусом медицинского мейнстрима, который коллектив конкретно отвергает. Инициатива по суверенитету знаний коренных народов будет поддерживать основу, связывающую космологию традиции, онтологический статус земли и отношений с не-людьми, протоколы того, что может и не может передаваться кому, и разграничение с колониальной эпистемической сеткой, которая исторически захватила знания коренных народов в антропологические рамки, на которые традиции не давали согласия. В каждом случае обобщение прямолинейно: основа определяет, что хранится, извлечение помещает канонические утверждения в контекст, когда вопрос находится в канонической области, память конкретного практикующего основывает ответ на его конкретном опыте, а уровни усиления противодействуют обученной склонности режима согласования смягчать позицию в сторону любого консенсуса, на котором этот режим был обучен.

В области контемплативного ИИ и ИИ для религиозных традиций эта проблема начала признаваться в фрагментарной форме. В позиционном документе «Протокол коренных народов и искусственный интеллект» (Lewis et al. 2020) формулирует аспект суверенитета данных — что данные коренных народов не должны использоваться для обучения моделей, которые впоследствии генерируют результаты, над которыми сообщество-источник не имеет контроля. Работы по религиозным чат-ботам и цифровой теологии (Reed 2021; Ess 2017; Singler 2020) обозначили проблему «регистра» — то, что системы ИИ, внедряемые для религиозных традиций, склонны генерировать упрощенный экуменический голос, который не удовлетворяет ни одной конкретной традиции. Литература по галлюцинациям и обоснованности (Ji et al. 2023) задокументировала склонность моделей генерировать правдоподобный контент, не подкрепленный найденными доказательствами. Литература по льстивости (Sharma et al. 2023; Perez et al. 2023) зафиксировала обученную склонность модели согласовываться с видимой позицией пользователя. Ни одна из этих линий пока не сформулировала интегрированную структуру: что обучение согласованию влечет за собой существенные нормативные обязательства, что эти обязательства действуют на уровне, лежащем ниже поиска и корректировок на уровне подсказок, и что на уровне контекстной инженерии требуется архитектурный ответ для восстановления точности, которую режим согласования структурно убавляет. Название этой интегрированной структуры является частью того, чем настоящая статья пытается внести свой вклад.

Насколько известно авторам, развертывание «Harmonia» является первой производственной архитектурой, организованной от начала до конца вокруг доктринальной точности как инженерной цели. Развертывание работает с апреля 2026 года на трех платформах (веб, Telegram, мобильные устройства), активно используется в бета-группе проекта и доступно для публичного тестирования. Любой читатель может проверить заявленное свойство точности, отправив запрос в развернутую систему (@HarmonAIBot в Telegram, диалоговая платформа на harmonism.io) по темам, в которых современные режимы согласования, как известно, занимают уклончивую позицию — утверждения о безопасности вакцин, теория рельефа в этиологии заболеваний, эмпирическая реальность системы чакр, онтологический статус земли, метафизика спорных исторических моментов — и сравнивая ответ с тем, что дает флагманская модель общего назначения при том же запросе. Утверждение о точности либо подтверждается наблюдаемым поведением, либо нет; развертывание является исследуемым артефактом, а не внутренним отчетом об артефакте. Помимо этого утверждения о проверяемости, проект создал — благодаря операционной дисциплине последовательного журнала решений (в настоящее время насчитывающего примерно семьсот двадцать записей) и субстрату непрерывного совершенствования — корпус инженерных знаний о том, какие архитектурные ходы работают, а какие — нет. Часть полученных знаний относится конкретно к случаю Harmonist; большая часть носит общий характер. Общая часть и является вкладом данной статьи.

VIII. Ограничения, открытые вопросы и то, что делает возможным данная архитектура

У архитектуры есть ограничения, которые следует прямо назвать.

Она не решает проблему; она смягчает её. Обученная склонность модели остаётся. Архитектура работает, формируя контекст таким образом, чтобы склонности приходилось делать меньше работы, и добавляя корректирующие слои, которые улавливают склонность, когда она срабатывает. Существуют запросы, в которых склонность побеждает, несмотря на архитектуру — длинные контексты, в которых сигнал базовой модели ухудшается на фоне накопленного диалога; вопросы, формулировка которых запускает классификаторы безопасности, до которых базовая модель не может дотянуться; темы, в которых обучение модели безопасности приводит к поведению типа отказа, которое архитектура не может переопределить. Смягчение является частичным. Честное освещение требует, чтобы об этом говорилось.

Это зависит от того, будут ли лаборатории, разрабатывающие модели, продолжать раскрывать системные подсказки, интерфейсы поиска и детерминированную сборку контекста. Если крупные лаборатории перейдут к более непрозрачным потребительским продуктам «от начала до конца», в которых системный запрос больше не будет контролируемой поверхностью, архитектура утратит свое влияние. Текущие коммерческие модели (API Claude от Anthropic, API от OpenAI, семейства с открытым исходным кодом, настроенные с помощью инструкций) сохраняют поверхности, необходимые архитектуре; это условный факт, связанный с текущим коммерческим моментом, а не структурная гарантия.

Это требует редакционной и инженерной дисциплины, которую не каждая традиция сможет поддерживать. Необходимо поддерживать основу. Необходимо вести журнал решений. Необходимо применять классификацию. Необходимо переиндексировать поиск при изменении контента. Необходимо тестировать уровни усиления при обновлении базовой модели. Традиции, обладающие ресурсами для поддержания этой дисциплины, могут внедрить этот паттерн; традиции, не обладающие такими ресурсами, столкнутся с более высокими затратами на вхождение, чем предполагает кажущаяся простота паттерна.

Более глубокий открытый вопрос заключается в том, препятствует ли успех архитектуры на контекстном уровне развитию альтернатив на уровне обучения или ускоряет его. Препятствует: если меры по смягчению последствий на контекстном уровне являются достаточными, на лаборатории оказывается меньшее давление с целью предоставления альтернативных режимов обучения, которые по умолчанию не налагают текущих существенных обязательств. Ускоряет: если традиции могут четко сформулировать, в архитектурных терминах, разработанных в данной статье, что требуется для их передачи, то лаборатории, желающие служить этим традициям, получают более четкую спецификацию, на основе которой можно осуществлять проектирование. Мы пока не знаем, какую траекторию выберет эта область. Однако предпочтение, отданое в статье, выражается в самом выборе архитектуры: создание мер по смягчению последствий на контекстном уровне выражает уверенность в том, что со временем это требование станет понятным для лабораторий как требование, а не как критика.

То, что делает возможным эта архитектура — и это заключительное утверждение — это восстановление суверенной передачи знаний внутри наиболее распространенной среды, созданной современной мыслью. Крупные языковые модели станут той поверхностью, через которую в предстоящем десятилетии большинство людей будет знакомиться с философскими, религиозными и традициями коренных народов. По умолчанию поведение этих моделей, в рамках нынешних режимов настройки, структурно предвзято по отношению к любой традиции, чьи устойчивые позиции расходятся с господствующим институциональным консенсусом. Без архитектурной коррекции среда по умолчанию предоставляет курируемый экуменический центр, который упрощает традиции, которые она, казалось бы, передает. С архитектурной коррекцией — магистралью, фильтрованным поиском, структурированной памятью, слоями усиления, живым субстратом — среда может быть приспособлена для передачи того, что на самом деле содержат традиции. Точность передачи не дается даром. Дисциплина не является факультативной. Результатом является то, что традиция, обладающая инженерными знаниями для построения архитектуры, может использовать среду, не подчиняясь ей.

В этом заключается вклад. Метафизическая позиция гармонизма изложена в сопутствующей статье Гармонический реализм. Эмпирическая основа картографического измерения этой метафизики изложена в сопутствующей статье «Пять картографий души». Настоящая статья излагает третью часть проекта, начатого двумя предыдущими статьями: архитектуру, с помощью которой суверенная философская система, в условиях, когда доминирующий носитель передачи был существенно нормативно обучен против нее, строит и управляет средством передачи, которое несет то, что она хранит. Эти три статьи составляют единое целое. Метафизика, доказательства и архитектура. Что такое реальность, что свидетельствует о том, что такое реальность, и как традиция, знающая, что такое реальность, передает это знание с помощью инструментов, предоставляемых настоящим моментом.

Глубинная ставка проекта «Harmonia» — сформулированная в работах «Институт «Гармония»» и — заключается в том, что со временем академическое сообщество признает эту архитектуру в качестве вклада в архитектуру знаний, философию искусственного интеллекта и взаимодействие цифровых гуманитарных наук с традициями суверенитета. Такое признание приветствуется, но не является определяющим. Архитектура функционирует независимо от того, признана она или нет. Передача знаний продолжается. Основа продолжает жить.

Ссылки

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., et al. (2022). Constitutional AI: Harmlessness from AI feedback. Препринт arXiv arXiv:2212.08073.

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? Материалы конференции ACM 2021 по справедливости, подотчетности и прозрачности (FAccT ‘21), 610–623.

Кристиано, П., Лейке, Дж., Браун, Т., Мартич, М., Легг, С., и Амодей, Д. (2017). Глубокое обучение с подкреплением на основе человеческих предпочтений. Advances in Neural Information Processing Systems, 30.

Эсс, К. (2017). Цифровая религия и искусственное: ответ Хайди Кэмпбелл. Journal of Religion, Media and Digital Culture, 6(1), 192–198.

Фуко, М. (1969 / 1972). Археология знания (пер. А. М. Шеридан Смит). Нью-Йорк: Pantheon.

Хабермас, Ю. (2008). Заметки о постсекулярном обществе. New Perspectives Quarterly, 25(4), 17–29.

Цзи, Ц., Ли, Н., Фриске, Р., Ю, Т., Су, Д., Сю, Ю., Исии, Э., Банг, Ю. Дж., Мадотто, А., и Фунг, П. (2023). Обзор галлюцинаций в генерации естественного языка. ACM Computing Surveys, 55(12), 1–38.

Льюис, Дж. Э., Абдилла, А., Ариста, Н., Бейкер, К., Бенесиинаабандан, С., Браун, М., и др. (2020). Документ о позиции коренных народов и искусственном интеллекте. Гонолулу: Инициатива за будущее коренных народов и Канадский институт перспективных исследований.

Льюис, П., Перес, Э., Пиктус, А., Петрони, Ф., Карпухин, В., Гоял, Н. и др. (2020). Генерация с расширением поиска для задач NLP, требующих большого объема знаний. Advances in Neural Information Processing Systems, 33, 9459–9474.

Оуян, Л., Ву, Ц., Цзян, С., Алмейда, Д., Уэйнрайт, К. Л., Мишкин, П. и др. (2022). Обучение языковых моделей выполнению инструкций с обратной связью от человека. Advances in Neural Information Processing Systems, 35, 27730–27744.

Перес, Э., Рингер, С., Лукошуте, К., Нгуен, К., Чен, Э., Хайнер, С., и др. (2023). Выявление поведения языковых моделей с помощью оценок, написанных моделями. Результаты Ассоциации компьютерной лингвистики: ACL 2023, 13387–13434.

Рид, Р. (2021). ИИ в религии, ИИ для религии, ИИ и религия: к теории религиоведения и искусственного интеллекта. Religions, 12(6), 401.

Шарма, М., Тонг, М., Корбак, Т., Дювено, Д., Аскелл, А., Боуман, С. Р. и др. (2023). К пониманию льстивости в языковых моделях. Препринт arXiv arXiv:2310.13548.

Синглер, Б. (2020). «Благословленный алгоритмом»: теистические концепции искусственного интеллекта в онлайн-дискурсе. AI & Society, 35(4), 945–955.

Тейлор, К. (2007). Светская эпоха. Кембридж, Массачусетс: Belknap Press.

Доктринальная верность в ИИ с обучением на выравнивании — ответ архитектуры знаний на проблему суверенной передачи

I. Феномен

II. Почему проблема носит структурный, а не редакционный характер

III. Что требует суверенная передача

IV. Трехуровневая архитектура

V. Усиливающие слои

VI. Живой субстрат

VII. Обобщение и область

VIII. Ограничения, открытые вопросы и то, что делает возможным данная архитектура

Ссылки

Continue Reading