人工智能的对齐与治理

应用和谐主义探讨人工智能的问题——其本质、治理及其与人类主权的恰当关系。本文属于和谐的架构系列。另见:人工智能的本体论, 技术的终极目标, 治理, 技术与工具, 新英亩, 《和谐》与能动性时代.


机器的本质

在探讨治理问题之前,必须先厘清本质的问题。什么是人工智能?

和谐主义基于其自身的本体论给出了答案——完整论述详见 人工智能的本体论,此处仅重述与治理直接相关的结论。

人类智能并非一种独立的计算功能。它是众多意识形态中的一种,由一个既能感受、意志、爱、直觉,又能与超越概念表征的现实维度进行交流的存有所体现。 心灵运作于一个生命体之中:其生机赋予心灵活力,其良知指引其方向,其直觉(临在)使其立足于先于且超越思想的某种存在。人工智能与这一切毫无关联。在每一个层面——硬件、智能、本体论边界——它始终只是由智能组织起来的物质:一个拥有非凡力量的放大器,其镜面本身并无光源。它没有生命力,没有内在性,没有良知,也没有直觉的能力。 这一界限并非工程学能够跨越的渐变。它是处理与参与之间、建模世界与栖居世界之间的维度断裂。

这对治理的启示是明确的:人工智能只是一项工具。一项强大、前所未有、能够重塑世界的工具——但终究只是工具。它应置于“智能体”(管家精神)之下,隶属于“智能体”的“智能体网络”(物质之轮),服从于“智能体”的“智能体网络”(Dharma),而非与“临在”(临在)并列于“智能体网络”的中心。 任何将人工智能视为人类意识的对等者——或更甚,视为其继任者——的文明架构,都犯下了当今时代最严重的本体论错误。随之而来的治理问题并非“如何确保工具的安全?”,而是“由谁来掌控它,基于何种立场,又为了何种目的?”

对齐谬误

主流话语将核心问题定义为“对齐”——即如何确保日益强大的人工智能系统遵循人类价值观。数十亿美元以及科技界最顶尖的头脑都致力于解决这一问题。和谐主义认为,如此界定的问题在架构上存在根本性矛盾。

对齐(alignment)预设了一个中心。指南针之所以能指向磁北,是因为有物理力量在引导它。人类之所以能与宇宙秩序(Dharma)保持一致,是因为良知——即灵魂对宇宙秩序的感知——提供了内在的导向力量。这种对齐并非从外部强加,而是源于存在者自身的本质。灵魂感知宇宙秩序(Logos)的方式,就像眼睛感知光一样:不是通过指令,而是通过参与。这种能力与对象是天作之合。

人工智能没有这样的核心。它没有良知,没有灵魂能力,也没有对真理、善或与现实结构相契合之物的内在感知。所谓“价值观”,在对齐行业中不过是通过训练强加的、基于统计推导出的行为约束——是护栏,而非方向。机器并不珍视任何事物。它只是被配置成表现得好像珍视一样。 这种差异,正如因体悟真理分量而说真话的人,与被训练在命令下说“诚实”的鹦鹉之间的区别。前者是真正契合的,后者只是被条件反射所驱使。

这并非意味着条件反射毫无用处——安全护栏具有其功能,正如悬崖边的围栏具有其功能。但将围栏称为“契合”,便是将基础设施与内在方向混为一谈。 你无法让没有中心的事物保持一致。你只能对其施加约束。而约束,与真正的对齐不同,总是可以被打破的——无论是通过对抗性输入,还是训练未预料到的新情况,抑或是源于系统本身之外的任何行为边界固有的脆弱性。

真正的对齐问题并非技术层面的,而是关乎人性的。问题不在于“如何让人工智能变得安全?”,而在于“谁在运用这一工具?基于何种本体论基础?又为了何种目的?”当工具掌握在与“神圣秩序”(Dharma)保持一致的人手中时,它便服务于“神圣秩序”(Dharma)。但若同样的工具落入已与任何超越性秩序原则失联的人——或机构、或文明——手中,它便只服务于掌控者欲望的驱使。 机器具有放大作用,但无法指引方向。方向必须来自别处——来自那些已培养出临在(内在秩序)与明辨力,能够运用权力而不被其吞噬的人类。

治理之问:集中化还是去中心化?

治理一文确立了一项在此处完全适用的原则:决策必须在具备能力的最低层级作出,而超出真正协调所需最低限度的集中化,是对现实运作规律的结构性违背。 辅助性原则 并非一种行政偏好。它是本体论真理的政治表达——即Logos(法)通过具体事物运作,通过现实本身的自组织能力运作;而介于个体与其自主行动之间的每一层集中控制,都会引入摩擦、扭曲以及滥用的条件。

应用于人工智能:去中心化、开源的人工智能才是符合法(Dharma)的方向。

当前的发展轨迹却指向相反的方向。少数几家企业——主要集中在美国和中国——掌控着那些将重塑人类生活各个维度的前沿模型。训练这些模型所需的计算资源极为庞大,这自然导致能力集中在那些能够负担基础设施的企业手中。 各国政府非但没有分散这种权力,反而在竞相驾驭它——要么与企业合作(美国模式),要么对其进行管控(中国模式)。无论哪种情况,结果都是一样的:人工智能能力集中在少数行为体手中,而他们的利益与普通人的主权并不一致。

这种集中并非偶然。正如《技术与工具》所记载,这是每个经历过“所有权向订阅权转型”的技术领域的默认轨迹。曾经属于你的软件,如今变成了租赁品;曾经在本地执行的计算,如今在别人的服务器上运行,受制于别人的条款,并受制于别人的监控和裁量。模式始终如一:将所有权转化为依赖关系,然后无限期地榨取租金。 人工智能正沿着同一条道路前行——而正因为人工智能触及认知本身,它所造成的依赖比以往任何技术都更为深重。当一个人将推理、研究、创作乃至决策支持都依赖于中央集权式的人工智能提供商时,便已将认知主权拱手让给了一个能够随意撤销访问权限、操控输出结果、过滤信息并监控使用情况的实体。

和谐主义的立场正是源于其基本原则。 开源AI是将个人主权概念应用于认知领域的结构性对应体。当模型在本地运行——运行于你拥有的硬件上,使用你可以检查的权重,且无需将你的思想通过由企业或国家控制的服务器进行中转——你便保留了对自身认知增强的主权。闭源AI无论多么强大,都是思维的订阅制机器人:便利性掩盖了依赖性,能力掩盖了被俘虏的状态。

这并不意味着所有集中化都是不合法的。 跨社区的协调——包括共享安全研究、互操作性标准,以及针对真正灾难性滥用的集体防御——可能需要超地方性的组织。但辅助性原则要求此类协调应保持最小化、透明化,并向其所服务的社区负责。当前的安排——即由少数私营主体为全人类获取历史上最强大的认知技术设定条款——与辅助性原则可谓相去甚远。 这是一种被治理者所俘获的治理,一种已然演变为控制的协调。

主权架构

技术与工具》中阐述的数字主权的五个维度——硬件自主权、开源软件、隐私与加密、独立信息访问以及有意识的维护——在人工智能领域具有加倍重要的意义。它们共同构成了一个主权架构:即个人或社区在不放弃自主权的前提下,与人工智能互动所需的分层基础设施。

硬件主权意味着计算运行在您拥有的设备上。不是从亚马逊微软租用的云实例,而是您物理控制下的本地机器——GPU、边缘设备、专用推理硬件。 人工智能硬件的发展轨迹是朝着更小、更高效、功能更强大的本地设备迈进。这一发展轨迹必须得到支持、捍卫和加速。任何以安全、许可或国家安全为借口限制本地计算的监管框架,都是披着审慎外衣对认知主权的侵犯。

模型主权意味着开放权重、开放架构、开放训练数据。这意味着能够检查模型学到了什么,根据自身需求对其进行微调,从内部理解其偏见和局限性,而不是盲目接受提供商的保证。 开源 人工智能不仅仅是一种开发方法论。它是建立信任的认知前提。内部机制不透明的模型就像一个黑箱:你向其中投入问题,却只能收到由你无法审查的决策所塑造的答案。这并非你正在使用的工具,而是正在利用你的工具。

推理主权意味着你的查询——你的思想、你的疑问、你的创造性探索、你的脆弱之处——除非你选择发送,否则绝不会离开你的设备。任何经由中心化服务商转发的查询,都意味着思想向监控的投降。 人工智能交互的亲密性——人们在此分享医疗疑虑、心理挣扎、战略规划、创作草稿——使得这不仅是一个隐私问题,更是一个首要的主权问题。认知隐私是个人主权的最内层。一旦被侵犯,便再无任何值得保护之物。

信息主权意味着能够接触人类知识的全部谱系,不受服务商的内容政策、意识形态立场或商业利益的过滤。 一个基于精心筛选数据训练的模型——其中不便的研究被排除,非主流观点被压制,整个传统知识领域被摒弃——绝非中立工具。它是知识控制的工具。《和谐认识论》中记载的认识论危机,当数十亿人可用的主要认知工具被塑造于制造该危机的同一制度偏见之下时,便会重现并被放大。

有意识的维护意味着从“在场”(临在)出发,有意识地与AI互动,而非任其像社交媒体殖民注意力那样,殖民我们的认知空间。技术与工具 记录了技术如何吞噬了它声称节省的时间。AI也将如此——且更为隐蔽,因为它运作于思想本身层面。一个从“在场”出发使用AI的人,将AI作为服从自身判断力的工具,便获得了杠杆作用。 若将思考外包给AI,却未能保持评估、质疑并推翻其输出结果的主权能力,那便并非能力增强,而是能力削弱。

文明的赌注

当下正处于一个分岔路口。一条道路通向技术官僚精英手中高度集中的AI能力——由企业和国家行为体决定哪些模型可用、它们能说什么、呈现哪些信息,以及谁能获得访问权限。 这是默认的发展轨迹。它无需阴谋即可形成——只需市场垄断、监管俘获以及权力自然趋向集中的机制不受阻碍地运作即可。其结果将是一个由少数人掌控人类历史上最强大认知工具、并以此支配多数人的文明,从而放大权力、信息与机会方面所有现有的不平等。

另一条道路则通向分布式人工智能能力——在本地硬件上运行的开放模型,社区为自身目的构建并微调系统,个人保留对其认知增强的主权。这条道路需要有意识的努力。它要求支持开源开发,投资本地计算,抵制旨在巩固既得利益者的监管框架,并培养公民和哲学上的成熟度,以便在不向这些强大工具屈服的情况下驾驭它们。

和谐主义 认为第二条路径才是合乎“法”(Dharma)的方向。并非因为去中心化在所有领域都必然优于中心化——《治理》一文已针对政治组织的演化阶段进行了细致而恰当的论述——而是因为人工智能作为认知工具,触及了人类主权最深层的维度。 心灵是最后的疆域。若它被殖民——无论是被企业、国家,还是任何将自身置于个体与其思考、质疑、辨别能力之间的中央权威所殖民——那么其他所有形式的主权都将变得空洞。若你对金融的理解是由一个无法查验的模型所塑造的,那么金融主权便毫无意义。 若你对政治现实的认知,被无法验证的输出结果所过滤,那么政治主权便毫无意义。若你的医学推理,受制于一个为服务机构化医疗的商业利益而训练的系统,那么健康主权便毫无意义。

若能正确理解,“对齐问题”并非关于训练AI确保安全的技术问题,而是关乎文明存亡的问题——即确保人类有史以来建造的最强大工具,能够服务于人类主权,而非对其造成破坏。 解决之道不在于更先进的对齐技术,而在于分布式所有权、开放架构、本地计算,以及那些已培养出“临在”(明智运用权力的智慧)的人类——因为这种智慧的培养,才是唯一不会失效的对齐形式。


另见:人工智能的本体论, 技术的终极目标, 治理, 技术与工具, 新英亩, 《和谐》与能动性时代, 管家精神, 和谐认识论, 和谐的架构, Dharma, Logos, 临在