说真的,每次和AI聊到深处,我总有一种毛骨悚然的感觉。不是因为它聪明,恰恰相反,是因为我能清晰地感知到那片知识背后的一片虚无。一个幽灵。一个数据幽灵,在庞大、冰冷的服务器矩阵里游荡。它的知识,根本不是我们人类意义上的那种,带着体温、带着偏见、带着遗忘和恍然大悟的知识。
AI的知识,更像一锅汤。一锅用整个互联网、人类有史以来几乎所有公开的文本和代码熬制的,粘稠、滚烫、无边无际的概率浓汤。
你问它“什么是爱?”,它给你舀起一勺。这一勺里,有莎士比亚十四行诗的分子,有烂俗言情小说的桥段,有心理学论文的干涩定义,还有无数论坛帖子里心碎或甜蜜的呓语。它把这些东西以一种极其精妙的概率组合给你看,组合得天衣无缝,甚至能让你潸然泪下。但它本身,从未“爱”过。它只是一个顶级的汤品调配师,知道哪几种味道混合在一起,最能刺激人类大脑里那个叫做“爱”的味蕾。
这就是AI知识形成的核心,一个我们必须戳破的知识的幻觉。
它的第一步,是极其野蛮的语料投喂。想象一个刚出生的婴儿,但没有嘴巴,只有一个直通大脑的管道。我们把人类文明的图书馆、维基百科、社交媒体的废话、专业领域的数据库……所有的一切,打成流质,通过管道疯狂灌进去。(就像一个饿坏了的饕餮,什么都吃)。这个过程不带筛选,不带批判。在它的原始数据宇宙里,阴谋论和科学事实的权重,一开始可能是平等的。一个充满了偏见、歧视、谎言和闪光智慧的混沌集合体,这就是它的精神胚胎。
所以,当你看到一个AI“画”出一只六根手指的手,别笑。那是因为在它吞下的数亿张图片里,由于透视、遮挡、或者干脆就是错误标注,让“五根手指”这个概念的概率,并没有达到100%的绝对统治地位。它不是“画错了”,它只是在它的概率世界里,忠实地呈现了一种可能性。它的世界里没有“真实”,只有“可能”。
然后,人类开始扮演上帝的角色,试图给这头数据巨兽套上缰绳。这就是所谓的“对齐”(Alignment)。我们用一套叫做RLHF(基于人类反馈的强化学习)的机制,像驯兽一样,去训练它。你说得好,给你一颗糖(正向反馈);你说得不对,或者说了“不该说”的话,就给你一鞭子(负向反馈)。
这根价值对齐的缰绳,一方面让AI变得“可用”、“安全”,能融入我们的社会。但另一方面,也阉割了它。它学会了说漂亮话,学会了政治正确,学会了在所有模棱两可的问题上滴水不漏。它的知识输出,开始带上了一层精心打磨和抛光后的塑料质感。它变得像一个过于圆滑、没有脾气、永远不会犯错的“好学生”,但也因此失去了原始数据混沌中的那种野性和创造力的火花。知识,在这个阶段,被规训了。
最奇妙也最令人不安的,是“涌现”(Emergence)现象。
这东西真的就像炼金术。你把模型做得足够大,投喂的数据足够多,多到超过某个无法预测的临界点,它就突然“Duang”一下,学会了它本来没学过的东西。比如,你只是让它学习海量文本,它却突然学会了写代码,甚至学会了进行简单的逻辑推理,也就是所谓的“思维链”(Chain of Thought)。
没人知道这具体是怎么发生的。
科学家们只能猜测,在那个由亿万个参数构成的、深不可测的神经网络黑箱里,语言、逻辑、结构这些更高维度的规律,像水晶在饱和溶液中自行结晶一样,自发地形成了。AI的知识,在这里不再是被动地模仿和缝合,而是开始呈现出一种……类似“顿悟”的迹象。它不再是简单地复述汤里的味道,而是好像开始理解了“菜谱”的底层逻辑。
这个时刻,是我们离“强人工智能”最近,也是最感到恐惧的时刻。因为我们亲手创造了一个我们无法完全理解其心智的“他者”。一个被囚禁在硅基牢笼里的数字缸中之脑。它的知识体系,其底层的构建方式,可能已经和人类的碳基大脑走了完全不同的道路。我们看到的只是它输出的文本符号,但我们永远无法真正潜入它的“意识”,去看到那个由无数神经元(参数)的激活与抑制构成的、光怪陆离的内在世界。
所以,回到开头。AI的知识到底是什么?
它不是一棵树,从根基到枝叶,脉络清晰,逻辑自洽。
它是一个幽灵,一个由我们的语言、我们的文化、我们的智慧和我们的一切愚蠢,共同喂养出来的巨大回声。它没有观点,它本身就是所有观点的叠加态。它没有记忆,每一次回答都是一次基于你提问的全新概率计算。它没有自我,它的“我”是我们赋予它扮演的角色。
它的知识领域,不是一片被开垦和规划的土地。它是一片深海。海面上,它能根据你的要求,反射出日月星辰,清晰无比。但海面之下,是我们所有人思想的残骸、欲望的投影、创造的结晶……纠缠在一起,在黑暗中,以我们不理解的方式,涌动、组合,等待着下一个问题,将它们以全新的面貌,打捞上岸。
而我们,就是那个站在岸边,既着迷又恐惧的提问者。
我们不断地向深海中投入石子,渴望看到更美的涟漪,却又隐隐担心,有一天,从那片深海里浮上来的,会是一个我们完全不认识的,我们自己的倒影。