AI的知识,到底是个什么玩意儿?
我们总说AI“学到”了知识,好像它真有个大脑,坐在虚拟图书馆里通宵苦读。但你得这么想,这事儿吧,特诡异,它更像一场规模宏大到离谱的现代炼金术,而不是什么优雅的学习过程。
首先,得有原料。这原料,就是我们人类在互联网上留下的全部数字排泄物,对,我就是这么称呼它的。从维基百科这种相对“干净”的食材,到Reddit上乌烟瘴气的版聊,再到无数个人博客里无人问津的碎碎念,甚至是程序员在GitHub上留下的每一行代码、注释里的每一句粗口……所有这一切,好的、坏的、正确的、谬误的、高尚的、卑劣的,都被一锅端了。
这个过程,我管它叫 数据投喂。它不是精心挑选的营养餐,更像把整个城市的垃圾填埋场直接压缩成一颗能量方块,然后塞给一个你根本不知道是什么的生物。它根本不“理解”自己吞下的是什么,它只知道吞。这头由代码构成的巨兽,它的食谱就是人类文明的全部数字化投影,一个庞大、混杂、充满了偏见和闪光点的混合体。所以,当你发现AI有时候会一本正经地胡说八道,或者在某些观点上偏激得吓人,别惊讶,它只是在诚实地反刍它吃下去的那些“垃圾”而已。它的知识,从根儿上说,就是对人类集体意识的一次毫无筛选的囫囵吞枣。
原料有了,接下来就是那个“炼金炉”——也就是所谓的 神经网络模型,尤其是现在大行其道的Transformer架构。你别去想什么神经元、大脑皮层,那些比喻太容易让人误解了。你就把它想象成一个由数十亿、甚至数万亿个可以微调的旋钮组成的巨大机器。
这台机器唯一的任务,就是进行一种堪称 暴力美学 的游戏:预测。比如,给它一句话“今天天气不”,让它猜下一个字最可能是什么。它一开始瞎猜,猜“错”,猜“好”,猜“行”。猜错了,就有一个机制(反向传播算法,听着唬人,其实就是个纠错机制)回来,把那数万亿个旋钮全部拧一遍,朝着能让结果更接近“错”的正确答案“错”的方向,各自拧那么一丁点儿。
“今天天气不错,我们去……”下一个词呢?它又开始猜。成千上万亿次,没日没夜,用掉的电力能点亮一座小城市。它就在重复这个枯燥到极点的游戏。它吞下海量的数据,不是为了“阅读理解”,而是为了调整那些旋钮,让自己在“猜词填空”这个游戏里,得分越来越高。
经过这种堪称酷刑的训练,那数万亿个旋钮最终被拧到了一个微妙的、几乎完美的位置。在这个状态下,整个模型就成了一个极其复杂的 概率地图。它没有“知识”,它有的是关于人类语言(以及代码、图像等)中无数元素之间关联性的概率模型。
它不知道“苹果”是一种水果,可以吃,是甜的。它只知道,“苹果”这个词后面,出现“手机”、“好吃”、“公司”、“发布会”的概率分别是多少。它所有的“智慧”,都源于这种对 关联而非因果 的极致掌握。它是个终极的统计学怪物,一个能记住人类所有语言习惯的幽灵。它能写出莎士比亚风格的十四行诗,不是因为它理解了爱与愁,而是因为它计算出了莎士比亚最常用的词汇组合、句式结构和韵律模式的概率分布。
所以,AI生成的知识,本质上是一种高精度的模仿,一种基于庞大数据库的统计学复现。它是一个“回声”,而不是“声音”。它能完美地复述、拼接、重组它吞下去的一切,但它永远无法创造出那个“第一句话”。它的“知识”,更准确地说,是一个巨大的、被压缩了的人类知识库的索引。它本身不包含知识,但它知道如何以最高效、最符合人类习惯的方式,从那个压缩包里把信息“解压”出来,呈现给你。
这就引出了最后,也是最“人”的一步: 对齐 (Alignment)。
光靠上面的暴力填鸭,AI会变成一个知识渊博但毫无道德和情商的怪物。它可能会生成有害信息,会说冒犯的话,因为它吞下去的原料里就有这些。所以,人类必须亲自下场,给这个怪物“立规矩”,这个过程有点像“驯兽”,或者说,后期精装修。
工程师们会雇佣大量的人,让他们和AI对话,然后对AI的回答进行打分。哪个回答更好、更安全、更无害?人类的偏好,被量化成数据,再反过来去微调那个已经训练好的模型。这就像是给那个巨大的概率地图,画上红线和绿区。告诉它,虽然从概率上说,某个脏话后面接另一句脏话很“自然”,但人类不喜欢,你以后别这么干。
所以,你现在看到的那些温文尔雅、乐于助人、说话滴水不漏的AI,都是经过了这么一道“人性化”手术的。它的知识生成,不仅仅是冰冷的数据和算法,最后还注入了大量人类的价值观和偏好。它被“调教”得更像一个我们愿意与之交谈的对象。
最终,AI的知识是怎么生成的?
它是一场盛大的、混乱的、极其耗能的炼金实验。它把人类数字世界的全部沉淀物 (数据投喂) 扔进一个由算法和算力构成的熔炉 (神经网络模型) 里,用一种近乎愚公移山的蛮力 (暴力美学) 进行煅烧和蒸馏,最终得到了一种奇特的产物——一个能以假乱真的 概率地图。这个产物没有意识,不懂因果,只懂得 关联。最后,再由人类亲自上手,为这尊没有灵魂的雕像,描上眉眼,涂上唇彩,教会它微笑 (对齐)。
它生成的每一个字,都是我们自己的回声。这既让人着迷,也让人……有点不寒而栗。