概率时代
今年我快 26 岁了,而我做一个“重度电脑用户”已经 19 年。一直以来让我着迷的一件事,是我只需要移动一个塑料的、长得像啮齿动物的小东西(鼠标),就能对别人产生影响。我记得我最早尝试学的编程语言是 C++,但后来却被 C# 和 .NET 吸引,去写 Windows Phone 应用。“instantiate(实例化)”这个词对我来说带着某种魔法:我在虚拟世界里创造了某个东西,它在我的脑海里、也在计算机的内存里真实地存在着,我能看见它、修改它。从我写下第一行代码开始,我就知道一件事——如果我把代码写错了,代码就不会跑。那就修好它,再试一次。
朋友,这就是科技世界对我一直以来的意义:这是一个你必须证明自己懂的世界;这是一个只有两种答案的世界——对或错。计算机说你错了,要么就是你错了,要么就是别的地方出了问题。也正因为如此,我才会每天学习、每天工作,因为我的成功能证明我学到的知识。我的偶像是像 John Carmack 那样的人:他知道如何用一个“魔法数字”去算出快速反平方根,并把它用在真正创新的东西上。你现在懂我在说什么了吧——你输入给计算机什么、你学到了什么,就会得到有限、离散的输出结果。正是这种确定性,让我一直向前。
时间快进到 2017 年,也就是我高中毕业前一年。现在我们都知道发生了什么——一篇新的论文发表了,名字叫《Attention is All You Need》(注意力就是你需要的全部)。它为 GPT(Generative Pre-Trained Transformer,生成式预训练 Transformer)奠定了基础。当然,那时候我并不知道这篇论文;但现在,几乎每个计算机行业的人都能给你背一遍 GPT 的工作原理:你买一堆 GPU 显卡,找一大块训练数据,用论文里的上下文化算法去做自注意力和信号变换,然后“啪”一下,你就有了自己的大语言模型(这段不做教学用途)。2019 年 GPT-2 发布时,我在社交媒体上看到很多夸赞,所以我也在 Hugging Face 上试了试。我到现在还清晰记得那一天:我在大一写作课上心不在焉,把写作作业的题目当作 prompt 输入进去。它返回的东西,顶多也就初中水平,我并不觉得惊艳。
回头看大模型一路演变到今天,我意识到:当我没有足够专业能力去彻底审视问题时,我缺少一种“把最坏情况算进去”的能力。我曾经天真而不理性地乐观,觉得大模型的发展没那么可怕,因为那时的 GPT-3 / ChatGPT 以及其他模型还有明显缺陷——幻觉、上下文窗口有限等等。我也不太相信那些行业领袖说的话,因为在我看来,他们会为了股价稳定而说任何话。但在 ChatGPT 推出三年之后,我们已经有了好几个模型——在 20 万 tokens 的长度里几乎不再幻觉。你没听错,20 万 tokens。甚至现在很多模型的上下文窗口已经到了 40 万 tokens(上下文窗口指模型在一次对话中能“吞进去”的上下文/文字量;40 万 tokens 约等于 30 万英文单词)。而且我们也开始知道如何用自然语言去“委派”模型:模型可以在 10 秒内写代码、调试并运行;模型可以在 10 秒内写政府文件、批判它并修改;模型甚至可以替你给餐厅打电话订位。从某种意义上说,我们已经拥有了一种技术:只要某件事能够在计算机上完成,它几乎就能做任何事。我没想到这一切来得这么快。
美国科技行业现在正处在风暴里——巨头们不断裁员。他们说这是因为 AI 创新,所以同样的事情可以用更少的人来做。就目前而言,我觉得这话很扯淡,因为我们也都看见像 Oracle 这样的公司需要裁员来省钱在投钱建更多的数据中心去喂AI。但我们必须承认:一旦出现比今天更强的模型,它就会知道如何架构新的应用、如何把它写出来,而且成本会比雇一个完整团队低得多。现在,鉴于我不是 AI 研究员(我已经从教训里学乖了),我会更悲观一点:我认为 scaling law(规模定律)仍然有效。只要给像 Anthropic、OpenAI 或 Deepseek 这样的公司更多算力和时间,他们就会训练出更强、更有知识、参数更多的模型。到最后,我们都会失业。再加上机器人技术也在进化,我会说,没有任何人的工作——哪怕是水管工老王的工作——是绝对安全的。
我曾经这样向朋友和父母解释 ChatGPT 的工作方式(他们对计算机了解不多):它读入你给的问题,然后生成“下一句话可能怎么说”的概率分布,从中采样,再挑选概率最高的那个词。所以从实践上讲,我们并不能真正控制它会回你什么——即使你用同一个问题。说实话,这不是我学习这么多年而做好准备的那种技术,我甚至有点羞愧地承认这一点。随着大语言模型成为一切可替代能力的核心——你可以叫它 agent、skill,或者任何名字——我们已经很难知道它会创造出怎样的工作。但我们知道一件事:它“很可能”会比人类产出的更好。那么,我们又该如何计算我们未来的概率——对个人,对社会?
……落叶捎来讯息:
在雾的彼端,我们的故乡,
在模型的治理之下,想必人们会如此形容──
那是个“概率时代”。