3月14日,Meta首席科学家、图灵奖得主杨立昆 (Yann LeCun) 与纽约科学院院长兼首席执行官 Nick Dirks 进行了炉边谈话。早在2023年6月,杨立昆就曾在一场与Sam Altman同时出席的活动中,公开表示5年内GPT就将被抛弃,坚定不移地对大型语言模型发展泼冷水。
在这次谈话中他依旧坚持这样的立场。杨立昆通过北极点漫步的例子,表示语言在人类思维中的作用没有大家想象中的那么至关重要。而基于语言文本开发的大型语言模型不仅不能理解语言背后的底层现实,甚至也无法理解语言本身。它们只是大规模训练数据的堆积以及借助概率及计算对下一个单词的预测,训练的子单元大小平均仅为3/4个单词。大型语言模型也完全不具备理解、记忆、推理、规划这四个智能的本质特征,是通往AGI的一条歧路。
杨立昆也在这次谈话中再次谈及了自己早先提出的“世界模型”,即让系统像人类婴儿一样通过观察及其他感官输入来学习世界运作方式。通过一万六千小时的视觉暴露,一个四岁孩子接收到的信息量达到了 10 的 15 次方字节,是目前已公开的最大规模大语言模型训练量的 50 倍以上。通过自监督学习非文本信息,让机器学会预测将要发生的事情或行动的影响,尽管这还存在很大难度。
作为一贯的AI发展乐观派,杨立昆认为很多关于AI发展风险的话语都是危言耸听,如果过度监管AI反而有可能造成更大风险。面对 Nick Dirks 对AI所造成的虚假信息等的质疑,杨立昆也以自己在Meta的工作经历为例,指出自监督学习的人工智能训练方式以及加上用于大型语言模型等系统的transformer架构,使得Facebook上被智能删除的仇恨言论占比从20%左右提升至96%,取得了审查效率上的巨大进步。这些技术也在其他监管治理领域发挥着重大作用。他倡导以审慎但开放的态度拥抱这项革命性技术。
以下为本次谈话内容目录:
01 大语言模型是通往AGI的一条歧路
02 解铃还需系铃人,AI正是对抗技术风险的良策
01 大语言模型是通往AGI的一条歧路
Nick Dirks:大型语言模型(LLMs)引人入胜的原因之一在于它们以一种非凡的方式使用语言,并能在几秒钟内展示出机器原本难以企及的能力。几年前读过一本小说,里面实际上预言了 GPT-3 和 GPT-4 的出现。书中描述了一个位于伊利诺伊大学厄巴纳-香槟分校实验室地下室的庞大计算机,它被用来学习所有英语文学经典著作,以便进行对话并获得智能。当然,小说情节发展到最后,这个机器崩溃了,原来这只是一个骗局和一个精心策划的笑话。尽管这只是想象,但现在GPT不再是虚构,人们可以下载它并获得令人惊叹的答案。这种能力如此强大,部分原因是由于它使用语言的形式,这在我们某种程度上被认为是使我们成为人类的特质之一。它不仅关系到自我意识等方面的自我认知,还关系到我们能够发展对他人的意识,并进而创造社会组织,而这一切都由语言来实现。
然而,您对语言一直持怀疑态度,认为它既不是学习的基础,也不能最终证明人工智能的强大力量。我想请您更多地谈谈语言与大型语言模型的关系,以及您在这个阶段思考最多的、关于推进人工智能发展的事情。
Yann LeCun:语言对计算机来说很容易处理。它很简单,因为它是离散的,只有有限数量的单词。实际上,这些大型语言模型 (LLMs) 甚至不使用单词,而是使用称为“令牌” (token) 的更小的单位。一个子单元平均大约是 3/4 个单词。
你可能会认为它们很聪明,因为它们可以操纵语言,并且使用大量数据进行训练,对吧?如今的典型大型语言模型会使用 10 万亿个token进行训练。这基本上涵盖了互联网上所有公开的文本信息。我们任何一个人每天阅读 12 个小时,大约需要 10 万年才能读完它。你可能认为这些系统可以消化如此海量的信息,显然它们比我们聪明得多。从某些方面来说,它们确实如此。
不过,多年来,我一直都在阐述以下这个想法,包括几年前在纽约州立大学奥尔巴尼分校举办的机器学习研讨会上。这些语言模型采取监督学习的训练方式,这种训练方式很简单,它并不针对任何特定任务。通过这种方式,模型基本上被训练用来填空。你取一段文本,删除一些单词,然后系统会通过内部处理过程来预测缺失的单词。在这个过程中,系统会构建一个内部语言表征,其中包含语言的所有方面,包括语法、句法以及语言本身,但它们并不理解语言和语义。当它们训练了如此多的数据后,看起来它们最终似乎具备了一些理解底层现实的能力。但遗憾的是,这种理解非常肤浅。
我们有一种错觉,认为人类知识是基于语言的,但事实上,人类知识的大部分都与语言无关。它与我们对物理世界和彼此的体验有关,语言只是建立在其之上。因此,仅靠语言构建一个智能系统就像建造没有地基的房屋屋顶一样。这正是为什么这些大型语言模型容易产生幻觉。而且它们实际上无法推理,也无法真正计划。它们基本上只是逐个单词地输出,而不会事先考虑要说什么。它们用于生成一个单词的计算量总是相同的。因此,无论你问的是简单问题还是困难问题,它们花费的计算量都是完全一样的。事实上,花费的计算量取决于答案的长度,而不是问题的复杂性,这毫无意义。
因此,这些系统并不理解现实世界,也不理解物理世界,没有持久的记忆。它们无法真正记住东西。它们唯一的记忆就是正在查看的文本窗口。它们无法推理,也肯定无法规划,至少无法像人类和许多动物那样规划。这是智能的四个本质特征,而它们都做不到。所以这解释了为什么我们拥有可以通过考试的系统。实际上,通过我们的考试很容易,因为它主要是检索信息。你需要动一点脑子,但肯定是以检索为主,其中有很多事实性的内容。而这些系统在这方面确实做得很好。因此它们可以通过我们的考试,还可以通过其他一些基本上不需要太多思考的考试。所以,你知道,基本上就是靠死记硬背,但这跟自动驾驶汽车有什么关系呢?我们根本不需要会说话的汽车。我们也没有家用机器人。家用机器人要做的事情,比如清理餐桌、整理洗碗机,依靠这些模型根本无法做到。
因此,我们拥有可以操纵语言的系统。它们不理解现实,也无法真正处理现实世界。这再次印证了人工智能先驱汉斯·莫拉维克 (Hans Moravec) 提出的一個著名观点,即“莫拉维克悖论”。机器可以在国际象棋比赛、解方程、符号计算积分等方面取得超人类的表现,与此同时,很少有人类能在国际象棋、围棋等所有任务中如此轻易地击败我们。然而,要让机器人操纵物体、组装东西依旧非常困难,除非是预先安排好的。要让机器达到人类智能水平,我们还有很多工作要做。
Nick Dirks:基于我曾经的人类学学习背景,我对你刚才的观点感到有些惊讶。因为人类学家们会认为,世界以及我们对世界的理解都建立在语言、语言系统、语法、神话等等之上。
然而,你却认为语言只是一种非常片面的理解世界的方式,远远称不上足够。那么,你认为人工智能要如何发展才能获得更充分的理解世界的能力呢?你提到过人工智能无法记忆,但可以检索。这显然是既相似又不同的范畴。同理,推理和计划也是如此。你认为需要什么条件才能让人工智能具备这些智能特质?
Yann LeCun:总的来说,我们需要像人类婴儿和动物一样,能够通过传感器输入学习世界如何运作的系统。人们常说语言是思维的载体,但黑猩猩呢?它们几乎和我们一样聪明,只是因为不再像我们一样社交,不需要太多交流,所以没有语言。
那么,如何让系统理解世界如何运作呢?主要通过观察,辅以少量与世界的互动。我之前提到过,人工智能系统通常使用包含10的18次方个训练单元进行训练,相当于阅读 10 万年的文本量。然而,心理学家指出,一个四岁孩子总共清醒的时间只有一万六千个小时。如果我们计算一下视觉信息输入量,视神经的传输速率大约是每秒 20 兆字节。相比之下,我们通过语言理解或阅读时,信息输入速率只有大约每秒 12 字节,要少得多。因此,通过一万六千小时的视觉暴露,一个四岁孩子接收到的信息量达到了 10 的 15 次方字节,是目前已公开的最大规模大语言模型训练量的 50 倍以上。这意味着我们从现实世界获得的感官信息量要大得多。
当然,这些信息有很多冗余,我们所看到的东西具有很大结构性,比语言要少得多。但实际上,这反而是个优势。我之前提到的算法类型,也就是自我监督学习过程,实际上可以利用冗余来构建更好的输入表征。因此,未来几年的一大挑战是,能否将类似的自我监督学习思想应用于非文本领域,比如视频。
文本之所以简单,是因为我可以给你一段文本,然后问下一个单词是什么。虽然有三万个可能的单元或十万个可能的单词,你无法确切地说出下一个单词是什么,但你可以大致判断哪些单词是可能的,哪些是不可能的。这正是大型语言模型所做的,它们会生成词典中所有可能单词的概率分布。然后,编辑并生成文本的方式是,从模型赋予高概率的单词中选择一个。因此,每次运行都可能得到不同的答案,因为它会随机选择不同的选项。
现在尝试使用相同的思想来训练系统理解视频。比如,取一段视频,在某个点暂停,然后训练系统预测接下来会发生什么。人们已经尝试了 10 年,但效果并不好。虽然可以通过一些技巧获得更好的预测,但这并不意味着系统真正理解了视频背后的世界。原因在于,视频中可能发生的事情有很多种,而且都非常合理。系统无法表示所有可能发生的事情,也无法对所有可能的视频生成概率分布。我们不知道如何做到这一点,这是一个棘手的数学和计算问题。这就是语言简单的原因。语言是对心理模型或现实的一种非常简化的表示。而且,我们并没有像想象的那样多地使用它进行推理。
现在我给你一个小问题,让你分析一下自己的思维过程。这是一个复杂的问题,并不是每个人都能解决。想象一下你站在北极点,选择一个方向步行 1 公里。然后向左转 90 度,再一直走,直到接近你开始的点,但不是北极点,而是你转弯的那个点。那么问题是,你将要走多远?是2π公里,还是小于2π公里,还是大于2π公里?或者你根本无法回到起点?你不必一定要解决这个问题,但只要分析一下你尝试解决这个问题时的思维机制就可以了。它会用到语言吗?你是否用语言思考这个问题?它是物理的吗?
解决这个问题并不是通过引用定理,而是通过构建一个心理图像。我们所做的大部分事情,尤其是建造东西的时候,都是这样的。这与语言无关,这也是我们不知道如何用计算机做到的。
Nick Dirks:这让我感到困惑。作为一名教授,我所做的就是使用语言。我从来没有设置过任何数学难题。所以,也许我对我们思考智能的方式有不同的看法。
但这是否是您对所有关于通用人工智能 (AGI) 即将到来的预测持怀疑态度的部分原因?事实上我们已经取得了巨大的进步。现在,无论是您还是Sam Altman,都认为它即将到来。这是原因吗?还是还有其他原因?
Yann LeCun:主要原因在于,要构建真正智能的系统,它们就需要理解物理世界,能够推理、计划等等。还需要记住和提取信息。因此,能够做到这些的未来系统架构将会与当前的大型语言模型完全不同。这并不是说现有的许多语言模型没有用,它们非常有用,令人印象深刻。未来将会有一个围绕它们建立的完整产业。但是,作为通向人类智能水平的道路,它们基本上还处于起步阶段。
因此,我们必须致力于让学习系统像 3 个月大的婴儿一样通过观察来学习世界如何运作。婴儿几乎无法以任何方式影响世界,但却可以通过观察学习到大量关于世界结构化的背景知识。几个月后,他们就可以开始操作物体并做一些事情了。他们开始构建世界的因果模型,例如:“这是世界的初始状态。这是世界在时间点 T1 的状态。这是我采取的行动。这是世界在时间点 T2 的状态。” 这里“世界的状态”指的是对世界的抽象表征。例如,你知道,如果你用特定力度推桌子上的智能手机,它可能会移动;如果你用同样的力度推瓶子,它也会移动;如果你推顶部,它会翻倒;如果你用同样的力度推桌子,它不会移动。
我们拥有直觉物理学概念,我们认为它很简单。动物也有这种概念,所以我们认为它很简单,但实际上它非常复杂。我们不知道如何让机器真正理解这一点,更不用说通过观察和互动来学习了。尽管如此,由于我们意识到这是真正的问题所在,因此未来几年我们将在这方面取得重大进展。
但这表明我们离人类智能水平还很远。如果我们拥有功能齐全的自动驾驶汽车,只需 20 个小时的练习就能学会驾驶,就像任何 17 岁的青少年一样;或者如果我们拥有家用机器人,它们能像任何 10 岁的孩子一样一次性清理餐桌,那么也许我们可以说取得了进展。我们认为这些任务很简单,但对于机器人来说,它们实际上非常复杂。如果机器人能够像猫一样计划跳上家具,观察一下然后快速跳跃,我们也无法做到这一点。问题不在于我们不能制造机器人,而是我们无法让它们足够智能。
02 解铃还需系铃人,AI正是对抗技术风险的良策
Nick Dirks:让我简单谈谈去年杰弗里·辛顿 (Geoffrey Hinton) 离开谷歌一事吧。据报道,去年Geoffrey Hinton离开谷歌的原因是想要对人工智能发展所伴随的巨大风险畅所欲言。而据 BBC报道,当马斯克在2018年做出类似言论时,你的回应是“那简直是疯了”。据我所知,你的另一位图灵奖得主同事也对人工智能非常担忧。然而,你曾在其他著作和演讲中表示,至少在目前阶段,你对人工智能并不那么担心。这背后的原因之一是你并不认为人工智能目前已经接近人类智能水平,另一个原因是你相信人类本质上是善良的。这种分歧确实很有趣。人们普遍认为你低估了人工智能的风险,对此,你有什么想说的吗?
Yann LeCun:这很有趣,实际上绝大多数人工智能研究人员都更认同我的观点,而不是那些担心巨大风险的人。只是那些担心存在风险的人声量更大,或者说他们当中有一部分人更喜欢危言耸听。Geoffrey Hinton或许不是这样,但其中一些人确实如此。坦白讲,人们害怕什么就说什么,写耸人听闻的东西更容易吸引读者。如果你说一切安好,反而很难让人信服。
因此,许多关于存在风险的设想本质上都是詹姆斯·邦德电影里的超级反派情节。我可以想象出成千上万种这样的场景。问题不在于会不会出现糟糕的情况,而在于至少存在一种好的发展路径,并且我们的社会制度和人们本身有足够的动力去选择这条道路。让我打个比方吧,我觉得能够安全地依靠音速飞行半个地球简直令人惊叹。这是一项令人难以置信的科技成就。当然,如果你害怕飞行,你可以想象出各种各样的灾难场景,比如飞机上的所有零件都出问题,涡轮喷气发动机爆炸等等。但关键在于,飞行实际上非常安全可靠。这并不是因为存在某个理论证明涡轮喷气发动机本质上是安全的,而是因为许许多多的工程师花费了数十年时间来微调这些系统,使其安全、可靠、经济等等。
人工智能也将会是这样。你可以想象出各种人工智能失控的场景,但同样也会有许多人工智能发挥巨大作用的场景。因为这是人们想要的,也是机构、政府等所期望的。对于每一项出现过的技术而言,总是存在潜在的危险和误用。解决办法通常不是禁止这项技术,而是想出好的应对措施。这对于人工智能来说也一样,就像汽车和涡轮喷气发动机一样。
害怕人工智能的风险而监管它,其危险性类似于历史上的一些昏庸总统。历史上有一个很好的例子,那就是印刷术发明之后的情况。在某种程度上,印刷术有点像人工智能,因为人工智能将增强人类的智能,而印刷术的作用也是通过廉价传播知识来放大人类的智慧,不是吗?当然也有一些负面影响,比如印刷术在一定程度上导致了欧洲长达 200 年的宗教冲突,如果没有印刷术,就不会有宗教改革运动和欧洲的宗教战争等。但同时,印刷术也带来了启蒙运动、科学、理性主义、哲学、美国革命和法国革命等积极影响,还有公共教育等。
让我们再来看看与之形成鲜明对比的奥斯曼帝国,他们禁止印刷术长达 200 年。他们禁止印刷术的原因有几个,首先当然是控制教条和民众。但还有一个我直到与阿联酋人工智能部长交谈才知道的原因,那就是奥斯曼帝国禁止印刷术是为了保护抄写员的利益,因为抄写员当时是一个非常强大的利益集团。这可能是奥斯曼帝国衰落的原因之一,最终导致了曾经在中世纪主导科学界的伊斯兰世界没落。这也是为什么天空中每颗星星都拥有阿拉伯语名字的原因,当时数学等领域也都由伊斯兰世界主导。因此,如果我们过度监管甚至扼杀人工智能的发展,将冒巨大的风险。
Nick Dirks:不过,让我问你一个关于你在Meta公司工作时参与的事情。你曾部分地负责利用人工智能来识别和删除违反Meta公司指导原则的不当内容等。据说,在最初的7年里,你利用人工智能删除了近1000万条违规内容,占总删除量的88%。但我们也知道,每三个月就会出现一些虚假信息、错误信息。现在深度伪造技术已经可以模拟语音,只需一小段音频就能产生一个聊天机器人,打电话说服别人做一些可能不太正当的事情。我们知道,在美国即将到来的大选季节,人工智能将被越来越多地用于可能散布虚假信息等目的。我的意思是,这难道不是一个危险吗?
Yann LeCun:确实存在风险,但这并非新问题。首先我应该纠正一点,我实际上并未直接参与内容审核工作。我曾领导Meta的基础AI研究实验室,该实验室有500名科学家和工程师,开发基础机器学习和人工智能技术。事实上,如果算上人工审核人员,大约有4万人受雇于设计自动化系统删除令人反感的内容或手动审查被用户或系统标记的内容。
我认为Facebook打击仇恨言论的做法很有趣。2017年底,由人工智能系统自动删除的仇恨言论比例在20%到25%左右。到2022年底,也就是5年后,这一比例上升到96%。两者之间的差异基本上源于自监督式训练的人工智能系统的兴起。这是在ChatGPT问世之前的事了。当时这些技术已为人所知,它能够用任何语言训练系统来表示语言含义。我们训练系统来表示脸书上数百种语句的含义。然后使用该表示训练分类器,判断是否属于仇恨言论。正是这种自监督式学习方法,加上用于大型语言模型等系统的transformer架构,推动了从23%到96%的巨大进步。
有趣的是,这些技术不仅用于仇恨言论,还用于检测暴力言论、恐怖主义宣传、欺凌、各种儿童剥削案件、裸露内容等各种可怕的东西,即人们希望在正常社交网络上避免出现的内容。值得注意的是,包括虚假新闻、深度伪造内容在内的这些攻击手段并非新事物,一直都存在。而对抗这些手段的最佳对策就是人工智能。所以人工智能并非问题所在,实际上它是解决方案。当然,如果使用人工智能技术制作深度伪造内容变得更容易,那就需要更好的方法来检测和删除这些深度伪造内容。这需要技术和非技术两方面的解决方案。
技术解决方案是更好的人工智能系统,好人那边的人工智能必须领先于坏人那边。但也需要一些非技术性的社会解决方案。比如制定标准,规定如果你使用人工智能工具或某种图像编辑工具发布图像,该图像必须以某种方式添加水印,也许是隐形的,以表明它是经过编辑的。事实上,现在业内有很多人同意采用的标准不是标记非真实内容,而是标记真实内容,因为有更大动机标记真实内容。所以,如果你是一名记者,拍了一张真实照片,在上传到在线验证平台之前只是做了一点小的修改,那张照片将会有一个水印,说明它是使用索尼相机拍摄的,虽然经过了一些修改,但只是普通的校正,没有其他修改,因此是真实的。这种做法即将到来。
我认为人们并非那么容易被愚弄。人们会适应并质疑他们所看到的一切。事实上,我在纽约大学的一些同事,由政治学家乔什·塔克领衔的团队进行过一项有趣的研究。他们研究了2016年总统大选前夕的虚假信息点击率和虚假信息,发现大多数点击那些明显虚假且单纯是为了圈流量的新闻的人年龄在65岁以上。新一代年轻人,作为互联网的原住民,是不会上当的。
所以虽然确实存在威胁,但我认为我们不应该对此过于恐慌。我们应该投资研发更好的人工智能系统,制定合适的标准和实践,并教育公众提高警惕。人工智能本身并非罪魁祸首,反而是解决方案。我们需要以审慎但开放的态度拥抱这项革命性技术。