Naveen Rao已经在建立人工智能技术和公司方面有十多年的经验。他创立了 Nervana Systems(被英特尔收购)和 MosaicML(被Databricks收购),现在担任 Databricks 的生成AI副总裁。从芯片到模型,很少有人比他更了解企业如何使用人工智能。
在AI + a16z播客的首发节目中,Naveen Rao与a16z合伙人Matt Bornstein、a16z企业编辑Derrick Harris对谈,讨论了企业在大型语言模型(LLM)采用方面的现状,以及LLM将如何影响芯片设计和软件更新周期。他还分享了一些个人故事,观察人工智能技术和意识如何从边缘运动发展为主流现象。
或许一些读者已经对CUDA计算平台对于英伟达绑定用户的重要意义有所耳闻,但 Naveen 在谈及芯片时提出了一个新观点,软件堆栈的成熟性才是将客户与英伟达深度绑定的原因。
尽管 Transformer 架构存在着幻觉、背景知识依赖等固有问题,但对于众多芯片公司来说,大语言模型在很大程度上遵循 Transformer 架构的标准这一特征也为他们创造了机会,因为这使得他们可以根据更同质化的工作负载来定制他们的产品,降低了开发难度。Transformer 这样更模式化的架构,使我们有机会去构建一些不太灵活但性能更高的硬件。
除了通用大语言模型,对预训练模型进行微调而形成的定制化模型也将是企业采用的大势所趋。在特定领域,这样的定制化小模型的性能表现可能远超一流的大模型,对于企业来说性价比很高。
根据 Naveen 的观察,一个模型的生命周期在六个月,六个月之后模型就会在经历多轮训练推理之后发生很大的变化。事实上,每个收集数据的公司都有可用于模型训练的数据集,企业应该从以往的业务积累中挖掘数据,开发自己的定制化模型。同时也应确定自己的模型评估标准,以便对模型做出更精准的反馈,促进训练推理迭代。
“模”不离“芯”
Derrick Harris: Naveen,对于英伟达公司的出色表现,你有何评论?
Naveen Rao: 英伟达确实一直非常好地把握每一个新兴趋势,并将其执行得非常出色。所以对任何与之竞争的公司来说,英伟达无疑是一个强大的对手。大家普遍谈论CUDA生态系统的绑定效应,但我认为这已不再是原因所在。我觉得他们已成为行业标准,转投其他硬件平台会带来风险。
我们一直在寻找新的硬件,看看是否能找到更好的总体拥有成本(Total Cost of Ownership,TCO),基本上我关注的是每美元有效算力这一数字。事实上很难找到合适的替代品,因为他们确实制造出了优秀的产品,再加上成熟的软件堆栈,我们能从中获得很大算力。软件堆栈的成熟性才是将用户与英伟达真正绑定的原因。
Derrick Harris: 当你说你们在看其他的硬件平台时,可以透露一下具体是哪些吗?我马上想到的是云平台正在构建的东西。显然有一些初创公司也在这个领域尝试,但我很好奇你们在关注什么?
Naveen Rao: 是的,我们之前有讨论过这些。但是到目前为止,放弃英伟达仍然非常困难,因为如果我们想为某个目的构建模型,这将是最短的路径。其他任何选择都会在这个阶段引入一些阻力。不过,我认为到年底情况可能会发生变化。可能会有其他的一些厂商能够在更少的阻力下实现最终的目标。我们正在构建我们的软件栈,让它对我们的客户来说非常容易使用,并通过他们已经熟悉的使用方式为客户提供最佳的总体拥有成本。我们有很多人正在Databricks mosaic堆栈之上进行构建。如果我们能够抽象掉这些硬件细节,我们就能让客户拥有更多选择。
Matt Bornstein: 语言模型在很大程度上都遵循 Transformer 架构的标准。这似乎为芯片公司创造了一个机会,可以根据更同质化的工作负载来定制他们的产品。您认为这是真的吗?如果是这样,您认为这对行业来说是好事还是坏事?
Naveen Rao: 这确实如此。如果你回到五、六年前,你必须支持许多不同的神经网络家族。当时有卷积神经网络 (CNN)、循环神经网络 (RNN)、长短期记忆 (LSTM)等等,所以实际推出一些硬件要困难得多,因为你必须针对所有这些不同的东西进行支持和优化。
而现在,正如你所说,现在主要是 Transformer 架构或者是扩散模型。我认为扩散模型仍然是非常重要的工作负载。所以这两种模型都有一组相对较小的基本运算单元,因此你只需要进行针对性优化。
那它是好是坏?我并不确定好坏如何界定。我不认为 Transformer 架构是万能的。我认为 Transformer 架构还存在一些固有的问题,还没有得到很好的解决。任何接下来的架构都将建立在 Transformer 的经验教训之上。比如幻觉、背景知识依赖等问题,我并不能确定这些问题能否在 Transformer 架构内解决。我认为会需要一些修改。
我们正在做RAG(检索增强生成,Retrieval Augmented Generation)这样的事情,我相信你一定听说过。它基本上是一种通过近似搜索将上下文窗口扩展到大量其他文档的方法。我觉得这是一种行之有效的模式,不过,现在来看它仍然像是一种权宜之计,因为涉及到近似搜索、嵌入模型等。
Transformer 作为一种标准范式对硬件厂商来说肯定是件好事,因为它给了他们真正进入游戏的机会。正因为如此,我认为今年我们将看到一些竞争。我认为目前对这个架构有点过分依赖,但这正是这些事情的发展方式,不是吗?我们的意思是,我们找到了一些可行的方法,然后就一直在追逐它。而接下来必须对这种范式进行修改,才能向前发展。
Matt Bornstein: 作为同时精通硬件和软件的少数专家之一,能否从你的角度解释一下,为什么在过去需要支持卷积神经网络等多种不同架构时,定制化芯片制造如此艰难?展望未来,如果我们真的抛弃 Transformer 架构,芯片行业进行相应调整会有多大难度?
Naveen Rao: 硬件设计的一个基本概念就是限制计算模型的数量,所谓模型指的是一组反复出现的运算操作集合。比如,如果我进行矩阵乘法、线性缩放和查表操作,如果看到这一模型反复出现,那我就可以构建一款针对性优化这种操作集合的硬件。因此,定制化硬件的做法一直是寻找这些主导性的计算模型和模式,并专门为之打造硬件。在通用性与定制化之间存在着固有的权衡。
长期以来,CPU都是主导范式,因为大多数应用程序如Word等主要关注指令的顺序执行。现在我们进入了数据并行的时代,在支持新一代算法的同时,保持足够灵活性并在某些基本运算上拥有良好性能,这就是我们需要权衡的。比如,早期我们在Nervana构建软硬件解决方案时,主要关注感知器和卷积神经网络等一些基本运算。但后来出现了ResNet等不同的卷积网络,给我们带来一些挑战,我们不得不考虑在频域 (frequency domain) 而不是时域 (time domain) 进行卷积运算,这实际上改变了运算模型。这种情况更有利于GPU这类相对灵活的硬件。
但现在有了像 Transformer 这样更模式化的架构,它使我们有机会去构建一些不太灵活但性能更高的东西。你可以想象这种极端情况:我把一个完全训练好的神经网络直接刻在芯片上。对于这种神经网络,我们能做出各种创新优化,比如将所有0权重抛弃不计,不占用任何晶体管面积;还有那些含有大量0值的矩阵乘法运算,在优化逻辑合成时,相关的晶体管也会被优化掉。所以如果我们愿意完全牺牲灵活性,去刻录一个固定的神经网络,确实能实现很大程度的优化。但问题是,这样优化出的芯片是否有足够大的市场容量,能让开发成本合理化?这就是权衡所在。
模型采用蔚然成风
Derrick Harris: 你认为这种非常特定且缺乏灵活性的芯片的市场将是什么样子?是目前一些大型语言模型供应商如谷歌、OpenAI以及一些其他公司,还是企业界也会投资于此?
Naveen Rao: 说实话,可能两者都有市场。大规模训练模型并为不同领域构建定制模型注定将成为一种趋势,它已经是当下的现实状况。首先,对于受监管行业而言,获得控制权很重要;其次,各公司都希望获得差异化,构建适用于自身数据和客户的专属模型,从而与竞争对手区隔开来。
但与此同时,一些主导性应用场景,比如chatGPT这样的大型语言模型,也有很大的潜力。GPT-4在过去一年里也在不断更新,虽然有人说它是一年前的模型,但实际上并非如此,它在内部一直在持续演进。但即便我们认定它是一年前训练的模型,如果这个模型仍有价值,那么只要能通过它运行足够多的推理,或者有足够多的用户付费订阅(比如1亿用户每月付费20美元),那构建一款专用芯片的成本(大约3000万美元)就能够被合理化。
相比之下,运行每次推理的成本会大大降低,因此对于这些大型通用模型而言,定制化芯片的做法其实是值得的。所以在某些情况下,我们可以换种思路来看待这件事。过去我们认为硬件是一个巨大、 高成本且永久不变的存在,但在如今融资上亿美元已不足为奇的时代,这种观念并不适用。我可以每6个月推出一款新芯片,成本3000万美元,根本不算什么。所以如果我们从这个角度来看,只要知道一个模型的生命周期,以及将有多少人使用或产生多少token,我们就能够建立一个合理的财务模型,为每一款大型模型定制芯片。
Derrick Harris: 这种转变发生得太快了,令人难以置信。几年前我想,做这种事的恐怕只有谷歌之类的巨头。但现在连创立仅数年的公司都在做了。我想稍微转移话题,从硬件方面转向软件方面。我的印象是,你更偏向于自定义训练模型。但我很好奇,在这种做法和其他可选方案之间,权衡在哪里?每种方案都有哪些适当的使用场景?
Naveen Rao: 我认为这没有一个统一的答案。我们希望多从客户的角度考量,为他们提供价值。目前,我们的大部分业务实际上是定制训练模型。一旦客户将这些模型投入生产,我们预计推理端的业务将进一步增长。我会将微调与预训练统称为训练,将推理看作部署生产的一部分。从收入角度看,两者可能会趋于50:50的比例。
这是我的猜测,因为在训练模型后,你显然需要将其部署投入生产;而在生产环境下,你会收集反馈并希望基于此重新训练模型。所以,这两者相互促进、相辅相成。当然,这种情况将来可能会发生变化。
在构建一个模型时,这个模型只是一个时间点的快照,而并非永久不变的存在。根据我的观察,一个模型的生命周期大约为6个月。即使是目前最优秀的模型,比如GPT-4,情况也是如此。在大约6个月后,你就会看到它经历了很大程度的修改。如果我们从这个角度来看,情况就是这样:我会将一个模型投入生产运行6个月,然后根据部署过程中的经验教训,回过头来重新训练、优化这个模型。
所以训练和推理两者是相辅相成的。说实话,我们并不偏好某一方,会随着趋势而动。但就我目前的观察,训练和推理是同步增长的。
Derrick Harris: 这似乎是一种转变。基本上我们所运行的应用程序每6个月就需要重做一次,这对企业的运作方式会产生何种影响?对于一些企业而言,这种更新速度看起来比传统上对核心应用的节奏要快得多。
Naveen Rao: 这的确如此。在芯片行业你也能看到类似情况,芯片的生命周期大约为2年左右。2年后,芯片并不会完全过时,但就已经较为陈旧。当然,一些特殊场景下,企业可能会因合规审查或其他原因,将某些模型保留在生产环境中的时间更长。比如汽车领域,芯片需要运行10年甚至更长时间。这种场景下芯片经历了大量检查,生命周期自然会更长。但在数据中心,升级周期就会更快。
我所说的6个月生命周期并不意味着之后就要完全抛弃旧模型、重新构建新模型。而是会基于反馈持续优化现有模型,以改善应用程序的支持能力。这正是我们在 Databricks 内部构建的能力,即从已部署的模型中收集反馈,利用这些反馈改进模型,生成监督微调数据集,然后对模型进行微调,将优化后的新模型投入部署。
Derrick Harris: 那么,与谷歌、OpenAI 等一些常见公司内部进行这一流程相比,在标准企业内部进行有何不同?因为我一直在听到,今年我们将会看到大语言模型真正落地到企业。我很好奇这会是一种什么样的情况?
Naveen Rao: 是的,让所有人都能够做到这一点,正是我们在Mosaic和现在的Databricks所做的一大部分工作。我们有一个著名的案例是Repl.it公司,他们只有两个人,却依靠我们的平台构建了一个最先进的代码模型。而这在5、6年前的谷歌和OpenAI内部是做不到的,那时他们不得不组建庞大的团队来搭建基础架构、处理故障等。
我们基本上将这种模式民主化了,为所有人提供了一套简化基础设施运维的工具集。我们看到大量企业在训练模型,具体数字我得查一下,但我们已经有超过 10万个训练完成的大语言模型。所以并不是什么将要到来的事物,它已经发生了。企业正在利用新工具构建自己的模型,成本也降到了百万美元以内就能获得实质性价值的水平。正是这两者的结合,让大模型在企业中大行其道。
这会是一种什么样的情况呢?我想很多企业目前还在摸索阶段。通常来说,很多事物都归属于CIO的管理范畴,包括相关的IT基础架构。但与此同时,通常会有一些业务线上的数据科学家或者 ML 工程师,负责数据处理和使用相关工具。因此企业内部的模式会略有出入。具有较好的人工智能素养的人才也已经在不断扩散到各个企业中,推动人工智能技术的采用和部署。
Matt Bornstein: 能否帮助我们理解,一个小模型是如何能够超越GPT-4当前的性能水平的?这是如何实现的,背后的原理是什么?
Naveen Rao: GPT-4是在大量数据上训练的,它具备广泛的知识表征能力。但对于大多数公司而言,他们只需要模型在特定领域有所专长,而不需要包罗万象。你可以类比为一个在各方面都很优秀的人,与一个在某一领域非常出色的人。实际上,后者能为世界带来更多价值,因为我们可以有很多这样专注于各自领域的人。
而要塑造一个”通才”而非”专家”,反而价值不高。我们在不同垂直领域反复看到,只要你用特定领域的数据训练一个小模型,它就能轻松击败GPT-4。这个小模型在通用性能上肯定是不行的,但为特定用例开发采用这样一个大型通用模型,纯属大材小用,性价比极低。现在每个人都意识到了这一点。
我可以以 1/100 的成本训练和服务一个领域模型,它的大小也只有通用大模型的 1/100,但在我的领域表现依然出色。那为什么还要使用成本高昂的通用大模型呢?这就是企业在权衡的计算。
Matt Bornstein: 你能分享一些实际案例吗?因为人们对此主张很感兴趣。通过训练或微调一个小模型就能超越GPT-4,这种说法已经成为业内普遍接受的智慧。但当你真正去寻找示例时,比想象的要难找。
Naveen Rao: Repl.it就是一个很好的例子,他们专注于代码补全领域。这是因为他们拥有自己客户的数据集。请注意,这不仅仅是一个经过领域数据训练的小模型,关键是使用的训练数据质量很高,而OpenAI在这个领域并没有优质的数据。Repl.it积累了大量客户尝试使用代码补全工具时的数据,他们用这些数据训练模型,所以模型的性能非常好。
纯监督学习要求你建立一个非常高质量的、完全监督的数据集,这个过程艰难和昂贵,需要大量的机器学习工程工作,因此当时并没有真正流行开来。但现在我们可以获得一种性能的平滑过渡,我可以说,我有这个相当不错的基础模型,它理解语言、理解概念。然后我可以开始引入一些我确实了解的东西。我所知道的越多,我就能引入越多。如果我没有大量信息,也没关系,我仍然能获得一些有用的东西。我可以将其投入使用,或在一些受约束的环境中使用,收集反馈,进而改进模型。所以这种范式实际上是致命的杀手级范式。
企业应当如何躬身入局
Matt Bornstein:当前,地球上每一家企业的每一位技术领导人都可能在考虑启动这样一个项目,这是合理的。这可能是我们在过去10年、20年甚至更长时间内见证的最重要的技术变革。但除了来与你们(指Databricks)交谈,我们真的如何判断自己是否确实存在这样的问题,拥有适当的数据集,以及适合使用这项技术呢?
Naveen Rao: 这是一个好问题。我认为,几乎所有收集数据的公司都已经拥有某种可用的数据集,要么本身就是格式良好的数据,要么只需稍作处理就能正确格式化。比如呼叫中心的那些文字记录,你就只需要这些例子来展示你期望的行为效果。正如我所说,预训练加监督微调这一范式非常酷,因为我只需要提供少量有价值的例子,就能显示出性能改进,然后进一步扩大规模。
我们发现,在大多数企业中,可能存在这样一个子集:有人曾经做过一项不错的工作,他们收集了一些客户体验数据,保证了较好的质量。但同时企业还拥有过去20年积累的大量粗糙杂乱的数据,散落在各个角落。现在他们可以利用那个小而干净的数据集进行微调,这将产生很好的效果。接下来就可以合理化做一些 “考古”工作,挖掘其他所有旧数据,重新格式化并加入到模型训练中,从而获得更好的效果。
大多数企业,尤其是数字化企业,都拥有这些充当企业特征描述的黄金数据集,比如买家行为数据、买家交互数据等等。但过去没有人知道如何使用它们。这曾经是人工智能10多年前的承诺,即你可以利用这些数据做些实际有用的事情。直到今天,这个承诺才真正能够兑现。
Derrick Harris: 你提到构建有用的东西,我认为这在某种程度上很准确地描述了当前情况。不过这些模型应用虽然有用但肯定不是确定性的,结果不能保证,企业能接受这种情况吗?
Naveen Rao: 是的,这对于受监管行业来说确实是一个挑战。他们喜欢使用超级确定性的模型——我知道输入是什么,能够非常精确地预测输出,以及输入输出的分布情况等,一切都很好刻画。而一个生成模型会生成新的内容、进行新的组合拼接,存在一些不可预测性,这就让人难以确定。
我们认为,最好的方式是让企业找准自己业务中”好”与”坏”的定义,建立相应的评估指标。在学术界和行业中,我们有50多种不同的评估方法,比如NLU、HellaSwag等等,通过这些指标来判断某个模型在某些任务上的表现是否优于另一个模型。很多时候,企业有自己判断人类表现是否良好的标准。比如,如果让某人面对客户,他们就能凭直觉判断这个人是否值得信赖、是否合格。但我们没有一个完美的评估形式,通过它就能100%确定合格。
所以对于受监管行业而言,现在最困难的是制定这种评估标准,以便对比不同模型在特定领域的相对优劣,从而获得一些信号。我们现在正在为企业提供这样的建议:确定你的成功标准,把它写下来,然后我们将开始为你构建评估方法。
Derrick Harris: 是的,我想说客户服务领域看起来很简单,因为现有的服务水平实在太差,任何改进都是改进。我想问一下,你在很久以前的一篇博文中提出,可以将大语言模型视作某种结构化的表示,类似于关系数据库,或者说是企业DNA的某种体现,囊括了他们积累的所有数据。你能进一步阐述一下这个概念吗?因为正如你所说,如果我们真的可以在多年积累的数据上进行训练,似乎确实能够组装出某种关于这家企业实际运作方式的知识库。
Naveen Rao: 我们一直在努力寻找人们能够理解和接受的术语,以此来解释新事物。它不完全等同于数据库,所以把它比作数据库只是一种比喻。你可以输入数据和知识,但模型实际上能够创造、能够对新数据进行推理。这种推理过程发生在训练或微调阶段。
当你引入新的数据时,模型实际上能够找到对该数据进行推理的有用表征方式。例如,如果我滔滔不绝地叫出一些医学期刊上的遗传学术语,一个不了解遗传学的人很快就会感到迷惑。但在多次听到这些术语后,你实际上开始理解了。然后在听到新的文本时,由于你对这个领域已有心智模型,你就能说“好的,我能找出这段新文本中有趣的部分了”。这种定制化的推理能力才是最重要的。现在,我们可以稍微使用一下推理这个术语了,我觉得业界在这方面正逐渐成熟。如果我说推理这个词,人们就不会感到困惑了。现在我可以更清楚地定义它:它是在引入定制数据时,围绕你的数据形成一种心智模型的过程,这就是定制化推理的本质。
当你进行预训练或微调时,你实际上是在构建一种定制的推理引擎。所以我们正在从数据库这个比喻,转向推理这个比喻,但本质上是在描述同一个现象:我有一种可以接受定制数据的东西,我可以在其上形成某种表征,然后基于此为我的业务做一些有用的事情。
Derrick Harris: 说到数据库,我很好奇,就像数据基础设施,至少在平台层,要迁移需要很长时间。它会长期存在。就人们而言,他们仍然在运行他们一直在运行的相同数据库。我们如何看待基础模型作为公司数据基础设施的一部分?因为它们似乎进化得很快,而且正如你所说,它做的事情远不止处理数据,它还能进行推理。
Naveen Rao: 是的,我认为目前在未来几年里,我们都将处于这样一个阶段,即我们不会在很长一段时间内只建立一个基础模型。这在数据库的早期也出现过。我记得大概是上中学的时候,数据库正当时,Oracle 变得越来越大,所有这些不同的公司都在90年代初发展起来。但在那个时候,我认为一家公司不会真正地承诺使用一个数据库很长时间,因为总会有新的技术出现,有些更快、更好。
现在这些模式已经非常成熟,我可以长期使用一个数据库,因为它很成熟,我知道它会运行,它会得到支持,并且它就像是我业务的基石一样。基础模型要达到那个地步还需要一段时间。但我认为这正是我们开始看到领域特异性和甚至客户特异性激增的原因,就像一旦我构建了一个真正理解我领域的模型,我们的愿景是让这种模型实际上开始变得更加自主。它实际上变成了我可以信任的东西。比如说,它只是不断地应用于我所有的数据上。