AI大模型带来的浪潮已经席卷全球,时至今日几乎所有的科技企业都在AI大模型方面有所布局。
随着这一轮AI技术的快速发展,我们不难看出,AI已经从“卷”技术走向“卷”应用的阶段,如果说2023年是生成式AI元年的话,那么2024年必将是生成式AI企业侧应用落地的元年。
大模型从卷参数走向性价比
回看2023年,各大厂商争先恐后的发布各自大模型产品,而当产品发布后,几乎所有人关注的焦点都在参数有多大上。彼时,人们似乎不约而同都在以参数的大小衡量大模型产品的好坏。
生成式AI“鼻祖”发布的GPT-3.5据报道可达1750亿个参数,而后续推出的GPT-4虽然未知参数,但显然要比GPT-3.5更高;中国移动发布的“九天智能基座”大模型也拥有千亿级别参数;通义千问最新开源的模型达到1100亿参数; Google AI 发布了 Pathways Language Model (PaLM),拥有 5400 亿个参数,在各种自然语言处理基准测试中取得了最先进的结果;浪潮信息发布的“源1.0”1大模型具有2457亿参数……
而随着参数数量的增加,也意味着训练模型需要更多的计算资源和训练时间。训练一个拥有数十亿甚至数百亿参数的 LLM,往往需要大量的计算设备和电力消耗。此外,庞大的参数也带来更高的模型复杂度,对模型的训练和调优也提出了更大的挑战。
以一个5000亿参数的大模型为例,训练这个大模型需要2万张H100的数据中心集群,需要大概10亿美元的建设成本,而每年训练所消耗的电费将达到5.3亿元人民币,无论对哪个企业而言,这都将是一笔难以估算与接受的开销。
在此背景下,AI大模型要想在企业侧大规模落地应用,企业就需要更多的考虑到算力效率,从模算效率层面,整体评估与衡量模型的精度和开销。对此,浪潮信息人工智能首席科学家吴韶华告诉钛媒体APP,算力效率越高,意味着单位算力投入的情况下,模型精度回报越高,造成的算力浪费现象越小,对模型的训练非常有利。而所谓模算效率,正是追求并实现 “模型能力更强且算力消耗更少”的技术方式。
“假设拥有很高的模算效率,我们基于更多token训练更到参数量模型就成为可能,”吴韶华对钛媒体APP进一步指出,“尤其是在企业侧应用的过程中,模型训练、推理的整体成本会随着模算效率的提升而降低,也就进一步降低了企业应用AI的成本门槛。”
MoE架构或成AI大模型最优解
就如同互联网的发展一般,消费级的产品只是技术出现在人们眼前的渠道,而真正的技术价值还得看企业级的应用。AI大模型在这点上与彼时的互联网相似。随着“产业AI化”进程的推进,企业需要找到一个能“用得起”的大模型产品。这时候MoE架构的出现,就成为了现阶段企业应用大模型的最佳技术展现形式。
对此,吴韶华告诉钛媒体APP,当算力以及训练数据发展变缓,或者成本变高的时候,我们需要另外一种可以让模型能力继续进行扩展(scale)的创新方式。“基于此,今天,更好地利用一定规模的算力和数据构建更大规模、资源消耗更少、性能更好的大语言模型,是产业面临的核心问题。”吴韶华强调。
而MoE(Mixture of Experts,混合专家模型)恰好就满足了人们对于更大规模、更低消耗,更低算力资源占用的愿景。MoE本质上是一种高效的scaling 技术,用较少的计算资源实现更大的模型规模,从而获得更好的模型性能表现。
MoE作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,由多个专家模型组成,每个子模型都是一个局部模型。门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型,大部分专家模型处于未激活状态。换言之,只有擅长某一特定领域的模型会被派遣,为用户提供最专业的服务,而其他模型则原地待命,静待自己擅长的领域到来。这种“稀疏状态”作为混合专家模型的重要优势,进一步提升了模型训练和推理过程的效率。
吴韶华告诉钛媒体APP,MoE模型的一个显著优势——能够在远少于稠密模型所需的计算资源下进行有效的预训练。“这意味着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。特别是在预训练阶段,与稠密模型相比,混合专家模型通常能够更快地达到相同的质量水平。”吴韶华表示。
据了解,近日浪潮信息全新发布的“源2.0-M32”(简称M32) 正是基于MoE架构的开源大模型,“M32包含了32个专家的MoE大语言模型,参数量400亿并大幅提升了模型算力效率,”吴韶华告诉钛媒体APP,“M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,所消耗算力仅为LLaMA3的1/19。”
基于MoE架构,M32延用源2.0非均匀流水并行的方法,综合运用流水线并行+数据并行的策略,为硬件差异较大训练环境提供了一种高性能的训练方法,模算效率得到了大幅提升。
其实从今年以来各大厂商发布的大模型产品上就不难看出,MoE架构已经成为当下大模型产品的主流架构之一,今年初,深度求索团队发布了开源的160亿参数专家模型DeepSeek MoE,而OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型也都采用了MoE架构。
相比于Dense模型,MoE无论在可扩展性,计算效率、训练效率,还是灵活性、专业化、容错率等方面都有着出色的表现,这也让MoE架构成为企业侧应用大模型的不二选择。
“模更强,算更优”——性能、成本全都要!
显然,在模算效率方面,基于MoE架构开发的M32大模型拥有非常明显的优势,这让企业在使用M32大模型的过程中,算力资源的浪费更少,成本更低,在这个追求降本增效的背景下,MoE更适合企业侧部署大模型。
不过对于企业而言,“既要,又要”的想法肯定是每个企业都追求的,企业当然不希望降低成本是以牺牲性能作为代价的。这时候,作为大模型提供商来说,就需要平衡好性能与成本之间的天平。
以最近刚刚发布的M32为例,吴韶华告诉钛媒体APP,基于对性能的考虑,此次发布的M32使用了全新的门控网络——Attention Router,负责调度各个token到不同专家模型上进行混合计算,“Attention Router是一种专家间协同性的度量方法,”吴韶华指出,“在计算过程中可以将输入样本中任意两个token通过一个计算步骤直接联系起来,解决了传统的门控机制中,选择两个或多个专家参与计算时关联性缺失的问题。”
Attention Router网络结构通过创造一种专家间协同性的度量方法,能够使得专家之间协同处理数据的水平和效能大为提升,从而实现以更少的激活参数,达到更高的智能水平。
除此之外,大模型在企业侧应用过程中,不可避免的要解决幻觉的问题,大模型在企业侧并不像是在消费端,消费侧的模型只要参数够大,数据量够大,即便有一些质量不佳的数据,偶尔产生一些“幻觉”问题也是可以接受,而企业侧的应用并不是这样。
在企业侧,大模型需要精度更高,准确率更高,甚至对于有些行业而言,0.01%的错误拒绝率都是难以容忍的。这就对企业侧应用大模型产品提出了更高的要求。
对于钛媒体APP提出的幻觉方面的担忧,浪潮信息人工智能与高性能应用软件部AI软件架构师Allen Wang认为,对于大模型幻觉问题,业内目前已经有很多方式方法进行避免,“业内比较常见的事通过模型的微调、小样本学习,或者外挂知识库的形式,能有效解决大模型幻觉的问题。”Allen Wang如是说。
另外,Allen Wang也进一步告诉钛媒体APP,不久前,浪潮信息也刚刚发布了EPAI 企业大模型开发平台,包含各种增强式技术及模块化的技术,很大程度上可以帮助企业处理幻觉问题。以微调数据举例,EPAI所拥有覆盖范围广泛的1亿+基础数据,也为提升模型精度做出了极大的贡献。”Allen Wang强调,“未来,M32也将与EPAI企业大模型开发平台一同,助力企业实现更快的技术迭代与高效的应用落地。”
除此之外,业内也有不少大模型厂商在尝试通过技术降低大模型出现幻觉的可能性。在前不久的IBM Think 大会上,IBM宣布正在 Hugging Face 和 GitHub 上开源其 Granite 大模型系列,包括其最先进的代码大模型,这些模型在多项行业基准上超越比之规模更大的模型。 同时还与红帽共同推出一个开源新方法InstructLab, 通过社区参与企业级的知识型数据与技能型数据的分类和表达,并通过合成数据-验证的方式后,对企业的基础模型进行微调。InstructLab 首次实现了对预训练 LLM 的修改。“这是一项首创的大模型对齐技术(LAB),可将开源社区的资源直接引入大语言模型,让企业在应用大模型的时候只需要极少的数据,就可以达到更大的准确率。”IBM中国系统实验室CTO孟繁晶告诉钛媒体APP。
而通过以浪潮信息与IBM为代表的各大布局企业侧大模型产品最新的举措也不难看出,平台化的大模型产品已经成为当下企业应用大模型产品的最佳方式。这种开源的方式,可以接入更多的基础大模型与专家大模型,并在企业使用的时候,在确保提供高可用的大模型解决方案的同时,还能进一步降低企业使用大模型的成本门槛与技术门槛,真正做到简单、易用。
搭建好大模型平台之后,下一步各大厂商就需要一方面在原有产品上不断进行模型的优化,开发新的版本,提供更高模算效率,更强性能的基础大模型;另一方面,如何在平台上提供更多的工具和软件供企业侧的开发者选择使用,以及这些工具的易用性和可用性将成为接下来各大大模型厂商角逐的重要赛道。