英伟达高级科学家Jim Fan称,2024年将是视频年。尽管机器人和具身智能体才刚刚起步,但我认为视频AI将在未来12个月内迎来突破性进展的时刻。

OpenAI联创Greg Brockman则预测:2024年,AI的能力、安全性、潜在影响的积极性上,都会是突破性的一年。
当然,从更长远的角度看,这只是又一个指数级的一年,让每个人的生活都比今天更好。

新的一年,人工智能还会像2023年一样,大放异彩吗?
AI大佬2024预测
Meta的研究员Martin Signoux对2024年AI做出了8大预测,就连LeCun大佬表示深度赞同。

首先,人工智能智能眼镜蔚然成风。随着多模态技术的兴起,领先的人工智能公司将加倍努力开发人工智能可穿戴设备。还有什么比眼镜外形更适合承载人工智能助手呢?

ChatGPT之于人工智能助手,就像谷歌之于搜索一样。2023年,ChatGPT开始大放异彩,Bard、Claude、Llama、Mistral和数以千计的衍生产品相继问世。
随着产品化的继续推进,ChatGPT将不再是这个领域的唯一参考标准,其估值也将面临修正。


大模型模型再见,多模态模型你好。LMM将不断涌现,并在多模态评估、多模态安全、多模态这个、多模态那个的争论中取代LLM。此外,LMM是迈向真正通用人工智能助手的垫脚石。


没有重大突破,但各方面都有改进。新模型不会带来真正的突破(GPT-5),LLM在本质上仍然有限,而且容易产生幻觉。我们不会看到任何飞跃,使它们在2024年可靠到足以「解决基本的AGI」。
在RAG、数据整理、更好的微调、量化等方面的改进,将使LLM在许多用例中变得足够强大/有用,从而推动各行业各种服务的采用。

小模型(SLM)已经出现,但成本效益和可持续发展的考虑将加速这一趋势。量化技术也将大大提高,从而推动消费服务的设备集成浪潮。

开源模型击败GPT-4,开源与封闭之争逐渐平息。回顾过去12个月开源社区的活力和进步,很明显,开源模型将很快缩小性能差距。

基准仍然是一个难题。没有一套基准、排行榜或评估工具能够成为模型评估的一站式服务。相反,我们将看到一系列改进(如HELM)和新举措(如GAIA),尤其是在多模态方面。

与现有风险相比,存在的风险不会引起太多讨论。虽然X风险成为2023年的头条新闻,但公众讨论将更多地关注与偏见、假新闻、用户安全、选举诚信等相关的现有风险和争议。

Lightning AI的创始人William Falcon对2024年的预测是:
-1B模型性能将优于70B。
– 在CPU上部署模型几乎是免费的,而不是API服务。
– 数据质量将使性能提升10倍。
– 开源模型的组合将击败最好的私有模型。
– 编译器将使模型(训练和推理)的速度至少提高80%。
– 立法将支持内容创建者,而非模型开发者。

开源工具平台LlamaIndex的创始人Jerry Liu表示,
– RAG将继续成为一个大焦点
– 每个AI工程师仍然需要强大的软件工程基础。
– 向量数据库开始开发类SQL接口并支持多模态
– 多模态模型在文档处理中得到更多使用(但首先,计算成本/延迟需要降低)
– 类似GPT-4的全部能力成为开源,并且更快/更便宜。
– 如果是这种情况,智能体的开发会重新蓬勃发展。
– 提示和以前一样重要,但提示工程的重要性会下降

2024AI展望
在经历了爆炸性的2023年之后,2024年的人工智能领域有将会有哪些进展?
毋庸置疑,在这个新的一年里,我们仍将看到领先的AI在许多新的创造性方式中应用,推动整个行业的进步。
智能体时代来临
OpenAI在首届开发者大会上发布的GPTs、Assitants等工具,智能体在今年迎来了大爆发。
这些工具已经开始在一个又一个行业产生影响,但我们迄今所看到的与即将到来的相比微不足道。
今年早些时候,来自普林斯顿、谷歌团队发表的ReAct论文展示了大模型如何有效地学习如何使用工具,并推动了这方面的大量研究。
OpenAI、Anthropic在内的公司已经花了一年的时间来调整自家模型,以便更好地使用这种技术。
比如,OpenAI的函数调用,以及Anthropic的Claude XML支持。

项目地址:https://react-lm.github.io/
还有一些研究机构专门训练了专门的大模型,比如伯克利的Gorilla LLM。
另外,开源代码库Langchain、Rivet等都让智能体变得容易得多。
看得见,AI智能体比以往任何时候都更容易开发,成本也更低。它们在发挥人类聪明才智的同时,还能深入连接对用户和公司最重要的数据。
2024年,我们将看到「智能体时代」的到来,这是通过软件满足需求和与技术互动的一个全新方向的开端。
多模态大模型突破视觉障碍
ChatGPT能够理解和表达人类自然语言,这是吸引用户和开发者的突破性功能。
但是,2024年将看到AI视觉可能会更加重要,影响更加深远。
文字固然强大,但图像、视频、音频能以更集中的方式传递信息和情感。思想的空间表达是一种非常强大的工具,可以简单地传达复杂的概念。
LLM不仅能对文本数据进行训练,还能对视觉数据进行训练,多模态能力更加明显。
我们已经看到,Ai Pin、Apple Vision等可穿戴设备的发展,它们有望为我们的日常生活提供帮助。
例如,它们可以提供与交流的人的背景信息、与工作相关的视觉提示,或完成任务的实时建议。
创新将走向何方?速度有多快?现在还很难说,但能够解读图像和视频并对环境中的物理变化做出即时反应,为智能人工智能只能以如何帮助人类增添了一个极其重要的维度。
AI操控达到危险级别
AI爆发为各个领域带来翻天,覆地的变化的同时,也让我们看到AI生成虚假信息给生活带来了困扰。
在人类历史上,大规模影响和操纵AI从未如此强大,也从未如此普及。
人工智能已经让人们几乎无法辨别「真实」的社交互动与内容,因为图像,甚至视频都可以很轻而易举地生成。
未来一年,人工智能操纵可能会大行其道,从自动勒索和欺诈到阴谋论的传播。
总而言之,2024年,人工智能将给世界带来许多令人难以置信的东西,但它也将以新的方式挑战我们。
关于此话题的畅想,也上了知乎热榜。

知友「引线小白」预测,在24年,模型效果会进一步突破,可能只要7B的模型推理资源,就能与现在的GPT-4持平。
随着部署成本大幅下降,24年可能就会成为AI Agent元年,出现一个爆款。
多模态进多模态出一统江湖的模型,有可能出现。
第一部AI电影,也有望在24年出现。

清华自动化系在读博士认为,「多模态大模型取得进一步突破,图片和视频生成能力进一步提升。更多的人力工作,特别是需要部分创造力的工作被取代。部分领域大模型的涌现能力进一步凸显,表现出一些更加具有创造性的行为。」

AI架构师「春阳CYang」预估,2024年应该是AI大模型应用落地的元年。
2023一整年,虽然大模型火爆,但真正能够落地的产品还很少,只集中在改写文案等浅层的应用上。
但现在,有很多大模型领域的创意产品在落地了,可以期待一波。

大语言模型将在手机端运算推理;Agent将代替人做一些更实用的事情;最令人开心的是,人形机器人很可能帮我们洗衣、拖地、做饭、收拾房间了!

参考资料:
https://writerbuddy.ai/blog/ai-industry-analysis
https://x.com/gdb/status/1741529664856764556?s=20
2023https://www.zhihu.com/question/635190738
https://www.zhihu.com/question/635190738/answer/3327969527
https://www.zhihu.com/question/635190738/answer/3334551780