苹果的研究人员推出了一种创新模型ReALM,可将参考解析问题转化为语言建模问题,能极大提升AI助手处理很多描述复杂或模糊不清的内容。
例如,我们网购时选好了橘子、鸭梨、苹果、橘子汽水、洗发水、短袖、拖鞋等物品,然后告诉AI助手只结算水果。这时传统的AI助手可能会将橘子和橘子汽水混淆进行一起结算。
而ReALM模型会重建手机或者PC等平台上的屏幕关键信息,并将其转化成一种可理解的文本,再用大语言模型去解读用户的需求,这样就可以提升操作的准确率避免出现错误。
根据测试数据显示,ReALM的性能全方位超越了同类模型MARRS;10亿参数和30亿参数在三项测试中超过GPT-4,Unseen测试几乎差不多,这也提现了ReALM非常强悍的理解和转化能力。
论文地址:https://arxiv.org/abs/2403.20329
ReALM的核心方法是识别并重建屏幕(手机、PC、平板电脑等),通过使用解析出的实体及其位置生成屏幕的纯文本表示。
然后对屏幕上的实体部分进行标记,以便大语言模型能够在上下文中了解实体出现的位置以及周围的文本内容。
屏幕解析
屏幕解析模块是ReALM的核心模块之一,主要负责从用户的屏幕上识别相关信息包括文本框、按钮、图标等元素,并提取它们的文本内容、类型和位置信息等。这些信息被用来构建一个结构化的屏幕表示,为后续的参考解析提供基础。
首先通过OCR(光学字符识别)在屏幕上识别和检测文本实体,并将其转换为可编辑的文本格式。
一旦文本被检测到,屏幕解析模块需要确定每个文本实体的类型,包括电话号码、电子邮件地址、URL、日期时间等,再通过预先定义的模式匹配或机器学习模型进行实体分类。
除了识别文本内容和类型,屏幕解析模块还需要确定每个实体在屏幕上的确切位置。通常是一个矩形区域,围绕实体文本并定义了其在屏幕上的几何位置。
此外,屏幕上的实体往往不是孤立存在的,可能与其他元素之间有关系,例如,按钮、图标菜单选项等。
ReALM会用大语言模型去理解这些元素之间的关系,以便正确解释、还原用户的文本查询或语音指令。
解析输出
解析输出的主要作用理解用户查询中的参考内容,并找到与之匹配的正确实体,然后完成最终的操作输出。
解析输出会接收到屏幕解析、大语言模型等其他模块的预测结果。这些结果通常是一个实体列表包括文本、URL、书籍、按钮、图标等,每个实体都有一个与之相关的置信度分数。
需要注意的是,如果用户的查询中有多个可能的参考实体(例如,开头提到的那个橘子和橘子汽水的案例),解析输出模块需要解决这些实体之间的冲突。所以,ReALM会比较置信度分数、考虑实体类型和上下文信息等。
在确定了最终的实体后,解析输出模块需要将这些实体格式化为一种易于理解和操作的形式。可能是一个简单的文本回复,也可能是一个更复杂的数据结构,用于整体的操作输出或提供给其他模块使用。
ReALM还提供了一个可视化用户交互模块,主要负责接收用户的查询信息,然后将查询和屏幕上的实体信息传递给大语言模型,并展示参考解析的结果。该模块还能通过用户的反馈机制,帮助模型进行自我学习改进其解析能力。