苹果联合打造 RubiCap 框架：让 AI 描述图像每个细节，性能击败 10 倍体量对手

3月26日讯 科技媒体 9to5Mac 昨日（3 月 25 日）发布博文，报道称苹果公司携手威斯康星大学麦迪逊分校，联合发布名为 RubiCap 的全新 AI 训练框架，主要用于优化“密集图像描述”模型的训练流程。

注：密集图像描述（Dense Image Captioning）是一种先进的计算机视觉技术。与只给出一句整体描述不同，该技术能识别图片中的各个局部区域（如“桌子上的红苹果”、“远处的行人”），并为每个细节生成精准的文字说明。

这项技术在训练视觉语言模型、文本生成图像以及改善无障碍工具等领域具有核心价值。研究人员指出，传统的训练方法面临着人工标注成本过高的问题；而利用现有大模型生成合成数据的替代方案，则容易导致模型输出缺乏多样性且泛化能力较弱。

苹果研究团队为了攻克上述难题，创新设计全新强化学习机制。系统首先从数据集中抽取 5 万张图像，并调用 GPT-5、Gemini 2.5 Pro 等前沿大模型生成候选描述。

随后，系统利用 Gemini 2.5 Pro 分析候选内容，提炼共识与遗漏点，进而将其转化为清晰的评分标准。最后，由 Qwen2.5 模型担任“裁判”，根据这些标准对描述进行打分。这种机制为模型提供了结构化的精准反馈，让其明确知道该如何修正错误。

苹果基于这一框架，最终训练出了参数量分别为 20 亿、30 亿和 70 亿的三个 RubiCap 模型。测试数据显示，这些紧凑型模型展现出了惊人的效率，其中 70 亿参数模型在盲测中获得了最高的排名，并实现了最低的“幻觉”错误率，全面超越了参数量高达 720 亿的前沿大模型。

更值得一提的是，30 亿参数的微型模型在部分测试中甚至反超了 70 亿参数版本，进而充分证明，高质量的图像描述模型可以摆脱对庞大参数量的绝对依赖。

声明：魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net！我们将及时沟通与处理。

{{userData.name}}已认证