5月30日讯 Xiaomi MiMo 官方公众号今日发文宣布,小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示,其在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为 Agent 时代而来。

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用 7B 参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。