无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

12月16日讯 无问芯穹今日宣布，开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。

官方表示，Megrez-3B-Omni 是一个为端而生的全模态理解模型，同时具备图片、音频、文本三种模态数据的处理能力：

在图像理解方面，Megrez-3B-Omni 是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的图像理解模型之一。

在文本理解方面，Megrez-3B-Omni 在 C-EVAL、MMLU / MMLU Pro、AlignBench 等多个权威测试集上取得端上模型最优精度。

在语音理解方面，Megrez-3B-Omni 支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，也能支持对输入图片或文字的语音提问，实现不同模态间的自由切换。

官方宣称，与上一代及其他端侧大语言模型相比，单模态版本的 Megrez-3B-Instruct 在推理速度上取得了显著提升，最大推理速度可以领先同精度模型 300%。

声明：魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net！我们将及时沟通与处理。

{{userData.name}}已认证