全部标签

项目

最新随机最多浏览最多喜欢最多评论

机器人项目

智元开源行业首个聚焦物理交互的具身数据集

6月3日讯今天，智元正式开源 AGIBOT WORLD 2026 数据集第二期主题“多样交互（Rich Interaction）”。据介绍，这是行业首个聚焦物理交互的开源具身数据集，面向世界模型、神经仿真器、物理感知以及表征学习等具身智能研究，系统记录机器人与真实物理世界之间复杂、高密度、非理想的交互过程，旨在补齐当前世界模型训练中长期缺失的真实物理交互数据。官方称，本期“多样交互”数据集，…...
- 魔果智讯
- 6月3日
- 0
- 0
- 211
项目

英伟达推出 AI 框架 Polar，让 Codex 跑分暴涨 594.74%

5月28日讯英伟达研究团队本周发布开源框架 Polar，在不破坏原有工具调用、上下文组织和补丁提交方式的前提下，让 Codex、Claude Code、Qwen Code 等现有智能体框架接入 GRPO（广义相对策略优化）训练。注：GRPO 是一种面向强化学习训练的优化方法，会依据奖励信号调整模型策略，让模型在多步决策任务里学会更优动作。本文里，GRPO 主要用于代码智能体训练，让模型在真实…...
- 魔果智讯
- 5月28日
- 0
- 0
- 178
项目

英伟达发布 PiD 图像生成技术：13GB 显存跑通，最快 210ms 生成 2048×2048 图像

5月27日讯英伟达团队最新发布图像生成技术 PiD，在消费级单张 RTX 5090 显卡上，能在 1 秒内将 512×512 图像潜变量直接解码并放大到 2048×2048 像素，峰值显存为 13 GB。根据博文介绍，高分辨率文本生成图像过程中，通常先在潜在空间生成，再由解码器恢复成清晰图像。潜在空间指模型把原始图像压缩后得到的数值表示空间，保留主体结构、语义关系等关键信息，却省去大量像素级…...
- 魔果智讯
- 5月27日
- 0
- 0
- 177
项目

AI 制造 AI：面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

5月27日讯面壁智能今日联合清华大学、OpenBMB 开源社区正式发布 ForgeTrain—— 全球首个完全由 AI 编写、零人类代码介入的生产级大模型训练框架。面壁智能使用 ForgeTrain 在华为昇腾芯片上成功完成了面壁智能新一代「小钢炮」MiniCPM5-1B 模型的预训练。评测结果显示，MiniCPM5-1B 的综合性能在全球同尺寸模型中处于领先水平，在 AA 榜单上位列 2B …...
- 魔果智讯
- 5月27日
- 0
- 0
- 142
AI大模型智能驾驶项目

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

5月26日讯小米技术官方宣布，小米汽车今日发布 Xiaomi Auto World Model 全新框架，为业界辅助驾驶世界模型提供了新的框架路径，推动行业从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。据介绍，这是小米首次将三维重建与视频生成深度耦合的一体化架构，以「重建锚定几何、生成填补想象」的新范式，打破行业长期采用的重建、生成独立拆分路线。在 Waymo、nuScenes 等主流…...
- 魔果智讯
- 5月26日
- 0
- 0
- 156
项目

隐形水印 + C2PA 元数据，OpenAI 推出双重 AI 生成图像溯源举措

5月20日讯如今各类 AI 图像生成工具层出不穷，且功能日益强大，想要分辨一张图片是否真实变得前所未有的困难。本周二，OpenAI 推出两项新举措，助力解决这一问题。据悉，该公司已承诺采用名为 C2PA 的开放标准，该标准会在图片元数据中留下明确标识，标注图片由人工智能生成。同时，OpenAI 还携手谷歌，接入名为 SynthID 的隐形水印。这种水印隐蔽性更强，即便不法分子试图抹除痕迹，也很…...
- 魔果智讯
- 5月20日
- 0
- 0
- 140
项目

苹果发布 AI 框架 LaDiR：突破单一思维，并行探索多条推理路径

4月30日讯苹果公司携手加州大学圣迭戈分校团队，在新版论文《LaDiR：潜在扩散增强 LLM 文本推理》中提出新框架，让大语言模型（LLM）在回答前并行探索多条推理路径，再用自回归方式输出提高结果质量。援引博文介绍，该框架并非新模型，而是叠加在现有模型之上的通用框架，重点改变模型思考问题的方式。LaDiR 结合扩散（Diffusion）和自回归（Autoregression）两种主流生成范式，…...
- 魔果智讯
- 4月30日
- 0
- 0
- 183
业界项目

YouTube 向娱乐行业开放人脸声纹检测技术，打击 AI 深度伪造内容

4月22日讯人工智能深度伪造技术为媒体内容创作开辟了诸多可能性，该技术的获取门槛前所未有的低，几乎人人都能使用。虽然这听起来是件好事，但也意味着不法分子同样能接触到这项技术。人工智能时代最大的担忧之一，便是如何管控网络上由人工智能生成的虚假欺骗性内容。作为该领域的领军企业之一，谷歌对此有着诸多举措与考量。旗下视频平台 YouTube 正将其人脸声纹检测技术向娱乐行业开放，这是该平台打击未经授权的…...
- 魔果智讯
- 4月22日
- 0
- 0
- 13
项目

MiniMax 发布面向 AI Agent 的命令行工具“MMX-CLI”，跑通自动化工作流

4月9日讯今日，MiniMax 宣布发布一个面向 AI Agent 的命令行工具 ——MMX-CLI。据 MiniMax 介绍，接入 MMX-CLI 后，Agent 可以在 Claude Code、OpenClaw 等环境中原生调用 MiniMax 最新的编程、视频生成、语音合成、音乐创作等全模态模型，无需适配繁琐接口，也无需额外编写 MCP Server。一个 Agent 可以独立…...
- 魔果智讯
- 4月9日
- 0
- 0
- 21
项目

300 万对样本、2.71T 数据，蚂蚁灵波开源大规模空间感知数据集

3月31日讯蚂蚁灵波科技宣布开源大规模 RGB-D 深度数据集 LingBot-Depth-Dataset，此次开源将为具身智能、空间感知和三维视觉等方向提供数据支撑。据介绍，LingBot-Depth-Dataset 是目前社区中规模最大的真实场景 RGB-D 数据集，包含 300 万对高质量样本，其中 200 万对来自真实场景采集、100 万对由渲染生成。据了解，每条样本均包含 RGB …...
- 魔果智讯
- 3月31日
- 0
- 0
- 18
项目

企业微信 CLI 项目开源，支持调用 Claude Code、QClaw 等主流 AI Agent

3月30日讯今天上午，腾讯公司公关总监张军宣布，3 月 30 日，企业微信 CLI 开源项目上架 GitHub 社区，开放消息、日程、文档、智能表、会议、待办、通讯录七大核心产品能力，支持主流 AI Agent （如 Claude Code、Codex、WorkBuddy、QClaw 等）调用。开发者可基于这些能力，让 AI Agent 能以更自然的方式理解和调用企业微信能力，快速开发更贴近日…...
- 魔果智讯
- 3月30日
- 0
- 0
- 20
项目

OpenAI 推出 Codex 插件，开发者可打包 Skills、MCP 服务器配置等

3月27日讯 OpenAI 今天宣布为 Codex 推出插件（Plugins）服务，提供可安装的功能包平台，旨在简化开发者工作流程。据介绍，Codex 插件本质上是可安装的工作流集合，开发者可以将 Skills（技能）、应用集成和 MCP 服务器配置等内容打包到一起，更快地分享统一开发配置。需要注意的是，“技能”和“插件”属于是两种不同的工具，前者适合在单一代码库或工作流中迭代，偏向“私人定制…...
- 魔果智讯
- 3月27日
- 0
- 0
- 24
项目

苹果联合打造 RubiCap 框架：让 AI 描述图像每个细节，性能击败 10 倍体量对手

3月26日讯科技媒体 9to5Mac 昨日（3 月 25 日）发布博文，报道称苹果公司携手威斯康星大学麦迪逊分校，联合发布名为 RubiCap 的全新 AI 训练框架，主要用于优化“密集图像描述”模型的训练流程。注：密集图像描述（Dense Image Captioning）是一种先进的计算机视觉技术。与只给出一句整体描述不同，该技术能识别图片中的各个局部区域（如“桌子上的红苹果”、“远处的行…...
- 魔果智讯
- 3月26日
- 0
- 0
- 21
项目

阿里通义实验室发布 PrismAudio 视频生成音频框架：声画同频，音效随行

3月24日讯阿里巴巴通义实验室今日发布了 PrismAudio，这是一个视频生成音频（Video-to-Audio）框架，其研究重点是环境音 / 音效合成，比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音，而不是给人物配音。官方详细介绍如下： PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说，我们教模型学会了“先思考，再发声”，并且有四位“老师”同时…...
- 魔果智讯
- 3月24日
- 0
- 0
- 15
项目

英伟达携手谷歌 DeepMind 与学术界发布全球最大蛋白质复合物数据集

3月17日讯英伟达在 GTC 2026 上表示，该企业与谷歌 DeepMind、欧洲分子生物学实验室下属欧洲生物信息学研究所、韩国首尔国立大学 Steinegger 实验室一道大幅扩展了 AlphaFold 蛋白质结构数据库。四方联合发布了全球最大蛋白质复合物数据集，其中为可搜索数据库新增了 170 万个高置信度的预测蛋白质复合物，同时提供了约 3000 万个额外的预测结构供批量下载。谷歌 …...
- 魔果智讯
- 3月17日
- 0
- 0
- 18
项目

英伟达发布面向医疗机器人的专用开放物理 AI 数据集、模型、蓝图

3月17日讯英伟达在 GTC 2026 上宣布推出首个面向医疗机器人的领域特定物理 AI 平台，包括全球最大的医疗机器人数据集 Open-H、Cosmos-H 开放模型家族、GR00T-H VLA 模型、Rheo 开发蓝图。据悉，Open-H 拥有 776 小时的手术视频，包含 11 个机器人系统实例和 4 项手术适应症；Cosmos-H 模型支持通过提示、图片、视频评估医疗机器人决策；GR0…...
- 魔果智讯
- 3月17日
- 0
- 0
- 22
项目

腾讯混元开源首个面向世界模型的强化学习后训练框架 WorldCompass

3月10日讯腾讯混元 3D 团队今日宣布开源业界首个面向世界模型的强化学习后训练框架 WorldCompass，这是此前发布的混元世界模型 1.5 官方强化学习扩展模块，能够让世界模型的交互更加准确，体验更好。 WorldCompass 是一个专为长时序、交互式世界模型设计的强化学习（RL）后训练框架。如果说世界模型是引擎，那么 WorldCompass 就是“指南针”，通过引入强化学习机制，直…...
- 魔果智讯
- 3月10日
- 0
- 0
- 19
业界项目

小红书开源 InstanceAssemble：让 AI 精准还原复杂图像排版

12月26日讯小红书携手复旦大学，联合推出布局控制生成（Layout-to-Image）领域的突破性方案 InstanceAssemble，通过创新“实例组装注意力”机制，实现了从简单到复杂、稀疏到密集布局的精准图像生成，相关成果已被 NeurIPS 2025 收录。 AI 绘画技术近年来快速发展，从最初的“文字生成图像”（Text-to-Image）逐步迈向“布局控制生成”（Layout-to…...
- 魔果智讯
- 25年12月26日
- 0
- 0
- 26
业界项目

摩尔线程发布 Torch-MUSA v2.7.0，增强 AI 模型训练与推理支持

11月28日讯近日，摩尔线程正式发布 PyTorch 深度学习框架的 MUSA 扩展库 ——Torch-MUSA v2.7.0，新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA 在短短一个月内，连续完成 v2.5.0 和 v2.7.0 两次版本更新。据介绍，自 v2.5.0 起，Torch-MUSA 版本号已与 PyTorch 主版本号保持同步，便于开发者进行版本识…...
- 魔果智讯
- 25年11月28日
- 0
- 0
- 28
项目

业界首个，JetBrains 发布 AI 编码智能体基准测试平台 DPAI Arena

11月17日讯编程 IDE 开发商 JetBrains 今日发文，随着 AI 的兴起，现在的一项关键挑战是如何衡量 AI 辅助工具在现实世界中带来的效率提升。为了应对这一挑战，JetBrains 决定打造 Developer Productivity AI Arena（DPAI Arena），并最终将其献给 Linux Foundation。 DPAI Arena 宣称是业内首款开放式、多语言、…...
- 魔果智讯
- 25年11月17日
- 0
- 0
- 18
项目

苹果发布 Pico-Banana-400K 数据集：含 40 万张图像，帮助训练 AI 图像编辑模型

10月29日讯苹果公司发布了 Pico-Banana-400K，这是一个包含 40 万张图像的研究数据集，有趣的是，该数据集是利用谷歌的 Gemini-2.5 模型构建的。据了解，苹果的这个研究成果名为《Pico-Banana-400K：面向文本引导图像编辑的大规模数据集》（Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Imag…...
- 魔果智讯
- 25年10月29日
- 0
- 0
- 34
业界项目

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

10月14日讯 Anthropic 于 10 月 6 日宣布开源全新的模型安全分析框架 Petri，该框架可调用自动化稽核 AI Agent，与目标模型进行多轮互动，以探索并检测模型在各种高风险情境下的潜在弱点。 Anthropic 表示，随着 AI 模型能力与应用范围持续扩张，相应模型的风险性也急剧增加，如今人工分析已无法应对 AI 模型庞大的行为组合空间。因此，该公司在过去一年内开发出“自动化…...
- 魔果智讯
- 25年10月14日
- 0
- 0
- 30
AI大模型项目

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列：改进混合注意力机制、高稀疏度 MoE 结构

9月12日讯阿里云通义团队今日宣布推出其下一代基础模型架构 Qwen3-Next，并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型（Instruct 与 Thinking）。通义团队表示，Context Length Scaling 和 Total Parameter Scaling 是未来大模型发展的两大趋势，为了进一步提升模型在长上下文和大规模总参数下的训练和推理效率，…...
- 魔果智讯
- 25年9月12日
- 0
- 0
- 60
AIGC 项目

AI“P 图”爆火出圈：“Nano Banana”一周为谷歌 Gemini 吸引千万新用户

9月5日讯谷歌最新的 AI 实验项目“Nano Banana”突然在上周爆火，然后谷歌宣布在 Gemini 上线了 Gemini 2.5 Flash Image 集成。昨晚，谷歌实验室副总裁 Josh Woodward 在 X 上透露，自该功能上线以来，累计已完成超 2 亿次图像编辑，带动超 1000 万新用户尝试 Gemini 应用。对于这款产品的受欢迎程度，他形容称内部“TPU 严重过载，…...
- 魔果智讯
- 25年9月5日
- 0
- 0
- 51