4月16日AI新产品讯息:谷歌发布原生macOS版Gemini应用、腾讯混元3D世界模型2.0正式发布并开源、MiniMax上线全球首个云端自我进化AI助手MaxHermes
前沿讯息
一、谷歌发布原生macOS版Gemini应用
1.4月16日,谷歌正式发布适用于Mac平台的原生Gemini应用程序,面向全球运行macOS 15及以上版本的Gemini用户开放下载。该应用通过引入“Option+空格键”全局快捷键,支持用户在不切换窗口或标签页的情况下随时呼叫AI辅助,实现了从网页端交互向系统级深度集成的跨越。
2.技术实现上,原生Gemini应用支持屏幕感知功能,用户可将当前查看的窗口内容(包括本地文件与复杂图表)实时分享给模型进行深度解析。该应用还集成了谷歌最新的多模态创作能力,支持通过Nano Banana模型生成高精度图像,并调用Veo模型进行视频创作,构建了从文本对话到多媒体生成的完整工作流。
3.此次原生应用的推出,展现了谷歌将大模型能力推向操作系统底层、构建个人AI助理的战略意图。随着macOS应用的上线,Gemini进一步降低了AI进入专业生产力场景的门槛,这种系统级的无缝交互模式预计将加速生成式AI在办公自动化与创意设计领域的深度应用。
二、腾讯混元3D世界模型2.0正式发布并开源
1.4月16日,腾讯混元团队正式发布并开源混元3D世界模型2.0(HY-World 2.0)。该模型是一个多模态世界模型,能够根据文字、图片、视频等不同类型输入,自动生成、重建和模拟3D世界,实现了从单纯生成视频向生成“可交互、可编辑3D资产”的跨越。
2.HY-World 2.0的技术架构包含HY-Pano 2.0全景生成、WorldNav轨迹规划、WorldStereo 2.0世界扩展和WorldMirror 2.0世界组合四个核心模块,其中WorldMirror 2.0为参数规模1.2B的前馈模型,可在单次推理中预测深度、法线及3D高斯分布属性。模型支持Mesh、3DGS、点云等多种格式导出,生成的资产具备真实物理碰撞属性,支持在角色模式下自由探索。
3.HY-World 2.0支持与Unity、UE等主流游戏引擎工作流无缝对接,可用于快速生成游戏地图和关卡原型,显著降低游戏开发与具身智能仿真环境的构建门槛。
三、MiniMax上线全球首个云端自我进化AI助手MaxHermes
1.4月16日消息,MiniMax上线MaxHermes,这是一款基于Hermes Agent构建的云端自我进化AI助手,也是全球首个云端沙箱产品。
2.其核心能力在于一套学习闭环机制:每完成一项复杂任务后,MaxHermes会主动从中提炼可复用的技能单元并以独立文档形式保存,下次遇到类似任务时自动加载调用;同时,每一次用户反馈都会反哺这些技能,推动其持续迭代优化。
3.与现有大多数AI助手“每次对话从零开始”的模式不同,MaxHermes采用云端运行,技能积累不依赖本地设备,可随时随地调用之前沉淀的能力,标志着AI助手正从“工具”向“会学习的伙伴”进化。
四、Adobe发布Firefly AI助手
1.4月16日,Adobe推出具备自主决策能力的Firefly AI Assistant,该智能体能够深入理解用户设计意图,独立拆解任务步骤,在复杂创作流中实现自主规划与执行。
2.该助手核心优势在于跨应用协作能力,可覆盖Photoshop、Premiere、Illustrator等核心软件,用户通过统一对话界面输入自然语言,AI即可自动跨软件编排工作任务,并实时维护项目上下文。
3.Firefly AI Assistant具备学习进化能力,能够随着使用时间增加逐渐掌握并模拟用户审美风格,确保不同项目和跨平台操作的视觉风格保持一致性。目前该助手处于Beta测试阶段,预计未来几周内首批测试者将获得公测版访问权限。
五、戴盟机器人发布Daimon-Infinity,含触觉全模态物理世界具身数据集
1.4月16日,戴盟机器人正式发布含触觉全模态物理世界具身数据集Daimon-Infinity,其数据规模预计于年内达到数百万小时、近十亿条具身数据。首批10000小时高质量数据已面向全行业开放共享,于阿里魔搭社区上线开源。
2.该数据集包含触觉、视觉、动作轨迹及语音文本等多模态信息,依托戴盟自研的二指夹爪及五指手套数采设备,搭载11万感知单元、120Hz高频视触觉传感器,提供接触力、形变、滑移及材质纹理等目前业内最高质量的触觉数据,弥补了精细操作任务中稀缺的物理交互特征。
3.当前具身智能面临落地难、泛化能力不足的核心瓶颈,正是缺乏来自真实世界、尤其是含有物理交互信息的数据。戴盟联合海内外数十家学术机构与企业共同推进此次发布,希望通过开源引入多方参与验证,推动模型能力迭代。随着行业焦点从本体能力转向具身大脑,数据竞争正成为具身智能发展的新阶段性主线。
报告观点
一、词元调用量指数级爆发,词元经济成智能经济新锚点
2025年中国词元调用总量达24,619.3万亿次,预计2026年增至111,799.5万亿次,2030年进一步攀升至7,046,680.4万亿次,2025至2030年复合增长率高达210%。这一爆发式增长表明,词元已从技术概念演变为可量化、可交易的商业核心单位,成为驱动AI产业规模化扩张的关键计量尺度。
词元调用量的指数级攀升,核心源于三重驱动力——AI大模型在各行业的产业化落地加速,企业智能化转型带来的刚性需求,以及“算电成本优势”所支撑的大规模推理成本优化。三者叠加,推动词元消耗从早期尝鲜阶段迈入全行业规模化应用阶段,为词元经济的持续爆发奠定了坚实基础。
未来,词元有望成为智能经济的“价值锚点”与商业结算的核心单位。随着中国在算力基础设施、大模型能力及成本控制上的综合优势不断强化,词元经济将有力推动中国在全球AI算力竞争中占据主导地位,并重塑AI产业从技术输出到价值变现的商业模式。
二、OpenClaw爆火的三大核心因素
OpenClaw实现了从“生成式”到“执行式”的技术能力突破。它突破了传统大语言模型仅能生成内容的局限,能够自主执行文件操作、代码编写、网页浏览、应用控制等复杂任务,解决了以往AI Agent“能说不能做”的痛点,为开发者提供了真正可操作的智能体工具,这是其爆火的技术基石。
开源模式与网络效应的叠加引爆了开发者生态。截至2026年3月13日,OpenClaw在GitHub星标达30.8万,成为增速最快的开源AI项目之一。开源降低了全球开发者的参与门槛,大量贡献者共同完善工具链与插件生态,形成了“使用越多、贡献越多、能力越强”的正向循环,显著的社区势能是其快速破圈的核心驱动力。
多场景应用落地的实用价值被广泛认可。OpenClaw在办公自动化、软件开发、数据分析等真实场景中展现出即插即用的能力,迅速从极客玩具升级为生产力工具。其可复用架构验证了AI Agent在自动化任务中的广泛适用性,为后续商业化落地奠定了坚实基础。