6月4日AI新产品讯息:HKGAI发布V3大模型及香港首个生产力级超级智能体、Kimi发布桌面端产品Kimi Work、京东开源JoyAI-Echo长音视频生成框架
前沿讯息
一、HKGAI发布V3大模型及香港首个生产力级超级智能体
1.6月3日,香港生成式人工智能研发中心(HKGAI)在香港科技大学举行“HKGAI V3大模型发布暨生态合作大会”,正式发布最新版本的本地大模型HKGAI V3,并推出香港首个达到生产力级别的超级智能体——Agent Workshop。这是继2025年2月发布香港首个人工智能大模型HKGAI V1后的又一次重大升级。
2.HKGAI V3在运行效率及Agent持续执行能力方面实现显著突破,Token压缩效率提升超10倍,智能体无干预运行时长增加近百倍。其核心平台Agent Workshop在测试中可单次无干预稳定运行长达28小时,一气呵成地完成资料整理、推理分析、报告撰写及程式码开发等多个环节。
3.HKGAI V3主打“更成事、更高效、更睿智、更本地”四大升级方向,科大首席副校长郭毅可形容新版本“懂香港话、讲香港话”。该模型将优先落地香港特区政府公务系统,同步面向企业开源ClawNet,面向市民升级AI智能助理“港话通”(已累积近75万注册用户),构建起政务、商业、公众三大应用层生态,加速香港迈向“智能体化”AI时代。
二、Kimi发布桌面端产品Kimi Work
1.6月3日,面向知识工作者的通用型本地Agent——Kimi Work开启内测,将随Kimi最新测试版Mac和Windows客户端推出。用户只需用自然语言描述目标,Kimi Work即可在电脑上拆解任务、并行执行、调用工具、使用浏览器、创建整理文件夹,并交付文档、表格、PPT等工作产物。
2.Kimi Work以Kimi Code为内核,提供本地Agent基础能力,包括安装和使用技能(Skill)、运行定时任务等,并继承了在线版Kimi Agent的建站、PPT等专业Skills及金融、科研、法律等专业数据库,内置了能调用浏览器的Kimi WebBridge方案。产品同样支持Agent集群,最高可根据任务复杂度自主创建包含300个子Agent的团队。
3.Kimi Work自身由Kimi Code深度参与编写,Kimi工程师使用Kimi Code等Coding Agent工具一周内完成了Beta版Mac和Windows客户端开发,累计产出超5万行有效代码,其中92%由AI自主生成。
三、京东开源JoyAI-Echo长音视频生成框架
1.6月3日,京东正式推出并开源JoyAI-Echo长音视频生成框架,旨在解决行业长期存在的“角色易崩、声音乱变、生成缓慢”三大难题,实现了“对话式编辑”功能——局部修改无需重跑整条视频,标志着京东在长视频生成领域进入全球第一梯队。
2.该框架的核心创新包括四项技术。一是内置跨模态音视频记忆库,在多镜头生成中持续保存并调用角色外观和说话人音色特征,实测在长达5分钟的视频中角色身份、视觉形象和声音音色均能保持高度一致;二是记忆驱动后训练,融合SFT、跨模态RLHF和DMD技术,其中DMD单项带来约7.5倍推理加速;三是引入智能“导演助理”Director Agent,用户以自然语言描述创作需求,系统自动拆分为剧本、角色与镜头,支持对话式局部修改。四是轻量化实时超分模块,支持两档分辨率提升,保障高清输出不卡顿。
3.研发团队基于100个故事、3000个镜头构建了专门评测集,JoyAI-Echo在跨镜头一致性、视频质量、文本一致性等核心指标上均取得领先表现,其中语音内容准确率达0.8646。目前,框架的代码与权重已全部开源,项目页和GitHub代码仓库已正式上线,可广泛应用于虚拟故事创作、数字人直播、品牌营销视频制作及影视前期预演等多个场景。
四、谷歌推出AI应用Dreambeans
1.谷歌实验室于6月3日正式推出实验性AI应用Dreambeans(梦豆),面向Android和iOS双平台。该应用在获得用户授权后,可利用Personal Intelligence(个人智能)技术,整合Gmail、谷歌日历、谷歌相册、YouTube和搜索记录等多源数据,每日生成经AI筛选整理的个性化生活故事。
2.Dreambeans并非无休止的内容流,每日推送严格限制在10至14条,涵盖值得打卡的去处、值得钻研的话题、待规划的出行行程等生活参考建议。每个故事均附带AI生成的专属插图,背后采用谷歌Nano Banana 2模型,可根据用户常去地点与常见人物生成个性化视觉内容。用户点击故事后可“深入探索”,应用会调取网络公开信息辅助决策,如查找附近公园或推介相关课程。
3.产品负责人戈兹德·奥兹努尔表示,“Dream”寓意应用在用户睡眠时段后台梳理海量信息,“beans”则取自咖啡豆,象征清晨为用户奉上凝练灵感。目前该应用仅面向美国地区18岁以上的Google AI Ultra订阅用户开放,其他用户可加入候补名单。谷歌强调,用户可自主选择绑定哪些服务,Dreambeans的隐私设置与Gemini等其他产品中的Personal Intelligence设置相互独立,互不影响。
五、谷歌发布Gemma 4 12B开源端侧全模态模型
1.6月3日消息,谷歌发布并开源全新大模型Gemma 4 12B(也称Gemma 4 12B Unified),定位介于轻量级边缘模型与高性能26B MoE之间,旨在将“具备AI代理能力的多模态智能”直接带到笔记本电脑上。
2.该模型颠覆传统多模态架构,采用无编码器统一设计:以轻量级嵌入层(约3500万参数)替代传统视觉编码器,并完全移除音频编码器,将原始音频信号直接投影至文本token空间。模型参数约119.5亿,支持256K超长上下文、超过140种语言、原生函数调用与逐步推理Thinking模式,并在中等规模模型中首次支持原生音频输入。
3.性能方面,该模型在多项基准测试中接近Google更大的26B MoE模型,但总内存占用不到其一半。硬件方面,仅需16GB显存或统一内存即可在消费级笔记本上运行,经4-bit量化后可下探至8GB。模型采用Apache 2.0许可证开源,权重已在Hugging Face、Kaggle及Google AI Edge Gallery上架,支持LM Studio、Ollama等主流推理框架。
报告观点
一、AI智能体赛道进入爆发期
全球人工智能市场多年来保持稳步增长态势,市场规模持续扩大,为AI智能体的技术突破与商业化落地提供了坚实的产业基础。随着大模型能力的成熟与算力成本的优化,AI应用正从“生成式”向“执行式”加速演进,推动智能体成为AI产业中最具活力的细分赛道。
根据数据,全球AI智能体市场规模将从2022年的较低基数快速攀升,预计2030年将突破3000亿美元,复合增长率远超全球AI市场整体增速。这一爆发式增长得益于智能体在办公自动化、软件开发、数据分析等场景中的实用价值验证,以及开源生态与开发者社区的协同推动。
未来,AI智能体有望引领全球AI产业从交互创新向自主执行深度发展。随着技术稳定性、安全性与监管体系的持续完善,智能体将从尝鲜工具升级为成熟生产力工具,成为数字经济发展的新引擎,释放巨大的产业价值与投资空间。
二、全球AI漫剧投融资爆发式增长
2022年至2026年,全球AI漫剧领域投融资呈现爆发式增长态势。融资金额从2022年的3.25亿元跃升至2026年的177.60亿元,五年间增长超54倍;投融资数量也从个位数攀升至约25起,显示出资本市场对该赛道的高度关注与持续加码。
从增长节奏来看,2022-2023年为起步培育期,金额与数量均处于低位;2024年起进入加速通道,当年金额达45.55亿元,数量约15起;2025年金额突破百亿大关,达到123.16亿元;2026年进一步攀升至177.60亿元,年均复合增长率高达170%以上,反映出AI技术赋能漫画创作的商业化潜力正被快速验证。
AI漫剧作为AIGC在内容创作领域的重要应用方向,通过生成式模型实现剧本、分镜、配音、动画的自动化生产,大幅降低了制作成本与周期。投融资的持续火热,表明资本看好其规模化生产与全球分发的商业前景,预计未来几年AI漫剧将成为数字内容产业的新增长极。
