ChatGPT Images 2.0:AI画图开始动脑子了
艾媒网(iimedia.cn)获悉,4月22日,OpenAI正式发布新一代图像生成模型ChatGPT Images 2.0。与以往版本不同,OpenAI将其定义为“首个具备思考能力的图像模型”——它在生成图像前会进行内容推理、联网检索信息,并对自身输出进行复核,将图像生成从单纯的“渲染”提升为“策略性设计”。
推理之后才落笔
这一技术突破,发生在中国AI大模型市场高速扩容的背景下。根据iiMedia Research(艾媒咨询)数据,2024年中国AI大模型市场规模约为294.16亿元,预计2026年将突破700亿元。目前,中国AI大模型正处于技术进步迅速、市场规模快速增长、政策支持力度加大、行业应用广泛、企业积极参与和投资不断增加的爆发式发展阶段。
在这一市场爆发节点上,Images 2.0的思考能力显得尤为关键。这同样意味着,AI图像生成能力的代际跃迁,正从技术话题演变为广泛的生产力议题。
Images 2.0提供即时与思考两种模式。在思考模式下,模型会先对用户指令进行拆解推理,联网获取必要信息,然后生成最多8张图像,并保持角色和物件的视觉一致性。完成生成后,模型还会对输出结果进行复核,修正错误。这一“推理之后才落笔”的机制,使模型从被动执行指令的工具,转变为能够自主规划、校验的初级设计助手。
在渲染精度方面,Images 2.0最高支持2K分辨率,版面设计能力可做出层次分明、留白得当的专业排版,适用于海报、社群贴图、产品设计稿等场景。即便是放大到像素级细节,图像边缘依然锐利,色彩过渡自然。两年前,AI图像模型连一份餐厅菜单上的文字都无法正确排列;如今,Images 2.0已能生成可直接商用的高质量图像。从能看到能用,从娱乐到生产,图像生成的底层逻辑正在被重写。
中文图像也能被“稳稳接住”了
“稳稳接住”这个梗,来源于Chatgpt美式逻辑下中文表达的诙谐。在Images 2.0发布前的很长一段时间里,无论是Midjourney、Stable Diffusion还是上一代DALL-E,只要遇到需要生成带中文的场景,结果往往是一场灾难:文字错乱、缺笔少划、排版歪七扭八,被用户戏称为翻车现场或“鬼画符”。因此,能不能把中文需求“稳稳接住”,成了检验AI图像生成模型中文能力的试金石。
有趣的是,OpenAI官方也玩了这个梗。在关于Images 2.0演示的官博中,OpenAI华人研究科学家陈博远展示了一张漫画风格的中文宣传图,图片正中央赫然写着“稳稳地接住你”。官方用反向玩梗,承认了中文曾经是短板,同时也自信地宣告:这个问题,现在解决了。在实测中,用户只需输入一段中文文本,模型可在不到一分钟内输出字形正确、笔锋自然的中文图片。不仅如此,Images 2.0对日文、韩文等其他非拉丁文字的渲染同样精准——日文营销海报的假名小圈点清晰可辨,韩文字符的笔画结构也基本无误。
这项技术突破,有望推动AIGC在全球市场的进一步普及。从教育图表到多语言界面,从文化创意作品到企业营销物料,Images 2.0大幅降低了专业设计门槛。随着图像模型思考能力的持续进化以及非拉丁文字渲染精度的不断提升,AI图像生成或将真正赋能千行百业,成为每个人手边的视觉生产力工具。
