商汤科技董事长徐立:AI 2.0生产力工具,目前能解决的问题不足10%

艾媒咨询|2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展,AIGC技术也日益成熟,广泛应用于更多领域,其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测,预计2023年中国AIGC核心市场规模将达79.3亿元,2028年将达2767.4亿元。

艾媒咨询|2023年中国AIGC行业发展研究报告 精品决策

  3月23-24日,2024全球开发者先锋大会(GDC)在上海召开。

  开幕式上,商汤科技董事长兼CEO徐立分享了对AI 2.0时代生产力工具“质”变背后的思考和突破路径。他表示:“AI 2.0时代,生成式AI被视为推动生产力进步的重要技术。”

  徐立认为,随着大模型的发展,人工智能的关注点从感知智能转向生成式内容,进入AI 2.0时代。不过,虽然业内已经开始使用AI 2.0时代的生产力工具,但这些工具带来的生产效率提升效果并不明显,所能解决的问题占比不足10%,给生产链路带来的突破相对有限。

  “如果能在知识、推理、执行三层能力上实现突破,将真正带来整个社会生产力的跨越式发展。” 徐立表示。

  AI编程解决问题有限

  ChatGPT、Copilot、Blackwell是AI 2.0时代的代名词。搜索数据显示,中国对于这些词的关注热度位居世界榜首,这代表着中国近千万的开发者以及普罗大众对于AI能够带来的变化热切关注。

  在开源社区GitHub上,生成式AI项目、大模型项目以及辅助编程、辅助开发的工具项目层出不穷。徐立表示,对于开发者来说,生成式AI是最好的带来生产力工具,带来生产力突破的行业。

  业内普遍认为,代码是大模型最明确的应用方向之一。百度创始人、董事长兼CEO李彦宏近期大胆表示,以后不会存在“程序员”这种职业。

  早在2021年,GitHub就和OpenAI联合开发的AI编程助手GitHub Copilot,基于GPT-3模型的Codex构建,通过分析大量开源代码库学习编程模式。它提供代码补全、上下文感知建议、IDE内聊天式帮助以及代码解释等功能,支持多种编程语言和框架。

  2023年3月,在ChatGPT火爆全球之后,GitHub又基于GPT-4模型打造Copilot X开发平台,Copilot Chat是其主要功能之一,通过文本问答的方式就能生成、分析、审核代码等。

  近期,创业团队Cognition AI更是开发出全球首个AI程序员智能体Devin,它具备自主学习新技术、端到端构建和部署应用、自主查找和修复代码Bug、训练和微调AI模型的能力,人类只需扮演一个下指令和监督的角色。

  在SWE-bench基准测试中,Devin解决了13.86%的实际编程问题,展现了超越其他AI模型的性能。相较之下,GPT-4只能处理1.74%的问题。

  不过,这个数据也显示了新生产力工具的准确率和完成度普遍较低,较业内期望仍有待提高,徐立认为,虽然整个行业在往前走,但目前还是处于相对雏形。

  “软件开发全生命周期包括需求分析、设计、开发、测试、部署和维护诸多环节。虽然目前AI能够带来很多革新,或者扩展到很多场景,但目前仅能解决其中非常小众的部分。”徐立表示。

  他表示,具体而言,AI目前能解决的是在过往基础上抽象成比较标准化,甚至以知识库的形式固化下来的内容,包括代码补全、代码增写以及部分测试用例等。如果把它分摊到整个软件或者产品设计的全流程当中,占比并不高。

  “当然,随着扩展能力变强,很多工具会从前端的设计、测试用例再到维护的横向拓展,一步步往前演进。”徐立表示。

  推理层和执行层是下一步重点

  一个有意思的现象是,编程经验越丰富,不代表就越能用好新的生产力工具。统计数据显示是相反的:工作五年以下的程序员使用新生产力工具解决问题时长超过一小时,但五年以上的程序员反而更短。这意味着越是高阶、复杂的任务,对于当前新生产力工具来说还有一定的挑战。

  这与大模型能力有关。徐立表示,大模型能力可分为三层架构,而且这三层之间互有依赖,但又相对独立。

  第一层知识(Knowledge),世界知识的全面灌输。“目前,许多生产力工具解决的都是知识层的问题,当用户提出问题时,其底层的逻辑都来自于‘世上无新事’——你所面临的问题,前人可能已经遇到过并解决了,因此通过大模型可以很好地完成这些任务。”徐立表示。

  第二层推理(Reasoning),理性思维的质变提升。有了世界知识之后,再往前演进。即使不知道这件事实,也可通过AI逐步把这个事实推理出来,给出更多的可能性。

  “知识和推理是作为生产力工具——大模型最重要的两层,但目前在推理层,成长还相对有限,这也是今后要集中突破的能力之一。”徐立表示。

  第三层执行(Execution),世界内容的互动变革,即如何跟这个世界互动反馈。徐立表示,某种意义上,如今火热的具身智能,在执行上会有很大的突破。

  总体来讲,这三层可以组成一个完备的对于世界提供生产力工具模型的三层能力。

  “从软件开发上,知识层是代码的补全,补全的代码来自别人写过的代码;推理层真正深入到软件开发的全流程;执行层是进入切分到垂直场景当中,以场景化的智能为依归。”徐立表示,知识层主要解决高频、标准化问题,做别人做过的问题,显然准确率高;推理主要解决长尾、碎片化的问题。

  以商汤的软件智能研发助手“小浣熊”为例,据徐立介绍,如果去年用“小浣熊”代码补助工具,可节省30%的工作量。在整个过程里,它的工作主要基于一个代码库,解决的还是一些重复性的劳动。

  在此基础上,商汤进一步整合了从需求分析、需求设计到长尾应用等各个环节,推出“小浣熊”2.0版本。它可以基于海量数据筛选出需求,制定产品特征,完成产品的自主开发。

  而它的下一步,则是在获得世界知识的基础上,进一步应用到更多的机器人场景当中。

  “我认为生产力工具如果在现在三层能力上(知识能力、推理能力、执行能力)都有突破的话,首先受益的是广大开发者以及场景化的核心应用,最终将真正带来整个社会生产力的跨越式发展。”徐立表示。

艾媒咨询|2023年中国AIGC行业发展研究报告

随着人工智能技术的不断发展,AIGC技术也日益成熟,广泛应用于更多领域,其广阔的应用前景将推动AIGC市场规模快速增长。艾媒咨询预测,预计2023年中国AIGC核心市场规模将达79.3亿元,2028年将达2767.4亿元。

艾媒咨询|2023年中国AIGC行业发展研究报告 精品决策