云测数据总经理贾宇航:场景化AI数据助力人工智能发挥新基建力量

艾媒咨询|2020年中国AI数据服务专题研究报告

本报告研究涉及企业/品牌/案例:云测数据,龙猫数据。<br/><br/>在政策利好、场景需求剧增和5G落地等因素的推动下,中国AI行业的市场规模不断扩大,核心产业市场规模2020年将达到1500亿元,发展从规范化阶段向专业化阶段迈进,市场前景广阔。艾媒咨询分析师认为,随着技术的成熟、平台的布局,未来市场发展潜力将不断拓展,AI数据服务将被运用在多种实际场景,如医疗、金融、新零售和安防等。随着AI与

艾媒咨询|2020年中国AI数据服务专题研究报告 精品决策

  由艾媒咨询主办的“2020全球未来科技大会”夏季线上峰会于8月20日18:30正式开播。

  本次大会以“科技当夏•消费焕新”为主题,分设“新科技•新基建”和“新模式•新消费”两大专场,聚焦AI应用、智慧交通、智慧城市、在线教育、在线办公、在线娱乐等前沿话题,汇聚各行业精英领袖、专家学者共同畅谈前瞻观点,探寻新经济行业新的增长动能和发展路径。

  在“新科技•新基建”专场上,云测数据总经理贾宇航围绕“AI应用”,发表了《场景化AI数据助力人工智能发挥新基建力量》主题演讲。本次演讲主要围绕人工智能新基建,解说了人工智能背后的三要素——数据、算法和算力,分析了定制化数据的未来三个方向——场景的多样化、样本的多样化以及内容的专业化。

  以下,为主办方官方整理的云测数据总经理贾宇航演讲全文实录(部分内容有删减):

  非常感谢未来科技大会的这次邀请,我本次的分享是《场景化AI数据助力人工智能发挥新基建力量》,我是云测数据贾宇航。

  在本次的分享开始之前,我先介绍一下Testin云测以及云测数据。Testin云测是一家以人工智能技术驱动的企业服务公司,在这10年的时间里积累了大量的to B经验,并且前前后后为众多的移动互联网、人工智能企业提供测试、数据、安全及推广服务。而云测数据致力于为人工智能企业去提供场景化、高质量AI训练数据服务的这条业务线分支,为企业提供对应的图像、语音、视频、文本等通用品类的全品类的数据服务的支撑,并且在华东、华北、华南地区设有对应的数据标注和采集的交付中心,已支撑数百家AI数据企业。

  我们这次的主题主要是围绕人工智能新基建的相关方向。在这里我们先来看一看人工智能与其他新基建主题的共性有哪些?我们会看到人工智能和其他新基建,比如像5G、特高压、城际高铁等相关的主题,实际上它的管道的作用非常明显。5G的基建则是将数字信号从一个地点传输到另一个地点。特高压则是将能源,城际高铁则是货物,人力、新能源、大数据中心、工业互联网也亦是如此。而人工智能其实也起到了这样的管道作用。

  如何理解管道的作用呢?我们想象一下,其实随着互联网以及人工智能的发展,我们会发现越来越多的将现实场景转化到虚拟资产,以及虚拟物品、虚拟数据这样的形式和品类,或者业态越来越丰富。我们可以简单来看,比如像AR/VR、智慧城市、无人零售、自动驾驶、智能制造、智能家电等一系列通过传感器对于现实世界的内容的识别进行数据积累并作出相应的反馈。我们会发现伴随着人工智能以及互联网的发展,以及人工智能越来越多的产品落地,将来越来越多的现实场景转化为虚拟的数据。而在这背后,实际上就是人工智能所起到的作用,人工智能背后则是它的基建背后支撑有三块,分别是数据、算法和算力。这三个要素的相互迭代,相互促进,实际上也进一步将人工智能的应用基础以及对应的技术发展推向了一个又一个新的高度。

  简单地解说一下这三要素,算法则是说人工智能所对应的一种工作模式,比如人脸识别算法,就是识别人脸,物体识别则是对应的识别相对应物体的方法论,工作方法。而数据则是让机器习得相关方法所需要的训练数据。算力则是说人工智能机器在进行习得学习训练相关所需要的算力资源。而这三者实际上是处在一个既相互促进,又相互制约的关系。怎么理解呢?有了更多的数据,实际上算法的迭代有了进一步的提升,这才有了进一步算法的演进,以及更多产品落地。而有一些行业也因为迟迟没有更大规模的数据的样本,所以导致一些行业的算法发展并没有想象中那么迅速。

  我们简单来看一下AIOT的智能化设备的发展历程,来了解一下我们现在目前所处的AI场景化数据是什么样的过程?随着移动互联网的发展,越来越多的智能化设备,例如像手机、电脑、相机等一系列的对应的设备,通过互联网中的分享性以及数据沉积性,我们就能获得对应的数据,用这样的数据去进行训练。像(05:34)等一些开源数据也好,以及一些不同的开源数据集实际上都是通过大量的互联网的数据沉积,进而数据可以用于深度沉积网络的训练,得到了一定的人工智能的发展。

  而目前这个阶段则是进入到了下一个阶段,我们会发现,只是通过已有的量产型的设备,以及互联网中的数据,它其实对于数据的补充是有限的,而有一些数据可能需要通过一些定制化的设备获取,或者一些三维、多模传感器融合的数据进行获取,例如像激光雷达、毫米波雷达、红外以及麦克风阵列等相关的数据,去配合我们所需要解决问题的场景,在这些场景下,用这样的设备获取对应的数据,才能到下一个阶段。再配合着算法等一系列的充值化的叠加,我们就会发现未来的社会中会有更多智能化的设备的体现,而智能化设备在量产之后又能通过用户相关的使用,会让它持续地更加智能化,去进一步巩固以及促进人工智能技术的进一步发展。而我们刚才所讲的定制化设备+场景训练数据正是我们所看到的2020年这一年以及近几年之中所对应需要的新趋势。

  而在这样的数据趋势下,实际上定制化数据为了满足商业化落地,它就需要对应的定制化数据,而定制化数据的发展趋势也逐渐在往这三个方向发展,分别是场景的多样化、样本的多样化以及内容的专业化。怎么理解这三点呢?首先第一点,场景的多样化,我们会发现,我们所积累的在互联网中,或者我们通过一些已有的训练数据,我们可以看到头部场景非常多,比如说我们积累了非常多的正常光影下的人脸对应的所需要的训练数据,而真正的比如像逆光、侧光、背光等不同的多长尾场景的数据实际上获取的非常少,而由于深度学习所对应的特点,它非常依赖于对应所需要的场景,也是需要对应的不同特殊条件的数据才能得到对应的算法的实施效果。因为这样的特性,所以就需要我们在实际的训练数据获取之中,去涵盖更多更加丰富的场景数据。这里面我们就在整个场景的设计中需要加入更多的复杂场景,贴近现实的场景,以及尽可能多地想到我们在实际使用的过程中,有哪些小数据长尾场景的涵盖,这样才能保证在有这样的数据下,机器才能正常地工作和正常地运转。

  第二点也就是讲到了样本多样化,这个概念就是AI的普惠性,我们刚才说到了可能获取到头部数据,就是常规数据非常容易,但实际上对应的比如说成年人普通话,可能获取很容易,但是真正对于一些智能音箱等相关的使用过程中会发现,真正在用户的使用过程中可能有不同的口音,也可能有不同的年龄,有可能是相同的口音,但不同的年龄以及不同的性别所带来的矩阵式的多样化,导致我们在真正的产品发布之中要考虑到不同的人群的使用,进而来讲就要针对特定的人群的样本,以及对应的被采集的物体或者人群的样本去进行相关的设计,以确保样本的丰富性,最终达到产品的使用能覆盖到不同人群、不同物体、不同场景的效果。

  以及第三点,我们在AI场景落地之中会发现,它已经从简单的认知智能逐渐上升到感知智能的方向,而上升到感知智能我们就会发现,随着AI产品落地,不光是数据科学家去定义问题、设计模型,也逐渐会由产业专家参与模型的定制,以及问题的定制过程。而伴随着实际上数据的标注和数据的采集也会逐渐地需要引入一些对应专家和对应领域知识的积累,确保能在整个数据的作业过程之中,达到对应的效果,那么这里面就可以以一句话来形容,其实AI的任何一个行业领域都需要一个对应的老司机,这样的一个角色,或者是这样一个团队去配合,这样的话才能达到真正AI产业落地之中所需要的合格的数据的标准。

  面对刚才所设计的三个问题,以及三个趋势,云测所对应的达到的要求和规范来讲,其实做了两件事, 第一点就是云测自建了场景数据采集的场景实验室,结合客户所需要的场景,对应的定制化的设备的要求,以及对应的样本要求,设计构建这样一个场景,以满足客户所需要的定制化数据对应的要求,去完成这样的数据采集。而数据的标注则是我们以坚持自建数据标注基地的方式,配合我们自建的数据标注平台,去完成高效高质量的数据标注服务。

  这一块来讲,云测是希望高质量数据成为企业的核心竞争壁垒。所以数据采集一直致力于专业性、场景化以及样本的丰富性等方向持续发展。而数据的标注则是针对于向高效率、高精度以及对于特定行业中所积累对应的专业知识,以确保能够完成对应的相关领域的数据标注作业相关能力的逐渐积累过程,以及数据标注和数据采集持续对于准确性,以及数据的安全性做到逐渐的积累,以确保能够达到拥有高质量数据,构建企业核心竞争壁垒的要求。

  云测数据主要是致力于为智慧城市、智能驾驶、智能金融以及智能家电对应赋能数据服务。而人工智能之中所对应的数据、算法、算力之中,云测数据就是期望致力于构建成为数据行业中的新基建的中流砥柱,去推动整个人工智能行业的发展。

  以上就是本次的分享内容,感谢。

艾媒咨询|2020年中国AI数据服务专题研究报告

本报告研究涉及企业/品牌/案例:云测数据,龙猫数据。<br/><br/>在政策利好、场景需求剧增和5G落地等因素的推动下,中国AI行业的市场规模不断扩大,核心产业市场规模2020年将达到1500亿元,发展从规范化阶段向专业化阶段迈进,市场前景广阔。艾媒咨询分析师认为,随着技术的成熟、平台的布局,未来市场发展潜力将不断拓展,AI数据服务将被运用在多种实际场景,如医疗、金融、新零售和安防等。随着AI与

艾媒咨询|2020年中国AI数据服务专题研究报告 精品决策