摘要第五届开发者大会

 

  

  6月12日,由人民网与艾媒咨询集团(iiMedia Research Group)联合主办的2014移动互联发展大会暨第五届中国手机应用开发者大会(大会链接2014cmadc.iimedia.cn/)在北京国际饭店举行。

  Intel研究院院长吴甘沙出席了此次大会的移动大数据分论坛,并且做了“大数据的探索历程回归初心”的主题演讲。他认为,大数据纪元刚开始,第一个核心问题就是“大”的问题,目前我们做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大的数据,由此需要的就是“范式切换”。最早大数据的处理范式是Mapreduce的批量处理,慢慢我们发现有其他的需求,实时的流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐放,最后我们万法归宗。

  以下是演讲原文:

  吴甘沙:各位尊贵的来宾早上好。很荣幸参加这次盛会,和刚才高新民秘书长和王斌老师讲的观点不太一样,他们讲的是上层建筑,我今天更多讲的是技术的、物质的基础。英特尔做了很多年大数据,我们主要处理三个关系:数据与机器的关系、数据与数据的关系,经过Hadoop,经过各种分析可视化工具,最后回归初心,数据从哪里来?

  数据与机器的关系。大数据纪元刚开始,我们碰到的第一个核心问题就是“大”的问题。我们做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大的数据,怎么办?需要范式切换。主要有三个方面,新型的数据与机器关系当中的第一条就是重新考虑架构与算法,重新考虑舍得,有舍才能得,天下没有免费的午餐,所以我们必须要舍弃一些,得到一些新的。我们必须舍弃贵族化的高端小型机和服务器,得到平民化大量的X86的服务器。通过这样一种可横向、可水平扩展服务器处理每两年翻番的数据量的挑战。我们上面的软件,传统上依赖硬件的可靠性和可用性。现在要舍弃它,得到软件的可靠性和可用性。这也就是谷歌三大论文以及Hadoop的核心重点。我们要舍弃传统数据库的强一致性,获得更放松一致性的架构可扩展。算法原则强调非常严格的精确性,现在要放弃一些精确性,通过近似、采样这种方式来获得更好的扩展性。

  最早大数据的处理范式是Mapreduce的批量处理,慢慢我们发现有其他的需求,实时的流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐放,最后我们万法归宗。刚才王斌老将讲的SAP的HANA本身就是数据管理和分析的融合,现在非常荣幸的Hadoop之后的SPACK,就是把前面的各种范式进行了融合。

  存储与内存的消长,大数据第一个要解决把数据存储下来,互联网发现要把它放到大的内存里进行处理,获得实时性,但是在存储和内存之间现在又出现了闪存,有闪存化甚至全闪存的存储,也有闪存化的内存,我们把所有的计算在闪存里面处理。现在微软、Facebook等等在大量使用新的范式。大家可以预期,两年以后出现新的非易失性的闪存,它的速度可能要比闪存快几百倍,和内存相似,这又会极大地颠覆数据与机器的关系。

  第二层关系:数据与人的关系。主要是价值的觉醒,如果数据不能产生价值它可能是负面资产。数据怎么能够给人带来价值?我们介绍一下它的价值维度,高秘书长讲了三个V,把它映射到二维的时空象限里,用六个关键词来描述它。第一是“Volume”,两个关键词,小数据见微对个人进行刻划,大数据支柱能够了解宏观规律,它是时间概念也是空间概念,同时也是时间概念,数据刚刚产生的时候,它的个性化价值、见微的价值最大,而随着时间的推移,它渐渐退化。第二是Velocity,时间轴的原点是当下实时价值,副轴是过往,正轴是预测未来,如果知道知前后就能够做到万物的皆明。第三是Variety,多元抑制的数据,能够过滤噪声、查漏补缺、去伪存真,就是辩讹。还有晓意,能够从大量的非结构化数据中获得语意。我能够使机器窥探人的思维境界,这六个价值维度怎么去实现?主要是两部分人,一是数据科学家要洞察数据,另外一个是终端用户和领域专家要去解读数据并利用数据。首先看洞察数据,数据科学,人和机器作用发生了消长,讲个例子,机器学习大家觉得是机器的问题,其实人在里面起到很重要的作用,尤其是机器学习是模型家特征,而特征工程是一个人力工程,你要有经验非常丰富的特征团队去死磕特征,找出更好、更多的特征,才能够使机器学习的效果更好。但是现在深度学习这些新技术出来,能够用机器学习特征,能够在大量非结构化数据中找到丰富的信息维度用特征表达出来,这远远超出了人的能力。大家知道黑客帝国描述了一个场景,人脑袋后面插一个插头,给机器提供营养,我可能不会那么悲观,但是像这样的互动关系以一种更良性的方式出现了,现在人的一言一行、社交行为、金融行为都已经成为机器的养料、机器的数据,使得机器获得更好的洞察。

  终端用户需要更好地、更傻瓜化的分析工具和可视化工具,两年前我去参加大数据的会,基本上都是Hadoop和NoSQL现在大家参加大数据会可以看到清一色的分析工具和可视化工具。大数据跟各行各业的化学作用正在发生。如果马化腾说“互联网+”是互联网与各行各业的加法效应,那么大数据将与各行各业产生乘法效应。

  第三个关系,数据与数据的关系。(图)黄色的部分是与世隔绝的数据。蓝色的海是web上已经上网的数据。现在只有海面平的数据是搜索引擎可以检索到,深海的数据可能是黑暗的数据,在政府、在企业里大家看不到。我们怎么办呢?必须让数据发现数据。只有让数据能够发现数据、遇到数据,才能产生金风玉露一相逢、便胜却人间无数的效果。这里有三个重要的观念,需要法律、技术、经济理论和实践上配合。法律上要明确数据的权利,数据所有权,数据的隐私权,什么数据不能给你看;数据的许可权,什么数据是可以给你看的;数据的审计权,我给你看了以后,你是不是按照许可的范围去看;数据的分红权。数据像原油又不同于原油,原油用完了就没有了,数据可以反复地产生价值。我们要保证数据的开放、共享、交易。

  科研数据要开放,开放过程中注意保护隐私。企业之间可以进行数据的点对点共享,最高境界是不丢失数据的所有权和隐私权的前提下共享,这里有多方安全计算的概念。1982年姚期智老先生提出了百万富翁的窘境的问题,两个百万富翁他们想要比谁更富,但是谁都不愿意说出来自己都多少钱,在我们的数据共享当中要通过各种各样的技术达到这样的效果。还有数据交易,建立多边多边平台来支持数据交易。互联网能发展起来经济是很重要的概念,梅特卡夫定律决定了一个互联网公司的价值,跟它用户数的平方成正比,又比如说谷歌请最好的经济学家,它的一个广告业务的核心就是建立在一个非常先进的拍卖经济学的模型基础上。数据经济也需要这样一些基础的理论,比如数据定价和信息定价不一样,信息做一个咨询报告5000美金卖给你,可以卖给所有人。但数据对不同的单位价值不一样,可能我之毒药是彼之蜜糖。另外估值,一个企业拥有大量的数据,是无形资产的一部分,对于企业的市场价值带来了多大的增长。

  今天我主要是讲这三层关系:数据与机器的关系、数据与人的关系、数据与数据的关系。英特尔做了很多有益的探索,我们也期待与政府、学术界、产业界携手努力,真正让各行各业获得大数据的乘法效应。

  谢谢大家!