▌新朋友:点击标题下面蓝色字 ☞“软件定义世界(SDX)” |
【院士大数据论坛】专题共为大家准备了4篇文章,第一篇是李国杰院士的《谈大数据时代的国家治理》,主要从政府数据开放共享角度讨论大数据;第二篇是邬贺铨院士的《大数据时代的发展趋势》,主要通过一些鲜活的案例、详实的数据分析大数据的发展趋势;第三篇是倪光南院士的《迎接大数据时代的来临》,主要从大数据特征、发展历程、经典案例、研究范式、生态系统、行业应用实践等深入浅出的分析大数据的历史、现状和趋势及存在的主要问题。第四篇是李德毅院士有关大数据论述的文章,敬请期待!
编者注:本文原载于2013年《信息化蓝皮书》,题名《迎接大数据时代的来临》,共分四节,其中,第一节叙述大数据的发展、特征和处理流程,第二节论述大数据和云计算的关系,第三节论述大数据和标准的关系,第四节叙述大数据的应用及相关问题。第一节和第四节由倪光南院士编写,第二节由姚宏宇撰写,第三节由何克清撰写。本文节选第一节和第四节,分两期刊登。本期刊登上篇--《第一节 从商业智能到大数据》,明天刊登具有10张图片、多个详实案例的下篇--《第二节 大数据的应用 》。
『独家』【院士大数据论坛】倪光南:迎接大数据时代的来临〖NO3上篇〗
文:倪光南
倪光南,1939年出生,现为中国科学院计算所研究员,中国中文信息学会理事长,中国工程院院士。曾任北京市人民政府参事。系第八届全国人大代表,第八届、第九届全国政协委员,第五届全国青联特邀委员 。联想集团首任总工程师。作为我国最早从事汉字信息处理和模式识别研究的学者之一,提出并实现在汉字输入中应用联想功能。
第一节 从商业智能到大数据
一、“啤酒与尿布”
商业智能(BI)中被人们广泛称道的实例之一是沃尔玛的 “啤酒与尿布”案例[1]。这个故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。
在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。
当然,像“啤酒与尿布”这样的故事,背后必须具有技术方面的支持。“啤酒与尿布”这个故事背后,是一种对数据进行分析的关联算法。1993年,美国学者Agrawal 提出通过分析购物篮中的商品集合从而找出商品之间关联关系的关联算法,并表示可以根据商品之间的关系,找出客户的购买行为。Agrawal从数学及计算机算法角度提出的商品关联关系的计算方法,即是Apriori算法。沃尔玛从上个世纪90年代尝试将Apriori算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。
另一个在商业智能领域被人们广泛称道的案例,发生在美国第二大的超市塔吉特百货(Target)[2]。对于零售商来说,孕妇是个含金量很高的顾客群体;但是她们一般会去专门的孕妇商店而不是在塔吉特百货购买孕期用品。人们一提起塔吉特百货,往往想到的都是清洁用品、袜子和手纸之类的日常生活用品,却忽视了塔吉特百货也有孕妇需要的一切。那么塔吉特百货有什么办法可以把这部分细分顾客从孕妇产品专卖店的手里截留下来呢?
为此,塔吉特百货的市场营销人员求助于塔吉特百货的顾客数据分析部的高级经理Andrew Pole,要求他建立一个模型,在孕妇第2个妊娠期就把她们给确认出来。在美国出生记录是公开的,等孩子出生了,新生儿母亲就会被铺天盖地的产品优惠广告包围,那时候塔吉特百货再行动就晚了,因此必须赶在孕妇第2个妊娠期行动起来。如果塔吉特百货能够赶在所有零售商之前知道哪位顾客怀孕了,市场营销部门就可以早早的给她们发出量身定制的孕妇优惠广告,早早圈定宝贵的顾客资源。
可是怀孕是一件较为私密的事情,如何能够准确地判断哪位顾客怀孕了呢? Pole想到了塔吉特百货有一个迎婴聚会的登记表。Pole开始对这些登记表里的顾客的消费数据进行建模分析,不久就发现了许多非常有用的数据模式。比如模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后Pole选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,塔吉特百货能够在很小的误差范围内预测到顾客的怀孕情况,并早早地把孕妇优惠广告寄发给顾客。
那么,顾客收到这样的广告会不会吓坏了呢?塔吉特百货很聪明地避免了这种情况,它把孕妇用品的优惠广告夹杂在其他一大堆与怀孕不相关的商品优惠广告当中,这样顾客就不知道塔吉特百货已经知道她怀孕了。百密一疏的是,塔吉特百货的这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他高中生的女儿怀孕了,此事甚至被《纽约时报》报道了,结果塔吉特百货大数据的巨大威力轰动了全美。
根据Pole的大数据模型,塔吉特百货制订了全新的广告营销方案,结果塔吉特百货的孕期用品销售呈现了爆炸性的增长。 Pole的大数据分析技术也从孕妇这个细分顾客群开始向其他各种细分客户群推广,从Pole加入塔吉特百货的2002年到 2010年间,Target的销售额从440亿美元增长到了670亿美元。
在商业智能的应用中,我们可以举出很多类似于上述沃尔玛和塔吉特百货的成功案例,这些早期商业智能的成功应用已经向人们展示了数据的威力,表明在数据中蕴藏着巨大的财富,有待于人们去挖掘。虽然这些传统的商业智能与今天我们所说的大数据之间存在着重大的差别,但却为现在的大数据发展埋下了伏笔;从某些角度上说,大数据是从商业智能发展而来的。
二、大数据兴起
当前在中国,云计算热方兴未艾,大数据热接踵而至。虽然对大数据人们还有各种不同的理解,但有一点是没有疑义的:大数据时代已经来临,我们必须为此做好准备,迎接它带来的机遇和挑战。
2008年9月,“耶路撒冷公告”宣称:“我们正在进入一个物理、生物、环境、社会和经济系统的信息高速产生的时代。信息的记录、存取、数据挖掘和传播将在今后一些年里对人类知识的进步产生重大影响。科学家们应当设计、探索和验证各种存取和利用这些信息的协议,以便最大程度地利用信息和促进研究,同时,保护和尊重作为信息本身一部分的私有属性”。这也许是国际性组织最早对大数据时代的到来发出的预言。
世界各国现在都非常重视大数据方面的研究,并分别从国家战略的层面相继推出了自己的研究计划。其中,美国在相关领域的计划和研究方面走在了前列。
2011年,美国总统科学技术顾问委员会曾提出一份建议,认为大数据相关技术具有重要战略价值,而联邦政府对其研发投资不足。作为建议的反馈,2012年3月白宫科技政策办公室发布了《大数据研究和发展倡议》,并组织了大数据高级监督小组协调和拓展政府在这一重要领域的投资。[3]
《大数据研究和发展倡议》提出,将提升美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,协助加速科学、工程领域创新步伐,强化美国国土安全,转变教育和学习模式。该倡议还承诺将在科学研究、环境保护、生物医药研究、教育以及国家安全等领域利用大数据技术进行突破。与此同时,美国总统办公室发布了《遍及联邦政府的大数据》,披露了12个国家部门制定的大数据发展计划,旨在应对大数据革命的挑战并抓住它所带来的机遇,推进本部门的工作并促进长远的科学发现和创新。例如仅美国国防部就制定了“在多尺度上检测异常计划”、“网络空间内部人威胁检测计划”、“洞察当前情报、监管和侦察系统的主要弱点的计划”、“实现人工智能的机器阅读计划”、“智慧视力计划”、“面向任务的弹性云”、“加密数据的编程计算计划”、“视频和影像的检索和分析工具计划”、“XDATA计划(发展分析海量半结构和非结构数据的计算技术和软件)”等九个涉及大数据的计划[4]。其他各部门也都部署了类似的计划。
美国政府还十分重视政府信息资源的共享和利用,将“共享第一”作为美国联邦IT共享服务战略的基础范式,力推政府开放平台。
美国工业界和学术界同样高度重视大数据。市场研究公司IDC预测的2013年九大科技发展趋势,其中第七个趋势就是“大数据将发展壮大”。IDC认为,“就如2012年移动设备和云计算成为了每家公司的必需品那样,大数据将在2013年被每一个人所使用。”IDC表示,大数据市场的年增长率将达到40%,2012年该市场的规模约为50亿美元,到2013年规模为100亿美元,到2017年规模将达到530亿美元。另一家著名的咨询公司麦肯锡的全球研究所也认为,大数据是下一个创新、竞争和生产力提高的前沿。
2012年,遍及全美的大数据研究者们发布了一个联合白皮书《大数据的机遇和挑战》[5],书中指出:
“数据驱动决策的前途已获得普遍认可,大数据已越来越热。虽然大数据的前途是现实的,例如仅谷歌一家在2009年估计就对美国贡献了540亿美元,但是目前在它的潜力和现实之间还有一个很大的缺口……
在过去35年里,数据管理原则,如物理和逻辑的独立性、陈述式查询和基于价值的优化等已将这一产业引向数十亿美元的规模,更重要的是,这些技术进步已经成就了第一轮的商业智能应用并为管理和分析今天的大数据打下了基础。与大数据相关的许多新挑战和机遇迫使人们对这些数据管理平台的很多方面重新进行思考,同时也保持它可取的一些方面。我们相信,在大数据上的适当投入将引发基础技术发展的一个新浪潮,并将体现在下一代大数据的管理、分析平台、产品和系统等方面。
我们相信,这些研究问题不仅是适时的,而且有可能在今后一些年里对美国经济产生巨大的经济价值。然而,它们也是困难的,需要我们在基本方法上重新思考数据的分析系统。在大数据上的重要投入如果正确地引导,不仅可以产生重大的科学进步,而且可以为下一代科学、医学和商务的发展打下基础。”
上述以美国为代表的发达国家的政府、工业界和学术界对于大数据的重视和具体部署,对于我国是一个很好的启示;它也表明,大数据还只是刚刚兴起,只要我们予以重视,合理部署,我国在这个领域有很大的创新空间。
三、大数据的特征
(一)“数据”的重大飞跃
从早期的商业智能发展到当前的大数据,我们可以发现,大数据在数据量、数据特性、数据来源和应用领域等方面都发生了重大的飞跃,表现出了明显的特征。
首先是数据量。商业智能依托的数据量往往达到TB(1012Byte),这个数量级已经比较大了;但在大数据时代,数据量即使达到PB(1015Byte)这个数量级也不算很大,并且这个尺度还在继续提升。据IDC估计,全球新产生的数据年均增长率达到40%,全球信息总量每两年就可以翻番,大数据处理数据规模当然也会相应增加。
图1-1 未来信息爆炸的趋势
资料来源:IDC
其次是数据特性。商业智能分析的数据主要是数据库那类结构化的信息,而大数据分析的主要是非结构化信息,如文本、图形、音频、视频、遥感遥测信息……并且大多是所谓的“实时”信息。这里所说的“实时”信息,与工业控制这类场合所说的“实时”不同,它并非是指短到“毫秒”、“微秒”、“纳秒”等等那样的“实时”,而是近似的“实时”。随具体涉及的场景不同,这里的“实时”可能以“天”、“周”、“月”等等这样的时间单位来衡量。换言之,大数据利用的“实时”信息是指在一个与场景有关的较短、较近的时期段里,在一个能容许对变化做出响应、并判定响应效果的时间段里所产生并可资利用的信息。显然,在这样的一个时间段里可以形成一个反馈过程,在这个意义上,实时数据是“可操作”的,这对发挥大数据的作用是非常重要的,例如可以根据人们的反映适时地调整政策。应当指出,大数据及其相关技术的发展,将使数据的规模越来越大、频度越来越高、实时性越来越强,所以不可能精确地定义实时性的度量。同时,今天的实时数据会很快地变成历史数据,成为和过去大部分传统统计数据一样的反映场景的数据,这种数据是不可操作的。
再次是数据来源。在商业智能中,数据来源主要为企业交易数据;而在大数据中,数据来源则覆盖更多,其中主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线电话、电子商务交易、遥感遥测数据……联合国的Global Pulse(“全球脉动”)实验室在其关于大数据的白皮书[6]中,对大数据的主要来源——新的数字数据源类型分了四类:1、被吸取数据:指从人们使用数字服务被动收集到的交易数据(包括移动电话、采购、搜索等,联合国机构、非政府机构和其他救助机构为监测它们的计划和行动所收集的运行数据和其他实时数据,例如股票行情、就学情况等),这些数字服务是对人们行为的网络化的传感器;2、联机数据:指网页内容如新闻媒体和社会媒体的交互数据(如博客、社交网),新闻文章、通告、电子商务、求职招聘等,这些网页和内容是作为人们意图、情感、观念和要求的传感器;3、传感数据:指感知大地变化、交通、光照、城市发展和地形变化等等的卫星、可见光和红外影像,这些物理设备是对人们活动和环境变化的传感器;4、居民报告或群体源的数据:指由市民通过基于移动电话的调查、热线、用户反馈等所主动生成或发送的信息,因为它不是被动产生的,是验证信息和形成反馈的主要信息源。
还有是应用领域。商业智能的应用主要是在企业的商业运作方面,应用面较窄,而大数据的应用领域已经扩展到了社会科学的各个领域,如经济学和社会学应用,政治和政策应用等等,应用面要宽得多。大数据的出现在很多方面模糊了自然科学和社会科学的界线,很多情况下,大数据的很多应用是将自然科学的方法施加到社会科学的问题上,因此取得了前所未有的效果,而这种情况还只是刚刚开始。这样,我们就不难理解为什么世界各国如此重视大数据了。
当然,也有很多文献将上述大数据的特征归结为:4个“V”,即Volume(数据量)、Velocity(数据产生速度)、Variety(数据类型)和Value(数据价值)。不难看出,这4个“V”与上述四个方面的内容大体一致,只是侧重点有所不同。
(二)科学研究的第四范式
图灵奖获得者吉姆•格雷(Jim Gray)基于e-Science的思路提出:大数据是科学研究的第四范式(the fourthparadigm)。
e-Science是英国科学技术局研究理事会前任会长约翰•泰勒(John Taylor)提出的。约翰•泰勒经常与粒子物理学、生物学、环境科学等领域的研究人员合作,知道他们早就有一个愿望:有一天计算能够像网络搜索一样变成一项服务。
众所周知,传统的科学研究都是基于实验的,或者以理论分析为主,但是这类实验的或理论的分析方法存在很多问题,例如比较封闭,没有模拟或仿真的手段和方法,因而造成科研周期较长,成本较高,还有些预测性的实验无法进行。
人类进入20世纪末21世纪初,科学研究工作面临一些新的挑战,科研环境也发生了很大的变化:首先是科学研究的问题空前复杂化,科学研究的对象已经不再是一个简单的孤立系统,比如以前化学就是化学,物理就是物理,而现在更多的跨学科的,覆盖范围更大的科研问题摆在我们面前;另外科研过程中信息和数据的及时获取和处理显得越来越重要,仿真和大规模的计算也成为科学研究过程中分析、发现和预测的主要手段之一;这个时代也更加强调科学家之间更加密切的合作和交流,这种合作和交流可能跨单位、跨地域,也可能跨国家、跨学科。在这种形势下,约翰•泰勒提出了e-Science的概念,由计算科学家提供强大的计算平台和计算工具,帮助其他科学家更好地完成研究工作。
e-Science计划在上个世纪末提出,并最初由英国开始。2000年11月,在英国e-Science的投资计划中宣布,并分配到每项计划的研究理事会的一个工程。e-Science旨在通过因特网实现分布式的、全球性合作的大规模日益增长的科学研究。这样合作的科研机构的一个特性就是它们将会被要求接触大量的数据收集,大规模使用计算机资源和高性能显现给单独用户。e-Science实际上是一种基础设施,提供了一种信息化的科学研究的环境和平台,使得不同学科领域的研究和科研活动能够有针对地开发特定的科学研究与应用。实际上,像现在的核反应模拟、航空航天设计、生命科学研究……无一不依赖于高性能计算机及相应的数值计算方法,属于计算密集型科研。
回顾科学研究范式(paradigm)的发展过程,最早是实验型科研(ExperimentalScience),这已有几千年的历史了,后来发展到理论型科研(TheoreticalScience),这也有数百年的历史了,近几十年发展到计算型科研(ComputationalScience),现在则推进到第四范式——以大数据为基础的数据密集型科研(Data-intensiveScience)。
图1-2 科学研究方法(范式)的发展
资料来源:《攻击大数据》[7]
由此可见,第四范式的思想是和e-Science一脉相承的,第四范式强调了以大数据为基础的数据密集型研究方法,并且这种方法从目前看来将在越来越多领域的研究中发挥重大的甚至是决定性的作用,随着大数据及其相关技术的发展,人们将会在科研中越来越多地采用这种范式。
虽然科学研究的范式在不断发展,但我们知道上述几种范式并不是排他的,恰恰相反,这几种范式在实际科研中往往同时使用,相辅相成。第一种范式即实验型科研是最基本的方法,因为任何科学都需要用实验来检验;理论在未经实验证实前,只能作为假设,所以第二种范式即理论型科研是以实验为基础并依赖于实验验证的;第三种范式即计算型科研往往需要利用第二种范式取得的成果,即需要在理论的指导下,利用计算能力发挥理论的作用;同样,第四种范式可以认为是第三种范式的延伸,它们都依赖于计算能力,只是第三种范式是在已知规律的情况下,运用计算能力发挥规律的作用,而第四种范式则是在未知规律的情况下,运用计算能力从大数据中发现规律并发挥规律的作用。看来这种方法将在越来越多的领域的研究中发挥重大的甚至是决定性的作用。虽然第四范式是否会与历史上那前三种范式一样,构成科学研究的方法基础,还有待于实践的进一步检验,但大数据的作用越来越重要则是没有疑义的。
(三)涵盖广泛的生态系统
一个典型的大数据的生态系统,如下图所示,涵盖了广泛的、与大数据相关的、彼此交互作用的各类要素,其中包括数据提供、数据处理和数据应用过程中的参与者、信息处理活动等等。
图1-4 大数据生态系统
资料来源:《Big Data, Big Impact:New Possibilities forInternational Development》[8]
左端是大数据的三个提供方:个人、公共部门和私人部门。每个提供方都有不同的数据形式、动力和要求。对于个人来说,数据形式是群体源信息和被吸取数据,动力是价格/优惠、改进服务,要求是隐私权标准、选择权;对于公共部门来说,数据形式是统计、保健、税收、经费信息和设施数据,动力是改进服务保障、提升经费效率,要求是隐私权标准、选择权;对于私人部门来说,数据形式是交易数据、消费和用户信息,动力是改进客户知识和预测趋势能力,要求是商业模式和保护敏感信息。
中部示出了“共享数据”和“数据挖掘和分析”,表示对大数据的存储、处理、分析等功能。应当指出,由于大数据的庞大规模以及处理的实时性要求,采用云计算是理所当然的。
右端是大数据在社会科学领域的四个典型应用:对突发事件更快的跟踪和响应、对危机性质和变化的更好了解、对需要服务地区的准确定位和对供求关系的预测能力。这里强调了大数据的社会科学领域的应用,因为这是大数据的一个新兴应用,但这并不是说大数据在其他领域的应用减少了。恰恰相反,大数据在所有领域的应用都会不断增加,只是在社会科学领域,以前的应用很少,大数据的意义显得格外突出罢了。
四、大数据的处理
典型的大数据处理流程包括:数据的获取和记录、数据的清洁/抽取/标注、数据的整合/聚类/表达、数据的分析/建模和数据解释等5个阶段。在处理的过程中,异构性、规模、即时性、复杂性和隐私权等问题是大数据想要创造价值所需解决的困难。
图1-5 大数据的一个典型处理流程
资料来源:《Challenges andOpportunities with Big Data》[9]
《大数据的机遇和挑战》联合白皮书[10]认为:“问题从数据的获取阶段就开始了,当数据如海啸般涌来、要求我们做出决策时,现在我们还只能随意地确定哪些数据需要保存,哪些需要丢弃,以及如何存储那些我们认为是正确的元数据。今天大部分数据天然地不是结构化的,例如推特和博客上的帖子都是缺少结构的文本片段;影像和视频对于存储和显示来说是结构化的,但对语义内容和搜索来说却不是结构化的。将这些内容转为适合后续分析的结构化格式是一个主要的挑战。当数据能与其他数据关联时,它的价值才会并发出来,因此数据整合是价值的主要创造者。由于今天大多数数据都是以数字形式直接产生的,我们既有机会也有挑战,我们可以控制其产生过程使其易于与后续处理连接,也可以使其与以前产生的数据链接。数据分析、组织、检索和建模是其他的一些基本挑战。在许多应用中,数据分析是主要的瓶颈,一方面是由于所依赖的算法缺少伸缩性,另一方面是由于所需分析的数据的复杂性。最后,为了抽取可操作的知识,结果如何表示以及如何被非技术领域的专家所解释,也是关键问题。
不幸的是,许多人只关注分析/建模阶段,虽然这个阶段很关键,但如没有数据分析流程的其他阶段,它是没有用处的。即使在分析阶段,它虽然获得很多关注,但是对于有若干用户程序并发运行的多租户集群的复杂性往往理解不够。许多重大问题的挑战延伸到分析阶段之外,例如大数据必须在语义上进行管理,它可能是充满噪音的、异构的,且没有包含一个预先定义的模型,这就需要跟踪其起源并处理不确定性和错误,这些问题对成败具有决定意义,但往往很少与大数据一起提及。同样,数据分析流程也往往事先不能都制定好。我们可能需要估计出基于数据的合适问题,这样做需要聪明的系统并提供用户对分析流程的良好交互作为支撑。事实上,现在我们遇到的一个主要瓶颈是,具有能力对数据提出问题和分析它的人员严重不足。通过支持在多个层次上与数据交互,而不要求都有很高的数据库技能,我们可以大大增加分析人员的数目。像这种类型问题的解决不是来自于对业务的增量式的改进,如通常工业界自身可以做的那样,而是需要我们从根本上重新思考我们应该如何管理数据分析”。
(一)数据的获取、记录和标注
具体而言,大数据的处理首先是获取和记录数据。由于所用的数据基本上是以数字方式产生的,因而容易以数字方式存储并易于被计算机所处理。很多数据往往是被动产生并被记录下来的,它们是我们日常生活或与数字服务交互的副产品。这时数据往往是自动收集的,提供服务的系统会在数据产生的同时提取并存储它。还有许多数据在地理上或时期上可进行跟踪,例如手机位置数据或通话持续时间等。如上面关于实时数据的讨论中说到的,这类数字数据大多可供连续分析,可以获得对于发生变化的响应。
数据的抽取、清洁和标注以及数据的整合、聚集和表达都是重要的预处理或处理(取决于实际问题)。为了发现数据中的模式和趋势,无论是将实时数据和历史数据进行对比,还是将不同地域的数据进行对比,或是将不同类型的信息进行对比,都需要定义信息处理的公共框架,例如需要有一个词典,用来对每个数据集进行标识。它表明数据中包含什么形式的信息(What),谁是观察者或报告者(Who),取得数据的渠道(How),是定量或是定性数据(How much),数据的空间-时间粒度(Where and When),即地理上的分级(省、村或家庭)和数据收集的时间间隔等。
而在数据加上标注之后,后续的分析工作将会变得相当便利。
(二)数据分析
一个完整的数据分析步骤通常会包括数据过滤、数据摘要、数据分类或聚类等预处理过程。其中,数据过滤会保持有关的观测和实例,排除无关信息;数据摘要会从文本中提取一个或一组关键词;数据分类或聚类则将原始数据转为一组合适的指示器(一种是定性的指示器,如“正”或“负”,相对于价格的上升和下降;另一种是定量指示器,如“xx%”,相对于价格指数的增长率),应当指出的是,“分类”与“聚类”不同,前者是在已知类别存在的情况下,将未知类别的数据识别为已知类别;后者是在未知有任何类别的情况下,寻找数据中可能蕴藏的类别。显然,这两种情况是不同的,需要运用不同的方法。
数据经过各种预处理后,最终要进行分析。数据分析意味着将各种算法和计算工具施加到数据上。一些数据驱动算法的特点是它们能调节它们的参数使之适应新的数据流,即针对数据的特点生成适合它们自身的算法。在Global Pulse的白皮书中,称这种社会经济数据的挖掘为“事实挖掘”,即挖掘出隐藏在数据中的过程和交互,可以用三种主要的方法实现:
1.对数据流的连续数据分析。利用工具分析网页,监视和分析高频的在线数据流,包括不确定的、不准确的数据,例如实时地系统地收集在线产品的价格。
2.对非结构化或半结构化数据的在线消化。如从新闻、产品评论中发现热点、观念、需求等。
3. 将快速流数据与慢速存取的历史数据库实时相关。在历史记录上相关和集成实时流,以得出一个与场景相关的个性化的信息空间,给新数据加上历史场景来增加数据的价值。
通常,根据数据的可用性和特定的需求,我们可以在不同的程度上应用所有这三种技术。当然,在具体的应用中,我们必须深刻了解大数据分析和应用的场景和目的,选择针对性的算法,有时候还要借助一些新的计算技术,并遵循特定的标准,才能获得满意的结果。
明天请看包含10张图片、多个详实案例的下篇--《第二节 大数据的应用》。
倪光南院士授权微信公众号【软件定义世界(SDX)】刊登,转载请注明来源。如果您需要《迎接大数据时代的来临》四节版电子版全文,请加我的个人微信号【sdxtime】索取。
如果您认为该文章不错,请转发至朋友圈。分享知识,分享快乐!
订阅“软件定义世界(SDX)”后,阅读更多精彩文章。“查看信息”中,回复【 】内数字快速到达。 ★《软件定义世界,数据驱动未来》(订阅人数S=4,一周阅读人数W=6681,转发率R(分享转发人数/图文页阅读人数)=10.27%,下同)【001】 ★《国务院副总理汪洋眼中的大数据》(S=349,W=16719,R=6.33%)【002】 ★《2013年世界软件产业发展回顾与展望》(S=223,W=1625,R=9.78%)【003】 ★《大数据(big data)正酣,小数据(iData)又来!》(S=481,W=8861,R=7.22%)【004】 ★《三张图让你看懂为何董明珠会输给雷军10亿元》(S=772,W=5304,R=5.32%)【005】 ★《平台格局确立,生态体系深化,竞争由硬转软--2013年全球移动互联网发展回顾与展望》(S=1539,W=685,R=13.36%)【006】 ★《德勤:大数据时代下的新商务战略》(S=3490,W=5021,R=8.52%)【007】 ▌软件定义世界(SDX) 软件定义世界(SDX),数据驱动未来(DDF)! 微信公众号:软件定义世界(SDX) |