▌新朋友:点击标题下面蓝色字 ☞“软件定义世界(SDX)” |
【院士大数据论坛】邬贺铨:大数据时代的发展趋势〖NO2〗
文:邬贺铨
邬贺铨:中国工程院院士、原副院长、电信科学技术研究院副院长兼总工程师、国家信息化专家咨询委员会委员、国家863计划监督委员会副主任、信息产业部邮电科技委顾问、中国通信学会会士、常务理事、中国通信学会光通信专业委员会副主任、IEEE高级会员,还在清华大学等高校担任兼职教授。
以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”现场,中国工程院副院长邬贺铨先生首先以“大数据时代的发展趋势”为主题发表了精彩的演讲。
以下为演讲实录:
尊敬的北大的各位老师、各位专家、各位CIO,很高兴来参加这次论坛。最近这几天好像有点“CIO热”,上个礼拜Gartner在北京有CIO论坛,明天在上海也有CIO论坛,大数据论坛也是到处在开。今天的标题是“大数据应用”,我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用,所以我这里就只讲一下大数据时代的ICT趋势,会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。
第一,大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量,1998年每个网民一个月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每个月要10个G的下载量。右边的图是讲全世界互联网流量累计达到1EB所需要的时间,2001年需要一年,2004年需要一个月,而今年只需要一天。2012年去年全世界互联网一天的信息量大概是1EB,可以刻满1.68亿张DVD,。现在全世界新产生的数据量每年增加40%,每两年数据翻一番。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为1.8ZB,假如把这个数据装在32G的IPad上,要装575亿个,把这些iPad摞起来,可以摞起两座中国的长城。2020年全球数据将达到40ZB,如果将数据装在光盘上,这些光盘总重量等于424艘尼米兹号航母。所以说,大数据时代到来了。
大数据有网络数据、企事业单位数据、政府数据,网络数据自媒体数据(比如社交网络、博客、微博等),有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等),每天的数据量很大。比如淘宝每天数据量就超过50个TB;新浪微博晚上高峰的时候一秒钟就要接收100万以上的响应请求;百度每天大概处理60亿次搜索请求,几十PB;中国联通每天记录用户上网条数,一秒钟记录83万条,一个月大概是300TB;国家电网信息中心目前累计收集了2PB的数据;北京公交一卡通,每天用公交一卡通的旅客有4000万刷卡记录,而北京地铁每天乘客1000万,把这些数据每天收集起来分析数据可以用于改善北京的交通状况,优化北京的公交线路。
最大的流量是视频。美国TouTube网站一分钟有72小时的视频上载,到2016年互联网上的忙时流量是720Tbps,相当于全世界有6亿人同时看不一样的高清电影。到2016年每3分钟互联网传送360万小时视频,相当于全球已经生产的全部电影。这个电影用什么量衡量呢?如果一个人要看3分钟所传送的电影,需要34年不吃饭、不睡觉才能看完。最近两个月在TouTube上载的视频量是美国三大电视台--ABC、NBC、CBS自1948年以来24/7/365连续播出的内容,可以看到视频流量非常大。
大数据无所不在。图中是美国的一家医院(UPMC),一年能收500TB数据;伦敦有200个交通摄像头,每天是8TB数据;伦敦才200个,北京有八十万个摄像头,数据量要比伦敦大得多了。还有其他方面的数据量,大数据无所不在。
就监控而言,很多城市的摄像头多达几十万个,一个月的数据就达到数十个PB。北京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸部,以防投毒,防用针管装艾滋病毒、传染病毒打到液体里等,那么产生的数据就更大了。飞机的汽轮机产生的数据是Twitter的七倍,例如波音787,它每一个飞行来回可产生TB级的数据,美国每个月收集360万次飞行记录;监视机队25000个引擎,每个引擎的数据一天产生588GB;空客380软件有10亿行,每30分钟产生10TB的数据;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度;一个具有500个风机的风场一年会产生2PB的数据。这些数据用于预防性维护,可使风机寿命延长3年即达到18年,每年每风机的成本将降低17%。根据上面监测的统计,今天所有企业的信息存储总量已达2.2ZB,未来几年将年增67%。
那么大数据有什么价值呢?这里通过一些具体的实例说明大数据在不同领域中的应用。
一是大数据在宏观经济管理领域的应用。
大家都知道,采购经理人指数(PMI)通常是由统计部门发布的。但IBM日本公司建立了一个经济指标预测系统,它从互联网新闻中搜索出影响制造业的480项经济数据,再计算出PMI预测值,这个根据网上的新闻分析出PMI,准确度相当高。
印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言中预测道琼斯工业指数。用户的短信、微博是不会直接讨论道琼斯工业指数的,只会表达他的心情如何,但是整个社会用户的心情与经济增长状况是相关的,用这种方法预测道琼斯工业指数的准确率高达87%。
淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI,它比国家统计局公布的CPI还提前半个月预测经济的走势。它为什么能提前预测到呢?因为国家统计局的CPI主要统计一些刚性需求的东西,比如食品,即便经济形势不好但只要消费者的收入不是下降太多的话,消费者想到的首先是节省其他支出而不是食品的支出,这是食品它的刚性需求特征所决定的,所以对经济形势变化的反应就不那么敏感。而淘宝网上卖的电子产品、化妆品不是刚性需求,如果经济形势不那么好,消费者首先就不会买这些东西,所以它要比国家统计局的CPI能够做到提前预警。2008年淘宝就提前8-9个月预测出可能会发生金融危机。
二是大数据在农业领域的应用。
Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而能够预测美国任一农场下一年的产量。任何一个农场主去他那里问明年种什么能卖出去、能赚钱,他能告诉你,说错了他保证赔偿,赔偿比保险公司还要高,到现在为止他还没有赔过。为什么呢?因为他能准确预测,不像中国的农民基本依靠经验,今年猪肉贵了就大量养猪,而明年猪肉又变便宜了,减少养猪后后年的猪肉又贵了。
另外,通过手机上农产品“移动支付”数据、“采购投入”数据和“补贴“数据分析,可准确预测农产品生产趋势,政府可依此决定出台激励措施和确定合适的作物存储量,还可为农民提供服务。
三是大数据在商业领域的应用。
沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星“,方便浏览,在线购物者因此增加10%-15%,增加销售十多亿美元。沃尔玛还通过对消费者的购物行为等非结构化数据进行分析,了解顾客购物习惯,分析适合搭配售卖的商品。比如,每个人在超市买东西时都有一个购物清单,沃尔玛可以根据购物清单分析出买A商品的顾客同时买B商品的概率。沃尔玛的分析就得出过这样一个结论:把尿不湿和啤酒摆在一起卖效果比较好。
在美国排行第二的超市Target认为,孕妇是最好的购物顾客。但不能等到明显看出女性怀孕了才向她们推送孕婴产品广告,怎么办呢?它分析了孕妇最喜欢买的商品(比如没有刺激性的化妆品等),又建立了一个怀孕预测指数,只要某个顾客出现符合预测指数的特征,就把相应的孕婴广告推送给她。后来《纽约日报》曾报道了顾客起诉超市的事情,这个人家里面只有一个上初中的女孩子,怎么能把面向孕妇的广告送到他家,超市无奈只好道歉了。又过了一个礼拜,该顾客又在《纽约日报》刊登了给超市的道歉声明,因为他发现女儿意外怀孕了。
当顾客在超市买东西时,通过手机定位,可以分析他们在货柜前停留时间的长短,从而判断顾客对什么感兴趣;不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传感器,根据顾客在不同货物前停留时间的长短来分析顾客可能的购物行为;另外还可以利用视频监视图像软件分析顾客购物行为,可以优化商场的布局和货架排列。
在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易平台把消费记录拿来自己使用,还会把消费记录卖给其他商家。比如说,一位女士在淘宝上买了一条项链,销售首饰化妆品的商家买到这个消费记录对应的顾客IP地址后,就会留意其后续的消费行为。一旦商家发现她浏览与自己有广告关系的网站时,马上就会弹出一个卖首饰的广告,这样就很容易达成交易,最终结果是顾客、商家、网站、阿里集团都各有所得。现在,基于搜索引擎的网络广告一般都是是定向的,由于获悉了用户的消费意图,因此比在央视打广告的效果更好。去年央视的广告收入大约269亿元,百度的广告收入达到220亿元,增长率比央视高得多,将来百度有望取代央视成为第一广告平台。
四是大数据在金融业的应用。
华尔街“德温特资本市场”公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多,依此决定公司股票的买入或卖出,它常在人们买股票之前买入股票,也常在人们抛股票之前抛售股票,因此它的收益不错,今年一季度的收益率约为7%。
最近,由于经济下行,很多中小企业贷款难。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷款,并且不需要这些中小企业的担保。目前阿里公司已放贷上千亿元,坏帐率仅0.3%。2012年年底,四大商业银行的坏账率为1%左右,尽管四大银行要求有担保,但坏账率仍然比阿里高出3倍。
五是大数据在医疗卫生领域的应用。
大家看一张图,图上绿色的部分是Google发布的流感情况报告,红色的部分是美国疾控中心发布的流感情况报告。通过对比可以看出,二者是一致的,但实际上Google的报告比美国疾控中心提前半个月发布。为什么呢?一旦有流感,很多人就会在网上搜索,比如问“我的症状是不是流感、在哪里买药好、哪个医院看病比较好”等等,也就是说用户搜索与流感相关词汇的频率会突然提高。Google据此判断这个地方可能会发生流感。2009年在甲型H1N1流感爆发的几周前,Google就做出预测,而且还判断出了流感是从哪里来的。
六是大数据在社会管理中的应用。
去年广东为了比较准确地知道还有多少农民工留在广东?广东东莞统了2012年1月-6月份当地食盐销售量与上年同期相比是增加了还是减少了。因为食盐消费是刚性的,经济形势好的时候人们不会多吃盐,经济形势不好的时候也不会少吃盐,食盐的销量与人口数量是直接相关的。统计结果表明,2012年1月到6月,东莞的食盐消费量确实减少了,减少的比例与东莞的电信运营商根据2012年上半年活跃移动用户数的变化所推断出的数据几乎相当。由此推算留粤农民工数量的变化是相当准确的。
现在很多人都有手机,根据手机用户从这个路口到那个路口所花费的时间,可以判断马路上是不是流量较多,是否拥堵;另外,根据有多少个手机在同时移动,大致可以了解发生突发事件时的人流聚集情况,还可以通过手机的注册地进一步分析机主究竟是从哪里来的。
现在有很多人使用微博、微信。腾讯为每个微博用户建立了档案,可以从微博帖子分析用户的性格,提前关注可能引起社会不稳定的因素。实际上,所有人的活动都会在网络上留下脚印。
七是大数据的经济价值。
大数据蕴含着巨大的经济价值。大数据如果用于医疗,美国人认为每年可以节省3000亿美元的开支,这相当于西班牙年度医疗保健开支的两倍;如果用于管理,欧洲人认为会产生2500亿欧元的效益,这比希腊GDP的两倍还要多;如果用于服务业,服务提供者利用全球个人定位数据可以获得6000亿美元的年度盈余;如果用于零售业,可以增加60%的运营利润;如果用于制造业,可以减少50%的设备装配成本。因此,去年世界经济论坛发布的报告提出大数据是新财富,其价值堪比石油;麦肯锡认为大数据是下一个创新、竞争、生产力提高的前沿,数据是一种生产资料。另外,大数据还带来大量的就业岗位,能较好地缓解大学生就业难的问题。Gartner预测,大数据将为全球带来440万个IT岗位,其中190万在美国;另外每个IT岗位还将催生3个非IT就业岗位。未来四年,信息经济的发展将为美国新增600万个就业岗位。
什么部门和产业行业会从大数据中获得更多好处呢?第一是制造业,第二是政府,因为政府拥有大量的数据。如果以前说时间就是金钱,那么现在数据就是金钱。中国是资源缺乏的国家,但中国有最大的人口规模,有全世界最多的数据。
第二,大带宽发展趋势。大数据必然驱动大带宽,这是全世界国际互联网干线的流量状况,根据美国的预测显示,2010年比2009年全世界的数据量增长了62%,按这个推断,10年国际互联网流量要增长1000倍,美国自身的互联网流量也是10年增长1000倍。这个曲线是全世界骨干网的流量,无论亚洲金融危机还是其他危机互联网,流量都不受影响,依旧保持高速增长。首先是光纤浏览,早年的是模拟的频分复用,90年代开启了光纤复用,当时叫数字的时分,TDM,当时一对光纤传2.5GB的三万电话电路;波分复用,一对光纤不仅仅可以传一个波长,可以同时传输多个波长,叫做波分复用。一对光纤在工程上已经传送1.6TB,相当于2000万电话电路。光纤通信虽然还可以采用更多的光纤技术,做到一对光纤传输16个TB,两亿电话电路。当然随着干线容量增加,我们希望系统更灵活,所以光互联网就出来了。总之,光纤传输能力十年扩大1000倍,目前来看还有很大发展空间,而且现在光纤光缆成本很低,中国生产世界一半的光纤光缆,同时也消耗了世界一半的光纤光缆,10年前中国的翻新光纤一公里卖到两千多人民币,去年报价是53元一公里光纤,现在光纤比面条便宜,极大地支撑了宽带化发展。可以看到,95年的时候数据总容量比较小,只有2.5G到10GB,波分数量也只有8到40个。到2010年可以看到,信道单波长已经做到100G,信道容量做到15个、50个波长。到2020年单波长要做到1T,总容量还会增大。右下角的图是中国联通169的网络,可以看到它每年都在扩容、增长。随着大数据时代来临,运营商还要大量的增加光纤容量。
另外,不单是干线容量增加,我们也希望用户节路带宽增加,所以新的运营商会推动“光纤到户”,实际上“光纤到户”是广义的,并不真正是’光纤到户”,而是光纤到大区、光纤到大楼。在中国光纤到了一个大楼之后剩下的路线很短了,也可以传高比特率。现在光纤传输用的是无源光网络,从局域端到用户端是一个光纤,快到用户家门口进行分支,这里面向行叫10分,下行是广播式的。这样用户的带宽能做到,现在可以上到100兆。说了光纤,除了有线,我们希望无线也是宽带的。第一代移动中国通信在90年代的时候中国就退网了,那个时候是模一的电路交换,带宽比较差,现在大家比较多用的是第二代移动通信,它是GSM CDMA,带宽当时只有几百K,3G带宽是Mbps,现在中国基本上都是增强型3G,几十M。前年上海世博会上周围搞了眼镜型的3G,也叫LTE实验,现在在全国已经有16个城市在开展实验了。
最近,工信部预计今年年底可能要发4G牌照,4G是在LTE基础上有进一步的改进,高速移动时就可以支持100M,低速在家里可以不要网线1G下载(这是峰值),在中国4G牌照没有发放的时候国际上已经开始第五代移动通信标准的研究了,第五代移动通信希望能够使用户享受到在运动状态下也能享受到1G峰值速率。当然每一代移动通信都是革命的,第一代移动通信蜂窝小区靠频率不同区分用户,叫做FDMA频分多址。第二代移动通信GSM是靠时分区分用户,叫TDMA时分多址,从第二代开始,第三代移动通信有CDMA的是码分多址,现在到第四代移动通信叫OFDMA,是正交频分多址,把频率的时间的、空间的因素都利用起来,使得移动通信的峰值速率平均每年加倍,10年1000倍。提高移动通信的峰值速率,当然这里面要付出很大的代价。你们可以看到,早年GSM只有kbps,后来到100k,到3G是Mbps甚至是10M量级,现在到LTE开始是百兆量级,随着移动通信峰值速率越来越高,我们的终端能力也越来越强,来不断提升终端的宽带化的能力。当然了,要提升这个能力现在面临很多挑战,比如说当手机离基站很近的时候,它可以直接从基站获得信号,当手机回到家里,可能楼的墙壁钢筋水泥太厉害了,这个时候穿不过去了,就要加上室内中继来接力,如果你在马路上当然你很靠近天线时没问题,当远离天线时要发展终端到终端,也就是你拿着手机走在路上,你没打电话、上网,但是不知不觉当了第三者,当了别人的二传手。
回到家里,最好转到WIFI上,节省带宽和频率。总体来说,未来我们需要通过多点协作、多个基站服务一个用户,通过中继、各种天线以及终端的接力以及异构的网络来支撑移动通信的宽带化。比如说这个基站是回龙观,很多人晚上会住在那,晚上基站会很忙。而白天这些人都上班了,回龙观那边用手机打电话、上网的人少了,基站忙闲不均,有潮汐效应,怎么办呢?把每个小区基带处理部分集中起来,成为一个基带池,每个蜂窝小区只剩下射频,如果某个蜂窝小区的资源富裕可以调整给另外一个小区用,当然了形成基带池的好处不仅仅实现忙闲调配,而且有利于运营商集中调控,节省能源,也有利于基站选址。现在老百姓环保意识比较强,不希望自己的楼顶放基站天线,一方面大家抱怨信号不好、希望基站加密,另一方面老百姓又抱怨这个可能会对身体有影响。但实际上,中国移动通信环保标准是全球最高的。
第三,大网络布局的演变。从图上可以看到,这是数据中心,整个高度是数据中心的总量,绿色部分是数据中心使用云计算的比例。我们可以看到,到2015年一般以上的数据中心都会用到云计算,连增22%。过去没有人谈云计算,80年代谈数据库、90年代谈IBC,现在谈云计算。实际上云计算应该更准确的是云服务,当然未来会发展成什么?不知道。云计算底层有一个基础设施,像我们很多企业把它的数据库托管到运营商那里,这就使用了云计算,使用了IaaS系统。IaaS里头有数据中心、存储器、服务器,如果仅仅这样还不够,对运营商来讲,无非是“数字房地产”。运营商希望进一步在上面增加开发工具,叫PaaS,可以提供JAVA、Web2.0一些开发工具、中间件等等,企业可以租用这些开发工具,开发企业要的一些软件,比如说数据挖掘等等。对于一些小企业而言,根本没有开发能力,因此干脆直接租用你的软件,这是SaaS。比如说现在谈大数据分析,哪个企业都希望大数据分析,但是每个企业去买这些数据分析软件是很不划算的,因此租用第三方的分析软件可能是一个方向。当然更进一步的有Business,有能力的企业可以在上面更多的开发。所以云计算并不是为大数据而诞生的,但云计算正好适应了大数据的需要。
另外一点,网络节点位置要从信源中心向能源中心扩展。我国有20个省市制定云计算规划,大规模数据中心建设成为各地发展热点,11个省市云计算投资均超过100亿元。内蒙要建云计算中心、他说他那里有煤、能源,而且气侯比较好;重庆市长说,别看我这里热,但是长江水比较冷,可以拿来降温,而且这里没有地震,我这里要尽云计算中心。按照工信部等八部委2013年1月14日发布的《关于数据中心建设布局的指导意见》,中国的数据中心要考虑气候环境、能源供应,建议我们国家的云计算中心向高纬度地区集中,也就是内蒙、西北这些地区。过去的数据中心放在上海、北京、广州这些地方,而将来数据中心一半是云计算中心,而它们更多要放到内蒙、西北,也就是说网络结点位置会从信源中心往能源中心拓展,实际上云计算会改变互联网的流量和流向。
另外,由于数据量非常大,过去运营商并不是每个省线路都互相直联的,往往通过北京互联,有些通过上海、广州。现在中国电信ChinaNet网络每个省之间都直联了。为什么?因为数据量太大了,所以希望网络要扁平化。过去我们都说什么东西都到IP层做交换,随着数据发展以后我们希望的路由器容量会很大,一个纯IP电的Tpbs的路由器,一个端口就一千瓦,功耗很大,如果光的类型的交换,一个端口才25瓦,而且大数据里面大量的数据是过路的,而不是落地的,因此现在改变了互联网的格局,凡是能在光层上做的交换绝不在电层上做,凡是能在MPI(层上做的交换绝不在IP层上做。过去我们常说什么东西都在要IP上交换,现在IP要变成包装,能不在IP上交换的绝不在IP上交换。
你可以看到,这是大数据的发展。另外,过去的路由器本身具有转发和控制功能,也有节点控制功能、业务控制功能,每个路由器都是独立的,也是自我的,它根据来的数据来选路,但是这样的方式很难适应大数据时空动态性,大数据产生的位置、发生时间可能是不均的,也不平衡,如果动态需求希望我们的网络也是动态的,那么传统路由器刚性的设计很难适应动态需求,因此现在提出SDN(软件定义网),希望把路由器里头操作系统提起来,然后把路由器控制集中,这样造成网络操作系统,而路由器就剩下传输与转发功能,这是执行机构,可以根据网络需求来集中调用配置,可以使网络变的更柔性化,这是软件定义网,能实现转发与控制分离。
大数据推动城域网体系的演变,早年我们都是大计算机连大服务器,后来常常很多时间提的是客户服务器,计算机连到服务器。当一个热门的节目所有终端都希望下载的时候,这个服务器就是瓶颈。因此就出来了P2P,也就是说,各个终端能力都很强,每个终端没必要全部下载下来,每个终端只下载其中一部分,各个终端下载不同的部分然后相互交换,我们叫做Peer-to-Peer,现在很多发现这个体系架构也需要改变了,因为大数据的出现,一个终端到一个服务器之间很多数据不是一个服务器能装得下的,当一个终端接入到一个服务器的时候,可能需要调用其他服务器存储数据来支持,因此最近五年我们国家接入网流量带宽增长了6倍,而城域网流量增长了22倍,有更大流量在服务器之间交换。也就是说,网络的体系会从客户服务器的垂直架构向服务器之间的水平架构优化。大数据推动了城域网体系的演变。
另外,由于数据量很大,所以现在Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷的把它的数据通过CDN写到不同地方。腾讯总部在深圳,可是它把很多服务器放在北京、广州、上海等等,甚至分散到很多省,目的是缩短用户接入到服务器的距离,所以内容分配网应用而生,最近发展得很快,内容分配网会对整个互联网流量流向产生重大的影响。走了捷径,那么省间长途流量就可以下来。所以内容分配网拉近了信源和用户的距离。全球互联网去中心化,这个图是全世界用户互联网带宽,国际互联网带宽是增加的,但是比例是下降的。左上角的图就是美国全球各个州到美国的国际互联网的流量,除了上面的线是拉丁美洲,下来之后略有回升,其他的亚洲、欧洲、美国互联网国际流量比例是下降的,也就是说绝对值增加、相对值下降,这是因为很多东西只需要就近访问,并不需要跨洋越境了。
第四,大数据挖掘的挑战。大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等,涉及到很多环节。比如说挖掘就需要对数据进行清洗,进行合并、压缩,要转换格式,然后进行统计分析,知识发现以及可视化处理。然后找出它的关联规则,分类、聚类,排序列,优化路径。这里涉及到一大批的数据挖掘的软件,简单来说,首先是MapReducers,左边的图上很多数据,不同颜色表示不同类型,首先通过Map把这些数据进行分类,不同业务类型的数据分到不同的存储服务器里头,这样就是为了简化运算,在分类过程当中数据是要加标签的,同时要把重复的去掉,这是进行大数据的预分析前的一些操作。另外,大数据需要有很多服务器。
曾经有人认为买高端服务器才可靠,后来Google首创利用低端的服务器,它认为没必要用高端,只要用低端服务器就够了,而低端服务器可靠性不好,怎么办呢?冗余配置。就是把一个数据拷到三个服务器里头,三个低端服务器的价格仍然比一个高端的服务器便宜,这样一来既提高可靠性又降低了成本。所以大数据的分析需要分布存储和冗余备份。还有Map Reducers要通过映射、调度,最后把结果归纳起来得出我们要得结果。大数据跟过去的分析不一样,过去的数据都是存下来,存到静止的数据库里头,然后再分析。而大数据每时每刻都有,比如说几毫秒就要送一个数据出来,飞机引擎也是不断的送数据出来,数据根本没有停止的时候,我们不可能等数据停下来再来分析,我们必须一边走一边分析,怎么办呢?过去的分析是静止的,叫做“带数据进程序”,现在的分析是在活动的,也就是“带程序进数据”。所以大数据分析也会带来很大的挑战。
另外,更难的挑战是非结构化的数据。所谓结构化就是说可以用文本表格等方式来表达,即便文本表格表达从语意理解还是比较难的。比如地震的时候,网络上为了监控舆情,看看究竟是正面的评论多还是负面的评论多,有一条信息说“当他发现他儿子还活着的时候,他抱头痛哭。”按照分析,“痛哭”肯定是负面的。但实际上这是正面的。这是因为什么呢?要让计算机懂得人的感情,这就难了。文字的分析况且这么难,那么对照片的分析就更难了,要通过OCR扫描出里面的文字,把文字作为标签加到照片上。照片还好说一点,而视频分析就更难了,你怎么找这个人?去年1月份周克华在南京杀了人,当时摄像头把他拍下来的,南京市调出几十万个摄像头视频,拍多长就要看多长,没有分析的办法就靠人看,所以这是很慢的。因此大数据互换智能化的处理、智能化的分析。
另外,大数据需要虚拟化和可视化。举个例子,上海江苏路,路上有很多摄像头,每个摄像头背后连一个电视屏幕,在交通管理中心的一面墙上放了很多屏。当然了,再大的墙壁也放不下全上海这么多交通摄像头,所以只能10秒钟显示一条马路的摄像头,这些都是分离的,一个一个看很难看出问题。我们希望通过软件把这条马路的摄像头合成一个视频,只要看这个视频就知道全马路摄像头的状况了。当然只有一条马路还不够,我们还要把它合成全上海一幅图,就像上海市领导坐着直升机俯视上海一样,看到上海市整个城市里头,在东京北纬某个纬度,在某个时刻段,哪段路交通堵塞。大数据,无论数据有多大,无论是PB还是TB,最重要结果都应该非常直观的一幅图。
Gartner公司在发布2012-2016的IT发展趋势,有五点:大数据、云存储、移动应用、社交网络、网络安全。我们可以看到其中最主要的是大数据。大数据推动ICT发展的时代,云计算、移动互联网、下一代互联网、大数据、物联网、社交网络,我叫做“大智移云”,你可以看到这些新的信息技术适应大数据新一代发展。
最后,宽带化、移动互联网、物联网、社交网络等催生大数据,大数据预示信息化发展进入新阶段,大数据是信息化新浪潮的结晶。为适应大数据的需求,光纤通信和移动通信加速宽带化。大数据加快了云计算、CDN和对等直联(或NAP)节点的部署,网络节点位置从信源中心向能源中心转移,信源中心向用户靠拢,互联网显现去中心化。大数据挖掘对数据采集、存储、分析、决策、呈现和安全等技术带来大挑战。谢谢大家!
如果您认为该文章不错,请转发至朋友圈。分享知识,分享快乐!
订阅“软件定义世界(SDX)”后,阅读更多精彩文章。“查看信息”中,回复【 】内数字快速到达。 ★《软件定义世界,数据驱动未来》(订阅人数S=4,一周阅读人数W=6681,转发率R(分享转发人数/图文页阅读人数)=10.27%,下同)【001】 ★《国务院副总理汪洋眼中的大数据》(S=349,W=16719,R=6.33%)【002】 ★《2013年世界软件产业发展回顾与展望》(S=223,W=1625,R=9.78%)【003】 ★《大数据(big data)正酣,小数据(iData)又来!》(S=481,W=8861,R=7.22%)【004】 ★《三张图让你看懂为何董明珠会输给雷军10亿元》(S=772,W=5304,R=5.32%)【005】 ★《平台格局确立,生态体系深化,竞争由硬转软--2013年全球移动互联网发展回顾与展望》(S=1539,W=685,R=13.36%)【006】 ★《德勤:大数据时代下的新商务战略》(S=3490,W=5021,R=8.52%)【007】 ▌软件定义世界(SDX) 软件定义世界(SDX),数据驱动未来(DDF)! 微信公众号:软件定义世界(SDX) |