点击上方“飞总聊IT”,选择关注公众号
最近哪个圈子的事情都有点多。刘强东哥从明尼苏达带回一场官司。好男人吴秀波还没来得及继续秀恩爱,小三小四小五都出来了。当然,对于大数据领域的人来说,最精彩的莫过于微软做出的这个震撼的宣布:
Azure Databricks这个产品的推出,微软和Databricks的关系有点亲密。这次更好,微软在数据处理领域的看家法宝SQL Server和Databricks的Spark也整合了。有人拿着这条消息问我这样的整合技术层面怎么发生的。我作为一个外来者只能猜个大概。
微软早年就有Polybase的产品,一个软件硬件一体设计的集群,一部分跑SQL Server一部分跑Hadoop。SQL Server通过外表的方式给Hadoop cluster送MapReduce的任务。
而这个产品上云已经开发了有几年了。现在这个整合,无非就是把原先的节点容器化,上面布置上Spark,再开放一套管理界面。难度当然是有的,但是在微软和DataBricks的通力合作之下,这种技术难度也是可以搞定的。这件事情重要的信息在于微软在大数据时代最终选择了Spark,并且是和Databricks做深度整合的方式选择了Spark。
Apache Spark作为加州伯克利大学AMP实验室出品的开源项目,目前已经事实上取代了MapReduce,成为了Hadoop生态系统里面主流的执行引擎和编程方式。Spark自诞生以来,虽然中间也有过一些波折,但是总体上来说顺风顺水。从AMP实验室孵化之后成立的创业公司DataBricks更是当红独角兽。
自Spark诞生以来,一直有很多公司先后选择了Spark。比如说IBM一度就把自己的产品统统用Spark重新写了一遍。SAP也宣布过类似的举措。但是真正意义上选择Spark作为自己大数据战略的一部分,并坚定执行的,却是之前不声不响的微软。
与Spark相对应的,目前最有竞争力的当属Flink这个来自德国柏林理工的开源项目。Flink开始比Spark晚。我第一次知道Flink是2014年在杭州开VLDB的时候Volker Markl做了大会主题演讲。
Flink主打流计算。相比较而言,Flink比Spark有后发优势。其实也不能说Flink比Spark更晚,Flink应该算是二次创业的产物,Volker Markl早在2009年就开始作相关的研究,只不过第一个项目搞砸了。我的大数据那些事系列对这段历史有讲解,我就不再展开了。
尽管我认识工作在Spark的人远远多于Flink的人。尽管我认识的工作在Spark的人常常给我洗脑。但是凭着良心说话,Flink的流模型确实要比Spark的streaming要优雅。用我在某个场合听到的两者的竞争对手亚马逊Kenisis服务的领导人的一句话来概括:Mini-batch is batch。
只是有时候理论上的领先不代表着产品上的成熟。加州伯克利大学的AMP实验室的开发水平显然是远远领先于大部分高校的,肯定也领先柏林理工很多。加之Spark出世更早,整体来说Spark产品的可用性远远高于Flink。所以在这场较量中,后来的Flink基本上是没有赢的可能的。
但是事情的发展往往会有出乎意料之外的地方。也不知道是不是因为在杭州开VLDB露了脸,Flink在国内受到的关注比美国大。Flink团队的迎来了阿里巴巴。
我第一次听说Flink的时候是2014年秋天,人在杭州。我第一次听说Blink的时候是2016年秋天,人在西雅图。当时阿里巴巴集团的CTO张剑锋新上任访问西雅图,在Bellevue的Westin做了半天的报告。五场报告我印象深刻的有三场,分别是小邪的压力测试,量仔的Blink和封仲淹的JStorm。
这个Blink就是阿里巴巴内部拿了Flink的源代码之后改的版本。演讲由Blink项目责人量仔给出。大体上,演讲的说法是这样的:Flink的理论模型很好,但是工程实践差。阿里巴巴的版本在这些方面进行了重新研发,提高了系统的稳定性,可扩展性等等,阿里巴巴的版本还增加了原生SQL的支持等。演讲里量仔还强调,这些改变都会逐渐贡献回开源社区。
至此以后,Flink就带上了浓浓的阿里巴巴的味道。德国人成立了公司,但是公司的发展没有伯克利大学人成立的公司顺利,收入更是少。几个月前有传闻阿里巴巴要收购Flink的公司Data Artisans。当然传闻是传闻,结果怎么样不得而知。
阿里巴巴有这样一个传统。把别人的项目拿来,改一改,给个响亮的名字。之前Storm阿里巴巴做了一个java版的JStorm。阿里巴巴一度说Storm2.0要基于JStorm,并且阿里会发挥重大作用。但是Storm2.0一直没动静。
从Flink到Blink和从Storm到JStorm也有相似的地方。Blink是拿了Flink的程序改的。改完之后又高调宣布贡献回社区。从拿到回馈主动权满满,一气呵成。开发Flink的人对此到底是什么样的心态,估计只有冷暖自知了。
从这个角度出发,我对阿里里面领导了Oceanbase的阳正坤老师有着无比的敬意。一个从0开始完全原创的分布式数据库,当得起每个人的尊敬。
吴秀波作为中国好大叔,一直对得起他的演技,万人迷,直到近期小三小四小五粉墨登场。
微软对Spark的处理,处处凸显对DataBricks的尊重,比吴秀波还无可挑剔,迄今为止也没见到幺蛾子。
刘强东去了一趟哥伦比亚大学,带回了一个奶茶妹。刘强东去了一趟明尼苏达,带回一身官司。万事皆有可能。
Blink粘上来Flink,Flink散发着浓浓的阿里味。这股阿里味是Flink团队希望的,还是Flink团队不希望的,我们就不得而知了。
相关文章:
长按下图关注订阅号飞总聊IT,收看更多精彩内容