以下文章来源于唐晨说数 ,作者唐晨
大数据领域从业者,分享关于数据治理、数据中台、数据应用等领域相关的,个人实践及观点,以文会友,欢迎关注。
| 01 发展历程
说到数据中台,还得从如日中天的阿里说起,2016/17年时,阿里一度成为亚洲市值最高的互联网企业,为了解决自身多业务线数据打通、避免重复建设及口径不一致等问题,率先提出了数据中台概念。
2018 年数据中台在大数据圈正式走红,当时,如果和别人沟通不提起数据中台,都不太好意思,生怕别人说自己落伍了。(和当下的 AI 大模型爆火的情形如此相像)。
短短几年,数据中台在国内迅速得到推广,也诞生了一批围绕着数据中台建设的准独角兽企业,比如袋鼠云、奇点云、数澜科技等等(他们也都是阿里系出来的创业团队)。
一起看一下数据中台的发展时间线和关键事件:
| 2010年 | 数据湖概念提出 | Cloudera, Hortonworks | 为大数据存储和分析提供了新的架构 |
| 2013年 | Alibaba提出数据中台概念 | 阿里巴巴 | 数据中台在中国逐渐被广泛接受 |
| 2015年 | 阿里巴巴正式推出数据中台 | 阿里巴巴 | 成立阿里数据中台团队,助力业务创新 |
| 2016年 | 京东建立数据中台 | 京东 | 京东通过数据中台提升运营效率 |
| 2017年 | 腾讯建立数据中台 | 腾讯 | 数据中台助力腾讯云、大数据业务发展 |
| 2018年 | 美团点评成立数据中台 | 美团点评 | 数据中台推动美团业务精细化运营 |
| 2019年 | 数据中台标准化推进 | 阿里巴巴,腾讯,京东等 | 多家中国互联网公司共同推动数据中台标准化 |
| 2020年 | 国际数据中台解决方案涌现 | Google, Microsoft, AWS | 云服务厂商提供数据中台解决方案 |
| 2021年 | 数据中台进入金融和制造业 | 工商银行,华为,西门子等 | 数据中台在更多传统行业得到应用 |
| 2022年 | 数据中台智能化发展 | 阿里巴巴,华为,百度等 | 引入AI和机器学习,提升数据中台的智能分析能力 |
| 2023年 | 元数据管理成为数据中台重点 | Informatica, Collibra | 加强数据治理和元数据管理,提升数据中台的可信度和可靠性 |
| 2024年 | 数据中台进一步融合云原生技术 | Google, Microsoft, AWS | 云原生数据中台解决方案成为主流,提高系统弹性和扩展性 |
| 02 谈谈价值
数据中台火了之后,企业纷纷把它作为企业数字化转型的金钥匙。
投入百万甚至千万,寄希望于数据中台帮助企业解决数据价值挖掘和使用效率问题,推进企业完成数字化转型,创造企业第二增长曲线。
最终结果先按下不表,我们先看一看数据中台有哪些价值。
要谈价值必先谈企业遇到的问题,如果没有对应的问题,数据中台自然对你来说也就缺少了价值,是吧。
2.1 企业面临的挑战
数字化并不是目的,企业在做数字化转型的过程,其实,主要是为了解决自身业务发展的问题。
当下,全球企业都面临流量枯竭,业务增长乏力,但企业的经营成本却在不断增加,利润在急速下滑。
以往靠堆人头,或者个人经验判断推进业务增长的模式已经失灵了,因此,企业越来越重视,数据在企业经营中的作用。
内部构建了越来越多,基于数据的应用产品,比如数据经营看板、促销活动地图、供应链智能管理、生产制造协同管控等等。
随着,企业数字化化程度的逐渐深入,数据应用/产品越来越多,暴露出了越来越多的问题,主要有:
指标口径不一致。
市场部在统计销售额时,包含了所有商品的销售收入,而财务部则只统计实际到账的收入,不包含退货和折扣。结果,两部门在分析月度销售数据时,得出了截然不同的结论,市场部认为销售业绩很好,而财务部则认为销售有所下滑。
重复性开发建设。
线上部门利用电商平台的数据开发了一套客户推荐系统,线下部门则基于门店会员数据开发了另一套推荐系统。由于缺乏统一的数据平台,这两套系统各自为战,无法共享数据和算法模型。
数据流通和共享效率低下。
市场部需要采购部提供最新的库存数据,以便合理安排促销商品和数量,但采购部的数据系统较为封闭,数据提取和共享效率低下,导致促销策划过程中常常因为数据滞后而无法及时调整策略。
数据质量差
一位客户在门店注册时使用手机号,而在电商平台注册时使用邮箱,系统未能合并这两个账号,导致重复记录。由于这些数据质量问题,市场部在进行会员营销活动时无法准确定位目标客户,影响了营销效果。
2.2 数据中台价值
数据共享与复用:打破数据孤岛,实现跨部门的数据共享,提升数据利用率。
数据质量提升:通过统一的数据治理,确保数据的一致性、准确性和完整性。
敏捷响应业务需求:快速响应市场变化,支持灵活的数据分析和应用开发。
降低成本:减少数据冗余,优化数据存储和处理成本。
提升决策效率:通过数据驱动的洞察,支持更科学的业务决策。
其实以上说的都是通用的数据中台价值,有读者可能说太虚了。
你说的对,单纯凭借这些价值点,是很难认可数据中台的价值的。不过可以针对业务问题,进一步细化下价值。
比如上面说的指标口径不一致的问题,本质上就是业务口径定义和管理不一致,存在重复指标加工,数据来源也可能不支持,这么多变量,任何一个环节出问题,都可能导致指标同名不同义、同义不同名等问题。
那么,数据中台如何解决这个问题呢?
首先,将原先分散的数据加工和指标管理逻辑,收拢到数据中台里,由一个团队统一负责指标口径的管理和开发。
其次,在中台中构建统一的数据标准(包含模型标准和指标标准),确保相同粒度的度量或指标只加工一次,并构建全局统一的公共维表。
同时,企业内部可以便捷的获取到所需的指标,并能清晰的查看指标的定义和口径。
这里用到数据中台的两个模块,分别是数据建模和数据地图的能力。
多个数据消费场景,要能够便捷使用指标,避免无数可用的窘境。针对指标的消费和使用,有 2 个途径:
一个是通过数据中台的数据服务模块,将指标快捷的发布成数据 API,然后,到下游系统使用,比如 BI 可视化报表,直接添加 API 来源,进行指标的分析。
另外一个是使用数据中台内置的自助取数/即系查询等能力,主要满足在中台工具内部直接完成数据的消费闭环,不过,一般服务于临时性或者一次性的数据获取场景。
这就是数据中台针对企业内部指标口径不一致问题的一个简单说明,用于佐证数据中台可以帮助企业更好的解决这类问题。
小结:
数据中台之所以被很多企业认可和采购,并不仅仅是由阿里提出的概念或方法论。
更重要的是数据中台,确实能够帮助企业构建标准的、安全的、统一的、共享的数据组织,有效的消除了冗余数据,构建了企业级数据资产,提高了数据的共享能力。
| 03 为什么看衰数据中台
为什么现在全网都在看衰数据中台呢?
发生了什么?
失败案例太多了,成功案例则寥寥。
背后的因素千差万别,就像托尔斯泰在《安娜·卡列尼娜》里面有一句名言名句
是否企业遇到任何数据问题,都需要用数据中台这个所谓的“终极方案”?
完全不是的。
很多企业管理者被第三方销售或者顾问画各种大饼,自己也没有判断能力,不管三七二十一,上数据中台就对了。
但是,内部根本没多少数据可用,企业还没解决数据采集的问题,很多数据都还在线下,通过人工手工方式采集,这时候,上数据中台简直就是拿大炮打苍蝇。
3.3 缺少专业的数据治理专家
这个是多数企业数据中台项目失败的最核心原因,没有之一。
一方面是,这块人才非常紧缺。一般都在某个甲方企业内(对,不是乙方,乙方很多所谓的数据治理专家都是产品专家,缺少业务视角),也比较难挖。
另一方面,企业管理者未重视这类人才的投入,认为内部的 IT部门或者业务部门协作,就完全可以填补这块的人才缺失,而不需要专门招这类人员。
大错特错,愚蠢啊。
200 万的数据中台预算都花了,为啥还要 50 万招一个数据治理专家,没搞明白这点的 CIO ,可能永远无法理解,为什么自己负责的数据中台项目会失败。
PS:
懂业务又懂数据开发流程和系统的综合性人才非常稀缺。
AI 大模型出现以后,很多的数据开发和分析师职业发展受到了极大的挑战,其实,可以深耕某一个行业,往这个方向发展。
AI 短时内依然只能替代一些重复、机械性的工作,写 SQL 这项技能越来越不重要,未来肯定会被更强的大模型给取代,但是,对于业务的理解和内部的协同和沟通这件事情 AI 永远无法做到,至少我们这一代是看不到了。
动起来,不要只做 SQL BOY(表哥/表姐)。
(正文完)
今天的分享就到这里,希望对你能有多帮助和启发。
我是云祁,Focus on BigData,聚焦在「数据知识体系」「思维进化」这两块, 感兴趣的小伙伴,可以点击关注。