点击上方蓝色字体,选择“设为星标”
以下是2020年上半年《大数据技术与架构》发表文章合集,请收藏。
Structured Streaming | Apache Spark中处理实时数据的声明式API
HyperLogLog函数在Spark中的高级应用
基于SparkStreaming+Kafka+HBase实时点击流案例
基于Flink SQL构建实时数据仓库
Flink异步之矛-锋利的Async I/O
Spark SQL快速入门系列之Hive
三万字长文 | Spark性能优化实战手册
Flink整合Oozie Shell Action提交任务带Kerberos认证
Spark源码阅读的正确打开方式
消息队列常见面试问题小集合
ORC文件存储格式的深入探究
Hadoop支持Lzo压缩配置及案例
神策数据分享 | 标签体系应用与建设(文末附下载链接)
环形缓冲区-Hadoop Shuffle过程中的利器
eBay | 实践Hadoop任务的性能翻倍之路
PDFT/Paxos/Raft-分布式一致性协议解析
谈谈经典限流方法—漏桶、令牌桶与Guava RateLimiter的实现
轻量级异步屏障快照(ABS)算法解析
Hadoop小文件利器Ozone
数据指标体系建设
Hbase FAQ热门问答小集合
设计HBase RowKey需要注意的二三事
HBase优化笔记
HBase生产环境优化不完全指南
Hive SQL50道练习题
Hive on Spark参数调优小结
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
ConcurrentHashMap锁机制进化的考量
HBASE列族不能太多的真相
基于ClickHouse的用户行为分析实践
HBase的系统架构全视角解读
Kylin Cube构建原理+调优
Apache Hudi 架构设计和基本概念
HiveSQL常用优化方法全面总结
MapReduce性能优化大纲
从NoSQL运动谈分布式系统的CAP、BASE理论
HDFS读写数据过程原理分析
数据中台建设五步法
Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合
一篇文章全面了解监控知识体系
Sqoop 使用shell命令的各种参数的配置及使用方法
Hive小知识之分桶抽样
数据仓库和数据集市建模体系化总结
Phoenix(云HBase SQL)核心功能原理及应用场景介绍
基于实际业务场景下的Flume部署
斗转星移 | 三万字总结Kafka各个版本差异
Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用
SparkSQL用UDAF实现Bitmap函数
一文了解Kafka核心概念和角色
Apache Spark 内存管理详解
经典限流方法——漏桶、令牌桶与Guava RateLimiter的实现
ZooKeeper在HBase集群中的作用
从B+树到LSM树,及LSM树在HBase中的应用
Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解
干掉ELK | 使用Prometheus+Grafana搭建监控平台
盘点:SQL on Hadoop中用到的主要技术
用HiveSQL计算连续天数问题的方法
浅谈Linux cgroup机制与YARN的CPU资源隔离
京东JDHBase异地多活实践
Kafka的分区数是不是越多越好?
一文俯瞰Elasticsearch核心原理
不可不说的Java"锁"事
MySQL8.0发布,你熟悉又陌生的Hash Join?
转载一个看不懂的文章:F1 Query
Apache Hudi | 统一批和近实时分析的增量处理框架
寻找5亿次访问中,访问次数最多的人
聊聊阿里巴巴的全链路压测
年轻人你渴望力量吗 | 我读过的一些书推荐
数据算法之反转排序 | 寻找相邻单词的数量
MySQL Binlog同步HDFS的方案
版权声明:
文章不错?点个【在看】吧! 👇
微信扫一扫关注该公众号