2024年6月3日,一款开源的嵌入式分析型关系数据库DuckDB正式发布1.0版,国内大量数据库圈好友转发了这一信息并为其欢呼。
传统数据库:需要在独立的系统中安装部署,并启动数据库服务进程,应用通过网络发送命令(如SQL)访问数据库进程进行数据操作。
嵌入式数据库:无需部署单独的数据库服务进程,直接嵌入到应用程序内部,作为应用程序的一部分运行,具备轻量级、高性能、跨平台等特点。
DUCKDB有多火?
2018 年第一行代码出现,现在有超过 30万行 C++ 代码,超过 42000 次提交,GitHub上有18.6K的Star~
下载流量每天就超过 4 TB,一个月下载超过200万次,妥妥的数据库流量明星。
到底是哪位勇士开发了这款流量数据库?
DuckDB Labs 是一家位于荷兰阿姆斯特丹的小型公司,官网团队介绍仅仅18人,而其版本发布公告中提到团队将近20人,也证实这18人确实是其全部成员了!!!
整个公司没有经过任何融资,就像他们的产品一样足够轻量级,以提供DuckDB技术服务为生,不融资、不圈钱,踏踏实实搞技术,这样的模式在国产数据库中是难以想象的。
以下就是全部的团队成员:
DuckDB的创始人Hannes Mühleisen(汉内斯-穆莱森,40岁)
DuckDB联合创始人& CTO Mark Raasveldt(31岁)
莱顿大学博士,前CWI研究,是《De Ingenieur》杂志评选的2023年15位技术人才之一。2020年6月9日,马克在Hannes Mühleisen作为共同发起人的情况下,完成了一场公开在线博士答辩,题目是《Integrating Analytics with Relational Databases》(将分析与关系数据库集成)。
Mark当时还表达了未来企业发展目标“我们希望成长为一家拥有四五十名员工的公司:一家小型、紧密联系的公司,与发展速度极快的公司。”
说到DuckDB,就要提到另一家公司MotherDuck
MotherDuck的企业目标是提供一个无服务器(Serverless)版本的DuckDB。DuckDB也是MotherDuck的股东之一。
MotherDuck 团队也仅40多人,主要成员:
Jordan Tigani,联合创始人& chief duck-herder(牧鸭人~~),曾在 SingleStore 担任首席产品官, Google BigQuery 的产品负责人、工程负责人和创始工程师。
TINO TERESHKO,联合创始人兼产品副总裁。曾是 Firebolt 的产品副总裁, Google BigQuery 的产品经理和 Google Cloud 技术总监。
RYAN BOYD,联合创始人兼营销与开发副总裁。曾在 Google、Databricks 和 Neo4j 领导开发团队长达 15 年以上。
2022年11月,MotherDuck发文称从Andreessen Horowitz、Redpoint、Madrona、Amplify和 Altimeter 筹集了 4750 万美元(超3.4亿人民币)的A轮融资。
DuckDB这款数据库体验如何?
官网安装包下载不到15MB,解压后就一个可执行文件“duckdb”,约45MB,不需要任何依赖关系~~
linux环境,直接运行./duckdb,默认是个内存模式数据库,随便加上一个文件名,例如“mydb”就可以建立一个持久化的数据库~
直接读磁盘上的csv文件,1.4亿行(23G)数据count一下用了61s
用 copy 将数据加载到表内,用时193s
数据库内count一下,仅用了0.058s~~
内存+列存+向量引擎,确实很丝滑~~
1.4亿数据分组统计,用时0.19s
精确查询一行数据,无索引主键,2.9s;update 2.3-3.5s;
1.4亿与100万两表join,用时8.7s
简单体验的感受:
duckdb无需安装、直接运行
简洁且快速的访问外部数据
快速导入数据
自动压缩(50%压缩比)
高性能统计查询
另外,习惯用命令行的我还感受到一点意外的惊喜体验,例如执行数秒以上的sql会展示执行进度条,相比一般产品长时间未知等待,真的非常nice!
一些细微处的用心设计会让体验变得舒适
作为嵌入式数据库还能针对一定范围内的大数据量进行高性能复杂分析,未来在实时数仓、数据本地预处理、物联网等场景定能发挥不错的潜力。
END
扫码关注支持一下
点赞、在看、转发,也非常感谢~~