各位,今年 ClickHouse 最王炸的功能来啦,没错,就是期待已久的 Projection (投影) 功能。ClickHouse 现在的功能已经非常丰富强大了,但是社区用现实告诉我们,还可以进一步做的更好:)
不知道你有没有碰到过这些情况:
建表的时候,Order By 同时决定了主键稀疏索引和数据的排序,假设 :
Order BY A,B,C
那么通常过滤查询 Where A 会很快,但是 Where C 会慢一些。
针对固定的查询主题,我们会基于一张底表构建许多物化视图,以帮助更进一步提升查询性能、提升QPS、降低资源开销。
物化视图虽然效果显著,但是却不够智能。物化视图本质上一张独立的表,通过原表的触发器,实时的向视图表写入数据。
既然物化视图也是独立的表,那么自然就会存在与原表数据一致性的问题。如果物化视图很多,维护起来也是一个问题。
Projection 功能的出现,完美解决了上述的问题。Projection 的概念出自 《C-Store: A Column-oriented DBMS》这篇论文,作者是2015年图灵奖获得者、Vertica 之父,Mike Stonebraker。
Projection 意指一组列的组合,可以按照与原表不同的排序存储,并且支持聚合函数的查询。
来自快手的 Amos Bird(郑天祺) 借鉴了这个思想,在 ClickHouse 中实现了 Projection 的功能,并贡献到社区。
ClickHouse Projection 可以看做是一种更加智能的物化视图,它有如下特点:
相比普通物化视图是一张独立的表,Projection 物化的数据就保存在原表的分区目录中,支持明细数据的普通Projection 和 预聚合Projection
可以对一张 MergeTree 创建多个 Projection ,当执行 Select 语句的时候,能根据查询范围,自动匹配最优的 Projection 提供查询加速。如果没有命中 Projection , 就直接查询底表。
因为物化的数据保存在原表的分区,所以数据的更新、合并都是同源的,也就不会出现不一致的情况了
这么干讲可能还比较抽象,直接来看用例吧,这里直接使用官方的测试数据集 hits_100m_obfuscated,这张表有 1亿 数据:
SELECT count(*)
Order By 是:
ENGINE = MergeTree
在没有 Projection的时候,查询非主键 WatchID:
SELECT WatchID
结果全表扫描了 800MB 共 1亿行数据。
ALTER TABLE hits_100m_obfuscated ADD PROJECTION p1
注意,只有在创建 PROJECTION之后,再被写入的数据,才会自动物化。
对于历史数据,需要手动触发物化,例如现在我们就需要执行:
alter table hits_100m_obfuscated MATERIALIZE PROJECTION p1
MATERIALIZE PROJECTION 是一个异步的 Mutation 操作,可以通过下面的语句查询状态:
SELECT
这个时候,如果我们去分区目录,你会看到一个 tmp 临时分区,正在物化 PROJECTION 的数据:
等到 p1 PROJECTION 生成好了之后,我们再去看分区目录:
会看到在原有 MergeTree 的分区下,多了一个 p1.proj 的子目录,进入子目录,你会发现和 MergeTree 的存储格式是一样的:
cd /data/default/hits_100m_obfuscated/201307_1_96_4_107/p1.proj
当查询命中某个 PROJECTION 的时候,就会直接用分区子目录中的数据,来提供查询。
再有了 p1 PROJECTION 之后,再次执行同样的查询,记得首先要设置参数开启这项功能:
SET allow_experimental_projection_optimization = 1;
执行查询:
SELECT WatchID
效果惊人,从 800MB 的 1亿 行全表扫描,缩减到 65KB 的 8k 行扫描,时间也加快了 40 多倍。
除了明细数据的查询,PROJECTION 也支持预聚合,在没有优化的情况下,下面的查询也会全表扫描:
SELECT
现在创建另外一个聚合 PROJECTION:
ALTER TABLE hits_100m_obfuscated ADD PROJECTION agg_p2
由于历史数据已经存在,也要手动触发一下物化:
alter table hits_100m_obfuscated MATERIALIZE PROJECTION agg_p2
物化好了之后,再次执行相同的查询:
SELECT
数据扫描范围减少了四分之三。
现在 ClickHouse 也提供了 PROJECTION 的系统表,可以看到相关的存储信息:
SELECT
PROJECTION 本质也是在用空间换时间,还是还很划算的。
PROJECTION也支持删除的 DDL:
ALTER TABLE hits_100m_obfuscated DROP PROJECTION p1
除了通过 ALTER 创建,也能在 CREATE TABLE 的时候创建,例如:
CREATE TABLE xxx
通过刚才的例子,你能发现在查询时, PROJECTION 的使用是无感的,ClickHouse 会根据提交的 SQL 语句自动匹配。
那么你肯定会好奇,匹配的规则是什么呢?有这么几条原则:
1.设置了 SET allow_experimental_projection_optimization = 1
2. 返回的数据行小于基表总数
3. 查询覆盖的分区 part 超过一半
4. Where 必须是 PROJECTION 定义中 GROUP BY 的子集
5. GROUP BY 必须是 PROJECTION 定义中 GROUP BY 的子集
6. SELECT 必须是 PROJECTION 定义中 SELECT 的子集
7. 匹配多个 PROJECTION 的时候,选取读取 part 最少的
如果你不知道查询是否匹配了 PROJECTION ,有两种方式可以校验:
1. 使用 explain ,例如:
EXPLAIN
看到 MergeTree(with 0 projection p1) 就代表这条 SQL 查询会命中 PROJECTION
2. 查看执行日志:
(SelectExecutor): Choose normal projection p3
看到 Choose xxx projection 就代表这条 SQL 查询已经命中 PROJECTION
利用 PROJECTION ,我们只需面对一张底表查询就行了,既拥有原来物化视图的性能,又免去了维护成本和数据一致性的问题,简直无敌啊。
好了,今天的分享就到这里,再有了 PROJECTION 之后,可以说 ClickHouse 更加的如虎添翼了。在原有的一些场景下,我们可以告别 ETL和物化视图了。
关于作者:朱凯,ClickHouse贡献者之一,ClickHouse布道者,资深架构师,腾讯云最具价值专家TVP,开源爱好者,Apache DolphinScheduler Committer,《ClickHouse原理解析与应用实战》作者。
这是一本可帮助读者深度理解并全面掌握ClickHouse运行原理并进行实践开发的工具书,涵盖了ClickHouse的时代背景、发展历程、核心概念、基础功能、运行原理、实践指导等多个维度的内容,尤其是在ClickHouse最核心的部分——MergeTree表引擎与分布式方面,书中对其实现原理和应用技巧进行了详细解读。
原网址: 访问
创建于: 2021-09-28 09:40:48
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论