微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

ClickHouse为什么那么快

为啥他能这么快呢?设计如此=-=

概述

ClickHouse设计的初衷是to filter and aggregate data as fast as possible

再优秀的系统的设计也只能对各个指标进行取舍,无法兼得,而ClickHouse的最重要的指标和任务就是做好这样的一件事:尽可能快的过滤和聚合数据。实际上,这也是传统的OLAP系统所追求的指标。体现到语义上,就是实现GROUP BY查询的实现。

为了实现这一目的,ClickHouse在上层设计上做出了如下的优化:

  • Column-oriented storage
  • Indexes
  • Block
  • Pre-sort
  • Data compression
  • Vectorized query execution
  • Scalability

然而许多其他的数据库使用的相似的优化策略,为什么ClickHouse能够脱颖而出呢?另一个值得关注的点是其底层实现细节一个观点是:ClickHouse并没有太多的新的方法或者理论,而是将前人的研究成果应用到了OLAP这个领域。因此可以说,ClickHouse是一个非常优秀及经典的工程化项目,是人类计算机工程的结晶。

Column-oriented storage

列式存储能够显著的降低磁盘IO。对于OLAP场景中,每次只关心一个大宽表中的某几列的场景,相比于行式存储,列式存储仅需获取需要的数据,磁盘的IO理论上能够降低为所关心的列与所有列之比。因此,越是宽的表,行式存储的优势越明显。

同样,使用ClickHouse时,也一定要使用列式存储数据库的方式来查询数据,查询时指定具体的列,否则性能提升会不明显。

Block

ClickHouse使用Block实现批处理。Block 是ClickHouse中的数据最小处理单元,表示内存中表的子集(chunk)的容器,是由三元组(IColumn, IDataType, 列名) 构成的集合。在查询执行期间,数据是按 Block 进行处理的。如果我们有一个 Block ,那么就有了数据(在 IColumn 对象中),有了数据的类型信息告诉我们如何处理该列,同时也有了列名(来自表的原始列名,或人为指定的用于临时计算结果的名字)。
当我们遍历一个块中的列进行某些函数计算时,会把结果列加入到块中,但不会更改函数参数中的列,因为操作是不可变的。之后,不需要的列可以从块中删除,但不是修改。这对于消除公共子表达式非常方便。

Pre-sort

ClickHouse会对插入的数据进行预排序(基于LSM算法)。这里设计的原因是针对大数据量场景,为了处理上百亿条记录的数据,一般的查询返回的数据量都非常大,如果数据是无序的,对于按字段聚合或者范围查询的场景,会大大增加磁盘IO次的次数

to be discussed
这里预排序是对每个字段都预排序吗?如果按照字段A进行范围筛选,获取相应的字段B进行计算,按照ClickHouse的列式存储和预排序,这里的流程是如何实现的?ClickHouse是如何根据排序后的A,找到对应行的B的呢?

Data compression

数据压缩是提升ClickHouse性能一个关键。我们发现,前面介绍的列存、分块和预排序,实际上都对压缩有着一定的好处,

  • 列式的存储使得数据更有规律,可以更好地进行数据压缩(相同类型的数据放在一起,对压缩更加友好);同时,能够最小化数据扫描的范围。
  • 排序后的数据可以使用更有效的压缩方式来进行处理。
  • 按照block作为最小处理单元的原因是,虽然数据被压缩后能够有效减少数据大小,降低存储空间并加速数据传输效率,但数据的压缩和解压动作,其本身也会带来额外的性能损耗。所以需要控制被压缩数据的大小,以求在性能损耗和压缩率之间寻求一种平衡。在具体读取某一列数据时(.bin文件),首先需要将压缩数据加载到内存并解压,这样才能进行后续的数据处理。通过压缩数据块,可以在不读取整个.bin文件的情况下将读取粒度降低到压缩数据块级别,从而进一步缩小数据读取的范围。

Indexes

由于ClickHouse实现了在插入时进行了预排序,因此其索引做的非常简单,无需像MysqL需要设置单独的索引文件索引数据的位置,因为其数据本身就是有序的。

ClickHouse的索引包括一级索引标记二级索引一级索引记录每一个block第一个值。例如一组一亿行的数据,主键范围从1~100,000,000。存储到ClickHouse后按照8192行为一个block,那么一共有12208个block。索引为1,8193,16635……在查询时只需要就可以根据值确定到需要读取哪几个block了。但是仅仅靠定位到具体哪个block还是不够,因为我们仍不清楚这个block在文件的哪个位置,因此就有了标记来记录block在文件中的偏移量。由于一级索引非常小,1亿条数据只需要1万多行的索引,因此一级索引可以常驻内存,加速查找。

Vectorized query execution

ClickHouse使用C++进行开发,通过向量化的实现进行数据的高效查询。主要包括提升cpu 缓存利用率,以及使用 SIMD cpu 指令。
Clickhouse在所有能够提高cpu计算效率的地方,都大量的使用了SIMD,频繁调用的基础函数,大量的进行可并行计算,将工程上的优化做到了极致。

以下的代码一个例子,对于一个简单的额大小写转换的方法,也调用了SIMD命令来进行优化。

template <char not_case_lower_bound, char not_case_upper_bound>struct LowerUpperImpl{
public:   
	static void array( char * src, char * src_end, char * dst)   {
   //32
		const auto flip_case_mask = 'A' ^ 'a';
#ifdef __SSE2__
		const auto bytes_sse = sizeof(__m128i);
		const auto src_end_sse = src_end - (src_end - src) % bytes_sse;
		const auto v_not_case_lower_bound = _mm_set1_epi8(not_case_lower_bound - 1);
		const auto v_not_case_upper_bound = _mm_set1_epi8(not_case_upper_bound + 1);
		const auto v_flip_case_mask = _mm_set1_epi8(flip_case_mask);
		for (; src < src_end_sse; src += bytes_sse, dst += bytes_sse){
		   	//_mm_loadu_si128表示:Loads 128-bit value;即加载128位值。
		   	//一次性加载16个连续的8-bit字符
			const auto chars = _mm_loadu_si128(reinterpret_cast<const __m128i *>(src));
		   	//_mm_and_si128(a,b)表示:将a和b进行与运算,即r=a&amp;b
		   	//_mm_cmpgt_epi8(a,b)表示:分别比较a的每个8bits整数是否大于b的对应位置的8bits整数,若大于,则返回0xff,否则返回0x00。
		   	//_mm_cmplt_epi8(a,b)表示:分别比较a的每个8bits整数是否小于b的对应位置的8bits整数,若小于,则返回0xff,否则返回0x00。
		   	//下面的一行代码对这128位的寄存器并行操作了3遍,最后得到一个128位数,对应位置上是0xff的,表示
		   	//那个8-bit数在 [case_lower_bound, case_upper_bound]范围之内的,其余的被0占据的位置,是不在操作范围内的数。
			const auto is_not_case = _mm_and_si128(_mm_cmpgt_epi8(chars, v_not_case_lower_bound), _mm_cmplt_epi8(chars, v_not_case_upper_bound));
   			//每个0xff位置与32进行与操作,原来的oxff位置变成32,也就是说,每个在 [case_lower_bound, case_upper_bound]范围区间的数,现在变成了32,其他的位置是0
			const auto xor_mask = _mm_and_si128(v_flip_case_mask, is_not_case);
   			//将源chars内容与xor_mask进行异或,符合条件的字节可能从uppercase转为lowercase,也可能从lowercase转为uppercase,不符合区间的仍保留原样。
			const auto cased_chars = _mm_xor_si128(chars, xor_mask);
   			//将结果集存到dst中
			_mm_storeu_si128(reinterpret_cast<__m128i *>(dst), cased_chars);
		}
#endif
#ifndef __SSE2__
		for (; src < src_end; ++src, ++dst)
			if (*src >= not_case_lower_bound &amp;&amp; *src <= not_case_upper_bound)
				*dst = *src ^ flip_case_mask;
			else
				*dst = *src;
#endif   
	}
};

Scalability

ClickHouse 可以利用所有可用的 cpu 内核和磁盘来执行单个查询。 不仅在单个服务器上,而且还包括集群的所有 cpu 内核和磁盘。

ClickHouse将数据划分为多个partition,每个partition再进一步划分为多个index granularity,然后通过多个cpu核心分别处理其中的一部分来实现并行数据处理。

在这种设计下,单条Query就能利用整机所有cpu。极致的并行处理能力,极大的降低了查询延时。

除了优秀的单机并行处理能力,ClickHouse还提供了可线性拓展的分布式计算能力。ClickHouse会自动查询拆解为多个task下发到集群中,然后进行多机并行处理,最后把结果汇聚到一起。

在存在多副本的情况下,ClickHouse还提供了多种query下发策略。

当前的架构,会带来什么问题

ClickHouse的compaction

这个问题实际上是LSM算法的特点,为了实现高效的追加写和预排序,必然要在其他方面有一些牺牲。

LSM算法的几个核心步骤:

在于数据写入存储系统前首先记录日志,防止系统崩溃。
记录完日志后在内存中以供使用,当内存达到极限后写入磁盘,记录合并次数Level为0(L=0)。已经写入磁盘的文件不可变。
每过一段时间将磁盘上L和L+1的文件合并
我们用一个示例来展示下整个过程
T=0时刻,数据库为空。
T=1时刻,clickhouse收到一条500条insert的插入请求,这500条数据时乱序的。此时,clickhouse开始插入操作。首先将500条插入请求一次性写入日志。接着在内存中进行排序,排序完成后将有序的结果写入磁盘,此时L=0;
T=2时刻,clickhouse收到一条800条insert的插入请求,这800条数据时乱序的。此时,clickhouse开始插入操作。首先将800条插入请求一次性写入日志。接着在内存中进行排序,排序完成后将有序的结果写入磁盘,此时L=0;
T=3时刻,clickhouse开始合并,此时此刻,磁盘上存在两个L=0的文件。这两个文件每个文件内部有序,但可能存在重合。(例如第一批500条的范围是300-400,第二批800条数据的范围是350-700)。因此需要合并。clickhouse在后台完成合并后,产生了一个新的L=1的文件。将两个L=0的文件标记删除
T=4时刻,clickhouse开始清理,将两个被标记删除文件真正地物理删除
T=5时刻,clickhouse收到一条100条insert的插入请求,这100条数据时乱序的。此时,clickhouse开始插入操作。首先将100条插入请求一次性写入日志。接着在内存中进行排序,排序完成后将有序的结果写入磁盘,此时L=0;
T=6时刻,clickhouse开始合并,此时此刻,磁盘上存在1个L=0的文件和1个L=1的文件。这两个文件每个文件内部有序,但不存在重合。(例如L0文件的范围是100-200,L1文件的范围是300-700)。因此不需要合并。clickhouse在后台将L=0的文件升级成L=1,此时数据库内存在两个L=1的互不重合的文件

以上过程来自Clickhouse系列-番外-LSM算法 - 知乎 (zhihu.com)

如上述过程,这里整个系统必然会频繁的进行Compaction(合并),写入量越大,Compaction的过程越频繁。而compaction是一个compare & merge的过程,非常消耗cpu和存储IO,在高吞吐的写入情形下,大量的compaction操作占用大量系统资源,必然带来整个系统性能断崖式下跌,对应用系统产生巨大影响,当然我们可以禁用自动Major Compaction,在每天系统低峰期定期触发合并,来避免这个问题。

文章wxlog如何使用clickhouse支撑百万亿行日志存储与检索 - WXG技术能力提升 - KM平台 (woa.com)就提到了对合并过程的调优。

Block作为最小处理单元

多核的使用

因为采用了并行处理机制,即使一个查询,也会用服务器一半的cpu去执行,所以ClickHouse不能支持高并发的使用场景,认单查询使用cpu核数为服务器核数的一半,安装时会自动识别服务器核数,可以通过配置文件修改该参数。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐