博客
关于我
MergeTree原理解析(五)
阅读量:389 次
发布时间:2019-03-05

本文共 1396 字,大约阅读时间需要 4 分钟。

ClickHouse技术解析:MergeTree引擎深入理解

引言

ClickHouse的核心设计理念围绕MergeTree引擎展开,作为其基础,理解MergeTree的工作原理至关重要。本文将从分区、索引、标记文件、数据块等方面深入探讨MergeTree的实现细节,揭示其高效查询背后的秘密。


MergeTree创建与存储

创建

MergeTree表的创建语法简洁,主要参数包括:

  • 分区键:决定数据如何划分,支持单列或多列分区键。
  • 排序规则:决定数据块内部的排序顺序,默认与主键一致。
  • 索引粒度:决定索引间隔,默认为8192行。

示例:

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (    name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],    ...) ENGINE = MergeTree()    [PARTITION BY expr]    [ORDER BY expr]    [PRIMARY KEY expr]    [SAMPLE BY expr]    [SETTINGS name=value, ...]

存储

MergeTree采用按列存储压缩算法

  • 列存储:每列独立存储,支持LZ4、ZSTD等压缩算法。
  • 排序:数据按ORDER BY规则预先排序。
  • 数据块:按大小或规则划分数据块,优化存储和查询效率。

数据分区

分区规则

分区ID生成规则包括:

  • 不指定分区键:默认分区ID为all
  • 整型分区:直接使用整型字符表示。
  • 日期分区:转换为YYYYMMDD格式。
  • 其他类型:使用128位Hash值。
  • 分区名称

    分区名称格式为:

    PartitionID_MinBlockNum_MaxBlockNum_Level

    其中:

    • PartitionID:分区ID。
    • MinBlockNum:最小数据块编号。
    • MaxBlockNum:最大数据块编号。
    • Level:合并次数。

    分区合并

    分区合并基于以下规则:

  • 新数据写入时,系统会自动创建新的分区目录。
  • 相同分区目录会按规则合并。
  • 合并时会生成新的partition.datminmax索引文件。

  • 一级索引

    稀疏索引优势

    稀疏索引优势体现在:

  • 索引标记占用少量空间。
  • 索引数据常驻内存,查询速度快。
  • 仅需12208行索引标记支持1亿行数据。
  • 索引粒度

    index_granularity定义索引粒度,影响数据标记和索引文件。每8192行生成一次索引标记。

    索引生成规则

    索引文件primary.idx内容规则:

    • 每8192行记录一次索引值。
    • 支持多列索引,例如ORDER BY(CounterID, EventDate)

    二级索引

    二级索引类型

    MergeTree支持四种二级索引:

  • minmax:基于最小和最大值。
  • set:基于集合元素。
  • ngrambf_v1:基于多字段聚合。
  • tokenbf_v1:基于子字符串匹配。
  • 二级索引创建

    二级索引语法:

    INDEX index_name expr TYPE index_type(...)GRANULARITY granularity

    创建时会生成相应的索引和标记文件。

    转载地址:http://mqzzz.baihongyu.com/

    你可能感兴趣的文章
    pandas 数据框将列类型转换为字符串或分类
    查看>>
    pandas 数据框条件 .mean() 取决于特定列中的值
    查看>>
    pandas 数据框至海运分组条形图
    查看>>
    Pandas 数据透视表:列顺序和小计
    查看>>
    pandas 时序统计的高级用法!
    查看>>
    pandas 时间序列重新采样结束给定的一天
    查看>>
    pandas 根据不是常量的第三列的值将值从一列复制到另一列
    查看>>
    pandas 根据值从多列中的一列查找
    查看>>
    Pandas 根据布尔条件选择行和列
    查看>>
    pandas 滚动窗口 - datetime64[ns] 未实现
    查看>>
    pandas 版本兼容特定的蟒蛇和NumPy配置吗?
    查看>>
    pandas 生成excel多级表头
    查看>>
    Pandas 的 DataFrame 详解-ChatGPT4o作答
    查看>>
    pandas 读取excel数据,以字典形式输出
    查看>>
    Pandas 读取具有浮点值的 csv 文件会导致奇怪的舍入和小数位数
    查看>>
    pandas 适用,但仅适用于满足条件的行
    查看>>
    pandas 重新采样到每月的特定工作日
    查看>>
    pandas :如何删除以NaN为列名的多个列?
    查看>>
    pandas :我如何对堆叠的条形图进行分组?
    查看>>
    pandas :按移位分组和累加和(GroupBy Shift And Cumulative Sum)
    查看>>