从MySQL InnoDB物理文件格式深入理解索引

1. InnoDB物理文件的基本结构

InnoDB的物理文件有很多种,包括:
 
1)系统表空间(system tablespace)。文件以ibdata1、ibdata2等命名,包括元数据数据字典(表、列、索引等)、double write buffer、插入缓冲索引页(change buffer)、系统事务信息(sys_trx)、默认包含undo回滚段(rollback segment)。
2)用户表空间。innodb_file_per_table=true时,一个表对应一个独立的文件,文件以db_name/table_name.ibd命名。行存储在这类文件。另外还有5.7之后引入General Tablespace,可以将多个表放到同一个文件里面。
3)redo log。文件以ib_logfile0、ib_logfile1命名,滚动写入。主要满足ACID特性中的Durablity特性,保证数据的可靠性,同时把随机写变为内存写加文件顺序写,提高了MySQL的写吞吐。
4)另外还可能存在临时表空间文件、undo独立表空间等。
 
MySQL一次IO的最小单位是页(page),也可以理解为一次原子操作都是以page为单位的,默认大小16k。刚刚列出的所有物理文件结构上都是以Page构成的,只是page内部的结构不同。
 
每个page包括最前面的38个字节的FilHeader,和结尾的8个字节的FilTrailer组成。
文章中类似风格的图片引用自JCole的博客
 
 

2. 表空间的格式

除了redo log以外,刚刚提到的表空间,包括系统表空间、用户表空间、undo独立表空间、临时表空间,他们的格式都是一样的,只是里面的page各有不同。本文主要介绍独立用户表空间的结构,进而深入解析索引。
 
表空间(tablespace)有一个32位的spaceid,用户表空间物理上是由page连续构成的,每个page的序号是一个32位的uint,page 0位于文件物理偏移量0处,page 1位于16384偏移量处。由此推出InnoDB单表最大2^32 * 16k = 64T。
 
表的所有行数据都存在页类型为INDEX的索引页(page)上,为了管理表空间,还需要很多其他的辅助页,例如文件管理页FSP_HDR/XDES、插入缓冲IBUF_BITMAP页、INODE页等。
 
2009年,INNOBASE分享了关于InnoDB的物理结构,里面一张广为流传的图如下。
segment和extent是InnoDB内部用于分配管理页的逻辑结构,用于分配与回收页,对于写入数据的性能至关重要。
 
但这张图有所局限性,可能会产生误解:
 
1)图中是系统表空间,因此存在rollback segment,独立表空间则没有。
2)leaf node segment实际是InnoDB的inode概念,一个segment可能包含最多32个碎片page、0个extent(用于小表优化),或者是非常多的extent,我猜测作者图中画了4个extent是在描述表超过32MB大小的时候一次申请4个extent。
3)一个extent在默认16k的page大小下,由64个page组成,page大小由UNIV_PAGE_SIZE定义,所以extent不一定由64个page组成。
 
如果你觉得这几点不明白,那么坚持往下读。
 
 

3. 文件管理页

文件管理页的页类型是FSP_HDR和XDES(extent descriptor),用于分配、管理extent和page。
 
默认一个extent(1MB大小)管理64个物理连续的page(16k),extent是InnoDB高效分配扩容page的机制。如果page更小(例如8k,4k),则仍然要保证extent最小1M,page数就会相应变多;如果page变大(例如32k),则仍然是64个page。
 
FSP_HDR/XDES页在表空间中的位置,和内部结构如下。
FSP_HDR页都是page 0,XDES页一般出现在page 16384, 32768等固定的位置。一个FSP_HDR或者XDES页大小同样是16K,容量限制所能管理的extent必定是有限的,一般情况下,每个extent都有一个占40字节的XDES entry描述维护,因此1个FSP_HDR页最多管理256个extent(也就是256M,16384个page)。那么随着表空间文件越来越大,就需要更多的XDES页。
 
XDES entry存储所管理的extent状态:
 
1)FREE(空)
2)FREE_FRAG(至少一个被占用)
3)FULL_FRAG(满)
4)归某个segment管理的信息
 
XDES entry还存储了每个extent内部page是否free(有空间)信息(用bitmap表示)。XDES entry组成了一个双向链表,同一种extent状态的收尾连在一起,便于管理。
 
FSP_HDR和XDES的唯一区别,FSP Header只有在page 0 FSP_HDR中有值。
而FSP Header里面最重要的信息就是四个链表头尾数据(FLST_BASE_NODE结构,FLST意思是first and last),FLST_BASE_NODE如下。
1)当一个Extent中所有page都未被使用时,挂在FSP_FREE list base node上,可以用于随后的分配;
2)有一部分page被写入的extent,挂在FREE_FRAG list base node上;
3)全满的extent,挂在FULL_FRAG list base node上;
4)归属于某个segment时候挂在FSEG list base node上。
 
当InnoDB写入数据的时候,会从这些链表上分配或者回收extent和page,这些extent也都是在这几个链表上移动的。
 
 

4. INODE页

一般而言,INODE一定会出现在文件的page 2上,如果管理的索引过多,才会分配更多的INODE页。夹在page 2 INODE页和page 0 FSP_HDR中间IBUF_BITMAP页暂不展开。
 
INODE页结构如下。
segment是表空间管理的逻辑单位。INODE页就是用于管理segment的,每个Inode entry负责一个segment。
 
下面会讲到,MySQL的数据是按照B+ tree聚簇索引(clustered index)组织数据的,每个B+ tree使用两个segment来管理page,分别是leaf node segment(叶子节点segment)和non-leaf node segment(非叶子节点segment)。这两个segment的Inode entry地址记录在B+ tree的root page中FSEG_HEADER里面,而root page又被分配在non-leaf segment第一个碎片页上(fragment array)。
 
一个segment由32个碎片页(fragment array),FSEG_FREE、FSEG_NOT_FULL、FSEG_FULL组成,这些信息记录在Inode entry里,可以简单理解为Inode就是segment元信息的载体。
 
FREE、NOT_FULL、FULL三个FLST_BASE_NODE对象和FSP_HDR/XDES页里面的FSP_FREE、FREE_FRAG、FULL_FRAG、FSEG概念类似。这些链表被InnoDB使用,用于高效的管理页分配和回收。
 
至于碎片页上(fragment array),用于优化小表空间分配,先从全局的碎片分配Page,当fragment array填满(32个槽位)时,之后每次分配一个完整的Extent,如果表大于32MB,则一次分配4个extent。
 
因此可以回答INNOBASE图里面的segment概念了,只不过segment可能包含0或者多个(非常多的)extent。
 
 

5. 把segment、extent、page概念串联起来

如下图所示。对照JCole博客的图可以更好的理解。
 

6. INDEX数据索引页

6.1 B+树聚簇索引

索引(index)用于快速定位数据,对于InnoDB来说,主键和非主键都是索引,一切数据都存储在INDEX索引页中,索引即数据,数据即索引。
 
试想下,加速查询的方法很多,可以是:
 
1、哈希索引(hash),点查性能很好,需要解决冲突,区间查询也不友好。MySQL只有自适应的哈希索引,数据组织的索引不会采用哈希索引。
 
2、有序数组(sorted array),更新麻烦,只适用于静态存储引擎。
 
3、二叉查找树(binary search tree),查询复杂度是O(logN),为了保持这棵树是平衡二叉树,更新的时间复杂度也是O(logN)。
 
下图展示了各个存储介质的访问时延,从内存100ns,到NVME SSD 16us,到机械磁盘3-10ms,二叉查找树最大的问题就在于随机IO,所以在机械盘时代,解决的思路就是减少随机IO,自然而然想到的就是增加树的高度。因此InnoDB采用N叉平衡树组织索引和数据。
4、N叉数
减少树的高度和随机IO次数,例如当N=1200,树的高度可以控制在4层,管理1200^3=17亿行。一般根节点在内存,所以最多3次磁盘IO。不仅减少了随机IO次数还保证了查询的稳定性,所以说这种数据结构是一种scales nicely的解决方案。
 
5、新模型
一些新的存储数据结构采用LSM-tree、跳表skiplist等不在本文讨论范围内。
 
既然多叉树可以满足查询性能,下面再来看索引和数据是否有必要放在一起呢?索引的组织形式可以是聚簇(clustered)和非聚簇(unclustered)的。
 
clustered index将数据按照索引的顺序存储。通常来讲,索引和数据在一起,找到了索引也就找到了数据(但不一定强求)。
图片来源点此
 
unclustered index则将数据与索引分开结构,索引指向了具体的记录。索引相近的记录,在物理文件上相距可能很远。
图片来源点此
 
一张MySQL表只有一个聚簇索引,聚簇索引可以看做主键,如果建表没有指定主键默认采用第一个NOT NULL UNIQUE INDEX当主键,否则默认6字节的ROW ID做主键。总之InnoDB必须有一个primary key。聚簇索引通常就是B+树(B+ tree)结构,如下图所示。
图片来源点此
 
使用B+树聚簇索引(B+ tree clustered index)的好处在于,
 
1)数据和索引顺序一致,充分利用磁盘顺序IO性能普遍高于随机IO的特性。
2)对于局部性查询也会大有裨益。
3)采用B+树,叶子节点(leaf node)存储数据,非叶子节点(non-leaf node)只是索引,这样非叶子节点就会足够的小,因此数据很“热”,便于更好的缓存。
4)对于覆盖索引,可以直接利用叶子节点的主键值。
 
二级索引,就可以理解为非聚簇索引,也是一颗B+树,只不过这棵树的叶子节点是指向聚簇索引主键的,可以看做“行指针”,因此查询的时候需要“回表”。
 
另外一些数据库采用堆表(heap)的方式组织数据和索引。
 
假设存在一张表,没有任何索引,B+树有三层,按照自增主键插入,可以用alibaba/innodb-java-reader工具生成innodb file LSN heatmap,即page的热力图,按照page被更新的LSN(Logical Sequence Number)由小到大,由蓝变红,如下图所示。
可以看出level2的root page总是红色的,因为插入会频繁访问root page,叶子节点由蓝变红,符合自增主键顺序写入的特性,这也间接证明了自增主键的优势,充分利用利用顺序IO,避免B+树频繁分裂合并。灰色圈出来的两个page是level=1的非叶子节点,有两个,右侧节点从左侧分裂而来,因此持续一直“热”到写入结束。
 
把这个物理文件的变为逻辑的B+树结构,如下图所示。
 

6.2 索引页结构

索引页包含的信息如下:
 
1)主键、二级索引、行和列
 
B+树的每个节点都是一个INDEX索引页,其结构都是相同的。
 
对于聚簇索引,非叶子节点包含主键和child page number,叶子节点包含主键和具体的行;
 
对于非聚簇索引,也就是二级索引,非叶子节点包含二级索引和child page number,叶子节点包含二级索引和主键值。
 
行是由列组成的,各种列类型(column types)经过encoding编码后才组成了一行。
 
2)高效检索的数据结构
 
B+树结构可以用于快速做point-query和range-query,索引页中必定包含高效检索的数据结构,实际使用的就是sorted array和singly-linked-list,页内支持二分查找。同一层的页之间是double-linked-list双向链接的。
 
3)支持OLTP数据库特性相关信息
InnoDB在读写方面,支持事务、行锁、MVCC非锁定一致性读,ACID特性,crash recovery特性等,在索引页里同样包含一些属性支持这些特性。
 
索引页物理结构如下图所示。
Index header包含了页的一些元数据。
 
– Num of directory slots:page directory slots个数,用于二分查找检索初始化sorted array size使用。
– Heap top position:页把插入的数据看做数组,用于记录已使用空间的末尾,从这个位置到page directory都是free space。
– Num of heap records & page format:低15位表示Num of heap records,最高的一位表示类型,也就是record format,包括COMPACT、REDUNDANT等,下文会提到。
– First garbage record offset、Garbage space:表示删除数据singly-linked-list的起始record和空间占用。
– Last insertion position:最后插入数据的位置,用户快速顺序写入。
– Page direction:插入方向,插入的数据与Last insertion position比的相对方位,包括LEFT、RIGHT、NO_DIRECTION等。
– Num of inserts in page direction:同一方向连续插入的记录数。
– Num of records:未删除的记录数,剔除掉infimum和supremum记录。
– Max trx. id:最大事务id,用于支持MVCC。
– Page level:B+树层数,叶子节点为0,非叶子节点递增。
– Index id:索引id。
 
FSEG header包含了指向叶子节点和非叶子节点的Inode entry的数据:Inode spaceid、Inode page no.、Inode offset。
 
infimum和supremum是system records,用于起始记录和结束记录,对用户不可见,把真正的record按照升序串起来成为单链表。这两个record和普通的record结构一样,都包含record header和body,只不过它们的body分别是“infimum\0”和“supremum”字符串,不像真正的record由主键、所有列的值等组成。
 
例如图中的物理视图,表示按自增主键顺序插入的16条记录,它们的长度可能不一样,比如包含了varchar类型的列。把他们转化为逻辑视图,他们是一个有序单链表(sorted singly linked list),头尾就是infimum和supremum记录,串起来的指针在record header里面,record header有2字节的next record offset指向下一条记录的相对物理偏移量。
 
通过这个有序单链表InnoDB就有能力在某个页中做检索查询,给定一个key,从infimum顺序查找,直到到supremum结束,时间复杂度O(N)。
 
那么有没有什么加速的办法呢?答案是利用page directory。
 
page directory从Fil Trailer开始从后往前写,里面包含槽位slots,每个slot 2个字节,存储了某些record在该页中的物理偏移量,例如图中最后面是infimum record的offset,最前面是supremum record的offset,中间从后往前是r4,r8,r12 record的offset,一般总是每隔4-8个record添加一个slot,这样slots就等同于一个稀疏索引(sparse index),加速页内查询的办法就是通过二分查找,查询key的时间复杂度可以降为O(logN),由于页都在内存里面,所以查询性能可控,内存访问延迟100ns左右,如果在CPU缓存中则可能更快。
 
在heap top position和page directory中间的都是free space,用于record和slot从两端填充进去,对于删除的记录只是标记删除,实际空间回收再利用会延后进行。
 

6.3 索引页案例

把宏观的B+树和微观的页结构以一个案例说明下。
 
假设有如下的几条数据,
id,VALUE
100,a
199,b
200,c
299,d
300,e
400,f
500,g
550,h
600,i
650,j
...
 一颗的B+树聚簇索引如下图所示,3层的B+树,非叶子节点的record由主键和child page number组成,主键是child page number中最小的主键值;叶子节点的record由主键和行组成。

 微观上把每个页节点内部展开成由infimum和supermum连接起来的有序单链表,结构如下。每层的页通过Fil Header相互连接。

这个案例图实际上想呼应丁奇老师《MySQL实战45讲》里的第五讲索引里面的图。

这张图是一张局部图,非叶子节点每个记录后面的小窄条,都可以看做是node pointer,指向child page number。绝大部分资料实际都应该画了B+树上的一部分,图中300后面的指针实际是300这个记录的node pointer,其叶子节点的元素都不小于300这个值。而前面实际还应该画出一个小于等于100的值,它的node pointer才指向100的那个叶子节点。

 

6.4 Row Format

下面介绍具体每一行的结构。

InnoDB有如下4种row format,下图来自MySQL官方文档

row format可通过innodb_default_row_format参数指定,也可以在建表的时候指定。

CREATE TABLE tab (
   id INT,
   str VARCHAR(50)
) ENGINE=InnoDB ROW_FORMAT=DYNAMIC;

REDUNDANT是比较老的格式,流行的版本中5.6默认是COMPACT,COMPACT比REDUNDANT要更节省空间,大概在20%左右。5.7版本DYNAMIC是默认格式,DYNAMIC在变长存储上做了更大的空间优化,对于VARBINARY, VARCHAR, BLOB和TEXT类型更友好,下面会更详细展开。COMPRESSED是压缩页。

下面的介绍都是基于COMPACT及其之后格式的。

row的格式在上面图中简单介绍过,由可选的两个标识+record header+body组成,具体如下。

1)Nullable field bitmap:可选标识,表明哪些列是NULL,如果没有nullable字段,就不存在。很多文章都没说清楚这部分,画个图就明白了,一个字节能表示8个nullable字段,超过8个字段就扩充到低字节。如下图所示,18个字段,9个可为空,如果其中某3个实际为空,则两个字节存储如图。

 

2)Variable field lengths:可选标识,变长字段长度,如果没有变长字段,就不存在。每个变长字段都用1-2个字节表示长度,根据列定义顺序逆序存放,其算法很多书里都提过,但是都有些省略,具体解析过程可以参考rem0rec.cc。如果小于等于127,则1个字节;大于127,低字节下一位的表示是否有overflow page存储,剩余6位和高字节的8位,按照大尾端encoding组成变长长度。

3)record header:固定5个字节长度。

Info Flags:1个字节。低4位表示是否min_rec或者deleted。高4位表示num of records owned,与上面提到的page directory呼应,如果被page directory slot指向,则有值。

2个大尾端字节:低三位表示类型, 包括普通记录REC_STATUS_ORDINARY=0,非叶子节点记录REC_STATUS_NODE_PTR=1,起始虚拟记录REC_STATUS_INFIMUM=2,终点虚拟记录REC_STATUS_SUPREMUM=3。高5位表示heap no,即顺序位置。

2字节next record offset: 直接定位到下一个record的数据部分,也就是主键偏移量,而不是record header。

可以看出如果表结构没有变长字段,没有nullable字段,则不会存在冗余信息。5个字节长度的record header是必须有的,上面提到的infimum和supremum也是一种特殊的row,只不多对用户不可见。

4)索引:序列化后存储于此,例如int类型索引主键就占用4个字节。

对于聚簇索引的叶子节点,存储行。

对于二级索引的叶子节点,存储行的主键值。

对于聚簇索引和二级索引的非叶子节点,存储child page最小的key。

上面提到的infimum和supremum中就只存字符串在行数据里。

5)6字节事务ID和7字节回滚指针:

这两个值用来支持MVCC机制,事务ID是实现事务隔离级别的基础,而通过回滚指针指向undo log,可实现非锁定一致性读。

7)非主键列的数据:

对于聚簇索引的叶子节点,是按照表结构定义排列的columns,每种column类型都有自己的encoding方法。

对于二级索引的叶子节点,是行的主键值。

对于聚簇索引和二级索引的非叶子节点,是child page number。

每一列的解析在DataTypeHandler.cc源码里可以找到,有encoding和decoding的方法。比如int比较简单4个字节,对于varchar、text需要按照列或者表的charset encoding出来,对于varbinary、blob就是裸的二进制数据,对于datatime等时间相关的有相应的机制去做序列化。

对于变长字段,MySQL有一套规则可以存储在overflow page中,这个page是BLOB类型,也就是不在行所在的page中存储,这样可以优化空间,在索引页中存储最有价值的行信息,而不是在B+ tree中节点充斥着很大的列,进一步提高索引的存储效率;另外还支持了存储大于一页16k大小的数据。

一般情况下,对于变长字段,如果大于768字节,则启用off-page策略,索引页存储前768字节,然后外加20字节pointer信息包含space id,overflow page number,offset和存放在overflow page的字节数。对于DYNAMIC则做的更加极致,即可以做fully off-page,只存20字节的pointer信息,也可以对于小数据<=40 bytes 做inline,不off-page。overflow page是一个单链表,每个BLOB page都存储了一部分数据。在MySQL 8.0之后对于这个结构又做了进一步优化,可以随机访问大列的一部分,为此引入了LOB类型,感兴趣可以参考链接

 

7. 总结

深入理解MySQL InnoDB表空间物理文件格式,对于更好的认识索引,有很大帮助。本文从独立表空间入手,展开介绍了extent、segment、inode等页管理和分配的概念,用实际的案例阐述了InnoDB B+树中每个节点的索引页结构,如何做点查和范围查询,索引页的内部结构,以及每个行的组成,查阅了不少资料以及MySQL源代码,alibaba/innodb-java-reader 这个开源项目,可以帮助读者更好的理解。

 

转载时请注明转自neoremind.com

2 Comments on this Post.

  1. cx

    深入!得反复研读才能明白。

  2. little猿猿

    看了segment、extent、page的图,真的是醍醐灌顶

Leave a Comment.