MySQL的Infobright引擎介绍

Infobright是一个与MySQL集成的开源数据仓库(Data Warehouse)软件,可作为MySQL的一个存储引擎来使用,SELECT查询与普通MySQL无区别。

基本特征

优点:

1. 查询性能高:百万、千万、亿级记录数条件下,同等的SELECT查询语句,速度比MyISAM、InnoDB等普通的MySQL存储引擎快5~60倍

2. 存储数据量大:TB级数据大小,几十亿条记录

3. 高压缩比:在我们的项目中为18:1,极大地节省了数据存储空间

4. 基于列存储:无需建索引,无需分区

5. 适合复杂的分析性SQL查询:SUM, COUNT, AVG, GROUP BY

限制:

1. 不支持数据更新

2. 社区版Infobright只能使用“LOAD DATA INFILE”的方式导入数据,不支持INSERT、UPDATE、DELETE

3. 不支持高并发:只能支持10多个并发查询

 

测试

测试数据是一个1.5GB大的文本数据,数据格式类似:
 
用户ID  内容ID  用户打分
765331  3868    5
716091  3868    3
1663216 3868    3
51971   3868    5
在测试数据库中新建两张表,一个为Infobright支持的brighthouse存储引擎,一个为MySQL原生的MyISAM存储引擎,其他内容一致:
 
CREATE TABLE `t_ib` (
`uid` mediumint(9) NOT NULL,
`cid` smallint(6) NOT NULL,
`rating` tinyint(4) NOT NULL
) ENGINE=BRIGHTHOUSE;
 
CREATE TABLE `t_mis` (
`uid` mediumint(9) NOT NULL,
`cid` smallint(6) NOT NULL,
`rating` tinyint(4) NOT NULL
) ENGINE=MyISAM
 
将数据load进表:
 
load data infile ‘path/to/data.txt’ into table table_name fields terminated by “\t”;
 
我们比较一下文件大小:
 
数据类型      数据大小
data.txt      1.5GB
data.tar.gz   429MB
MyISAM表      671MB
Infobight表   280MB
超过5:1的压缩比,虽然没有传说中10:1,但数据的大小比tar.gz过还要小近一半,压缩能力可见一斑。
 
准备进行SQL的测试,不能在BRIGHTHOUSE存储引擎上建索引,因为根本就不需要建,我们在MyISAM引擎表上建立如下索引:
 
create index id on t_mis(cid);
 
执行下列SQL语句,查询内容ID大于9527的条目数(为了节省篇幅,略去结果集,只返回执行时间):
 
mysql> select count(*) from t_mis where cid > 9527;
1 row in set (41.81 sec)
mysql> select count(*) from t_ib where cid > 9527;
1 row in set (13.66 sec)
Infobright花费的时间只有MyISAM的1/4左右,再测试一下找出被用户打分最多的10条内容:
 
mysql> select cid from t_mis group by cid order by count(*) desc limit 10;
10 rows in set (1 min 21.30 sec)
mysql> select cid from t_ib group by cid order by count(*) desc limit 10;
10 rows in set (39.02 sec)
Infobright大概只花费了MyISAM 1/3多一点的时间。再查询一下评价最好的10条内容:
 
mysql> select cid from t_mis group by cid order by avg(rating) desc limit 10;
10 rows in set (6 min 16.15 sec)
mysql> select cid from t_ib group by cid order by avg(rating) desc limit 10;
10 rows in set (1 min 1.25 sec)
不到1/6时间。

Leave a Comment.