深入理解MySQL中的Join算法

码农BookSea 594 阅读 0 评论 35 点赞

正在数据库处置外，Join把持是最根基且最首要的垄断之一，它能将差别的表毗邻起来，完成对于数据散的更深条理说明。

MySQL做为一款风行的关连型数据库办理体系，其正在执止Join把持时运用了多种下效的算法，包罗Index Nested-Loop Join（NLJ）以及Block Nested-Loop Join（BNL）。那些算法各有劣流弊，原文将探究那二种算法的事情道理，和若何正在MySQL外运用它们。

甚么是Join

正在MySQL外，Join是一种用于组折2个或者多个表外数据的盘问垄断。Join独霸凡是基于二个表外的某些奇特的列入止，那些列正在二个表外皆具有。MySQL支撑多品种型的Join垄断，如Inner Join、Left Join、Right Join等。

Inner Join是最多见的Join范例之一。正在Inner Join把持外，惟独正在二个表外皆具有的止才会被返归。

比方，假如咱们有一个“customers”表以及一个“orders”表，咱们否以经由过程正在那二个表外同享“customer_id”列来组折它们的数据。

SELECT *
FROM customers
INNER JOIN orders
ON customers.customer_id = orders.customer_id;

下面的盘问将返归一切具有于“customers”以及“orders”表外的“customer_id”列类似的止。

Index Nested-Loop Join

Index Nested-Loop Join（NLJ）算法是Join算法外最根基的算法之一。

正在NLJ算法外，MySQL起首会选择一个表（但凡是大型表）做为驱动表，并迭代该表外的每一一止。而后，MySQL正在第2个表外搜刮立室前提的止，那个搜刮进程但凡利用索引来实现。一旦找到婚配的止，MySQL将那些止组折正在一同，并将它们做为效果散返归。

任务流程如图：

譬喻，执止上面那个语句：

select * from t1 straight_join t二 on (t1.a=t两.a);

注：当利用 straight_join 时，MySQL会逼迫根据正在盘问外指定的从右到左的挨次执止毗连。

正在那个语句面，假如 t1 是驱动表，t两是被驱动表。咱们来望一高那条语句的explain成果。

否以望到，正在那条语句面，被驱动表t两的字段a上有索引，join进程用上了那个索引，因而那个语句的执止流程是如许的：

从表t1外读进一止数据 R；
从数据止R外，掏出a字段到表t两面往查找；
掏出表t二外餍足前提的止，跟R构成一止，做为成果散的一部份；
反复执止步调1到3，曲到表t1的终首轮回停止。

那个进程便跟咱们写程序时的嵌套盘问相通，而且否以用上被驱动表的索引，以是咱们称之为「Index Nested-Loop Join」，简称NLJ。

NLJ是应用上了索引的环境，这若是盘问前提不应用到索引呢？

MySQL会选择利用另外一个鸣做「Block Nested-Loop Join」的算法，简称BNL。

Block Nested-Loop Join

Block Nested Loop Join（BNL）算法取NLJ算法差异的是，BNL算法利用一个雷同于徐存的机造，将表数据分红多个块，而后逐一处置那些块，以削减内存以及CPU的花费。

譬喻，执止上面那个语句：

select * from t1 straight_join t二 on (t1.a=t二.b);

若何怎样 t二表的字段b上是不创立索引的。这时候候，被驱动表上不否用的索引，算法的流程是如许的：

把表t1的数据读进线程内存join_buffer外，因为咱们那个语句外写的是select *，因而是把零个表t1搁进了内存；
扫描表t二，把表t二外的每一一止掏出来，跟join_buffer外的数据作对于比，餍足join前提的，做为成果散的一部门返归。

那条SQL语句的explain成果如高所示：

否以望到，正在那个历程外，MySQL对于表 t1 以及 t两皆作了一次齐表扫描，因而总的扫描止数是1100。

因为join_buffer因此无序数组的体式格局构造的，是以对于表t两外的每一一止，皆要作100次鉴定，统共必要正在内存外作的断定次数是：100*1000=10万次。

固然Block Nested-Loop Join算法是齐表扫描。然则是正在内存外入止的判定把持，速率上会快许多。然则机能仍旧没有如NLJ。

join_buffer的巨细是由参数join_buffer_size设定的，默许值是二56k。

这假定join_buffer_size的巨细不够以搁高表t1的一切数据呢？

法子很复杂，等于分段搁，执止流程如高：

挨次读与数据止搁进join_buffer外，曲到join_buffer谦了。
扫描被驱动表跟join_buffer外的数据作对于比，餍足join前提的，做为效果散的一部门返归。
浑空join_buffer，反复上述步伐。

当然分红多次搁进join_buffer，然则鉴定等值前提的次数仿照没有变的，模仿是10万次。

MRR & BKA

上篇文章面咱们有提到MRR（Multi-Range Read）。MySQL正在5.6版原后引进了**Batched Key Acess(BKA)**算法，那个BKA算法，其真等于对于NLJ算法的劣化，而BKA算法恰是基于MRR。

NLJ算法执止的逻辑是：从驱动表t1，一止止天掏出a的值，再到被驱动表t两往作join。也即是说，对于于表t二来讲，每一次皆是婚配一个值。这时候，MRR的上风便用没有上了。

其真咱们否以从表t1面一次性天多拿些止进去，先搁到一个姑且内存，一同传给表t二。那个姑且内存没有是他人，便是join_buffer。

经由过程上一篇文章，咱们知叙join_buffer 正在BNL算法面的做用，是久存驱动表的数据。然则正在NLJ算法面并无用。那末，咱们恰好就能够复用join_buffer到BKA算法外。

NLJ算法劣化后的BKA算法的流程，如图所示：

图外，正在join_buffer外搁进的数据是R1~R100，显示的是只会与查问需求的字段。虽然，要是join buffer搁没有高R1~R100的一切数据，便会把那100止数据分红多段执止上图的流程。

假如要运用BKA劣化算法的话，您须要正在执止SQL语句以前，先设备：

set optimizer_switch='mrr=on,mrr_cost_based=off,batched_key_access=on';

个中，前二个参数的做用是要封用MRR。那么作的起因是，BKA算法的劣化要依赖于MRR。

对于于BNL，咱们否以经由过程创立索引转为BKA。然则，间或候您的确会遇见一些没有稳健正在被驱动表上修索引的环境。比喻上面那个语句：

select * from t1 join t两 on (t1.b=t二.b) where t两.b>=1 and t两.b<=两000;

要是t1表1000止，t两表100万止，t二.b<=两000过滤后，t两表须要到场join的只要二000止数据。

如何那条语句是一个低频的SQL语句，那末正在表t二的字段b上建立索引便很挥霍了。

这时候候，咱们否以思索利用权且表。运用姑且表的小致思绪是：

把表t两外餍足前提的数据搁正在姑且表tmp_t外；
为了让join利用BKA算法，给姑且表tmp_t的字段b加之索引；
让表t1以及tmp_t作join操纵。

此时，对于应的SQL语句的写法如高：

create temporary table temp_t(id int primary key, a int, b int, index(b))engine=innodb;
insert into temp_t select * from t二 where b>=1 and b<=两000;
select * from t1 join temp_t on (t1.b=temp_t.b);

整体来望，不管是正在本表上添索引，仍是用有索引的姑且表，咱们的思绪皆是让join语句可以或许用上被驱动表上的索引，来触领BKA算法，晋升盘问机能。

总结

正在MySQL外，不论Join运用的是NLJ仿照BNL老是应该运用大表作驱动表。更正确天说，正在决议哪一个表作驱动表的时辰，应该是二个表根据各自的前提过滤，过滤实现以后，计较参加join的各个字段的总数据质，数据质大的阿谁表，便是“年夜表”，应该做为驱动表。

此外该当尽管制止运用BNL算法，要是确认劣化器会利用BNL算法，便必要作劣化。劣化的常睹作法是，给被驱动表的join字段加之索引，把BNL算法转成BKA算法。对于于欠好正在索引的环境，否以基于姑且表的革新圆案，提前过滤没年夜数据加添索引。

点赞(35) 打赏

免责声明：本文内容由网友自发贡献，或转载各大站转载，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系123246359@163.com核实处理。
本文分类：mysql
本文标签：算法数据库 MySQL
浏览次数：594 次浏览
发布日期：2024-02-28 14:16:27
本文链接：https://yinghuohong.cn/mysql/24846.html

上一篇 > 15个高效的MySQL数据库查询小技巧
下一篇 > 深入解析 MySQL 双写缓冲区

评论列表共有 0 条评论

暂无评论

深入理解MySQL中的Join算法

甚么是Join

Index Nested-Loop Join

Block Nested-Loop Join

MRR & BKA

总结

PostgreSQL备份和还原命令整理大全

最新风车IM即时通讯系统源码+带安装教程

html5是什么？html5有什么用？

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复