&

MySQL LEFT JOIN 性能優化策略

freeflydom

2025年6月4日 14:42 本文熱度 1357

?1. 關聯查詢案例介紹

我們現在有一個驅動表customer，它存儲客戶id、姓名以及出生日期，默認情況下id是主鍵，沒有任何索引，對此我們給出DDL語句：

CREATE TABLE `customer` (
  `id` bigint NOT NULL AUTO_INCREMENT,
  `name` varchar(100) DEFAULT NULL,
  `birthday` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

customer有一張關聯表，c_id記錄著與其關聯數據的id，并用available_balance記錄客戶余額，對應DDL如下，可以看到此時我們沒有添加任何索引：

CREATE TABLE `customer_balances` (
  `id` bigint NOT NULL AUTO_INCREMENT,
  `c_id` bigint NOT NULL,
  `available_balance` decimal(10,2) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1863126107830751234 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

假設此時數據庫大約有2000w的數據，我們希望查出姓名為if2vbdr1kzk47rdmulrxix48tl2r9finmonxpl25cfrqvv7m0t的用戶的出生日期和可用余額，如果沒有記錄余額則設置為null，對應我們給出這樣一條SQL：

SELECT name,birthday from customer c 
left join customer_balances cb on c.id =cb.c_id
 WHERE name='if2vbdr1kzk47rdmulrxix48tl2r9finmonxpl25cfrqvv7m0t';

最終查詢結果如下，耗時大約是1s多一些，對于用戶而言超過200ms的延遲都是有感知的，所以針對這個查詢我們需要進行相應的優化，對此筆者以市面上常見的面經為出發點，逐步拆解并解決這道問題：

name                                              |birthday           |available_balance|
--------------------------------------------------+-------------------+-----------------+
if2vbdr1kzk47rdmulrxix48tl2r9finmonxpl25cfrqvv7m0t|2024-12-01 11:02:35|         25853253|

2. 講講join的原理

join底層關聯本質上都是基于驅動表(上面的c表)的結果到被驅動表(上面的cb表)進行循環掃描定位，這里筆者以MySQL5.7、MySQL 8兩個版本對join連接的幾種類型進行介紹：

(1) Simple Nested-Loop Join：這也就是我們上文中兩張關聯表沒有加索引關聯查詢，得到所有驅動表c的數據后，直接給cb表走全表掃描定位匹配，極端情況下要查詢count(c)*count(cb)次，也就是我們傳說中的時間復雜度為O(n^2):

(2) Index Nested-Loop Join：這就是join左右字段都加索引后的查詢，這意味著驅動表的選擇不在于我們自身，而是由MySQL優化器決定，當驅動表的結果交給被驅動表時，被驅動表直接通過索引定位到關聯數據并阻塞。

(3) Block Nested-Loop Join：沒有索引列的情況都會選擇該算法而不優先考慮Simple Nested-Loop Join，Block Nested-Loop Join相比Simple Nested-Loop Join多了一個中間操作，它會將驅動表查詢結果緩存到join buffer，與被驅動表關聯時會進行批量內存關聯與合并。

(4) HashJoin：這是8.0.18及其之后的版本對于關聯查詢的優化，其原理是針對驅動表join字段進行哈希運算生成結果集存入內存中，然后掃描被驅動表并直接通過哈希運算定位到驅動表是否存在關聯的值已完成結果合并。當然如果驅動表數據量大的話，驅動表部分數據還會利用磁盤進行分片，生成臨時文件，然后被驅動表同樣是通過哈希運算定位到磁盤分片編號進行物理磁盤IO獲取關聯結果。

3. 能不能說說這個LEFT JOIN如何加索引

上文提到查詢耗時為1s多，針對索引添加我們優先使用explain 來分析一下SQL的查詢過程：

explain SELECT c.name,c.birthday,cb.available_balance 
from customer c 
left join customer_balances cb on c.id =cb.c_id 
WHERE name='if2vbdr1kzk47rdmulrxix48tl2r9finmonxpl25cfrqvv7m0t';

以我們的SQL為例該查詢首先查詢驅動表c，它會基于where條件進行全表掃描獲取數據，基于查詢結果緩存到hash join buffer再到關聯表即被驅動表的聚簇索引進行全表掃描匹配結果：

這一點我們也可以從執行計劃看出，c表和cb表都走了全表掃描，且關聯查詢時被驅動表cb用到MySQL 8的hash join關聯，這種關聯方式本質上就說

id|select_type|table|partitions|type|possible_keys|key|key_len|ref|rows   |filtered|Extra                                     |
--+-----------+-----+----------+----+-------------+---+-------+---+-------+--------+------------------------------------------+
 1|SIMPLE     |c    |          |ALL |             |   |       |   |3079319|    10.0|Using where                               |
 1|SIMPLE     |cb   |          |ALL |             |   |       |   |3447555|   100.0|Using where; Using join buffer (hash join)|

針對該執行計劃，我們進行逐步的調優，針對驅動表c的查詢，因為用到了name字段，所以針對name添加一個索引：

ALTER TABLE db.customer DROP INDEX customer_name_IDX;
CREATE INDEX customer_name_IDX USING BTREE ON db.customer (name);

經過調整之后，查詢耗時提升為0.739s，查看執行計劃，可以看到針對驅動表的慢查詢已經走索引了，現在問題就是出在被驅動表cb還是走全表掃描：

id|select_type|table|partitions|type|possible_keys    |key              |key_len|ref  |rows   |filtered|Extra                                     |
--+-----------+-----+----------+----+-----------------+-----------------+-------+-----+-------+--------+------------------------------------------+
 1|SIMPLE     |c    |          |ref |customer_name_IDX|customer_name_IDX|403    |const|      1|   100.0|                                          |
 1|SIMPLE     |cb   |          |ALL |                 |                 |       |     |4566577|   100.0|Using where; Using join buffer (hash join)|

所以我們針對被驅動表cb的c_id增加一個索引:

CREATE INDEX customer_balances_c_id_IDX USING BTREE ON db.customer_balances (c_id);

最終查詢耗時優化為0.001s，

id|select_type|table|partitions|type|possible_keys             |key                       |key_len|ref    |rows|filtered|Extra|
--+-----------+-----+----------+----+--------------------------+--------------------------+-------+-------+----+--------+-----+
 1|SIMPLE     |c    |          |ref |customer_name_IDX         |customer_name_IDX         |403    |const  |   1|   100.0|     |
 1|SIMPLE     |cb   |          |ref |customer_balances_c_id_IDX|customer_balances_c_id_IDX|8      |db.c.id|   1|   100.0|     |

4. left join on 左右字段是否都需要加索引？為什么？

回答這個問題，我們首先需要了解左外連接的工作機制，它本質上就是基于驅動表(也就是上文的c表)的id與被驅動表cb進行鏈接，如果cb沒有數據則結果顯示null：

這也就意味著left join左邊的字段是基于where條件的查詢結果篩選出來的數據，然后遍歷并與被驅動表cb進行關聯，所以如果left join左邊（也就是我們驅動表c的id）如果不作為查詢條件的情況下，可以不加索引，當然我們本次關聯的id本身就是主鍵，所以這個問題就沒有討論的必要了。

對于left join的右邊，它是作為被驅動表(也就是我們的cb表)的關聯查詢條件，從執行計劃就可以看出如果沒添加索引，它會基于驅動表c給的關聯條件id進行全表掃描以找到符合條件的數據，所以為了提升被驅動表cb的檢索速度，關聯條件c_id是需要增加索引的。

5. 你覺得針對聯表查詢還有那些優化技巧

除了上述優化技巧，針對關聯查詢我們可以從表結構設計以及SQL查詢層面考慮優化：

如果業務上允許的話，可以考慮將關聯的字段冗余一份到驅動表上，直接避免關聯查詢開銷。
如果驅動表和被驅動都具備篩選能力(即關聯的表都可以通過where查詢到需要的數據)，可以考慮用數據量小的表作為驅動表，采用小表驅大表的方式完成關聯查詢。
非必要不采取left join或者right join，盡可能在關聯條件上加索引，然后通過inner join讓MySQL優化器幫我們選擇驅動表并完成數據檢索。

轉自https://juejin.cn/post/7459769651342622771

該文章在 2025/6/4 14:42:41 編輯過

點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。

點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理，結合碼頭的業務特點，圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體，是物流碼頭及其他港口類企業的高效ERP管理信息系統。

點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。

點晴免費OA是一款軟件和通用服務都免費，不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。