在發(fā)布一個選擇行的查詢時, MySQL進行分析,看是否能夠?qū)λM行優(yōu)化,使它執(zhí)行更快。本文我們將研究查詢優(yōu)化程序怎樣工作。更詳細的信息,可參閱MySQL參考指南中的“Getting Maximum Performance from MySQL”,本文描述了MySQL采用的各種優(yōu)化措施。(http://www.mysql.com/ 處的MySQL聯(lián)機參考指南在不斷地更新。)
MySQL查詢優(yōu)化程序利用了索引。當然,它也利用了其他信息。例如,如果發(fā)布下列查詢,MySQL將非?斓貓(zhí)行它,不管相應的表有多大:
SELECT * FROM tb1_name WHERE 1= 0
在此情形中,MySQL考察WHERE 子句,如果認識到不可能有滿足該查詢的行,就不會對該表進行搜索?衫肊XPLAIN 語句知道這一點,EXPLAIN 語句要求MySQL顯示某些有關(guān)它應該執(zhí)行一條SELECT 查詢,而實際沒有執(zhí)行的信息。為了使用E X P L A I N,只需要SELECT 語句前放置EXPLAIN 即可,如下所示:
EXPLAIN SELECT * FROM tb1_name WHERE 1= 0
通常,EXPLAIN 返回的信息比這個多,包括將用來掃描表的索引、將要使用的連接類型以及需要在每個表中掃描的行數(shù)估計等等。
1 優(yōu)化程序怎樣工作
MySQL查詢優(yōu)化程序有幾個目標,但其主要目標是盡量利用索引,而且盡量使用最具有限制性的索引以排除盡可能多的行。這樣做可能會適得其反,因為發(fā)布一條SELECT 語句的目的是尋找行,而不是拒絕它們。優(yōu)化程序這樣工作的原因是從要考慮的行中排除行越快,那么找到確實符合給出標準的行就越快。如果能夠首先進行最具限制性的測試,則查詢可以進行得更快。假如有一個測試兩列的查詢,每列上都有一個索引:
WHERE coll = "some value" AND col2 = "some other value"
還假定,與col1上的測試相符的有900 行,與col2 上的測試相符的有300 行,而兩個測試都通過的有30 行。如果首先測試c o l 1,必須檢查900 行以找到也與col2 值相符的30 行。那么測試中有870 將失敗。如果首先測試c o l 2,要找到也與col1值相符的30 行,只需檢查300 行。測試中有失敗270 次,這樣所涉及的計算較少,磁盤I/O 也較少。遵循下列準則,有助于優(yōu)化程序利用索引:
1 比較具有相同類型的列。在比較中利用索引列時,應該使用那些類型相同的列。例如,CHAR(10) 被視為與CHAR(10) 或VARCHAR(10) 相同,但不同于CHAR(12) 和VARCHAR( 12 )。INT 與BIGINT 不同。在MySQL3.23 版以前,要求使用相同類型的列,否則列上的索引將不起作用。自3.23 版后,不嚴格要求這樣做,但相同的列類型比不同類型提供更好的性能。如果所比較的兩列類型不同,可使用ALTER TABLE語句修改其中之一使它們的類型相配。
2 比較中應盡量使索引列獨立。如果在函數(shù)調(diào)用或算術(shù)表達式中使用一個列,則MySQL不能使用這樣的索引,因為它必須對每行計算表達式的值。有時,這是不可避免的,但很多時候,可以重新編寫只取索引列本身的查詢。下面的WHERE 子句說明了怎樣進行這項工作。第一行中,優(yōu)化程序?qū)⒑喕磉_式4/2 為值2,然后使用my_col 上的索引快速地找到小于2 的值。而在第二個表達式中,MySQL必須檢索出每行的my_col 值,乘以2,然后將結(jié)果與4 比較。沒索引可用,因為列中的每個值都要檢索,以便能對左邊的表達式求值:
WHERE my_col < 4/2
WHERE my_col * 2 < 4
讓我們考慮另一個例子。假如有一個索引列date _ c o l。如果發(fā)布如下的查詢,相應的索引未被使用:
SELECT * FROM my_tb1WHERE YEAR(date_col) < 1990
其中表達式并不將索引列與1990 比較,而是將從列值計算出的值用于比較,而且必須計算每行的這個值。結(jié)果是, date_col 上的索引不可能得到使用。怎樣解決?使用一個文字日期即可,這時將會使用date_col 上的索引:
WHERE date_col < "1990-01-01"
但是假如沒有特定的日期值,那么可能會對找到具有出現(xiàn)在距今一定天數(shù)內(nèi)的日期的記錄感興趣。有幾種方法來編寫這樣的查詢,但并非所有方法都很好。三種可能的方法如下:
其中第一行不能利用索引, 因為必須為每行檢索列, 以便能夠計算TO _ DAYS(date_col) 的值。第二行要好一些。c ut o ff 和TO _ DAY S ( CURRENT _ DATE) 兩者都是常量,因此比較表達式的右邊可在查詢處理前由優(yōu)化程序一次計算出來,而不是每行計算一次。但date_col 列仍然出現(xiàn)在一個函數(shù)調(diào)用中,因此,沒有使用索引。第三行是最好的方法。比較表達式的右邊可在執(zhí)行查詢前作為常量一次計算出來,但現(xiàn)在其值是一個日期。這個值可直接與date_col 的值進行比較,不再需要轉(zhuǎn)換為天數(shù),可以利用索引。
■ 在LIKE 模式的起始處不要使用通配符。有時,有的人會用下列形式的WHERE 子句來搜索串:
WHERE col_name LIKE "%string%"
如果希望找到s t r i n g,不管它出現(xiàn)在列中任何位置,那么這樣做是對的。但不要出于習慣在串的兩邊加“ %”。如果實際要查找的只是出現(xiàn)在列的開始處的串,則不應該要第一個“%”號。例如,如果在一個包含姓的列中查找“ M a c”起始的姓,應該編寫如下的WHERE 子句:
WHERE last_name LIKE "Mac%"
優(yōu)化程序考慮模式中的開始的文字部分,然后利用索引找到相符合的行。不過寧可寫成如下的表達式,它允許使用last_name 上的索引:
WHERE last_name >= "Mac" AND last_name < "Mad"
這種優(yōu)化對使用REGEXP 操作符的模式匹配不起作用。
■ 幫助優(yōu)化程序更好地評估索引的有效性。缺省時,如果將索引列中的值與常量進行比較,優(yōu)化程序?qū)⒓俣ㄦI字是均勻地分布在索引中的。優(yōu)化程序還將對索引進行一個快速的檢查,以估計在確定相應的索引是否應該用于常量的比較時要使用多少條目。可利用myisamchk 或isamchk 的--analyze 選項給優(yōu)化程序提供更好的信息,以便分析鍵值的分布。myisamchk 用于MyISAM 表,isamchk 用于ISAM 表。為了完成鍵值分析,必須能夠登錄到MySQL服務器主機中,而且必須對表文件具有寫訪問權(quán)限。
■ 利用EXPLAIN 檢驗優(yōu)化程序操作。檢查用于查詢中的索引是否能很快地排除行。如果不能,那么應該試一下利用STRAIGHT_JOIN 強制按特定次序使用表來完成一個連接。查詢的執(zhí)行方式不那么顯然;MySQL可能會有很多理由不以您認為最好的次序使用索引。
■ 測試查詢的其他形式,而且不止一次地運行它們。在測試一個查詢的其他形式時,應該每種方法運行幾次。如果對兩個不同方法中的每種只運行查詢一次,通常會發(fā)現(xiàn)第二個查詢更快,因為來自第一個查詢的信息在磁盤高速緩存中,不需要實際從磁盤上讀出。還應該盡量在系統(tǒng)負載相對平穩(wěn)的時候運行查詢,以避免受系統(tǒng)中其他活動的影響。