Mysql数据库提供两种类型的索引,如果没正确设置,索引的利用效率会大打折扣却完全不知问题出在这。
代码如下:
以上创建的其实是一个多列索引,创建列索引的代码如下:
代码如下:
一个多列索引可以认为是包含通过合并(concatenate)索引列值创建的值的一个排序数组。 当查询语句的条件中包含last_name 和 first_name时,例如:
代码如下:
sql会先过滤出last_name符合条件的记录,在其基础上在过滤first_name符合条件的记录。那如果我们分别在last_name和first_name上创建两个列索引,mysql的处理方式就不一样了,它会选择一个最严格的索引来进行检索,可以理解为检索能力最强的那个索引来检索,另外一个利用不上了,这样效果就不如多列索引了。但是多列索引的利用也是需要条件的,以下形式的查询语句能够利用上多列索引:
代码如下:
以下形式的查询语句利用不上多列索引:
代码如下:
多列建索引比对每个列分别建索引更有优势,因为索引建立得越多就越占磁盘空间,在更新数据的时候速度会更慢。
当我们执行查询的时候,MySQL只能使用一个索引。如果你有三个单列的索引,MySQL会试图选择一个限制最严格的索引。但是,即使是限制最严格的单列索引,它的限制能力也肯定远远低于firstname、lastname、age这三个列上的多列索引。
另外建立多列索引时,顺序也是需要注意的,应该将严格的索引放在前面,这样筛选的力度会更大,效率更高。
对于要经常查询的含量大量数据的数据库,建立索引是非常重要的,建立索引一般都是在where语句用得较多的列上。现在有个问题,如果一个表有多个列需要建立索引,是把所有列建成一个索引,还是对每一个列建一个索引,上篇文章做了一个介绍,这是作者得出的结论,Conclusion: For benchmarked queries we can see Multiple Column index beats Index Merge in all cases when such index can be used. It is also worth to watchout a MySQL may decide not to do Index merge (either intersection or union) but instead do full table scan or access table picking only one index on the pair.意思应该是说对多个列建索引比对每个列分别建索引更有优势,而且要知道索引建立得越多就越占磁盘空间,在更新数据的时候速度会更慢。
tb表有1700条记录,foo字段有750个不同的记录,那么就可以说We have a cardinality of 750 for foo。总规则可以说是cardinality越大的字段应该排在索引的第一位就是说索引的位置是(foo,bar),因为cardinality越大那么第一次取出来的记录集就越小,再进行第二次查询的次数就越少了。
考虑数据列的基数(cardinality)。基数是数据列所包含的不同值的数量。例如,某个数据列包含值1、3、7、4、7、3,那么它的基数就是4。索引的基数相对于数据表行数较高(也就是说,列中包含很多不同的值,重复的值很少)的时候,它的工作效果最好。如果某数据列含有很多不同的年龄,索引会很快地分辨数据行。如果某个数据列用于记录性别(只有"M"和"F"两种值),那么索引的用处就不大。如果值出现的几率几乎相等,那么无论搜索哪个值都可能得到一半的数据行。在这些情况下,最好根本不要使用索引,因为查询优化器发现某个值出现在表的数据行中的百分比很高的时候,它一般会忽略索引,进行全表扫描。惯用的百分比界线是"30%"。现在查询优化器更加复杂,把其它一些因素也考虑进去了,因此这个百分比并不是MySQL决定选择使用扫描还是索引的唯一因素。
最左前缀
多列索引还有另外一个优点,它通过称为最左前缀(Leftmost Prefixing)的概念体现出来。继续考虑前面的例子,现在我们有一个firstname、lastname、age列上的多列索引,我们称这个索引为fname_lname_age。当搜索条件是以下各种列的组合时,MySQL将使用fname_lname_age索引:
- firstname,lastname,age
- firstname,lastname
- firstname
再多说几句组合索引的最左优先原则:
组合索引的第一个字段必须出现在查询组句中,这个索引才会被用到。如果有一个组合索引(col_a,col_b,col_c)下面的情况都会用到这个索引:col_a = "some value";col_a = "some value" and col_b = "some value";col_a = "some value" and col_b = "some value" and col_c = "some value";col_b = "some value" and col_a = "some value" and col_c = "some value";对于最后一条语句,mysql会自动优化成第三条的样子~~。从另一方面理解,它相当于我们创建了(firstname,lastname,age)、(firstname,lastname)以及(firstname)这些列组合上的索引。下面这些查询都能够使用这个fname_lname_age索引:
SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan' AND age='17'; SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan'; SELECT peopleid FROM people WHERE firstname='Mike'; The following queries cannot use the index at all: SELECT peopleid FROM people WHERE lastname='Sullivan'; SELECT peopleid FROM people WHERE age='17'; SELECT peopleid FROM people WHERE lastname='Sullivan' AND age='17';
选择索引列
在性能优化过程中,选择在哪些列上创建索引是最重要的步骤之一。
a.考虑使用索引的主要有两种类型的列:在WHERE子句中出现的列,在join子句中出现的列。
b.考虑列中值的分布,索引的列的基数越大,索引的效果越好。
c.使用短索引,如果对字符串列进行索引,应该指定一个前缀长度,可节省大量索引空间,提升查询速度。
d.利用最左前缀 e.不要过度索引,只保持所需的索引。每个额外的索引都要占用额外的磁盘空间,并降低写操作的性能。 在修改表的内容时,索引必须进行更新,有时可能需要重构,因此,索引越多,所花的时间越长。请看下面这个查询:
SELECT age ## 不使用索引FROM people WHERE firstname='Mike' ## 考虑使用索引AND lastname='Sullivan' ## 考虑使用索引
这个查询与前面的查询略有不同,但仍属于简单查询。由于age是在SELECT部分被引用,MySQL不会用它来限制列选择操作。因此,对于这个查询来说,创建age列的索引没有什么必要。下面是一个更复杂的例子:
SELECT people.age, ##不使用索引town.name ##不使用索引FROM people LEFT JOIN town ONpeople.townid=town.townid ##考虑使用索引WHERE firstname='Mike' ##考虑使用索引AND lastname='Sullivan' ##考虑使用索引
与前面的例子一样,由于firstname和lastname出现在WHERE子句中,因此这两个列仍旧有创建索引的必要。除此之外,由于town表的townid列出现在join子句中,因此我们需要考虑创建该列的索引。
那么,我们是否可以简单地认为应该索引WHERE子句和join子句中出现的每一个列呢?差不多如此,但并不完全。我们还必须考虑到对列进行比较的操作符类型。MySQL只有对以下操作符才使用索引:<,<=,=,>,>=,BETWEEN,IN,以及某些时候的LIKE。可以在LIKE操作中使用索引的情形是指另一个操作数不是以通配符(%或者_)开头的情形。例如,“SELECT peopleid FROM people WHERE firstname LIKE 'Mich%';”这个查询将使用索引,但“SELECT peopleid FROM people WHERE firstname LIKE '%ike';”这个查询不会使用索引。
用or分隔开的条件,如果or前的条件中的列有索引,而后面的列没有索引,那么涉及到的索引都不会被用到,例如:select * from table_name where key1='a' or key2='b';如果在key1上有索引而在key2上没有索引,则该查询也不会走索引
总结:多列索引只有在where条件中含有索引中的首列字段时才有效
分析索引效率
现在我们已经知道了一些如何选择索引列的知识,但还无法判断哪一个最有效。MySQL提供了一个内建的SQL命令帮助我们完成这个任务,这就是EXPLAIN命令。EXPLAIN命令的一般语法是:EXPLAIN <SQL命令>。你可以在找到有关该命令的更多说明。下面是一个例子:
EXPLAIN SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan' AND age='17';
这个命令将返回下面这种分析结果:
下面我们就来看看这个EXPLAIN分析结果的含义。
-
- table:这是表的名字。
- type:连接操作的类型。下面是MySQL文档关于ref连接类型的说明:“对于每一种与另一个表中记录的组合,MySQL将从当前的表读取所有带有匹配索引值的记录。如果连接操作只使用键的最左前缀,或者如果键不是UNIQUE或PRIMARY KEY类型(换句话说,如果连接操作不能根据键值选择出唯一行),则MySQL使用ref连接类型。如果连接操作所用的键只匹配少量的记录,则ref是一种好的连接类型。”在本例中,由于索引不是UNIQUE类型,ref是我们能够得到的最好连接类型。如果EXPLAIN显示连接类型是“ALL”,而且你并不想从表里面选择出大多数记录,那么MySQL的操作效率将非常低,因为它要扫描整个表。你可以加入更多的索引来解决这个问题。预知更多信息,请参见MySQL的手册说明。
- possible_keys:可能可以利用的索引的名字。这里的索引名字是创建索引时指定的索引昵称;如果索引没有昵称,则默认显示的是索引中第一个列的名字(在本例中,它是“firstname”)。默认索引名字的含义往往不是很明显。
- Key:它显示了MySQL实际使用的索引的名字。如果它为空(或NULL),则MySQL不使用索引。
- key_len:索引中被使用部分的长度,以字节计。在本例中,key_len是102,其中firstname占50字节,lastname占50字节,age占2字节。如果MySQL只使用索引中的firstname部分,则key_len将是50。
- ref:它显示的是列的名字(或单词“const”),MySQL将根据这些列来选择行。在本例中,MySQL根据三个常量选择行。
- rows:MySQL所认为的它在找到正确的结果之前必须扫描的记录数。显然,这里最理想的数字就是1。
- Extra:这里可能出现许多不同的选项,其中大多数将对查询产生负面影响。在本例中,MySQL只是提醒我们它将用WHERE子句限制搜索结果集。
索引的缺点
到目前为止,我们讨论的都是索引的优点。事实上,索引也是有缺点的。
首先,索引要占用磁盘空间。通常情况下,这个问题不是很突出。但是,如果你创建每一种可能列组合的索引,索引文件体积的增长速度将远远超过数据文件。如果你有一个很大的表,索引文件的大小可能达到操作系统允许的最大文件限制。
第二,对于需要写入数据的操作,比如DELETE、UPDATE以及INSERT操作,索引会降低它们的速度。这是因为MySQL不仅要把改动数据写入数据文件,而且它还要把这些改动写入索引文件。
在大型数据库中,索引是提高速度的一个关键因素。不管表的结构是多么简单,一次500000行的表扫描操作无论如何不会快。如果你的网站上也有这种大规模的表,那么你确实应该花些时间去分析可以采用哪些索引,并考虑是否可以改写查询以优化应用。
浅谈MySQL中优化sql语句查询常用的30种方法
转载自:http://www.jb51.net/article/39221.htm
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。
2.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。 3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from t where num=0 4.应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num=10 or num=20 可以这样查询: select id from t where num=10 union all select id from t where num=20 5.下面的查询也将导致全表扫描: select id from t where name like '%abc%' 若要提高效率,可以考虑全文检索。 6.in 和 not in 也要慎用,否则会导致全表扫描,如: select id from t where num in(1,2,3) 对于连续的数值,能用 between 就不要用 in 了: select id from t where num between 1 and 3 7.如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描: select id from t where num=@num 可以改为强制查询使用索引: select id from t with(index(索引名)) where num=@num 8.应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。如: select id from t where num/2=100 应改为: select id from t where num=100*2 9.应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。如: select id from t where substring(name,1,3)='abc'--name以abc开头的id select id from t where datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id 应改为: select id from t where name like 'abc%' select id from t where createdate>='2005-11-30' and createdate<'2005-12-1' 10.不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算,否则系统将可能无法正确使用索引。 11.在使用索引字段作为条件时,如果该索引是复合索引,那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引,否则该索引将不会被使用,并且应尽可能的让字段顺序与索引顺序相一致。 12.不要写一些没有意义的查询,如需要生成一个空表结构: select col1,col2 into #t from t where 1=0 这类代码不会返回任何结果集,但是会消耗系统资源的,应改成这样: create table #t(...) 13.很多时候用 exists 代替 in 是一个好的选择: select num from a where num in(select num from b) 用下面的语句替换: select num from a where exists(select 1 from b where num=a.num) 14.并不是所有索引对查询都有效,SQL是根据表中数据来进行查询优化的,当索引列有大量数据重复时,SQL查询可能不会去利用索引,如一表中有字段sex,male、female几乎各一半,那么即使在sex上建了索引也对查询效率起不了作用。 15.索引并不是越多越好,索引固然可以提高相应的 select 的效率,但同时也降低了 insert 及 update 的效率,因为 insert 或 update 时有可能会重建索引,所以怎样建索引需要慎重考虑,视具体情况而定。一个表的索引数最好不要超过6个,若太多则应考虑一些不常使用到的列上建的索引是否有必要。 16.应尽可能的避免更新 clustered 索引数据列,因为 clustered 索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列,那么需要考虑是否应将该索引建为 clustered 索引。 17.尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符,而对于数字型而言只需要比较一次就够了。 18.尽可能的使用 varchar/nvarchar 代替 char/nchar ,因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。 19.任何地方都不要使用 select * from t ,用具体的字段列表代替“*”,不要返回用不到的任何字段。 20.尽量使用表变量来代替临时表。如果表变量包含大量数据,请注意索引非常有限(只有主键索引)。 21.避免频繁创建和删除临时表,以减少系统表资源的消耗。 22.临时表并不是不可使用,适当地使用它们可以使某些例程更有效,例如,当需要重复引用大型表或常用表中的某个数据集时。但是,对于一次性事件,最好使用导出表。 23.在新建临时表时,如果一次性插入数据量很大,那么可以使用 select into 代替 create table,避免造成大量 log ,以提高速度;如果数据量不大,为了缓和系统表的资源,应先create table,然后insert。 24.如果使用到了临时表,在存储过程的最后务必将所有的临时表显式删除,先 truncate table ,然后 drop table ,这样可以避免系统表的较长时间锁定。 25.尽量避免使用游标,因为游标的效率较差,如果游标操作的数据超过1万行,那么就应该考虑改写。 26.使用基于游标的方法或临时表方法之前,应先寻找基于集的解决方案来解决问题,基于集的方法通常更有效。 27.与临时表一样,游标并不是不可使用。对小型数据集使用 FAST_FORWARD 游标通常要优于其他逐行处理方法,尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括“合计”的例程通常要比使用游标执行的速度快。如果开发时间允许,基于游标的方法和基于集的方法都可以尝试一下,看哪一种方法的效果更好。 28.在所有的存储过程和触发器的开始处设置 SET NOCOUNT ON ,在结束时设置 SET NOCOUNT OFF 。无需在执行存储过程和触发器的每个语句后向客户端发送 DONE_IN_PROC 消息。 29.尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。 30.尽量避免大事务操作,提高系统并发能力。
《高性能mysql》
如果应用程序使用了,其中包含一些查询速度慢的sql,我们要去优化它们,优化的思路需要如何进行呢?主要是以下两点:
1、应用程序是否在检索大量超过需要的数据(行、列);
2、mysql服务器层是否在分析大量超过需要的数据行。
前者比较好进行,主要看开发者的细心以及缜密逻辑、流程分析;后者就需要一些方面的知识、优化以及实践技巧。对于后一点,首先需要分清一个概念,就是扫描行数与返回行数的区别,后者是我们实际取得的数据,而前者是mysql得出后者所需要扫描的数据量。
如果发现查询大量的数据但只返回少数的行,那么通常可以尝试下面的技巧:1、使用索引覆盖索引;2、改变库表结构,如使用单独的汇总表;3、重写这个复杂的查询。
下面针对查询优化提供一些技巧:
1、分解关联查询。
这个主要针对这种查询:关联查询了多个表,这种情况下可能出现原本可以通过索引实现的order by失效,数据需要在到达mysql服务器后再进行排序;并且多表关联,mysql实现的方式是一次扫描取一个表的数据,最后再处理合并,这些都需要消耗mysql的资源。当然,关联查询也有一些好处,比如只需要访问一次mysql,减少网络请求。当弊大于利时,我们可以采取这样的优化措施,将主表的数据先查询出来,其他一些信息,在代码里拼凑好条件,一次性查询出来,再进行属性合并等操作。
2、当表a和表b用列c关联,如果优化器的关联顺序是b、a,那么就不需要在b的对应列上建立索引
3、确保任何group by和order by中的表达式只涉及一个表中的列(最好是优化器扫描的第一个表中的),这样mysql才能使用索引来优化过程
4、group by表达式,如果没有显式的order by表达式,默认会对后面的字段进行排序,如果排序字段没有用上索引,将是一个很大的性能消耗,尤其当有联表时,需要通过临时表(using temporary)实现。一个优化的技巧,是加上order by null。
4、mysql总是通过创建并填充临时表的方式来执行union查询。因此很多优化策略在union查询中都没法很好地使用,经常需要手工地将where limit order by 等子句"下推"到union的各子查询中,以便优化器可以充分利用这些条件进行优化。
除非确实需要服务器消除重复的行,否则就一定要使用union all。原因是union操作需要取出两个表的数据,通过排序排除重复的行,会消耗mysql资源,如果数据量大的还要用到磁盘排序。
5、尽量使用update(通过条件过滤来保证数据一致性等)代替先select for update再update的写法,因为事务提交的速度越快,持有的锁时间就越短,可以大大减少竞争和加速串行执行效率。
6、有些查询是无法优化的,可以考虑使用别的查询或者策略来实现相同的目的。
7、通过近似计算等方法,先过滤缩小范围(使用索引),然后再精确过滤。(这种是精确过滤用不上索引时的处理策略)
8、需要的时候,尽可能让程序完成一些计算。(比如结果集中字符串的拼拼凑凑)
在优化查询的过程中,索引的建立、使用扮演着非常重要的角色。建立索引时需要全局考虑所有的查询,而不仅仅是当前要处理、优化的查询,不能因为要优化当前的查询而严重影响其他查询的执行效率。建立索引时需要考虑两点:1、出现频率高的查询条件及其顺序,2、索引列的选择性,要讲选择性高的列放到索引的最前列。索引列的选择性是指:不重复的索引值和数据表的记录总数的比值,选择性越高则查询效率越高。通常主要考虑第一点,因为它对查询的效率影响较大。
冗余索引,是指这种情况,index1(a),index2(a,b),index1是index2的最左前缀,它的作用也就可以被index2来代替(在使用b-tree索引的时候)。大多数情况下都不需要冗余索引,应该尽量尽量扩展已有的索引而不是创建新索引。但也有时候处于性能方面的考虑需要冗余索引,因为扩展已有的索引会导致其变得太大,从而影响其他使用该索引的查询性能。
索引使用中需要注意:
1、只有当索引的列顺序和order by子句的顺序完全一致,并且所有列的排序方向(倒序或正序)都一样时,mysql才能够使用索引对结果做排序。如果查询需要关联多张表,则只有当order by子句引用的字段全部为第一个表(mysql优化器优化后实际执行时的第一个表)时,才能使用索引做排序。
order by子句和查找型查询的限制是一样的,需要满足索引的最左前缀的要求;否则mysql都需要执行排序操作,无法利用索引排序。有一种情况,order by子句可以不满足索引的最左前缀的要求;就是前导列为常量的时候。如果where子句或者join子句对这些列指定了常量,就可以弥补索引的不足。
2、对于一个表的一次扫描中最多只能用到它的一个索引
3、尽量将需要做范围查询的列放到索引的后面,以便优化器能够使用尽可能多的索引列
松散索引扫描与紧凑索引扫描:
两者的区别:在松散索引扫描方式下,分组操作和范围预测(如果有的话)一起执行完成。在紧凑索引扫描下,先对索引执行范围扫描(range search),再对结果元组进行分组。
松散索引扫描的条件:
1)、查询在单一表上
2)、group by指定的列是索引的一个最左前缀,并且没有其他的列
3)、如果在选择列表select list中存在聚合函数,只能使用min()和max()两个聚合函数,并且指定的是同一列
4)、如果查询中存在除了group by指定的列之外的索引其他部分,那么必须以常量的形式出现
5)、索引中的列必须索引整个数据列的值,而不是一个前缀索引(注意不是索引前缀,前缀索引是指索引中的某些列不是某个字段,而是某个字段的前缀部分)
从5.5开始,松散索引的扫描条件放宽了:
1)、select中的聚合函数除了min()和max()之外,还支持avg(distinct)、sum(distinct)、count(distinct)
2)、查询中没有group by和distinct条件
判断一个查询是否使用松散索引扫描的方法:执行计划中有using index for group-by
紧凑索引扫描起作用的条件:
在查询中存在常量相等等where条件字段(索引中的字段),且该字段在group by指定的字段的前面或者中间。来自相等条件的常量能够填充搜索keys中的gaps,因而能够构成一个索引的完整前缀。索引前缀能够用户索引查找。如果要求对group by的结果进行排序,并且查找字段组成一个索引前缀,那么mysql同样可以避免额外的排序操作。
查询使用了紧凑索引扫描的判断方法:执行计划中有using index
你有90w数据了,这并不是因为数据量少而不使用索引,而是你的索引建错了,没有任何意义,所以MySQL不会去用你的索引。
当你source字段唯一性不高,例如你90w数据,里面source字段来来去去就那么十几个值,这种情况下影响结果集巨大,就会全表扫描。这种情况全表扫描还要快于利用索引,只要理解索引的本质不难明白MySQL为何不使用索引。
极端点的情况,90万的数据,source只有0和1两个值,利用索引要先读索引文件,然后二分查找,找到对应数据的数据磁盘指针,再根据读到的指针再读磁盘上对应的数据数据,影响结果集45万。这种情况,和直接全表扫描那个快显而易见。
如果你source字段是一个unique,就会用到索引。
如果你一定要用索引,可以用force index,不过效率不会有改善一般还会更慢就是了。
合理使用索引,Cardinality是一个重要指标,太小的话跟没建没区别,还浪费空间。