阿里P7架构师面试:大型网站应用之海量数据、高并发解决方案( 二 )

  • InnoDB支持MVCC,MyISAM不支持 。(MVCC (Multiversion Concurrency Control),即多版本并发控制技术,它使得大部分支持行锁的事务引擎,不再单纯的使用行锁来进行数据库的并发控制,取而代之的是把数据库的行锁与行的多个版本结合起来,只需要很小的开销,就可以实现非锁定读,从而大大提高数据库系统的并发性能 。)
  • InnoDB支持外键,而MyISAM不支持。
  • InnoDB不支持全文索引,而MyISAM支持 。
  • innodb引擎的4大特性 :
    1. 插入缓冲(insert buffer) 。
    2. 二次写(double write) 。
    3. 自适应哈希索引(ahi) 。
    4. 预读(read ahead)
    4、库名、表名、字段名禁止使用MySQL保留字 。
    当库名、表名、字段名等属性含有保留字时,SQL语句必须用反引号引用属性名称,这将使得SQL语句书写、SHELL脚本中变量的转义等变得?非常复杂 。
    5、禁止使用分区表 。
    分区表对分区键有严格要求;分区表在表变大后,执?行DDL、SHARDING、单表恢复等都变得更加困难 。因此禁止使用分区表,并建议业务端手动SHARDING 。
    6.建议使用UNSIGNED存储非负数值 。
    【阿里P7架构师面试:大型网站应用之海量数据、高并发解决方案】同样的字节数,非负存储的数值范围更大 。如TINYINT有符号为 -128-127,无符号为0-255 。
    7.建议使用INT UNSIGNED存储IPV4
    用UNSINGED INT存储IP地址占用4字节,CHAR(15)则占用15字节 。另外,计算机处理整数类型比字符串类型快 。使用INT UNSIGNED而不是CHAR(15)来存储IPV4地址,通过MySQL函数inet_ntoa和inet_aton来进行转化 。IPv6地址目前没有转化函数,需要使用DECIMAL或两个BIGINT来存储 。
    8.强烈建议使用TINYINT来代替ENUM类型 。
    ENUM类型在需要修改或增加枚举值时,需要在线DDL,成本较高;ENUM列值如果含有数字类型,可能会引起默认值混淆 。
    9.使用VARBINARY存储大小写敏感的变长字符串或二进制内容 。
    VARBINARY默认区分大小写,没有字符集概念,速度快 。
    10.INT类型固定占用4字节存储
    例如INT(4)仅代表显示字符宽度为4位,不代表存储长度 。数值类型括号后面的数字只是表示宽度而跟存储范围没有关系,比如INT(3)默认显示3位,空格补齐,超出时正常显示,Python、java客户端等不具备这个功能 。
    11.区分使用DATETIME和TIMESTAMP 。
    存储年使用YEAR类型 。存储日期使用DATE类型 。存储时间(精确到秒)建议使用TIMESTAMP类型 。
    DATETIME和TIMESTAMP都是精确到秒,优先选择TIMESTAMP,因为TIMESTAMP只有4个字节,而DATETIME8个字节 。同时TIMESTAMP具有自动赋值以及?自动更新的特性 。注意:在5.5和之前的版本中,如果一个表中有多个timestamp列,那么最多只能有一列能具有自动更新功能 。
    12.所有字段均定义为NOT NULL 。
    • 对表的每一行,每个为NULL的列都需要额外的空间来标识 。
    • B树索引时不会存储NULL值,所以如果索引字段可以为NULL,索引效率会下降 。
    • 建议用0、特殊值或空串代替NULL值 。
    2、SQL优化
    1、当只要一行数据时使用LIMIT 1
    2、为搜索字段建索引
    3、在Join表的时候使用相当类型的列,并将其索引
    4、千万不要ORDER BY RAND()
    5、SELECT只获取必要的字段、避免SELECT *
    6、用IN代替OR 。SQL语句中IN包含的值不应过多,应少于1000个 。
    7、SQL中避免出现now()、rand()、sysdate()、current_user()等不确定结果的函数 。
    8、避免使用存储过程、触发器、视图、自定义函数等 。(这些高级特性有性能问题,以及未知BUG较多 。业务逻辑放到数据库会造成数据库的DDL、SCALE OUT、SHARDING等变得更加困难 。)
    9、不要在MySQL数据库中存放业务逻辑 。
     
    3、索引优化
    MySQL的优化主要分为结构优化(Scheme optimization)和查询优化(Query optimization) 。
    3.1、联合索引及最左前缀原理
    联合索引(复合索引)
    首先介绍一下联合索引 。联合索引其实很简单,相对于一般索引只有一个字段,联合索引可以为多个字段创建一个索引 。它的原理也很简单,比如,我们在(a,b,c)字段上创建一个联合索引,则索引记录会首先按照A字段排序,然后再按照B字段排序然后再是C字段,因此,联合索引的特点就是:
    • 第一个字段一定是有序的
    • 当第一个字段值相等的时候,第二个字段又是有序的,比如下表中当A=2时所有B的值是有序排列的,依次类推,当同一个B值得所有C字段是有序排列的、
    | A | B | C |


    推荐阅读