「升级」升级MySQL 8.0的诡异故障，utf8mb4_0900_ai

2019年，德国

前段时间，遇到朋友的求助，说以前运行的好好的系统现在出问题了，而且看不懂报错到底是什么意思。
我仔细看看报错信息，应该是MySQL数据库报出来的，大意是说：collation不兼容，一个是utf8mb4_0900_ai_ci，另一个是utf8mb4_general_ci。
utf8mb4_general_ci这玩意儿我见过，是针对utf8mb4编码的collation，但是utf8mb4_0900_ai_ci是啥，我也没见过。
于是我问他，这玩意儿从哪里出来的？
他说：“我也不知道，我完全没见过啊。再说，我数据库编码已经是utf8mb4了，怎么还会有这么多名堂？”
看他着急又不知所措的样子，我便花了点时间来研究，还真学到点新知识。而且我也发现，有许多程序员天真的以为“用了UTF8就等于做了国际化了，不用再担心编码问题”。看来，这个话题还真值得多讲讲。
首先从utf8mb4_0900_ai_ci这个诡异的名字说起。
Unicode编码的诞生，是为了解决之前各国的计算机文字编码自成一体的问题。不同国家采用不同的编码，自己用还算正常，但是跨文化交流必然会出问题，更无法解决“在同一篇文档里又要显示中文又要显示韩文还要显示日文”之类的问题。
有了Unicode，地球上所有的文字都有独一无二的编码（Code Point，也就是为它分配的码值，或者说“逻辑代号”），前述问题就解决了。
但是Unicode（有个相关的名字是UCS，Universal Coded Character Set，二者基本等价）只确定了码值，或者说，只分配了逻辑代号。至于这些逻辑代号在实际使用中如何存储，如何传输，那是另一个问题。而UTF-8，就是解决存储和传输等问题的“实际方案”。
所以，Unicode的变换格式不只UTF-8一种，还有UTF-16、UTF-32等等。UTF-8使用比较普遍，因为它是变长编码，如果只传输ASCII字符，则每个字符只需要一个字节。因此，如果数据中包含大量的ASCII字符，那么UTF-8可以节省很多存储空间。
老一点的程序员大概都知道UTF-8，在MySQL中写作utf8，没有横线。如果要用MySQL存储多种语言的字符，那么把字符集（character set）设定为utf8是合适的选择。注意，MySQL中必须指定utf8，而不是Unicode。因为Unicode只是逻辑规范，utf8才是具体存储和传输的格式。
那么，utf8mb4_0900_ai_ci什么意思呢？
我们分部分来看这个名字，先从开头看起。
utf8mb4，这个名字许多人大概熟悉。如今?????emoji表情已经大量使用，但MySQL之前的的字符集（character set）是utf8（更准确的名字是utf8mb3，一个字符最多使用3个字节来存储），只能存储编码值从0x000到0xFFFF之间的字符。
然而，emoji表情字符的码值超过了0xFFFF，按照UTF-8规范，存储时需要用4个字节。正因为如此，MySQL才提供了utf8mb4的字符集。如果把数据库表的字符集设定为utf8mb4，就可以正常存储包含表情字符的文本了。

中间的0900，它对应的是Unicode 9.0的规范。要知道，Unicode规范是在不断更新的，每次更新既包括扩充，也包括修正。比如6.0版新加入了222个中日韩统一表义字符（CJK Unified Ideographs），7.0版加入了俄国货币卢布的符号等等。
如果支持新的Unicode规范，就可以直接享受好处，像对待普通字符那样对待这些新字符，当然是好事。
以前的MySQL虽然也会跟随Unicode的更新，但速度太慢了。MySQL 5.7的第一个发行版MySQL 5.7.1是2013年4月23日面世的，它包含的最新的Unicode规范是Unicode 5.2，发布于2009年10月。即便是2020年1月13日发布的MySQL 5.7.29，仍然是这样。
然而Unicode规范早已升级了很多版，即便是9.0版本，也发布于2016年6月，过去了好多年了。到目前为止，最新的版本已经到了12.1，发布于2019年5月。所以从5.2更新到9.0，看起来是一大进步，其实也只是补课而已。

最后两部分_ai_ci，ai表示accent insensitivity，也就是“不区分音调”，而ci表示case insensitivity，也就是“不区分大小写”。

「升级」升级MySQL 8.0的诡异故障，utf8mb4_0900_ai_ci是什么？

推荐阅读

#孕妇补铁,缺铁,孕妇补铁补多长时间#孕妇补铁补多长时间补铁可选择两款食谱

解放网|进门见游鱼、闻花香……公厕变美了，公厕承包制今年将在黄浦全面推广

抗战时期的茶叶出口

小米品玩师▲直男最爱，秒杀瑞士军刀，小米169元万能工具箱！8种工具2.1kg

七天娱乐煮|哥哥演《还珠格格》成名，弟弟最红时病逝，同父同母的亲兄弟

谎称卖二手报废车骗取定金，提供给别人的照片是路边的僵尸车

单招和统招有什么区别？

|一个干净整洁的厨房，不能少了这6个“居家小点子”，实用又方便

"会进化"的神车引发全民抢购第三代哈弗H6即将登陆北京车展

为啥过了十二点睡不着

情感困惑的解答|凭什么我来”，“以后别指望给你养老”，“别人家都是丈母娘照顾

『工作』图制｜昆明市人大会常委会工作报告说了啥？一张图Get√

兰兰聊育儿|新手妈妈要谨记，“新生儿剪了指甲伤元气？”宝宝剪指甲三大误区

档案|永安市创新基本公共卫生服务，探索慢性病患者健康档案质量控制模式

虎扑|我觉得还不错？，90！范戴克晒个人FIFA能力值：你们怎么看

带霞的优美诗句?写晚霞的诗句

谈资|陈羽凡近照曝光，身材严重发福显油腻，脸有之前两个大

减肥一点都不可以马虎！减肥时吃这些，小心越减越肥

安装|天然气在农村安装又方便又有补贴，为什么有些村民还是不愿

「旅客正在有序进站2020」湖北武汉：汉口火车站“解封”首日平稳有序(组图)