谷歌云故障 14 个小时：“队列突变大量积压”引起的重新启动服务器

傻大方_本文原始标题：谷歌云故障14个小时：“队列突变大量积压”引起的来源：云头条
云为服务器添加了内存，重新启动服务器，眼睁睁看着情况变得更糟糕……所幸现在重新掌握了局面。

文章图片
发生在3月26日的那次故障导致谷歌在多个地区的云服务瘫痪，包括Dataflow、BigQuery、DialogFlow、KubernetesEngine、CloudFirestore、AppEngine和CloudConsole 。这些系统受影响的时间总共长达14个小时。
【谷歌云故障 14 个小时：“队列突变大量积压”引起的】许多云服务依赖身份和访问管理（IAM）中的分布式访问控制列表（ACL）来验证权限、激活新的API或创建新的云资源。这些权限存储在一个分布式数据库中，被大量缓存起来。两个进程确保数据库内容最新：一个是实时进程，一个是批处理进程。然而，如果实时管道远远落在后面，提供的会是过时数据，这可能导致下游服务的操作受到影响。
据谷歌最近发布的一项内部调查显示，故障是该公司的缓存服务器内存不足导致的。调查称：“触发这起事件的诱因是批量更新组成员（groupmembership），结果修改后权限的数量增加到了超出预期的程度，因而生成了大量积压的队列突变（queuedmutation）需要实时生效。 ”
“由于缓存服务器存在一个潜在的问题，处理积压的队列突变的能力下降，这导致缓存服务器内存不足；而这反过来又导致对IAM的请求超时中断。为了缓解内存使用量高企而执行的紧急部署措施在各个地区更是短暂加剧了这个问题。 ”
谷歌通过在缓存服务器中安装更多的内存并重新启动服务器解决了该问题。但是到这个时候，已积累了一大堆过时的数据，这导致了进一步的问题，系统工程师不得不另花费几个小时来处理。第二天早上05点55分，系统恢复正常运行。
谷歌表示，为了应对这些问题，它“现在确保缓存服务器可以处理引发这起事件的那种批量更新” ，并且“正在努力优化缓存服务器上的内存使用和保护机制，在无需重新启动的情况下面对紧急情况时可以进行配置变更。 ”
“为了让我们将来可以更迅速地应对数据过时问题，我们还将对数据库批处理进行切分处理，以便支持并行化和更频繁的运行。我们明白区域可靠性对我们的用户来说有何等重要，并为该事件表示歉意。 ”
故障报告链接：https://status.cloud.google.com/incident/zall/20003#20003014

谷歌云故障 14 个小时：“队列突变大量积压”引起的

推荐阅读

颈椎间盘突出压迫脊髓需要手术吗

搜株逮兔：李正伟老师实战总结，品牌推广不成功的8条经验（上）

科普|安徽一高速路段发生油罐车爆燃官方通报：无毒硅油外溢起火

梦鸽当年嫁大27岁李双江，父亲下跪阻拦，宝贝外孙却成了他的痛

过年送领导礼物送什么最好？

律师|我的秘密室友：还没有看见他们的甜，就已经可以预见之后的虐了

「餐馆」北京要求餐馆堂食严禁拼桌就餐

经济带：（长江经济带）湖南建巨型“胶囊”形散货仓库

【思域】国车崛起！红旗全新SUV生产下线，气场媲美库里南，轴距超宝马X7

芒果台副台长和沈梦辰,湖南卫视为什么捧沈梦辰-

助你旺财保平安的客厅好风水

#翁帆#28年轻女学生翁帆嫁给82岁的杨振宁，未来无财产可分，到底图啥？

公司|ST步森今年上半年净利亏损3868.46万元

建雯服装搭配没颜值撑早垮了！，吴谨言真任性！梳个“鸡窝头”参加Dior展会

央视新闻客户端|直通服贸会｜服贸会上的“科技范儿”人工智能服务

常开森|只是那个拼音是什么意思，搞笑GIF趣图：毛笔字写的很漂亮

幽默宝弘济|人少地段有一对小情侣吵架，幽默笑话,,和死党逛街,

360kuai|世界巨星表演晚会暨中国（郑州）国际标准舞全国公开赛开幕

美国_时政|禁用！黑名单！美国外交为何沦为“制裁外交”？

|32岁坚持独居！生活自律的她，将28㎡空间合理利用，住起来超舒服