大厂系统崩溃上演“连续剧”

  • 来源:电脑报
  • 关键字:系统,崩溃,大厂
  • 发布时间:2024-01-05 11:12

  2023 年年末,“崩”似乎成了部分互联网大厂的收尾词,前有阿里云“史诗级”的故障,后有滴滴大范围宕机,再如近日腾讯视频会员的崩溃,皆在网上掀起热议波澜。近期,大厂频繁故障上演的“连续剧”,不禁让人心生疑问:它们怎么了?业内人士认为,系统出现Bug 并不奇怪,但持续时间过长,意味着应急预案相关手册并没有完全覆盖问题。

  详看阿里云此前公布的问题报告——访问密钥服务 (Access Key) AK 在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整的白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控API 服务出现异常,同时部分依赖AK 服务的产品因不完整的白名单出现部分服务运行异常。

  如何理解? AK 是一个服务功能,是构成阿里云平台的基础。下层服务的能力类似于中台,可以为上层服务提供数据库、存储等功能,但会导致下层“变重”,即架构变得冗余和复杂,当架构中的设计逻辑不清楚时,极容易出现问题,这对上层来说亦是灾难。

  无论是本地计算还是云计算,互联网的服务数据终究要流向数据中心,汇集到几个中心节点,这种物理属性决定了数据中心无法规避外界因素,也就无法做到永不宕机,而企业的安全冗余和灾备能力受“投入产出比”影响,也不可能无限进行备份。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: