本月前两周,亚马逊网络服务 (AWS) 出现故障,导致两次中断:一次是 12 月 7 日发生的规模更大、范围更广的中断,另一次是 12 月 15 日发生的规模更小、范围更广的中断。两次中断都导致一系列网站和在线应用程序中断,包括 Google、Slack、Disney Plus、Amazon、Venmo、Tinder、iRobot、Coinbase 和《华盛顿邮报》。这些服务都依赖 AWS 为其提供云计算 — 事实上,AWS 是 Microsoft Azure、Google、IBM 和阿里巴巴等其他大型企业中领先的云计算提供商。 为了了解影响为何如此之大,以及公司可以采取哪些措施来防止将来再次发生类似的破坏,有必要退一步来看看云计算是什么,以及它有什么好处。 那么什么是云计算和 AWS?无论何时通过互联网连接任何设备,您的计算机实际上都在与另一台计算机对话。服务器是一种计算机,可以处理请求并将数据传送到同一网络或互联网上的其他计算机。 但运行自己的服务器并不便宜。你必须购买硬件盒,将其安装在某处,并为其提供大量电力。在许多情况下,它还需要互联网连接。然后,为了确保以最小的延迟接收和发送数据,这些服务器需要在物理上靠近其用户。 此外,你还必须安装需要定期更新的软件。你还必须建立故障安全机制,以便在主服务器发生故障时将操作切换到另一台服务器。 [相关: Facebook 对周一大规模中断做出解释] 卡内基梅隆大学助理教授贾斯汀·雪利 (Justine Sherry) 表示:“亚马逊等公司注意到,很多(计算基础设施)并不是真正针对你所运行的服务。” 例如,运行 Netflix 的代码与运行 Venmo 等服务的代码有所不同。Netflix 代码向用户提供视频,而 Venmo 代码促进金融交易。但底层的大多数计算工作实际上是相同的。 这时,云提供商就派上用场了。他们通常在全国范围内拥有数百到数千台服务器,带宽充足。他们负责处理繁琐的任务,如安全、数据中心运营的日常管理以及在需要时扩展服务。 “然后你就可以专注于你的[专业]代码。只需编写使视频工作的部分,或使金融交易工作的部分。这更简单,更便宜,因为亚马逊正在为很多很多客户做这件事。”雪莉解释道。“但也有缺点,那就是世界上每个人都依赖于同几个装满电脑的 Costco 大小的仓库。美国有几十个这样的仓库。但当其中一个出现故障时,后果将是灾难性的。” 12 月 7 日和 15 日 AWS 出了什么问题导致 AWS 中断的原因似乎与后台处理数据流的自动化系统的错误有关。 AWS 在一篇文章中解释称,12 月 7 日的错误是由于“在主 AWS 网络中托管的 AWS 服务之一的容量扩展自动活动”出现问题而导致的,这导致“连接活动激增,导致内部网络和主 AWS 网络之间的网络设备不堪重负,从而导致这些网络之间的通信延迟”。 [相关:深入了解“云”数据中心] 这种自动扩展功能允许整个系统根据网络上的用户数量调整其使用的服务器数量。Sherry 解释说:“如果早上 7 点我有 100 名用户,中午时分,每个人都在午休时间去亚马逊购物,现在我有 1,000 名用户,我需要 10 倍的计算机来与所有这些客户端进行交互。这些框架会自动查看需求量,并在需要时分配更多服务器来执行所需的任务。” 12 月 15 日晚些时候,AWS 发布的状态更新称,此次中断是由于“流量工程”错误地将“超出预期的流量转移到 AWS Backbone 的部分区域,从而影响了与部分互联网目的地的连接”造成的。 大型数据中心通过不同的互联网服务提供商拥有大量互联网连接。它们可以选择在线流量的路由,无论是通过 AT&T 的一条电缆,还是通过 Sprint 的另一条电缆。 他们的自动“流量工程”会根据一系列条件决定重新路由流量。“大多数提供商将主要根据负载重新路由流量。他们希望确保情况相对平衡,”Sherry 说。“听起来自动适应在 15 日失败了,他们最终在一个连接上路由了太多流量。你可以把它想象成一条水太多的管道,水从接缝处流出来。”这些数据最终被丢弃并消失了。 尽管过去几年出现过几次普遍的中断,但 Sherry 认为 AWS“非常擅长管理其基础设施”。从本质上讲,设计能够预见所有问题的完美算法非常困难,而错误是软件开发中令人讨厌但又很常见的部分。“云计算情况的唯一独特之处在于其影响。” [相关:亚马逊进军奇异的量子计算领域有了新的基地] 越来越多的独立公司开始转向 AWS 等第三方集中式服务来获取云基础设施、存储等。 “如果我付钱给亚马逊,让他们为我运营数据中心、存储文件并为我的客户提供服务……他们做得会比我作为大学管理员或小公司管理员做得更好,”雪莉说。“但从社会角度来看,当所有这些小个体参与者决定外包给云时,我们最终会陷入一个非常大的集中依赖关系。” 回归本源?在 AWS 停运期间,Sherry 无法控制电视。通常,她使用手机作为遥控器。但手机并不直接与电视通信。相反,手机和电视都与云端服务器通信,而该服务器负责协调两者之间的通信。云端对于某些功能至关重要,例如下载自动软件更新。但对于通过天线或卫星浏览有线电视节目,“没有必要这样做,”她说。“我们在同一个房间,使用同一个无线网络,我要做的一切就是换个频道。”在某些情况下,云端可以提供方便的技术解决方案,但并非每个应用程序都需要它。 [相关:这就是微软将数据服务器置于海洋中的原因] 一项让她印象最深的被遗弃的技术是定时猫喂食器,它必须通过云端,这是一种不必要的迂回设计。自动猫喂食器在云端出现之前就已经存在了。它们基本上是与闹钟配对的。“但出于某种原因,有人决定不将闹钟部分内置到猫喂食器中,而是将闹钟喂食器放在云端,让猫喂食器通过互联网询问云端,是时候喂猫了吗?”雪莉说。“没有理由把它放在云端。” 展望未来,她认为应用程序开发人员应该审查为云设计的每个功能,并询问它是否可以在没有云的情况下工作,或者至少有一个离线模式,在互联网、数据中心甚至断电期间不会完全瘫痪。 “其他事情可能都无法正常工作。如果你无法访问银行服务器,你可能无法登录网上银行,”Sherry 说道。“但很多失败的事情其实都不应该失败。” |
<<: 如何在任何网站上嵌入 Instagram 个人资料(并阻止他人嵌入您的个人资料)
>>: 在更多您喜爱的应用上找到您的“Spotify Wrapped”
飓风季节到了,而且情况看起来越来越糟。飓风伊萨亚斯刚刚过去,导致数十万户断电。今年的风暴已经创下了飓...
澳大利亚本周将经历艰难的一周,气象部门不得不在气候图上添加新颜色,以应对极端高温预报。气象局最近在地...
太空幻想曲2001夜 - 太空中的梦想与现实的交汇1980年代后期,原创视频动画(OVA)市场迅速扩...
改编自罗宾·乔治·安德鲁斯 (Robin George Andrews) 的《如何杀死小行星:行星防...
巴哈姆特之怒:玛纳利亚的朋友:魔法与友谊的故事■ 公共媒体电视动画系列■ 原创媒体游戏■ 播出时间2...
珠宝宠物 Kira★Deco - 珠宝宠物 KiraDeco概述《宝石宠物Kira★Deco》是三丽...
《大正莫比乌斯线:Little Miss》短篇动画的魅力与世界观《大正莫比乌斯线:小美女》是一部 2...
Kikaider 01 动画/再版■ 公共媒体卵子■ 原创媒体漫画■ 发布日期2003 年 9 月 ...
在冬末的阳光下,黄石国家公园的白雪皑皑,令人眼花缭乱。那些毛茸茸的野兽——身穿厚厚的亮晶晶的冬衣的野...
“天使坠落”——纯洁心灵和奇迹的故事《Angel Drop》是改编自中岛千奈的原作漫画的电视动画。该...
自然资源保护委员会 (NRDC) 最近的一项研究登上了头条新闻,该研究显示,家中耗能最大的设备可能不...
PC 用户:听我说。Mac 用户:别对我太自以为是。我从小就是 PC 用户,但我一直想要一台 Mac...
如果您曾经按照导航应用程序导航,但结果却偏离了路线,那么造成这种混乱的罪魁祸首可能就在 50-200...
当气温升高时,喘气的狗似乎会受到所有人的关注。但人们似乎忘记了炎热对猫来说也是一个问题,夏季的酷热会...
小型无人机已经成为城市战争的有效武器——当配备微型弹头时,这些隐身间谍可以变成致命的杀手。到目前为止...