9大曾轰动一时的云计算故障事件

来源：互联网

2015/7/21 9:42:54

我们大多数人想必已听说过至少一起引人注目的云计算故障，有些人甚至受到某起云故障事件的直接影响。虽说云技术和安全机制在不断成熟，但是它们跟内部基础设施一样仍饱受同样几种问题的影响。

对一些人来说，本文列举的云计算故障可能仅仅表明了云服务提供商在哪些方面需要加强或改进，以便更好地服务于客户。对另一些人来说，这几个例子可能更事关个人，因为你的数据或应用程序说不定实实在在地受到了影响。

我们大多数人想必已听说过至少一起引人注目的云计算故障，有些人甚至受到某起云故障事件的直接影响。虽说云技术和安全机制在不断成熟，但是它们跟内部基础设施一样仍饱受同样几种问题的影响。不过主要的区别在于，云故障影响的用户数量要比内部问题多得多，因而一旦出现了问题，就会更加备受瞩目。

困扰云服务提供商的故障往往可以分为下面三大类：

1.服务提供商方面所犯的“新手常犯的错误”。如果提供商一开始或发展的步伐是其数据中心人员无法妥善管理的，就会出现这种情况。每家公司以难以置信的速度迅猛发展时，云计算巨头（包括亚马逊网络服务和谷歌计算）常常在早期就饱受停运事件的困扰。连比其他厂商晚进入云市场的微软也很早遇到了停运问题，而且常常遇到。

2.黑客最终暴露的安全漏洞。由于相比专用的数据中心，云的规模很庞大，它们也就成了极容易吸引黑客的重大目标。云公司在屡次泄露客户数据的一系列错误中汲取了这个教训。安全泄密事件是云计算客户最担心的一大问题；许多企业组织小心翼翼，不敢将保护数据的重任交给第三方服务提供商。

3.云里面的糟糕流程。安全审计不够到位，备份程序差强人意，管理员对服务器拥有不太适当的访问权，诸如此类的流程都是程序上的问题，它们原本可以规避。遗憾的是，这些非技术性问题通常被人忽视，等到注意时已为时太晚。

对一些人来说，本文列举的云计算故障可能仅仅表明了云服务提供商在哪些方面需要加强或改进，以便更好地服务于客户。对另一些人来说，这几个例子可能更事关个人，因为你的数据或应用程序产不定实实在在地受到了影响。

AWS停运事件殃及Netflix

Netflix是最早使用亚马逊AWS云服务的大公司之一。从许多方面来看，Netflix/AWS这对关系再理想不过了：一方面，Netflix 的媒体流服务其发展速度实在太快了，该公司内部的IT资源满足不了要求；另一方面，零售业巨擘亚马逊站在云计算潮流的最前沿，早就准备凭借新的创业公司（AWS）引起轰动。遗憾的是，发生在圣诞节前夕的Netflix停运事件受到了广泛抨击，而且影响了众多人，以至于这一起事件就恐怕让整个企业云潮流后退了好几步。

Dropbox任由大门敞开着

Dropbox允许任何人都可以访问客户数据，只要输入某个客户的电子邮件地址。根本不需要什么密码。这个严重的安全错误是由代码更新中的一个软件错误引起的，并不是仅仅持续了几分钟，而是持续了将近四个小时，之后才有所发觉，并堵住了漏洞。

CloudFlare导致785000个网站瘫痪

一些云服务提供商提供软件即服务（SaaS）工具，这类工具旨在为客户的网上业务确保安全，并改善网站的正常运行时间。有时候就是这样，理应有助于改善正常运行时间的SaaS云恰恰起到了适得其反的效果。CloudFlare的所有边缘路由器同时更新后，就出现了这种情况，同时更新边缘路由器导致它们都崩溃。结果，大约785000个客户网站大概有一个小时没法正常使用。

苹果的iCloud遭遇名人照片泄露

云数据泄密事件影响普通人、或者甚至影响公司时，这样的新闻很少引起主流媒体的注意。但是这种数据泄密事件影响名人时，一时间就成了路人皆知的新闻。名人照片因苹果的iCloud平台里面的一个漏洞而被盗时，在媒体上传得沸沸扬扬。有时候，只有深陷轰动一时的重大事件，服务提供商才会引起注意，解决错误。

Office 365搞垮企业电子邮件

有两类与IT有关的事件可能会让公司完全陷入停顿。一类事件就是互联网完全停运，另一类事件就是公司电子邮件停运。自微软首次发布Office 365云平台这项服务以来，好几次导致了公司电子邮件系统停运。情况实在糟透了，以至于一个流传甚广的笑话是，这项服务应该叫Office 360才对，因为它在一年当中有五天是没法使用的。

微软没有汲取亚马逊和谷歌的前车之鉴

在亚马逊推出其云服务整整过去四年后，微软才挟Azure进入了市场。考虑到微软有大把的时间来思考，并且汲取市场开拓者亚马逊和谷歌犯下的错误，你会想谷歌多少总会汲取前车之鉴，避免云服务停运事件。遗憾的是，微软似乎想从自己犯下的错误中汲取教训，很早就遭遇一些重大的、原本可以避免的停运事件。

一名管理员就足以搞垮云

如果你想到大规模服务提供商，那么Joyent无疑是最大的服务提供商之一。正由于如此，你可能会想：在诸如此类的大型数据中心，政策、程序和访问控制应该固若金汤、稳若磐石。然而再一次，我们都是人，是人都会犯错。2014年持续了大概一个小时的停运事件的根源很快就传了开来。据称，Joyent 的一名系统管理员难逃干系，他同时重启了数据中心中的每一个服务器实例。真是要命！

LastPass的密码落到黑客手里

哦，说来也真是具有讽刺意味。全球各地的企业管理员使用LastPass来管理和保护其基础设施上的密码，LastPass公司专业提供基于云的单次登录和密码管理工具。6月份，LastPass首席执行官Joe Siegrist在一篇博文中承认，一起网络攻击事件导致有人盗走了客户的电子邮件地址和密码提醒内容。虽然密码经过了加密，也没有任何证据表明客户数据遭到泄密，不过LastPass还是要求所有客户在下一次登录时更改主密码。

Healthcare.gov：应该怪罪云吗？

可能过去几年最广为报道的一起技术故障就是美国Healthcare.gov网站的推出。一开始，这个网站就存在大量的技术故障和重大的安全漏洞。虽然不能将遇到的所有问题统统怪罪云，但是韦里逊的Terremark云发生的停运事件无疑一开始就是个影响因素。

结束语

与所有的技术进步一样，IT架构方面的重大变化一路上会遇到障碍。虽然本文介绍的许多停运事件原本可以避免，但是它们其实在意料之中。随着时间的流逝，自动化和安全方面的进步将有助于减少这几种类型的引人注目的云故障。为了我们自身的安全，但愿如此。

责编：樊晓婷