云震——亚马逊 4.21 事故的反思

特稿

2011-04-25 07:00

美国当地时间 4 月 21 日早晨,位于北弗吉尼亚州的亚马逊 EC2,RDS 服务器出现了技术问题,导致网络延迟及链接错误。亚马逊的此次 “云端” 技术故障导致多个知名应用出现大规模停顿。受害者包括:FoursquareQuoraHootSuiteReddit

我将这次技术故障称为:云震,云端大地震。

IDC 的分析师 Matthew Eastwood 说:“这是对云计算的一次特别提醒。” 云震是对云计算理念的一次警告。以往云所宣称的 “永不宕机的可靠性” 其实只是一种期望。

简单的去理解云,它是一种以最终计算能力和存储能力为产品的信息服务,和以往机房提供的服务不同,客户无需关心计算能力和存储能力的由来。然而这项服务的根基仍然是机房服务。客户可以不关心云的运营,然而将这个概念扩展到 “任何人无需关心云的运营” 就不可取了。今天亚马逊关心的不到位,就要客户和终端用户为这样的不到位买单。

针对 “云不是完美的” 这项事实,全球的信息专家发出了各种设想,意在云震之后完善这个理念,让各种服务继续飘在云端。


分布式的云

Netflix 是亚马逊云服务的重要客户,在此次云震中他们幸免于难。Netflix 的发言人  Steve Swasey 表示:我们充分利用了亚马逊的冗余云架构,任何发生在单点的技术问题不会影响 Netflix 的业务。

将产品部署到地理位置更广泛的云端去,同时启用几片云而不是一片云。是云震求生的第一条技能。

快速恢复

BigDoor 是本次云震中另一个快速恢复服务的公司。总裁 Keith Smith 说:由于购买了亚马逊的备份恢复服务,我们很快恢复了过来。不过这个服务只在弗吉尼亚数据中心才有。当然公司需要在费用和可靠性中寻求一个平衡点。

快速恢复也许现在的价格很高,但比起丢失用户体验,这些钱值得放进创业规划中去。

阴谋论

此次云震的最大受害者是谁?亚马逊云端上的那些创新企业。今天,已经有大量创新企业建筑在大公司提供的低廉的云端上。

会不会有天,当你不听话了:抢掉了大公司的用户,或者不同意某项由大公司股东提议的收购,接着,你的那片云就崩了。

云可能成为大公司谈判的资本,云也有可能成为大公司操纵市场运作的筹码。

可能,有可能。

创新公司有想法和团队,但他们缺少机房和电缆。前者是他们赖以生存的氧气,后者是他们赖以生存的水,缺了哪项都不行。

自建云

Facebook 的马克·扎克伯格是一位有远见的技术狂人。在 Facebook 创建初期坚持储备大于当前用户数量 10 倍的计算与存储作为业务的保障。在当他们还负担不起自有机房的时期里,这项策略帮助 Facebook 迈过了一次次的用户涌入而不至于崩盘。现在 Facebook 将建造数据中心作为业务发展的重要任务予以对待,从机房设计到硬件配置始终亲力亲为。(近日,Facebook 将披露新建的一家数据中心的技术规格,其中包括计算机、电源、服务器机柜、电池备份系统和建筑设计的细节。Open Compute Project

自建云,让大企业的发展不受制约,并给予其制约其他企业的机会。

云震,终将过去。多难兴邦,“多震兴业”,希望如此吧。

via The New York Times , 《Facebook 效应》

by @faytoday,follow me on Twitter 微博


登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中

像 Palm一样追求效率,iOS 一样注重风格,android 一样勇于挑战,BlackBerry 一样淡定自若。新的科技浪潮已经涌起,让我们一同下海冲浪吧!

累计已发布 179 篇文章

本篇来自栏目

解锁订阅模式,获得更多专属优质内容