云震——亚马逊 4.21 事故的反思
美国当地时间4月21日早晨,位于北弗吉尼亚州的亚马逊 EC2,RDS 服务器出现了技术问题,导致网络延迟及链接错误。亚马逊的此次“云端”技术故障导致多个知名应用出现大规模停顿。受害者包括:Foursquare,Quora,HootSuite,Reddit 。
我将这次技术故障称为:云震,云端大地震。
IDC 的分析师 Matthew Eastwood 说:“这是对云计算的一次特别提醒。”云震是对云计算理念的一次警告。以往云所宣称的“永不宕机的可靠性”其实只是一种期望。
简单的去理解云,它是一种以最终计算能力和存储能力为产品的信息服务,和以往机房提供的服务不同,客户无需关心计算能力和存储能力的由来。然而这项服务的根基仍然是机房服务。客户可以不关心云的运营,然而将这个概念扩展到“任何人无需关心云的运营”就不可取了。今天亚马逊关心的不到位,就要客户和终端用户为这样的不到位买单。
针对“云不是完美的”这项事实,全球的信息专家发出了各种设想,意在云震之后完善这个理念,让各种服务继续飘在云端。
分布式的云
Netflix 是亚马逊云服务的重要客户,在此次云震中他们幸免于难。Netflix 的发言人 Steve Swasey 表示:我们充分利用了亚马逊的冗余云架构,任何发生在单点的技术问题不会影响 Netflix 的业务。
将产品部署到地理位置更广泛的云端去,同时启用几片云而不是一片云。是云震求生的第一条技能。
快速恢复
BigDoor 是本次云震中另一个快速恢复服务的公司。总裁 Keith Smith 说:由于购买了亚马逊的备份恢复服务,我们很快恢复了过来。不过这个服务只在弗吉尼亚数据中心才有。当然公司需要在费用和可靠性中寻求一个平衡点。
快速恢复也许现在的价格很高,但比起丢失用户体验,这些钱值得放进创业规划中去。
阴谋论
此次云震的最大受害者是谁?亚马逊云端上的那些创新企业。今天,已经有大量创新企业建筑在大公司提供的低廉的云端上。
会不会有天,当你不听话了:抢掉了大公司的用户,或者不同意某项由大公司股东提议的收购,接着,你的那片云就崩了。
云可能成为大公司谈判的资本,云也有可能成为大公司操纵市场运作的筹码。
可能,有可能。
创新公司有想法和团队,但他们缺少机房和电缆。前者是他们赖以生存的氧气,后者是他们赖以生存的水,缺了哪项都不行。
自建云
Facebook 的马克·扎克伯格是一位有远见的技术狂人。在 Facebook 创建初期坚持储备大于当前用户数量10倍的计算与存储作为业务的保障。在当他们还负担不起自有机房的时期里,这项策略帮助 Facebook 迈过了一次次的用户涌入而不至于崩盘。现在 Facebook 将建造数据中心作为业务发展的重要任务予以对待,从机房设计到硬件配置始终亲力亲为。(近日,Facebook 将披露新建的一家数据中心的技术规格,其中包括计算机、电源、服务器机柜、电池备份系统和建筑设计的细节。Open Compute Project )
自建云,让大企业的发展不受制约,并给予其制约其他企业的机会。
云震,终将过去。多难兴邦,“多震兴业”,希望如此吧。
via The New York Times , 《 Facebook 效应》
by @faytoday,follow me on Twitter & 微博