当前位置:首页 > 业界动态 > 正文

云巨头故障频繁发生难道是巧合吗?

介绍

本文共梳理了8家国内外云巨头公司的17起失败事件。 从中我们可以一窥云服务发展过程中失败的主要阶段,以及不同阶段失败的频率和原因。 结合云服务的背景和优势,指出云服务即使在发展过程中会出现故障和宕机,但随着服务的不断完善和进步,有望进入更好的下一发展阶段。

一、华为云事件概述

6月13日,一则“同花顺崩塌”的新闻登上了微博热搜。 有客户反映,通化顺无法进入交易页面,界面卡住。 据悉,此次故障是由于提供相关服务的华为云出现故障造成的,引发了市场对云计算服务的担忧。

基于此,华为云官方微博当天发布公告:2022年6月13日10点45分至11点19分,华为云检测到华为云华南-广州区域公网访问异常。 故障已排除,服务已恢复。 ,问题的根本原因正在进一步查明。 同时获悉,华为云已成立专门团队对故障原因进行分析。 据了解,华为云在2020年4月和2020年10月也曾因部分主机出现异常而出现大规模故障。 故障修复时间约2小时。 具体原因尚未公开披露。

虽然具体的故障原因尚不清楚,但结合过去几年其他云服务商发生的数十起故障的分析可以看出,故障既有技术因素,也有自然因素造成。 。 本文梳理国内外故障发生情况,以引起人们对相关云服务的关注。

2、云服务快速发展

(1) 云服务的原因

随着互联网的不断发展和网络用户的激增,网络服务的需求逐渐多元化。 为了支持传统应用应对上述情况,企业对硬件设备和相关数据库软件的需求大幅增加。 相应的,用户也需要组建运维技术团队来安装、配置、运行、升级这些设备和软件,以维持相关应用的正常安全服务。 最终的结果是公司的运营费用增加,为此需要支付巨额的管理费用; 与此同时,该公司花钱运营其提供的服务仍然无法满足用户不断增长的需求。 云服务就是这样应运而生的。

云服务是一种基于互联网的相关服务的增加、使用和交互模型,通常涉及通过互联网提供动态可扩展且通常是虚拟化的资源。 云计算是继 20 世纪 80 年代从大型计算机到客户端服务器的重大转变之后的另一场巨变。

(2)云服务提供商逐年增加

云服务推出以来,国内外云服务提供商逐年增加。 国外主要云服务商包括全球最全面、应用最广泛的云平台——亚马逊AWS云服务; 微软基于云计算的操作系统——Azure; 谷歌云服务器Google Cloud等

近年来,我国的云服务也发展迅速。 中国信息通信研究院云计算发展调查报告显示,在技术进步和政策利好的推动下,越来越多的企业主体在云端部署数字化系统和增值技术服务。 中国云服务技术解决方案总支出从2016年的893亿元人民币增至2020年的3220亿元人民币,年复合增长率达37.8%。 在众多云服务商中,阿里云、腾讯云、京东云、华为云、百度智能云占据榜首位置,拥有较大的市场份额。

作为本次事件的主角,华为云近年来也发展得不错。 根据市场研究机构Gartner发布的数据,2021年华为云排名全球第五,前四名分别是亚马逊、微软、阿里巴巴、谷歌。

3. 云服务故障分析

(一)国内云服务故障事件概况

据凌易智库不完全统计,自2010年以来,首家混合云上市公司青云已经历过约4次宕机,全球领先的云计算和人工智能科技公司阿里云也经历过约4次宕机。 已发生约5起故障和停机事件,腾讯云计算品牌腾讯云已发生约8起故障和停机事件。

在国内云发生的众多故障中,值得一提的是2015年青云发生的多起故障,从中可以得出云服务故障的相关规律。 据了解,2015年6月6日,庆云广东一区所有硬件设备意外关闭并重启,故障发生在13时48分至16时30分之间。 2015年7月22日,青云北京二区(PEK2)用户网络大量中断,持续时间为12时47分至15时15分,随后用户服务逐渐恢复。 2015年7月23日,青云PEK 2号再次出现网络故障。 故障时间为13:15至13:30和13:50至18:50。 后两次故障均发生在北京二区。尤其是7月23日,网络在短暂恢复后再次出现故障,持续时间长达5个小时。 这三起频繁发生的大规模故障均发生在青云上线两年后。 与此同时,青云号在2017年也曾发生过一次持续4个多小时的故障。该事故还发生在北京二区,该区在2015年曾发生过两次故障。

由此可见,由于技术不成熟等因素,相关云服务商正处于技术探索和完善阶段。 在云服务建立的早期阶段,更容易出现故障。 某些组件以前的故障可能会再次发生。

对其他云服务商的研究发现,阿里云和腾讯云近十年来发生的故障大部分发生在2018年到2019年之间。也就是说,虽然云服务已经进入了技术相对成熟的阶段,但仍然存在一些问题。停机事件的可能性很高。

综上所述,可以得出,云服务商提供的云服务初期,出现故障的概率比较高,这个阶段处于故障高发阶段; 在成熟阶段,失败的概率比较小,但也有可能发生在这个阶段。 故障积累。 无论技术处于哪个阶段,故障都不是不可能的事件,发生故障的环节也可能会重复出现。 失败的原因是多种多样的,云服务提供商需要不断地自我检查以改进。

下表主要列出了近五年来我国部分云服务出现故障的相关情况。

表1 近五年国内部分云服务故障统计

0
0
收藏0

最新文章

取消
扫码支持 支付码