哈哈哈,这些网站去年“崩溃”
2025-07-06 21:20:10 | 作者: 匿名
互联网技术已于2022年发展,从理论上讲,它可以实现“永不崩溃”。但是在过去的2021年,下降似乎根本没有减少。
随着“国家水平应用”的增加,人们越来越依赖技术,并且面临比以往更多的风险。停机时间不仅会影响内部用户,而且会影响各个方面,例如客户和合作伙伴的收入,声誉和生产力。
停机时间是不可预测的,因此也称为系统中的“黑天鹅”。目前,大型互联网系统的架构变得越来越复杂,稳定风险也在增加。系统肯定会潜伏在系统中,但尚未发现它们。但是,墨菲定律告诉我们:“应该出错的事情最终会出错。”我们在2021年汇编了十次重大停机事件,并总结了失败的原因。这些失败大多数是由人引起的,仍然是我们在系统构建中需要特别注意的事情。
1国内停机时间:解释失败的原因也是一种能力
电台B倒塌了,让年轻人无意间睡觉
7月13日晚上,视频网站Bilibili(B网站)发生了一场服务器崩溃,无法登录羊群到其他网站的用户,导致一系列停机事故。 “ b倒塌了”,“ douban崩溃了”,“倒塌的站点”和“金江崩溃了”,已依次进入热门搜索。
根据数据,当时,B站的每月活跃用户为2.23亿,其中35岁及以下的用户超过86。显然,这些年轻人可以熬夜。尽管停机时间在深夜发生,但每个人都吵闹地分析了原因,甚至使消防部门感到震惊。一些网民认为,“当台站倒塌时发生了火灾”,上海消防局回答:“在得知后,位于Guozheng Center的车站B(总部)没有火灾,上海485号,上海485号,没有收到相关警报。特定的局势应受到该站的宣布。”
在深夜2点钟之后,B电站B终于发送了一个非常简短的解释:“一些服务器室失败了,导致它们无法访问。”
但是B站上的解释似乎说明了一切,但似乎什么也没说。
Futu Securities的服务中断了,创始人发表了一篇2000字的铁杆长篇文章,解释了技术失败
在10月9日清晨,互联网经纪Futu Securities应用程序破坏了故障,用户无法登录交易。下午,未来证券发布了相关指示并道歉。 Futu Securities表示,事故的原因是“由操作员的电源从计算机房间的电源中闪烁的多个计算机房间的网络故障”。该公司尽快与操作员联系以进行维修,并在2小时内逐渐恢复核心服务。
这种停机时间并没有引起证券行业之外的任何关注,但是Futu创始人Li Hua(Ye Zi Ge)的文章使这种停机时间流行。在11日中午,李华(Li Hua)是一位技术上出生的,他发表了一篇2,000字的文章,向用户道歉,但是从技术角度来解释了更多文章,为什么它“下降”。
尽管它是由像B站这样的服务器室故障引起的,但Li Hua为您提供了鲁ck灾难设计各个方面的详细说明。
李华说,从市场条件到交易,Futu的证券系统具有双通道或多渠道冗余设计,从服务器到交易网关再到网络传输。不同的子系统设计将有所不同。以市场为例,单向传输主要使用,对延迟的敏感性并不高。 Futu很早就为多个地区和多个IDC进行了灾难恢复设计。特别是对于美国股票市场,涉及跨海洋传播。为了避免中断,Futu选择了世界上两个顶级市场供应商分别提供市场来源,从美国和香港的多个地方和多个地点访问。当这些不可用时,Futu还保留了Futu的美国IDC直接传输的能力。在不考虑其他冗余设计的情况下,仅由于市场来源的冗余,未来的成本的年度增加超过了1000万个香港美元。
Li Hua指出,设计实时热备用多渠道冗余交易系统的设计有两个选择。首先,交叉IDC多渠道冗余方案的交易绩效差,订单延迟更大,但灾难恢复能力更好。其次,更好的多通道冗余方案具有较小的交易性能和更好的订单延迟,但IDC本身将成为单个失败点。这也间接导致需要做出选择。李华认为,考虑到IDC的施工标准,IDC的大规模事故很少,尤其是在权力故障方面。经过全面扣除后,Futu选择了第二个解决方案,其性能更好,这留下了IDC的单点故障风险。这次事故正是因为IDC存在问题,而电源系统不应该有问题。不间断的电源和柴油发电机都无法扮演其正当角色。
Li Hua的顽固文章也得到了许多Futu Securities用户的支持和鼓励。
西安的“ yimatong”在半个月内倒塌了两次
2021年12月20日,西安的“ Yimatong”由于过度访问而坠毁。当时,西安大数据资源管理局表示,“ Yimatong”的注册用户数量已达到469.52亿,平均每日扫描代码超过800万。由于在各个公共场所进行了扫描代码检查的增加,并且对所有成员进行了多轮核酸测试,因此“一个代码通行证”的每秒访问次数已达到上一个峰值的10倍以上,并且建议公民不扩大或揭示代码,除非必要。
2022年1月4日上午9点,西安的“ Yimatong”第二次倒塌。西安城已经推出了新的核酸筛选。许多XI'AN网民报告称,“ Xi'an One Code Pass”系统再次崩溃,无法显示流行病的预防和控制代码。主题xi'an yimatong曾经到达了微博上热门搜索的顶部。习近平的相关部门公开回答说,由于访问的数量大量,该市的“一个代码通行证”存在无法正常显示的问题。在同一天的下午,西安的“ Yima Pass”逐渐恢复了正常使用。
据了解,Xi'an“ Yimatong”是西安(Xi'an)于2020年2月开发的一个大数据平台,用于预防和控制。所有者是西安大数据资源管理局。根据1月4日行业和信息技术部的官方网站,从12月30日至31日,工业和信息技术部对Shaanxi省通信管理局进行了调查,并要求Xi'an“一个代码连接”以加强技术改进和网络扩展,以确保没有会召集和停机时间和停机时间。
巧合的是,2022年1月10日上午的8336030左右,许多用户报告说,“广东康代码”无法打开。早晨10:00之后,情况逐渐缓解。随后,“广东康代码”应用程序发布了非常专业的官方描述。
该平台今天(第10版)在今天(第10版)的8336031,监视了广东康代码的流量异常增加,每分钟高达140万次,超过了负载限制,从而触发了系统保护机制,从而导致一些用户访问广东kang kang kang kang代码。行动保证团队紧急做出了反应,部分缓解了9:04,而9:56完全恢复并顺利进行操作。给您带来的不便,请深表歉意!
2国际停机时间:小虫子造成了很大的麻烦
Facebook历史上最糟糕的停机时间,其市场价值在一夜之间蒸发了3000亿
10月4日,美国社交媒体Facebook,Instagram和Instant消息传递软件WhatsApp经历了巨大的停机时间,持续了将近7个小时,这使Facebook自2008年以来最长的停机时间刷新了。
两种“微信”即时消息传递产品,WhatsApp和Facebook Messenger,分别拥有20亿用户和13亿用户,社交平台Instagram上的用户数量也达到了10亿用户,这意味着这种停机时间影响了30亿用户。在停机期间,绝望的用户涌向Twitter,Discord,Signal和Telegram,导致这些应用程序的服务器崩溃。
Facebook后来发表了一份失败报告,称在日常维护工作中,工程师发布了一项指令,以评估全球骨干容量的可用性,但意外地切断了骨干网络中的所有连接,该网络基本上断开了Facebook的全球数据中心。服务中断后,Facebook工程师无法正常访问Facebook数据中心进行维修,从而导致持续七个小时的故障。
据报道,事故导致Facebook的市场价值在一夜之间蒸发约473亿美元(约合3049亿元)。
Roblox经历了很长的停机时间,表明主要业务永远不会陷入困境
10月28日,Roblox发生了73小时的停机时间。 Roblox目前是全球受欢迎的在线游戏平台,每天有超过5000万活跃用户,其中许多年龄在13岁以下。值得一提的是,Roblox也被认为是“ Metavers”中的关键参与者。
Roblox随后发布了非常详细的失败报告。 Roblox技术人员在报告中解释说,Roblox计划在自己的数据中心运行。为了管理其众多服务器,Roblox使用开源领事进行服务发现和健康检查。 Roblox说,停机时间主要是由于领事中流函数的激活而不是长期的轮询机制,但流函数中有一个错误,最终导致性能降解并导致系统崩溃。停机54小时后未检测到故障的原因。通过禁止流媒体,该系统的服务功能逐渐恢复。
在这样的服务中断之后,许多人自然询问Roblox是否会考虑转移到公共云,允许第三方管理Roblox的基本计算,存储和网络服务。
Roblox技术人员说,与使用公共云相比,自我构建的数据中心可以显着控制成本。此外,拥有自己的硬件并构建自己的边缘基础架构,可以使Roblox最大程度地减少性能变化并管理世界各地玩家的延迟。但是,我们并不坚持任何特定的方法:“我们将公共云用于最有意义的用例,为我们的玩家和开发人员,例如爆发容量,大多数DevOps工作流以及大多数内部分析。但是对于对性能和潜伏期至关重要的工作负载,我们选择在本地建立和管理我们自己的基础架构。这使US构建一个更好的平台。”
Salesforce工程师需要快捷方式来修复错误,从而导致全球停机时间
Salesforce是目前最受欢迎的云软件应用程序之一。据报道,该软件应用程序在全球约有15万个组织中使用了数百万员工。 Salesforce提供的服务涉及客户关系管理的各个方面,从普通联系管理,产品目录到订单管理,机会管理,销售管理等。用户不需要在记录的维护,存储和管理上花费大量金钱和人力。所有记录和数据都存储在Salesforce.com上。
5月11日,Salesforce的服务开始变得不可用,停机时间持续了5个小时。之后,Salesforce组织了一个客户简报,以充分披露事件情况和相关工程师的操作程序。尽管Salesforce一直以其高度自动化的内部业务流程感到自豪,但其中许多链接只能由——DN手动完成。工程师使用的配置脚本执行了配置更改,并且在更改后,需要重新启动服务器。不幸的是,脚本更新未能超时。随后将更新部署在各种Salesforce数据中心中,并且超时会引爆. Salesforce说:“我们已向该员工采取了适当的措施。”
3与云计算相关的服务提供商:一旦出现问题,“爆炸半径”将非常大!
云计算巨头OVH数据中心火灾,360万个网站被迫脱机
3月,最近几天,在法国斯特拉斯堡的一间计算机室发生了严重的大火。该地区有4个数据中心(Strasbourg数据中心)。引起火灾的SBG2数据中心被完全摧毁,另一个数据中心SBG1被部分损坏。当地报纸说,有115名消防员投入了六个小时的时间。最多6小时的连续燃烧后,SBG2中的数据应成本高昂。
大火对欧洲的许多网站产生了严重影响。据报道,在464,000个域中,总共有360万个网站离线。
受火灾影响的客户包括ONDA项目,欧洲航天局的数据和信息访问服务,该服务托管用户的地理空间数据并在云中构建应用程序。 Rust拥有的游戏工作室FacePunch Studios确认了25台服务器被烧毁,并且他们的数据在大火中丢失了。即使数据中心返回在线之后,也无法恢复数据。其他客户包括法国政府,其Data.gouv.fr网站也被迫离线。还有一个加密货币交换deribit和不良数据包,一个信息安全威胁情报制造商,该制造商跟踪DDOS僵尸网络和其他网络滥用问题.
他们中的一些人非常不幸:“不!我的服务器在机架70C09上,我只是一个普通的客户,我没有任何灾难恢复计划.”
当世界上大多数互联网瘫痪时,谁会迅速神圣?
6月8日,当世界各地的数亿个互联网用户登录到他们经常登录的网站上时,他们发现该页面无法打开,并且有“ 503错误”的错误消息。所有类型的网站包括Amazon,Twitter,Reddit,Twitch,HBO Max,Hulu,PayPal,Pinterest以及各种类型的网站,包括《纽约时报》,CNN等。
人们持续了大约一个小时,人们发现巨大的失败是由CDN服务公司迅速造成的。 “我们发现服务配置的变化触发了全球服务的短暂中断,该服务已被关闭,我们的全球服务网络已经恢复了正常,”快速通过其官方Twitter和Blog说。
成立于2011年,是世界上为数不多的大型CDN供应商之一,可以加快用户浏览和体验。有趣的是,问题后的第二天,迅速的股票价格急剧上涨,因为通过这一事件,投资者意识到,总部位于旧金山的小型公司,少于1,000名员工对互联网世界产生了重大影响。
Google云全球停机时间2小时
根据外国媒体报告,11月16日,Google Cloud是世界上最大的云服务提供商之一,经历了停机时间,导致许多大型公司依靠Google Cloud中断服务。
中断持续了大约2个小时,包括Home Depot,Spotify和其他公司,收到了用户有关服务中断的反馈,此外,Etsy和Snap的服务也遭受了网络故障。此外,这种停机时间对Google自己的服务产生了深远的影响,YouTube,Gmail和Google搜索都停止了工作。
据报道,这一事件是由Google Cloud用户对外部代理负载平衡(GCLB)的配置错误引起的。它被认为是一个脆弱性。它是在6个月前介绍的。在极少数情况下,漏洞允许将损坏的配置文件推向GCLB。 11月12日,Google工程师发现了漏洞。 Google最初计划在11月15日发布一个补丁,但不幸的是,服务中断发生在维修之前。
AWS在一个月内有3次下降
在2021年的最后一个月,AWS经历了三个倒闭。第一次停机时间发生在ET的7日,持续时间为上午10:45至下午2:22,大量受欢迎的网站和应用程序包括迪士尼,Netflix,Robinhood,Roku等人都有网络中断。同时,亚马逊的Alexa AI助手,Kindle电子书,亚马逊音乐,Ring Security Cameras和其他业务也受到影响。
12月10日,AWS宣布了这种停机时间的原因:内部客户端的意外行为导致连接活动激增,内部网络和主要AWS网络之间的巨大网络设备,从而导致这些网络之间的通信延迟。这些延迟增加了网络之间的服务延迟和通信中的错误,从而导致更多的连接尝试和重试,最终导致持续的堵塞和性能问题。
12月的第二次停机时间发生在16日上午7:43左右,在线服务包括Twitch,Zoom,PSN,Xbox Live,Doordash,Doordash,QuickBooks Online和Hulu都受到影响。然后,AWS宣布了失败的原因:由于主要网络中的某些自动化软件,一些流量被转移到了骨干网络,这影响了某些Internet应用程序的连接。
12月的第三次停机时间发生在美国东部时间7:30左右,包括Slack,Epic Games,Cryptocurrency Exchange Coinbase Global,Gaming Company Fortnite,Dating App Grindr和Deliver Company Instacart。关于中断,AWS初步调查说,这是数据中心电源的问题。
声明:本文由入驻作者编辑撰写,除官方账号外,观点仅代表作者本人,不代表本平台立场,如有侵犯您的知识产权的作品和其它问题,请与我们取得联系,我们会即时修改或删除。
相关新闻
-
中超联赛争冠组赛制解析
1. 什么是中超争冠组赛制?中超联赛争冠组赛制是指在赛季末将排名前六名的球队组成一组,进行一轮单循环的比赛,获胜积分最高的球队将荣膺该赛季的中超冠军。2. 中超争冠组赛制的优点是什么?首先,中超争冠组赛制缩小了争冠球队之......
-
巴塞罗那vs巴黎圣日耳曼6比1回放,巴塞罗那vs巴黎圣日耳曼6比1全场视频
1. 赛前阵容分析巴塞罗那和巴黎圣日耳曼各自派出了最强阵容参加这场比赛。巴塞罗那的梅西、苏亚雷斯和内马尔以及巴黎圣日耳曼的博格巴、迪马利亚和卡瓦尼都是顶尖球星,他们的发挥将直接影响比赛。2. 巴塞罗那的控球优势巴塞罗那在......
24小时热文
-
puma足球鞋,Puma足球鞋mg106673-02
2023-10-15
-
1993年NBA总决赛数据纪念经典时刻,回顾传奇巨星们的辉煌岁月
2024-01-12
-
介绍2010年NBA总决赛黑哨内幕,让你看清现实世界的阴暗面
2023-12-18
-
如何成为NBA真球迷?WinFuture广告告诉你答案
2024-03-18
-
nba球员效率值如何查询?
2023-11-07
-
NBA2K17热火队精彩比赛集锦
2024-01-30
用户评论
哈哈哈,这些网站去年“崩溃”了,没想到今年还能看到这样的盘点,真是长见识了。
有20位网友表示赞同!
哎呀,看了这个列表,我去年就被其中一个网站崩溃的经历给坑惨了,真是让人难忘啊。
有13位网友表示赞同!
哈哈哈,这些网站去年“崩溃”的时候,我刚好在用,真是倒霉透了。
有7位网友表示赞同!
去年那个网站崩溃的时候,我差点气炸了,没想到现在还能笑出声来。
有14位网友表示赞同!
哈哈哈,这些网站去年“崩溃”的新闻,我还记得呢,那时候真是心惊胆战。
有6位网友表示赞同!
看到这个标题,我就想起去年那个网站崩溃的时候,幸好我有备份,不然就惨了。
有15位网友表示赞同!
这些网站去年“崩溃”的时候,我刚好在用,那时候真的是手忙脚乱。
有18位网友表示赞同!
哈哈哈,这些网站去年“崩溃”的新闻,我看了好几遍,每次看都笑得肚子疼。
有15位网友表示赞同!
去年那个网站崩溃,我差点丢了工作,现在想想还挺后怕的。
有17位网友表示赞同!
这些网站去年“崩溃”的事件,让我对网络稳定性有了更深的认识。
有8位网友表示赞同!
哈哈哈,这些网站去年“崩溃”的时候,我还在想,怎么这么倒霉。
有8位网友表示赞同!
看到这个标题,我立刻想到了去年那个网站崩溃,那时候真的是心有余悸。
有20位网友表示赞同!
这些网站去年“崩溃”的新闻,让我意识到网络依赖的风险。
有9位网友表示赞同!
哈哈哈,这些网站去年“崩溃”的时候,我刚好在用,幸好没重要资料在上面。
有12位网友表示赞同!
去年那个网站崩溃,让我对在线服务有了新的看法。
有18位网友表示赞同!
这些网站去年“崩溃”的事件,让我学会了备份的重要性。
有20位网友表示赞同!
哈哈哈,这些网站去年“崩溃”的新闻,每次看到都忍不住笑出声。
有5位网友表示赞同!
去年那个网站崩溃,让我意识到网络安全的重要性,现在更加小心了。
有15位网友表示赞同!