导致Facebook、其相关服务(Instagram、WhatsApp、Oculus、Messenger)、其企业平台和企业內部网络瘫痪的规模性常见故障,都是以一次常规维护保养进行的。据基础设施建设高级副总裁桑托什·贾纳丹(Santosh Janardhan)说,在维护保养环节中产生的一条指令不经意中导致了联接全世界全部Facebook大数据中心的骨干网的关掉。
这实际上就够槽糕的了,但就像大家早已解读过的,你没法应用Facebook的因素是,偏向其服务器的DNS和BGP路由器信息忽然消失了。但据Janardhan说,这个问题本来反而是主要的,由于Facebook的DNS服务器注意到与骨干网的联接遗失,并终止派发BGP路由器信息,以协助互联网技术上的每台电子计算机寻找其服务器,这就导致DNS服务器自身仍在工作中,但他们没法抵达。
随后链式反应恶变了难题的主要表现:数据连接的欠缺和DNS的遗失断开了服务器与尝试修补情况的技术员的联络,并禁止使用了它们一般用以修补和通信网络的很多专用工具--如同大家昨日听见的那般:
什么叫BGP,它在Facebook的规模性常见故障中起到了什么作用?
因为紧紧围绕这一重要硬件配置的物理学和系统优化难题,技术工程师们碰到了附加的阻碍。一旦她们"激话安全性访问协议书"(这很明显并不是"用磨光机割开服务器门"的暗号),她们就可以让骨干网发布,并在逐步提升的负荷中逐渐修复服务项目。这也是昨日一些人花了长时间才修复访问的一部分缘故,由于一次性开启全部資源所产生报复访问要求也许会导致电子计算机大量的奔溃。
因此,沒有黑客攻击,仅仅一个财务审计专用工具忽略了一个指令中的不正确,而在六个钟头内,联接数十亿人的服务项目就是这样无缘无故地消失了这么多年。