在大家享有十一假期的情况下,现大洋岸边的网络全球却出了一件重特大“安全事故”:Facebook 以及集团旗下 Instagram 和 WhatsApp 等运用各大网站服务器宕机,关机時间接近 7 钟头 5 分鐘,电脑浏览器在试着开启时表明 DNS 不正确。这针对集团旗下运用群月活和日活达到 35.1 亿和 27.6 亿的 Facebook 来讲,可以说严重损失。据风险投资机构可能,7 钟头服务器宕机造成 超出 9.68 亿美金危害成本费。并立即让 Facebook 总市值损害 643 亿美金,其创办人马可·马克扎克伯格资产总额挥发 70 亿美金。
Facebook 表明,常见故障直接原因是常规维护保养工作中出了难题,融洽大数据中心中间数据流量的技术骨干路由器配置转变,进而造成 其 DNS 服务器产生难题并导致內部专用工具和系统软件被关掉,运维管理工作人员没法远程连接机器设备便于修复互联网。因而,运维管理工作人员迫不得已进到拥有步骤对策严苛的云数据中心开展人力重新启动。因而,MTTR 被比较严重拉长。
一句话汇总,一条槽糕的指令、一款有缺陷的审批专用工具、一套阻拦取得成功修复互联网的 DNS 系统软件及其复杂的大数据中心步骤,一同造成 了 Facebook 长达 7 个钟头的重要常见故障。
实际来讲,运维管理工作人员对主干网的一部分开展断开连接维护保养。常规维护保养的一部分便是评定全世界主干网容积的可用性,但不经意间终断开主干网全部联接,也断掉了 Facebook 全世界云数据中心的联接。此外, 因为 Facebook 的架构模式是依据服务器可用性来拓展或减缩 DNS 服务项目。当服务器可用性因网络问题而降到零时,便会停止使用全部 DNS 服务器。全自动回应主干网奔溃好像变成 造成 DNS 偏瘫的缘故。这类停止使用根据 Facebook 的 DNS 名字服务器向互联网技术界限网关ip协议书(BGP) 无线路由器推送信息来实现的,这种无线路由器储存用于到达特殊 IP 详细地址的路由器层面的信息内容。这种路由器一般被公示给无线路由器,让无线路由器掌握怎样恰当地正确引导总流量。
Facebook 的 DNS 服务器推送的 BGP 信息禁止使用了公示给路由器,因而不能将总流量解析成 Facebook 主干网上的一切相匹配內容。最后结论便是,即便 DNS 服务器仍在运作,也浏览不上,用户也会因尝试浏览的互联网奔溃而遗失服务项目。更倒霉的是,DNS 服务项目用以朝向顾客的网址,还将其用以自身的內部专用工具和系统软件。
见到这儿大家会发觉,DNS 在这里当中饰演关键的人物角色,那麼 DNS 又是啥?DNS 即Domain Name System 的简称,域名系统以分布式系统数据库系统的方式将网站域名和IP地址互相投射。简易的说,DNS 是用于解析网站域名的,在正常的条件下,用户的每一个网上要求会根据 DNS 解析偏向到与之相对应的IP地址,进而进行一次上网行为管理。DNS 做为应用层协议,关键是为别的应用层协议工作中的,包含不限于 HTTP 和 SMTP 及其 FTP,用以将用户给予的IP地址解析为 IP 详细地址,实际操作过程以下:(1)用户服务器(PC 端或移动端)上运作着 DNS 的手机客户端;(2)电脑浏览器将接受到的 URL 中提取出网站域名字段名,便是浏览的IP地址,例如http://www.aliyun.com/ , 并将这一IP地址传输给 DNS 运用的手机客户端;(3)DNS 远程服务器端向 DNS 服务器端推送一份查看报文格式,报文格式中包括着要浏览的服务器名称段(正中间包含一些列缓存文件查看及其分布式系统 DNS 群集的工作中);(4)该 DNS 远程服务器最后会接到一份回应报文格式,在其中包括有该IP地址相对应的IP地址;(5)一旦该电脑浏览器接到来源于 DNS 的 IP 详细地址,就可以向该 IP 详细地址精准定位的 HTTP 服务器进行 TCP 联接。
Facebook 本次服务器宕机不断近 7 钟头危害了约 8500 万用户,是自 2008 年之后最比较严重的一次。做为局外人回望此次常见故障,大家会看到一个十分重要的情况点:但据统计,当日持续有用户体现,Facebook 集团旗下 Facebook、挪动闲聊服务项目 Messenger 和 WhatsApp、照片社交媒体服务项目 Instagram 等四大社交网络平台网址和运用均产生回应服务器不正确,造成 没法更新。Facebook 在欧洲地区、南美洲、美洲地区基本上彻底退出,在亚洲地区的日本、韩、印度的等国也无法打开,危害到全世界数十个国家和地区用户。好像 Facebook 好像并沒有在第一时间发觉这种难题。只在世界好几个国家和地区用户开展意见反馈后才看到了难题。
即便是巨大如 Facebook 那样的公司,都没有在第一时间发觉 DNS 常见故障,并遭到比较严重的财产损失。竭尽所能的应对那样常见故障,大家该怎样第一时间发觉并监控产品及其 DNS 的运行情况?而且立即掌握全世界不一样国家和地区的用户应用状况?
纵览各种 APM 商品,无入侵的云拨测变成 最合适的解决方法。阿里云服务器拨测根据遍及全世界的 1000 监控点,包含真正用户检测,全天 24 钟头对目的网站域名进行互联网要求,协助用户检测 DNS 服务项目对可用性和解析特性,与此同时 DNS 拨测适用特定递归算法、迭代更新不一样查看方法及其解析服务器,根据灵敏的拨测参数配置尽量仿真模拟真正用户的浏览。
通过按时的拨测每日任务,阿里云服务器拨测能够产生不一样区域的 DNS 解析用时的表格,与此同时对于每一次拨测都清楚的列举 DNS 要求对详细信息,包含 A 详细地址、DNS 用时、DNS 解析全过程等,能给协助用户迅速剖析和精准定位 DNS 解析的难题。
此外根据配备 DNS 报警,对于于 DNS 的可用性难题和解析特性难题,还可以在于用户认知并提问题的修补转变态度,提升 用户的满意率,减少财产损失。
全文连接:http://click.aliyun.com/m/1000299825/
文中为阿里云服务器原創內容,没经准许不可转截。