语雀公布10月23日故障原因 同时为所有个人用户赠送半年会员 – 蓝点网 - {$web_name} 发生如此长的故障时间
前天语雀发生重大故障导致长达 7 个小时无法正常访问,针对一款拥有千万级使用者的商品,发生如此长的故障时间,着实让人有些震惊。
昨日晚上语雀在其大众号阐释了故障缘由,没想到居然是秋季最适合读的一句话:相濡以沫新的运维工具 bug 导致华东区域的生产办事器被误下线;又由于存储操控系统使用的机器类别较老无法直接操控启动,没办法语雀只能从备份操控系统里重启存储资料,这需要众多时间,重启备份资料后又需要开展校验,直到晚上 9 点钟才重启正常。
这次故障也让大家得知了语雀使用的容灾架构是同 Region 多副本容灾而不是异地容灾计划,语雀称后续将升级为两地三中心的高可用能力,设计足够的资料和操控系统冗余做到高效重启并开展定期的容灾应急演练。

补偿难题:
针对语雀个人版使用者整体赠送半年会员,操控流程:进入岗位台账户配置、访问会员信息、在会员信息里访问马上领取即可获得赠送办事。最新彩蛋解析快报
针对语雀空间使用者由于状况较为繁琐,语雀会单独制定赔偿计划,请空间治理员留意语雀站内信。
自然语雀的这次难题也再次为个人和企业使用者敲响警钟,那就是要保证资料离线可用,不得知这次过后有多少使用者会离开语雀。
下面是语雀公开的故障说明:
10 月 23 日下午,办事语雀的重磅续集计划指南资料存储运维团队在开展升级操控时,由于新的运维升级工具 bug,导致华东区域生形成态存储办事器被误下线。受其作用,语雀资料办事发生严重故障,导致大面积的办事中断。以便尽快重启办事,我们和资料存储运维团队全力开展资料重启岗位,但受限于重启计划、本周笔记本电脑合集资料量级等因素,整体用时较长。具体过程如下:
14:07 资料存储运维团队收到监控操控系统报警,定位到缘由是存储在升级中因新的运维工具 bug 导致节点机器下线;14:15 联系设备团队使用将下线机器重新启动;15:00 证实因存储操控系统使用的机器类别较老,无法直接操控启动,马上改动重启计划为从备份操控系统中重启存储资料。15:10 着手新建存储操控系统,从备份中着手重启资料,由于语雀资料量庞大,此过程历时较长,19 点达成资料重启;另外为保障资料完整性,在达成重启后,用时 2 个小时开展资料校验;21 点存储操控系统经由完整性校验,着手和语雀团队联调,最后在 22 点重启语雀整体办事。使用者所有资料均未丢失。
改进举措:
经由这次故障我们深刻认识到,语雀身为一款办事千万级客户的文档商品,应该做到更完善的技术隐患保障和高可用架构设计,尤其是面向技术变更操控的 “可监控,可灰度,可回滚” 的操控系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的资料和操控系统冗余做到高效重启,并开展定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的重启速度,并从根本上避免这类故障再次呈现。为此我们制定了如下改进举措:
1、升级设备版次和机型,做到离线后的高效启动。该举措在本次故障修复中已达成;
2、运维团队加强运维工具的品质保障与评测,杜绝此类运维 bug 再次发生;
3、压缩运维动作灰度范围,增多灰度时间,提前察觉 bug;
4、从架构和高可用层面改进办事,为语雀增多存储操控系统的异地灾备。
上一篇:Xbox夏季促销开启:《艾尔登法环》《NBA 2K24》等多款大作打折
下一篇:真人快打系列手游《真人快打:猛攻》宣布10月21日正式停止运营