DMIT 告知用户圣何塞的服务器数据已无法完整恢复
DMIT 已通过电子邮件和公告告知客户,由于圣何塞机房部分数据无法恢复,已影响到虚拟机文件系统和磁盘挂载。部分实例将无法启动或系统挂起,需要重建或手动修复。
DMIT 调查认为故障的直接原因是 OSD 过载导致没有足够容量分配Log空间,并在第二个 OSD 触发故障导致数据回填后引发了连锁反应,多个 OSD 由于数据写满无法启动。
DMIT 说,3月1日圣何塞收到大量订单,资源开始紧张。它原本计划在3月8日扩充硬盘,但由于天气原因,联邦快递将原计划3月7日交付的时间推迟到3月9日。而故障发生在了3月8日晚间。
据DMIT官方人士在公开群组中的发言,骤增的订单来自于 TikTok 用户,据推测,这可能是由于美国的部分机房IP段能够解锁TikTok美国,创作者将可以通过大量播放量赚取到美元。同时因为频繁重装系统,造成了资源持续高占用,进一步推高了服务器负载。
作为补偿,受影响的用户服务期将延长30天,并虚拟机的传输容量永久性地增加一倍,对于UNMETERED计划则带宽增加一倍。
DMIT 是一家以线路见长的服务商,本次事故暴露了其在运维上的短板。
因本文不是用Markdown格式的编辑器书写的,转换的页面可能不符合MIP标准。