2024 年 9 月 10 日上午,阿里云新加坡可用区 C 数据中心突发火灾,主要科技公司服务中断。火灾原因确定为锂电池爆炸。据外媒报道,10 日早上约 8 点火灾发生,截至 11 日下午 8 点,已持续 36 小时仍未完全扑灭。
一、火灾影响及进展
阿里云发布官方声明,关键云产品如云数据库 Redis、MongoDB、RDS MySQL 等受到影响。今日凌晨更新进展,称大部分受网络影响的云产品已恢复正常运行,但部分业务因机房断电需等物理条件恢复。“昨晚 20:23,消防部门仍在现场处理大楼安全风险,运维工程师等待进入机房许可。若现场评估不具备原地恢复条件,应急小组将执行服务器设备迁移恢复方案。” 此次事件不仅影响阿里云服务,还对托管在该机房的 Lazada 和字节跳动等科技公司造成严重服务中断。Lazada 和 TikTok Shop 电商平台卖家反馈无法同步订单信息,用户称小黄车功能无法正常使用。两平台已对受影响订单延期处理。部分 TikTok 用户反馈新加坡发布的视频无法获得正常流量。该数据中心还托管其他跨国公司服务器,有用户报告 Digital Ocean、IaaS 服务 Coolify 以及 Cloudflare 出现宕机或服务降级,似乎与此次火灾有关。AWS 销售趁机安利自家服务。
二、火灾详情及挑战
机房火灾由锂电池爆炸引发,持续超 30 小时。据当地媒体报道,该数据中心属美国数据中心房地产投资信托 Digital Realty 名下。火灾始于当地时间周二上午,群众事发前听到爆炸声,随后数据中心冒浓烟,有呛鼻烧焦味。锂电池爆炸威力巨大,瞬间引发火灾并迅速蔓延。Digital Realty 公司发言人表示,“2024 年 9 月 10 日上午 7:45,SIN11 数据中心触发火灾警报。8:15 前所有现场人员安全撤离,事故未造成人员受伤。” 事故发生在数据中心一栋建筑的电池室。新加坡民防部队公告称,火患波及数据中心三楼阁楼内两个电池房、两个电源房和一个设备储藏室。灭火手段包括四个水枪、房内洒水灭火系统、灭火机器人等。为防复燃,消防人员留守数据中心外面,“需降温和浇湿控制连锁反应”。但截至 11 日晚,失火数据中心仍有两处冒烟。灭火面临诸多挑战,锂离子电池火灾难扑灭,内部化学反应会持续生热提供燃料致自燃复燃;会释放有毒气体增加消防员风险且使灭火复杂;数据中心封闭式设计通风有限不利烟雾排出。业界对用水灭火有争议,认为可能导致电池短路加剧火势,全氟己酮灭火剂则效果优异。9 月 11 日晚 8 点,消防员仍在现场浇湿作业。大楼建筑结构受损,建设局对部分区域发出危楼令和封闭令。
三、阿里云业务受影响情况
受到火灾影响的企业被告知启动灾难事态下业务连续性计划。阿里云状态报告称,周二 10:20 检测到新加坡区域 C 可用区异常,“部分云服务无法正常运行”。后续更新指出异常由锂电池爆炸引发,爆炸导致现场起火及温度升高。作为中国云服务头部厂商之一,阿里云称其灾难恢复与故障转移程序按预期运行,高可用性云产品达承诺服务水平,但部分用户须手动迁出工作负载。目前阿里云等待数据中心恢复正常,部分服务和产品被迫下线。截至周二晚 20:04,“火灾警报尚未完全消除”,工作人员无法进入着火建筑,数据中心内一些网络设备 “在高温环境下已出现异常”,影响部分云产品网络连接。客户收到警告,称 “新加坡 C 可用区遭遇网络完全中断可能性增加”,通知建议 “业务部署在该区域应尽快迁移”。周三凌晨 1:46 情况恶化,阿里巴巴表示 “机房开始出现积水和泄漏,电路存在短路风险”,对新加坡 C 可用区一栋建筑紧急断电。其他建筑网络服务逐步恢复。Digital Realty 证实,截至周三凌晨 1:45,部分电气系统已关闭。
四、数据中心火灾频发
数据中心作为数据存储和处理的关键基础设施,其安全性至关重要。近年来,全球范围内的数据中心火灾已造成巨大的经济损失。回顾近年的数据中心火灾事故,充分显示出这一问题的严重性和紧迫性。
2022 年 8 月,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成 3 人受伤。该数据中心是谷歌最大的数据中心之一,于 2009 年首次启用。事故发生后,据宕机追踪网站
Downdetector.com 数据显示,美国有超过 4 万人报告无法使用谷歌搜索。
因电池起火造成的意外事故并不鲜见。2022 年 10 月,韩国 SK 公司 C&C 板桥数据中心发生火灾,大火在大约 8 小时后被扑灭。经调查发现,安装在地下三层电气设备室的 5 个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。本次火灾导致约 3.2 万个服务器瘫痪,数千万用户服务受到影响。数据中心失火后,包括 Kakao Talk 在内的 Kakao 系列服务中断了一天左右才逐步恢复。火灾之后,韩国科技部长官李宗昊就数据中心失火导致网络平台瘫痪一事致歉,几天之后,Kakao 联席 CEO 也因此引咎辞职。
法国云巨头 OVH 也曾因 UPS(不间断电源)起火导致一处数据中心下线。2021 年 3 月,这家法国运营商的 SBG2 数据中心发生波及整栋大楼的起火事故,导致该区域的 4 个数据中心,一个被完全烧毁,另有一个部分受损。起火后,瘫痪的法国政府、企业与公共事业网站达到约 360 万个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25 台欧洲服务器完全损毁,没有备份,数据无法被修复。事后,超过 130 名客户加入了集体诉讼,指责 OVHcloud 未尽充分义务,且没有为受损失的企业提供足够的赔偿。该公司迟迟不披露起火原因,并坚称必须等待官方报告。在火灾发生一年后,Bas-Rhin 消防局发布了一份调查报告,强烈批评这家法国运营商的设施。由事故调查报告可知,这座数据中心存在相当多的消防隐患,包括采用标称耐火仅一小时的木质天花板、未配备自动灭火装置、也没有通用电气切断开关。更让消防人员遗憾的是,这处设施还有一种自然冷却设计,这也创造了可增加火势的 “烟囱效应”。