核心提示:
1.一个只够容纳一个网页图像的文件居然引发了世界上最大的 IT 中断事故。
2.CrowdStrike 在追求速度、更大利润的同时,牺牲了基本的安全原则。
3.麻烦的是,CrowdStrike 的修复程序需要手动修复,耗时耗力。
4.这次事故不禁让人反省,少数公司控制网络安全行业存在的风险。
周五,当英国国民保健署 (NHS) 的医生、伦敦帝国理工学院教授布伦丹・德莱尼 (Brendan Delaney) 出现在他的伦敦诊所时,他原以为这一天会忙得不可开交。
两个月前,伦敦东南部的医院和诊所遭受了毁灭性的网络攻击。现在,像德莱尼这样的医生终于开始感到工作恢复正常了。他们可以再次发送紧急血液检测。网络安全专家在修复和更换之前被黑客犯罪团伙关闭的信息技术系统方面,并取得了进展。
然而,就在他到达诊所时,他看到前台正在匆忙地收集纸质记事本,查询业务连续性计划。原来,英格兰医生用来查看病人病历的一个系统突然失灵了。
这一次,问题不是源自勒索软件团伙,而是出在一家为了保护人们免受黑客攻击的公司,它就是全球最大网络安全软件制造商之一的 CrowdStrike Holdings CrowdStrike 推送了一个有缺陷的更新,引发了全球 IT 系统崩溃,导致全球机场、银行、证券交易所和企业陷入瘫痪。
小文件大破坏
令人难以置信的是,一个很小的文件 (专家称只够容纳一个网页图像) 居然导致了世界上最大的 IT 中断事故。这个名为“C-00000291*.sys”的文件隐藏在 CrowdStrike 的 Falcon sensor 安全产品更新中。该问题文件在微软公司的 Windows 操作系统中引发了一个错误,导致计算机无法正常工作,并触发了可怕的“蓝屏死机”。
这一事件以前所未有的规模暴露了全球 IT 系统的脆弱性,并凸显出如此多的组织和个人依赖于少数几家科技公司存在的危险性。如果其中一家公司出现故障或遭到黑客攻击,其后果可能波及全球经济的大片领域。微软凭借其 Windows 操作系统主导了个人电脑业务,而 CrowdStrike 已成为数千家公司和组织的首选供应商,后者希望保护其最重要系统免受网络攻击。
知名研究公司 IDC 的数据显示,CrowdStrike 是仅次于微软的第二大“现代终端保护”软件开发商,在规模为 126 亿美元的市场中占有 18% 的份额。这家总部位于美国得州奥斯汀的公司向全球 2.9 万家机构销售其产品,所以此次宕机可能会影响数百万台电脑。这些电脑可能需要数周或更长时间才能重新恢复正常,因为它们必须手工修复。
“这真是一团糟,”前 NHS 医生、网络安全和公共卫生专家赛义夫・阿比德 (Saif Abed) 表示,“Crowdstrike 影响到了微软,而整个 NHS 都依赖于微软,制造了一个潜在故障连续爆发的多米诺骨牌效应。”
如何发生的?
上周五,随着宕机事故从亚洲和澳大利亚蔓延到欧洲和美国,CrowdStrike 联合创始人兼 CEO 乔治・库尔茨 (George Kurtz) 为这一错误道歉。“这不是安全事件或网络攻击,”他说,“这个问题已经被发现、隔离,并且已经部署了修复程序。”
库尔茨没有具体说明这个漏洞是如何出现在软件更新中的。但是,一些长期批评网络安全行业的人士已经有了一套可以说得通的理论。他们说,CrowdStrike 和其他网络安全公司在追求更大利润和试图安抚股东的同时,牺牲了基本、枯燥的安全原则。
“现在是行业成长,放慢脚步的时候了,”总部位于爱丁堡的安全服务公司 Quorum Cyber 的创始人兼 CEO 费德里科・查罗斯基 (Federico Charosky) 表示,“有些开发商在某个地方做出了改变,却没有分析这种改变会产生什么影响。为了追求速度,他们显然缺乏质量保证和测试,走了捷径。这表明,我们对运行一切事物所必不可少的技术的完全信任是错误的。”
重蹈覆辙
周五发生的一切非常罕见,但 CrowdStrike CEO 库尔茨却不陌生。2010 年,他还是杀毒软件先驱 McAfee 的首席技术官。那年 4 月,McAfee 发布了一个更新,错误地将一个合法的 Windows 文件标记为感染文件,瘫痪了世界各地医院、学校和政府机构的计算机。
McAfee 时任 CEO 戴夫・德沃尔特 (Dave DeWalt) 称,该公司在 16 分钟后就撤销了这个有缺陷的更新,但那时,它已经安装在 1600 多家客户的电脑上。德沃尔特现在经营着一家专注于网络安全的风险投资公司。他在接受采访时说:“我们在那天损失了大约 40% 的市值。”德沃尔特还说,公司派出了近 4000 名员工乘飞机帮助受影响的客户从事故中恢复过来。
McAfee 最终走出了危机,但当时的员工称这起事故是一种极大的创伤和耻辱。四个月后,英特尔宣布收购 McAfee。
网络行业观察人士想知道,CrowdStrike 是否会从自己的错误中吸取教训。有人已经表示,该公司是在自找麻烦。多年来,CrowdStrike 一直在抨击微软允许黑客侵入其系统,库尔茨利用这些漏洞作为自己产品的卖点。
就在美国政府发布报告,指责微软存在“一连串的安全故障”后不久,库尔茨突然出击,在财报电话会议上向投资者引用了他的调查结果,表示微软的问题引发了潜在客户的“大量要求”。“微软安全客户群体中的安全和 IT 团队中存在着广泛的信任危机。”他当时表示。
“CrowdStrike 试图尽可能地抨击微软,并从中获利,”查罗斯基表示,“但是当你的公司在全球基础设施中占据如此重要的地位时,没有人能逃脱干系。这就是因果报应。当一家公司从创业公司成长为重要的国家基础设施企业时,它需要采取不同的行动,我不知道 CrowdStrike 是否经历了这种转变。”
“年度恶意软件”
鉴于 CrowdStrike 造成的破坏程度,一些网络评论人士已经将这个存在缺陷的更新描述为“年度恶意软件”。这种将其与黑客攻击进行的玩笑式比较在某种程度上是有现实依据的。网络安全专家说,受影响组织的恢复可能需要数周或更长时间,大致相当于大型组织在遭受勒索软件攻击后重建网络所需的时间。
让这些电脑恢复正常的最大挑战是,CrowdStrike 的修复程序需要由具有管理权限的人手动修复,一台电脑接一台电脑,这是一个非常耗时的过程,在远程工作的时代尤其困难。
得州普莱诺网络安全服务公司 Accelerynt 的联合创始人兼董事长迈克尔・亨利 (Michael Henry) 称,美国一家大型零售商的客户不得不召集其所有 IT 员工,让他们昼夜不停地手动更新约 6000 台受影响的电脑。他说,该公司预计要花费整个周末时间来恢复关键系统,所有系统完全恢复上线状态需要三周时间。
“这太疯狂了。他们正在分类,首先关注关键系统,”亨利说,“这是一项零售业务,所以他们要确保门店能够恢复运营。”
亨利有一个疑问,这也是很多人在宕机事故发生后都在问的问题:这是怎么发生的?
“CrowdStrike 对全球商业造成的破坏,比所有勒索软件攻击的总和还要大,”他说,“这证明了,我们在保护自己而部署的软件上承担了多大的风险:如果这些人出错,他们可能会毁掉你的业务。”
诉讼
库尔茨在周五晚些时候发表的一份声明中说:“随着这一事件的解决,我承诺将对事件发生的过程以及我们为防止此类事件再次发生所采取的措施提供充分的透明度。我们正在进行技术更新和根本原因分析,并会公布于众。”
网络安全和法律专家表示,CrowdStrike 几乎肯定会受到起诉、付出经济成本和其他处罚。这一事件也肯定会引发一场新的讨论,即权力和风险日益集中在少数几家网络安全公司手中存在的问题。
按照硅谷的标准,网络安全行业相对年轻,它是在蠕虫和软盘病毒的时代成长起来的。20 年前,它由赛门铁克和 McAfee 两家公司主导,这两家公司的杀毒产品采用了一种现在看来有些古怪的策略,即编写“签名”以阻止已知的恶意软件菌株。
如今,攻击者已经变得更加先进,传统的杀毒软件已经失宠,导致那些传统安全厂商退出舞台。取而代之的产品能够检测 PC 上一系列威胁并自动修复这些威胁。
问题在于,这些技术在很大程度上由微软和 CrowdStrike 控制。纽约大学计算机科学教授贾斯汀・卡波斯 (Justin Cappos) 表示,他一直在警告,安全行业的整合以及随之而来的集中决策可能会导致大问题,这种争论在其他科技领域也曾发生过。
“大公司在科技领域会犯大错误,”他在接受采访时说,“我们看到过的很多非常糟糕的安全设计都出自大公司之手。”