近日,《The Stack》报道称,2024年7月,英格兰银行支付系统——CHAPS系统因“银行基础设施中的SSL/TLS证书过期”而发生故障。
CHAPS系统在2024年8月处理了6.9万亿英镑的支付交易。但在此前一个月,CHAPS和银行的零售结算系统因宕机停止了这些交易,导致IT员工不得不紧急实施修复方案。(CHAPS系统在91分钟内恢复运行。)
导致这次故障的原因是一张过期的SSL/TLS证书。
根据英格兰银行发布的年度结算系统现代化报告,该故障的原因与证书过期有关,尽管报告中没有具体说明是哪类证书,但通常这类问题与SSL/TLS证书有关,该证书用于验证系统身份并允许其与其他系统建立加密网络连接。
英格兰银行证书问题
2024年已经是中央银行老化的结算系统第四次中断,而值得注意的是,这是第二次因证书问题导致的宕机。
2024年1月26日,RTGS(实时全额结算)系统曾发生一次持续39分钟的宕机,导致CHAPS和CREST结算暂停,英格兰银行模糊地将其归因于“证书颁发机构问题”。(这一日期与AWS某些证书更换要求的时间一致,但我们没有证据表明两者之间存在因果关系,仅作时间上的关联说明。)
英格兰银行在2024年9月27日发布的报告中指出:“在过去一年中,RTGS服务发生了多次中断。但在所有情况下,我们的重要业务服务的影响容忍度都得到了满足,即提交给我们的所有支付和其他结算指令都在当天结算完成。”
这一细节来自RTGS现代化更新,因为英格兰银行正逐步推进其现有引擎的替换工作,计划采用一种“模块化设计的新核心账本和结算引擎”,这一更新将使更多金融服务机构更容易接入英格兰银行系统。
据悉,现有的RTGS引擎可能基于大型主机,接入新机构的过程繁琐:“RTGS更新计划的每个主要里程碑都需要技术准备工作,包括对现有RTGS基础设施的变更冻结,以便安全地进行必要的变更,”英格兰银行指出。“对于CHAPS和零售支付系统,下一批接入时段将于2025年开放。”
在过去12个月里,其他值得注意的宕机事件还包括:2023年10月26日RTGS系统发生36分钟的中断,导致CHAPS、CREST和零售结算停止,原因是“网络配置问题”;2024年6月17日,RTGS系统内部组件故障引发6分钟的中断;2024年7月18日,CHAPS结算出现245分钟的中断,原因是SWIFT的Y-Copy服务出现问题,导致该服务全球范围内受到影响。
《The Stack》已联系英格兰银行对此事发表评论。一位发言人表示:“我们会对RTGS的每次事故进行审查,包括7月31日的事件,所有确定的改进措施都会被跟踪落实。”
更新证书时操作失误
导致ServiceNow服务中断
无独有偶,在上月末,市值1810亿美元的ServiceNow公司也因类似问题短暂受到了影响。
此次问题的根源在于ServiceNow的管理、工具及发现(MID)服务器。该服务器是本地客户端服务器上的Java应用程序。一份有限的公告显示,“MID Server Root G2 SSL”证书已过期。
ServiceNow最终表示:“在9月22日,ServiceNow确认了一个过期的TLS跨链证书,影响了MID服务器与客户实例之间的连接。”公司补充说,证书已于本周初更新完毕,系统已经恢复正常运行。
但超过600家客户的系统在此事件后崩溃,众多报告显示该证书即将过期的警告几周前就已发出。至于此次证书更新是否是人工操作还是自动化管理出了纰漏,仍是个未知数,但此次事件再次强调了证书管理的持续风险。
对此,Venafi首席创新官Kevin Bocek声称,此事件表明“ServiceNow的流程中存在严重的漏洞,亟待修复。”
“根证书是数字安全和在线身份的基础,它位于信任金字塔的顶端,负责认证并签发链条下的其他TLS身份。如果根证书过期,它将影响所有与其关联的机器身份——这就是为何客户受到如此广泛影响的原因。”他补充道,“…在当今复杂的IT环境中,试图通过人工管理机器身份几乎是不可能的任务。而且难度还在加大。全球已有超过2.9亿个TLS证书,过去两年增加了超过4000万个……随着Google即将强制实施90天的证书有效期规定,持续的替换和更短的生命周期将很快成为常态。”
证书自动化管理大势所趋
多年来,许多大型组织因未能及时更换即将到期的证书而导致服务中断,随着证书生命周期的缩短,这种情况可能会愈加严重。
另一方面,在当下许多组织中,证书的更新仍然依靠人工管理(甚至使用经典的Excel表格),而对于错过一个证书更新从而引发连锁反应的恐惧并不少见。
由于手动管理众多证书的到期和续期日期的难度日益增加,证书过期未能及时处理可能会导致应用程序宕机、服务中断、服务器冒充甚至敏感数据泄露。
Sectigo的威胁检测专家Tim Callan在一封电子邮件中指出,“许多组织仍在尝试并苦苦应对手动管理其生态系统中数千个数字证书的挑战。这是一个耗时的过程,单独手动签发一张证书可能需要一个多小时。将此工作量乘以数百或数千个证书,很明显,手动证书生命周期管理对于即便是资源最为充足的IT团队来说也是难以维持的。”
他补充道:“不久之后,随着Google Chromium在其‘Moving Forward, Together’路线图中的最新更新生效,TLS证书的最长有效期将从398天缩短至90天,这将成为未来政策更新的一部分。此举带来的好处是真实的,特别是提高了安全性。但对于仍在手动管理证书的组织来说,这意味着工作量将增加四倍,如果继续采用手动方法,预计会有更多的违规和宕机事件发生。我们再也无法承受手动证书管理带来的摩擦了——系统宕机或数据泄露的潜在风险太大。证书管理需要具备CA无关性并实现自动化,以便在新规落地时,CISO们能够轻松维护数字信任。”
素材来源:The Stack