Netflix 开源危机管理工具 Dispatch,真香
本文最初发布于 Netflix 技术博客,经授权由 InfoQ 中文站翻译并分享 。
什么是 Dispatch?简单说,它是一个管理事件元数据和资源的危机管理编排框架 。通过与组织中使用工具(像 Slack、GSuite 等)的深度集成,Dispatch 可以帮助我们有效地管理安全事件 。它利用组织熟悉的工具来提供编排功能,而非引入另一种工具 。
这意味着你能让 Dispatch 专注于创建资源、安排参与者、发送通知和跟踪任务以及协助事后回顾——让你真正专注于解决问题!
危机管理的挑战管理事件是一项压力很大的工作 。因为,你同时要处理许多问题:范围是什么?谁能提供帮助?我还需要谁参与进来?我应该如何处理这一切?
一般来说,每一个事件都是独一无二的,如果同样的事件一而再再而三地发生,你就成消防员了 。
危机管理主要包含四个组件:
- 资源管理——不仅要管理收集到的与事件相关的数据,还有所有和事件响应相关的元数据 。
- 个人参与——理解让个人和团队参与的最佳方式,并根据事件上下文来进行 。
- 生命周期管理——提供事件指挥官(IC)工具,轻松管理事件的生命周期 。
- 事件学习——基于以前的事件加快对未来事件的分析 。
- 事件指挥官:负责推动事件解决的人 。
- 事件参与者:帮助解决事件的主题专家(SMEs) 。
- 资源:在事件中使用的文档、屏幕截图、日志或任何其他数字化信息 。
- 声明一个事件——事件有许多不同的入口:自动报警、内部通知或外部通知 。
- 确定事件指挥官——根据事件来源、类型和优先级,确定负责推动特定事件的唯一负责人 。
- 创建沟通通道——事件处理期间的沟通很关键 。创建标准化的专用沟通通道可以防止通信筒仓的出现 。
- 创建事件文档——包含最新事件信息的重要文件,其中包括事件描述、资源链接、面对面会议的纪要、打开的问题、行动项和时间表信息 。
- 确定个体资源——事件指挥官不会自己解决事件,他们必须在组织内找出其他的资源,让他们参与进来帮助自己 。
- 引导个体资源——光让其他资源参与进来还不够,事件指挥官还需要让这些资源了解当前的情况 。
- 通知关键干系人——对于任何给定的事件,如果关键干系人没有参与事件解决,则需要通知他们 。
- 推动事件解决——事件的实际解决,创建任务,提出问题,并跟踪答案 。解决问题后记录解决问题的要点 。
- 执行事件后回顾(PIR)——回顾事件处理执行过程,跟踪事件发生后要采取的行动,并通过构建非正式知识来推动学习 。
更好的危机管理危机管理不是一项新挑战,像 Jira、PagerDuty、VictorOps 这样的工具都在帮助组织管理和响应事件 。当开始自动化事件管理过程时,我们主要有两个目标:
- 使用已有的、用户熟悉的工具;降低事件处理所需的学习曲线 。
- 编目、存储并分析我们的事件数据,加速事件解决 。
与我们的许多工具不同,Dispatch 没有紧密绑定到 AWS,Dispatch 根本不使用任何 AWS API 。虽然 Dispatch 不使用 AWS API,但它利用已经在组织中广泛应用的多个 API(例如 Slack、GSuite、PagerDuty 等) 。除了所有内置的集成外,Dispatch 还提供了多个集成点,让其能适应几乎任何现有的环境 。
尽管是作为帮助 Netflix 管理安全事件的工具而开发的,但 Dispatch 并不局限于安全用例 。它的核心目标是管理事件的整个生命周期,专注于让个体参与进来,并为他们提供推动事件解决所需的上下文 。
工作流让我们看一下,使用 Dispatch 时,事件指挥官的新工作流:

文章插图
以下是新工作流的部分优点:
推荐阅读
- 推荐5个爆款Java开源博客,是我目前用过最好用的博客系统
- 听说过开源的Windows吗?ReactOS小记
- 一款随机代理小工具,github开源
- 还在找Navicat的破解版?该了解开源免费的DBeaver
- “算法时代”的到来!是好是坏?会变成人类的危机吗?
- 开源JavaScript实用日期处理库——date-fns
- 用开源工具 Pulp 管理你的软件仓库
- 网易云背后的数据库:Facebook开源,完全兼容MySQL
- 避免开源代码漏洞的4个最佳实践
- 一个漂亮的开源HTML5音乐播放器——APlayer