为什么现代企业无法真正实现组合式监控?
【编者按】本文作者为 Sahil Khanna,文中介绍了现代企业常用的监控工具与模式,同时指出了其中的不足,以及更为完善的解决方案。本文系 OneAPM 工程师编译整理。
我喜欢参加行业活动和会议,因为在这些地方可以见到财富 1000 强的 IT 领导人,而且我总喜欢问他们同一个问题——“你们都在使用哪些工具?” 这是个很有趣的问题,因为从他们的回答中我发现,大型 IT 企业目前所使用的工具数量多得惊人,而且我问过的所有人都在使用不同的方式配置环境。
虽然大部分企业正在使用 Splunk、APPDynamics 或 NewRelic、OneAPM,但是他们使用这些工具支持业务服务的方式截然不同,这可能是因为不同企业的每一项业务服务和出现的问题类型都完全不同。下图中的工具是我在数百遍的询问中经常听到的一部分:
我还喜欢问的第二个问题是——“你是怎样把各个监控工具里获得的信息联系起来的?” 从他们的回答中我发现两个共同点,分别与传统企业和数字化企业的监控配置有关,而且这两个共同点解释了一个更加严重的问题——为什么客户总是比监控工具更早地发现问题。
传统企业还在用遗留顶层管理系统(MoM)死撑
我说的“传统企业”,主要是指金融服务、管理服务供应商、制造业、电信公司和联邦等企业组织。虽然你在看这篇文章的时候,它们可能正在经历重大的数字化转型,但是这些企业的 IT 环境、流程和许多工具实在是太“传统”了,因为它们的工具基本上都购买于上个世纪末和本世纪初,当时 IBM、HP 和 CA 等 MoM 供应商为运营管理整合了企业级套装。这些套装从概念上而言在当时很先进,但实际上只是各种不同层级的工具集成的“大杂烩”。它们可以执行基础的降噪和事件关联,但是是通过基于规则的方式进行的,也就是说,你必须在问题发生前就预测到这个问题。可以想象这种要求会产生怎样的后果。而且,这些套装还很难配置和管理,要想使它们正常工作,还得再投入几百万美元和几百个工时。
现在,转眼到了 2016 年,这些工具依旧是传统企业的核心 IT 管理层,究其原因,是由“厂商锁定”这个堪称天才的商业策略导致的。虽然传统企业已经认识到新一代监控工具的价值,也花了巨资购买最好的工具集来提升服务质量。但是,与这些企业的IT运维团队交流时,我发现他们显然没有充分利用各个工具,而只是将一部分事件流发送至 IBM Netcool 或 CA Spectrum 之类的工具中供运维团队查看。他们被迫使用很小一部分事件,只能获得有限的可见性,因为遗留 MoM 没有以下功能:
1)扩展
2)集成新工具(没有标准的 API)
3)自动适应基础设施更改(需要手动建立或维护规则)
下图是我最近交流过的一个大型传统企业的监控图示。
他们有40多种监控工具、1000 多个应用程序,每天生成约 200,000 个事件。他们使用 CA Spectrum 作为顶层管理系统,但是由于可扩展性和集成的限制,Spectrum 每天只能从 Splunk、Keynote 和Solarwinds 接收约 30,000 个事件。也就是说,事件覆盖率只有 15%!那这样的配置是怎样为他们工作的呢?好吧,对此他们表示,只有 7% 至9% 的事件是工具检测出来的,其他的都是客户发现的。你可以想像这些企业面临过多少次 SLA 违规、收入损失以及与日俱增的 IT 成本问题。
要想更深入地了解和解决这个问题,推荐阅读 Intellyx 的杰森•彭博写的“受够了遗留监控工具?该换成可组合的 IT 监控了!”。
缺乏管理层的数字化企业也好不到哪儿去
我认为,“数字化”就是软件即服务(SaaS)、媒体、电子商务、零售、在线、独立软件开发商,等等。与传统企业的关键不同点在于,这些公司从诞生起就是数字化的,而且从一开始就没在遗留 MoM 解决方案上花过一分钱。这个特点使它们天生就具有灵活性和敏捷性,但同时也存在严重的缺陷。
我交流过的数字化企业为了满足自身独特的需求,通常都构建了一个庞大且最好的监控生态系统,但是却没有管理层将系统结合起来,现在他们开始感受到以下问题的痛苦了:
1. 没有重复数据删除功能。可能你觉得删除重复数据不重要,但是你得明白,即使事件总量只减少 25%,运维团队的查看量也会减少 25%。这就大大减少了工作量,显著提高了生产力。
2. 没有关联功能。如果没有一个工具自动告诉你,有两个或多个事件实际上与同一个问题相关,那么你可能会让不同的团队独自研究同一个问题,因而浪费了宝贵的时间。
虽然 IBM、CA、BMC 和 HP 的遗留工具需要繁重的人工劳动才能实现这些功能,但是没有管理层的数字化企业则完全与关联功能带来的益处失之交臂。
据我所见,数字化企业普遍使用电子邮件充当管理控制工具。下图是我曾交流过的一家数字化企业的监控示意图。
该企业使用电子邮件作为中央事件管理控制台。由于他们的支持团队很小,于是决定每天只发送来自 SiteConfidence Sythetics 的 500个事件,至于其他事件则全部忽略。这家数字化企业每天生成约 40,000 个事件,也就是说,他们只查看了约1%的事件。支持团队会仔细查看最关键的事件,人工删除重复数据并关联事件或告警,然后再适当地挖掘其他工具。但是这个过程极度耗费人力,而且又相当低效,最为严重的是,他们缺乏对整个 IT 环境的可见性。当被问到他们的监控工具是怎样发现问题的时候,他们告诉我“大多数”事件都是客户而不是工具发现的。
在某些特定情况下,有些公司已经形成了自己的管理解决方案,但是我很少听到它们的负责人表示对服务质量有绝对的把握。
现代事件管理工具可实现组合式监控
次时代数据监控与管理工具,如 OneAPM Cloudinsight 产品,可以帮助创业企业、服务提供商等实现最好的IT基础组件与其他数据监控,每天处理数十亿事件,以获得整个 IT 环境的完全可见性。从本质上而言,次时代监控管理工具可以实现一体化监控与管理,可以让你通过标签管理任意数据,机器,从而确保最优的服务质量和性能。
本文系 OneAPM 工程师编译整理。想阅读更多技术文章,请访问 OneAPM 官方技术博客。
本文转自 OneAPM 官方博客
原文地址:https://www.moogsoft.com/whats-new/todays-enterprise-failed-achieve-composable-monitoring/。