云监控崛起,你落伍了么?
插播一条近期新闻:云应用数据监控创企 Datadog 获 9450 万美元融资。
1月13日,云应用数据监控创企 Datadog 宣布获得9450万美元融资,本轮融资由 Iconic Capital 领投,Amplify Partners、Contour Ventures、Index Ventures 和 OpenView Venture Partners 参投。
云服务吞噬世界
我们可以发现一个现象,以国外的 Datadog 为例,云监控市场正在崛起,15 年开始尤为明显。
而这一切都是由于,一场云革命正在影响科技领域。通过惠普和 IBM 这种公司的运营策略也可以清楚的发现这一点。确实,传统的技术提供商正在拥抱云计算。他们将业务从建立和运行内部部署的基础设施,转变为提供基于云的服务。
前两年我们说,Software is eating the world——软件正在蚕食世界,现在我们可以说,Cloud service is eating the world——云服务正在吞噬世界。在云服务日益成熟,企业纷纷拥抱云计算的同时,另一股力量也在悄悄壮大。在互联网快速发展的同时,我们不仅要跑得快,还要跑的稳,国内外不少企业开始使用云服务监控,越是大型互联网企业,用的越早,比如 Facebook,比如 Netflix。
Facebook 用了 Datadog 来做运维监控,Netflix 用了 Boundary 来做运维监控。
而新闻主角 Datadog,作为国外云监控领域的旗舰公司,也拥有很多重量级客户。
我们来谈谈国内外云监控产品
集群监控和云监控这件事,可以从很多运维工程师和开发人员都熟悉的 Zabbix 和 Nagios 谈起。
Zabbix 和 Nagios 相继出现在 1998 年和 1999 年,经过历史的发展和迭代,以及社区中很多程序员的贡献,已经发展得很强大了。很多公司初期都使用 Zabbix 来做所有云主机和物理主机的监控。但是也有一些公司在后期遇到了很多大的麻烦,主要有三个原因:
- 用 Zabbix 和 Nagios 真的很依赖运维工程师的实际水平和 Docker Mesos 这些新技术的支持。
- 需要自己去找脚本来试验,真的很麻烦。
- 数据是只读的,运维工程师真的就只是看看,出啥问题了,最后还是重启,甚至需要从腾讯云换到阿里云等等这种麻烦的手段。
如果将 Zabbix 和 Nagios 等监控产品看做运维 1.0 时代的佼佼者,StatsD 系监控产品可以算作是运维 2.0 时代正在等待大放异彩的探索者。在国外基于 StatsD 产生了一系列的工具,或者在成熟的项目基础之上,开始兼容 StatsD。如果按照方向可以划分为指标集成、可视化、数据托管、时间序列数据库、事件引擎处理、一体化解决方案这几种。
由于 StatsD 本身不负责定义指标的涵义,所以从数据库或者操作系统中采集的工作,需要进行脚本的开发,而 Datadog 在这方面做出了突出贡献。dd-agent 这个项目在 GitHub 多达 150 个贡献者,兼容多达 60 多种操作系统、中间件、数据库。Datadog 的服务支持大多数主流云服务提供商,例如亚马逊的 AWS、微软 Azure、谷歌云平台和 Red Hat OpenShitf 以及 OpenStack 平台等。该公司透露,他们的检测服务能够支持这些云平台所使用的共计超过 100 种云技术。
除此之外,Librato 和 App First 也加入到 StatsD 的阵营中。而基础设施管理的解决方案:Puppet 和 Chef 也开始兼容将 StatsD 批量安装到基础设施中。
数据可视化方面 Graphite 可以说是家喻户晓,作为一个可视化的控件,Graphite 不仅包含可视化还自带存储的部分。但是单论可视化,Grafana 是做得最好的一家,其展现形式丰富,可配置项目巨细靡遗。Signal FX 后来居上,也参与到竞争中。数据可视化的基础之上,也有服务开始从事可视化数据的托管服务。例如:Host Graphite。
而国内的淘宝、小米都开始使用时间序列数据库,来解决这个云监控和集群监控的难题:
- 淘宝使用 OpenTSDB 案例:OpenTSDB监控系统的研究和介绍
- 小米开源项目:Open-Falcon|互联网企业级监控系统
而事件处理引擎方面,Riemann 等开始与时间序列数据库,或者基于 StastD 的一体化解决方案对接,在弥补除开展现之外的报警这个方向上的不足。
拥有自主研发监控产品实力的公司可以定制个性化监控产品,而中小型尤其是创业公司,也在纷纷寻找最适合自己的解决方案,国外除开这些细分的方向之外,也有厂商提供一体化的解决方案,通过轻量级的 StatsD 来达到更高的计算能力,来处理日益复杂的基础设施架构。如:Datadog、Librato 等等。而国内刚好有唯一一家这样的监控产品——Cloud Insight,利用 Statsd 和 OpenTSDB 实现的一个一体化的解决方案(免费但不开源)。
采用 StatsD 的采集技术,对接 MySQL、Redis、MongoDB,以及 CentOS、RedHat、Windows 等操作系统,利用 Hbase 存储和 OpenTSDB 的数据聚合、切片等功能,最终流向 Cloud Insight 进行展现。
云监控的未来
国外 AWS 规模越来越大,而国内阿里云也较其他竞争对手来说走的更远,在国内 laas 层面市场占有率极高。从全球市场来看, 微软 Azure、谷歌 GCE、IBM 的 Softlayer 和阿里云的市场份额与 Amazon 的 AWS 相比还有很大的距离。经过了 5 年没有竞争对手的成长之后,有人说阿里云未来会有与 AWS 和 Azure 一起竞争的实力,大家也都在注视着国内云厂商的成长。
2016 年的“云”战争也已经打响,云网络里的数据会愈趋复杂、联网设备里的流动数据在云网络里也会越来越多,越来越多的企业使用云服务的同时,也必将越来越关注云监控。据报告显示,53 家被多家顶级风投最为看重的初创企业,中有 23 家是云技术初创企业,占据了近一半的比重,而这其中就有 Datadog。
Datadog 号称目前已经获得了数千个企业用户。而对于本轮 9450 万美元的融资,Datadog 方面表示,将用于拓展亚洲和欧洲市场。但总管互联网业态发展趋势,考虑 GFW 及国外软件使用门槛等因素,国内势必会有同类云监控企业崛起,与之抗衡。目前被使用比较多的国内云监控产品应该是阿里云自身的监控、小米的 Open-Falcon|、和专门提供一体化解决方案的 OneAPM 的云监控产品 Cloud Insight。
支持 Windows,对接 ChatOps 工具,Cloud Insight 快速发展
值得一提的是,Cloud Insight 作为一个正式上线不足2个月的产品,除了 Linux 系操作系统,近期还会上线对 Windows 监控的支持。于此同时,集合了报警功能,对接了简聊、BearyChat、瀑布等事件流工具的 Cloud Insight,试图将 DevOps 与 ChatOps 相结合,为产品发展奠定一个高格局的基调。
曾经在创投界盛行过这样一句话 “你无法通过向开发者销售工具来赚钱。” 但在过去几个季度,GitHub、Stripe、Twilio 和 Slack 均完成了巨额融资,并且每家公司在融资中的估值都达到 10 亿美元以上。与此同时,在公开市场,尽管 Twitter、Yelp 和 Etsy 等公司的股价遭受重挫,但 New Relic 和 Splunk 之类的公司股价却出现上涨,或者至少与之前持平。
我们有理由相信,云监控市场还拥有巨大的潜力,尤其国内云监控市场,可以说是一块巨大的,只漏出冰山一角的金矿。
Cloud Insight 集监控、管理、计算、协作、可视化于一身,帮助所有 IT 公司,减少在系统监控上的人力和时间成本投入,让运维工作更加高效、简单。
本文转自 OneAPM 官方博客