Loading

大型网站技术架构,5网站的高可用架构之网站运行监控

5.7 网站运行监控

不允许没有监控的系统上线

 

5.7.1 监控数据采集

广义上的网站监控:

网站用户行为日志、业务运行数据、性能数据

 

1、用户行为日志收集

监控什么指标?

如何监控?

有没有现有的产品?

 

用户行为日志指用户在浏览器上所做的所有操作及其所在的操作环境,

包括用户操作系统与浏览器版本信息,IP地址、页面访问路径、页面停留时间 

这些数据对统计PV/UV指标、分析用户行为、优化网站设计、个性化营销与推荐等非常重要。

 

具体的用户行为日志收集手段:

 

服务器端日志收集:

 

客户端浏览器日志收集

 

基于实时计算框架flink的日志统计与分析工具

 

2、服务器性能监控

Ganglia

美团点评的Cat?

 

3、运行数据报告

缓存命中率、平均响应延迟时间、每分钟发送邮件数目、待处理的任务总数

 

需要在具体程序中采集并报告,汇总后统一显示,应用程序需要在代码中处理运行数据采集的逻辑。

 

5.7.2 监控管理

监控数据采集后,除了用作系统性能评估、集群规模伸缩性预测等,

还可以根据实时监控数据进行风险预警,

并对服务器进行失效转移,自动负载调整,最大化利用集群所有机器的资源。

 

系统报警

 

失效转移

主动通知应用,进行失效转移

 

自动优雅降级

为了应付突然爆发的访问高峰,主动关闭部分功能,释放部分系统资源,保证网站核心功能正常访问。

自动优雅降级是一个理想状态:

1、在负载不均时,自动调整负载

2、在整体负载都高时,自动关闭非核心功能

 

5.8 小结

工程师对架构做了许多优化、对代码做了很多重构,对性能、扩展性、伸缩性做了很多改善,但别人未必能直观地感受到,业务你的领导都不知道你做的这些意义何在。

但是如果你负责的产品出了重大故障,CEO都会直到你的名字。

事物总是先求生存,然后求发展。保证网站可用,万无一失,任重而道远。

 

posted @ 2019-09-11 16:11  元宝爸爸  阅读(325)  评论(0编辑  收藏  举报