摘要:
给系统做诊断,犹如给人看病,需要根据各种现象,抽丝剥茧,排除各种可能,最后选择可能的选项,然后再通过验证,去论证观点;原因确定后,再针对原因进行改进。可见,诊断不是一件容易的事情,考察的是一个人的综合能力,包括基础知识是否扎实,实战经验是否丰富。诊断出系统故障的根因,且能够药到病除,这是大神才有的手 阅读全文
摘要:
前段时间,帮朋友搭建的CMS网站,被阿里云报警,告知主动连接恶意的URL,于是登陆到阿里云后台检查情况,前几天没空,只做了简单的查和杀,今天有空来继续分析和排查下问题。本人的水平有限,只是做基本排查给小白提供一种思路罢了,也是这次检测过程的一种分析吧。 一 可疑进程排查 先是用TOP命令查询下是否有 阅读全文
摘要:
上一篇用requests这个库进行图片的批量下载,只所以可以这样做,是因为豆瓣提供的XHR的接口API,而且接口返回的数据类型为json格式,所以使用起来非常的方便,但是有时候我们需要分析html格式或xml格式的数据,从中提取需要的链接,再进行下载,这时候selenium就派上了用场。 一 人工下 阅读全文
摘要:
一 写爬虫注意事项 网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么样的爬虫是违法的: 如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财 阅读全文
摘要:
贪心算法和分治算法、动态规划算法、回溯算法都是一种编程思想,深入理解这些编程思想,我们也可以根据实际情况设计自己的算法。 一 贪心算法原理 贪心算法的原理比较简单,就是对问题求解的时候,每步都选择当前的最优解,然后已期望得到全局最优解。贪心算法的适用场景是每次选择是没有状态的,也就是不会对后面的步骤 阅读全文
摘要:
一 前言 目前生产系统由Solr转ES了,在这边就记录下在使用过程中容易忽视的配置吧,其实我也是才用,如果有什么错误的地方,多指正。 二、配置 1、ES的段合并是限速设置 默认是20MB/s ,如果是SSD磁盘建议增大:```PUT /_cluster/settings{ "persistent" 阅读全文
摘要:
一、引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。 阅读全文
摘要:
转自:https://blog.csdn.net/zxf_668899/article/details/54582849 配置文件 基本概念 接近实时NRT 集群cluster 索引index 文档document 映射mapping 类型type 分片shards 副本replicas 数据恢复r 阅读全文
摘要:
题记 Elasticsearch当清理缓存( echo 3 > /proc/sys/vm/drop_caches )的时候,出现 如下集群健康值:red,红色预警状态,同时部分分片都成为灰色。 查看Elasticsearch启动日志会发现如下: 集群服务超时连接的情况。 1 该问题排查耗时很长,问题 阅读全文