摘要:
import paramiko def sshcmd(ip, port,username,password,command): ssh = paramiko.SSHClient() ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy()) s 阅读全文
摘要:
一、概述 command 模块可以帮助我们在远程主机上执行命令。 注意:使用 command 模块在远程主机中执行命令时,不会经过远程主机的 shell 处理,在使用 command 模块时,如果需要执行的命令中含有重定向、管道符等操作时,这些符号也会失效,比如”<”, “>”, “|”, “;” 阅读全文
摘要:
首先确定你要爬取的目标网站的表单提交方式,可以通过开发者工具看到。这里推荐使用chrome。 这里我用163邮箱为例 打开工具后再Network中,在Name选中想要了解的网站,右侧headers里的request method就是提交方式。status如果是200表示成功访问下面的有头信息,coo 阅读全文
摘要:
一、正则表达式 正则表达式为我们提供了抓取数据的快捷方式。虽然该正则表达式更容易适应未来变化,但又存在难以构造、可读性差的问题。当在爬京东网的时候,正则表达式如下图所示: 利用正则表达式实现对目标信息的精准采集 此外 ,我们都知道,网页时常会产生变更,导致网页中会发生一些微小的布局变化时,此时也会使 阅读全文
摘要:
通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作原理 通 阅读全文
摘要:
就单纯从ELK上来讨论,其实是三个组件的缩写,即:ElasticSearch、Logstash、Kibana,当然结合实际业务,也可以把ELK发展到ELKF,也就是多了一个Filebeat;这里的Filebeat只是众多beat中较为出名、用的最多的一个,还有很多beat可以实现不同文件、类型的日志 阅读全文
摘要:
1.为什么要用缓存 内存在整个计算机系统来说也就是一个缓存,CPU操作内存速度很快;因为操作数据的时候,先从硬盘中取出数据放到内存中,然后CPU操作数据 缓存:提升访问效率,将一些频繁访问地放在缓存里面 常见的缓存: Ehcache:继承在应用服务器里面内,很好集成,方便简易;容量小 Mem cac 阅读全文
摘要:
我们应该知道 Windows 有一个默认的安装目录专门用来安装软件。Linux 的软件安装目录也应该是有讲究的,遵循这一点,对后期的管理和维护也是有帮助的。 /usr 系统级的目录,可以理解为 C:/Windows/ /usr/lib 可理解为 C:/Windows/System32 。 /usr/ 阅读全文
摘要:
一、概述 主要功能:应用解耦,异步消息,流量削锋等问题架构设计:实现高性能,高可用,可伸缩和最终一致性架构常用消息队列:ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ使用场景:1)RabbitMQ:对数据一致性、稳定性和可靠性要求很高的场景,对性能和吞吐 阅读全文
摘要:
import pandas as pd import csv for i in range(1,178): # 爬取全部页 tb = pd.read_html('http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%s' % (str( 阅读全文