摘要: 1 .3 背景调研 robots. txt Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 WHOIS whois是用来查询域名的IP以及所有 阅读全文
posted @ 2017-02-10 15:01 Norwegian-Wood 阅读(1514) 评论(0) 推荐(0) 编辑
摘要: mem cache 英[kæʃ] 美[kæʃ]vt. 贮藏; memcache是一套分布式的高速缓存系统,目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的、需要频繁访问数据库的网站访问速度提升效果十分显著. MemCache的工作流程如下:先检查客户端的请求数据是否在memcached中, 阅读全文
posted @ 2017-02-10 10:35 Norwegian-Wood 阅读(174) 评论(0) 推荐(0) 编辑
摘要: for i in range(n,m) 区间包含n不含m 阅读全文
posted @ 2017-02-10 09:16 Norwegian-Wood 阅读(4312) 评论(0) 推荐(0) 编辑
摘要: 删除 空目录 rmdir非空目录 rm -rf 目录名字-r 就是向下递归,不管有多少级目录,一并删除-f 就是直接强行删除,不作任何提示的意思 删除文件命令rm -f 文件名将会强行删除文件,且无提示移动 mv 复制cp 阅读全文
posted @ 2017-02-09 15:53 Norwegian-Wood 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 由虚拟机的安装更新所致,及时安装更新vmware tools 命令:tar -xzvf VMwareTools-10.0.6-3595377.tar.gz进入解压后的目录,执行:sudo ./wmware-install.pl 然后就一直回车了。一直回车到底,到最后提示成功,reboot就可以了 阅读全文
posted @ 2017-02-09 14:25 Norwegian-Wood 阅读(5036) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 Redis /rae dis/是一个开源的Key-Value数据库。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。与memcached一样 阅读全文
posted @ 2017-02-09 12:01 Norwegian-Wood 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫:Apache的Nutch,Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。 JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 非JAVA单机爬虫:scrapy python内置的urlli 阅读全文
posted @ 2017-02-06 10:25 Norwegian-Wood 阅读(2606) 评论(0) 推荐(0) 编辑
摘要: Burp Suite 是用于攻击web 应用程序的集成平台。它包含了许多工具,并为这些工具设计了许多接口,以促进加快攻击应用程序的过程。 一、安装部署 需要配置java环境,首先安装java,然后配置java环境变量 JAVA_HOME:即安装jdk路径,在这路径下你应该能够找到bin、lib等目录 阅读全文
posted @ 2017-01-17 10:24 Norwegian-Wood 阅读(1801) 评论(0) 推荐(0) 编辑
摘要: 1.获取ip Unix用户可以在命令提示符中输入ifconfig来获取。 使用Windows的用户,请尝试使用 ipconfig 命令。 阅读全文
posted @ 2017-01-11 15:30 Norwegian-Wood 阅读(374) 评论(0) 推荐(0) 编辑
摘要: os.walk()返回三个参数:os.walk(dirpath,dirnames,filenames) for dirpath,dirnames,filenames in os.walk(): 返回dirnames,filenames的类型为列表list[] 返回的dirpath为filenames 阅读全文
posted @ 2017-01-04 15:35 Norwegian-Wood 阅读(520) 评论(0) 推荐(0) 编辑