摘要: scrapy框架使用代理ip的基本思路是修改请求对象中的meta['proxy']的值,将代理ip赋值给这个属性。遵循这个思路,只要是生成Request对象的地方都可以设置Request的值。 downloader中间件 spider中间件 spider内部对象定义的内部parse函数和parse_ 阅读全文
posted @ 2017-05-10 21:45 zhangjpn 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 配置文件test.conf 示例 阅读全文
posted @ 2017-05-05 00:20 zhangjpn 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 一、安装 $ sudo apt-get install git ubuntuxia windows下使用msysgit 二、使用 1.配置 $git config --global user.name "xxx" $git config --global user.email "abc@qq.com 阅读全文
posted @ 2017-05-04 11:39 zhangjpn 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 参考 : http://www.th7.cn/Program/Python/201704/1154208.shtml 原因是网站的防爬虫配置起到了作用 (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy默认配置中的user-a 阅读全文
posted @ 2017-05-03 16:55 zhangjpn 阅读(1537) 评论(0) 推荐(0) 编辑
摘要: scrapy的日志记录有两种方式: spider.logger.xx()和python标准库中的logger = logging.get_Logger('log information') 向日志对象写入信息就可以记录日志。 默认的日志是输出到控制台的,为了进一步处理这些日志,需要有统一的处理程序进 阅读全文
posted @ 2017-05-03 16:45 zhangjpn 阅读(918) 评论(0) 推荐(0) 编辑
摘要: scrapy.spiders.crawl.CrawlSpider类的使用 这个类比较适用于对网站爬取批量网页,相比于Spider类,CrawlSpider主要使用规则(rules)来提取链接 rules = ( Rule(LinkExtractor(allow=(r'https://movie.do 阅读全文
posted @ 2017-05-03 16:34 zhangjpn 阅读(9821) 评论(1) 推荐(0) 编辑
摘要: 软件安装 0.如果对selunix不熟就先把它停掉 vi /etc/selinux/config 改动selinux=diabled 然后重启计算机 1.编译安装python mod_wsgi的安装需要使用到python的共享库,编译安装python时要启用共享库 ./congifure --ena 阅读全文
posted @ 2017-04-22 21:29 zhangjpn 阅读(3075) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.ruanyifeng.com/blog/2010/02/url_encoding.html 作者: 阮一峰 日期: 2010年2月11日 一、问题的由来 URL就是网址,只要上网,就一定会用到。 一般来说,URL只能使用英文字母、阿拉伯数字和某些标点符号,不能使用其他文 阅读全文
posted @ 2017-04-19 10:32 zhangjpn 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 总结 使用Python的socket和socketserver模块实现ftp文件服务器。不是很难,但在粘包的问题上纠缠了不少时间。解决办法是发送文件信息之后等待一段时间。 1 #!/usr/bin/python 2 #coding:utf-8 3 ''' 4 ftp文件上传 服务器端 5 ''' 6 阅读全文
posted @ 2017-03-17 15:19 zhangjpn 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 网络结构: LVS DR工作原理 LVS集群从客户端上看可以将整个集群看成单个服务器对外提供服务,其IP是集群内部的VIP(虚拟IP)。从内部看,转发服务器(DS)其实并没有启动应用层的服务对接口进行监听,那它是怎么发挥作用的呢?这就是LVS属于内核模块的意思了,因为这个模块是在内核编译的时候就有了 阅读全文
posted @ 2017-02-27 10:21 zhangjpn 阅读(533) 评论(0) 推荐(0) 编辑