摘要:
最近遇到phantomjs动态更换ip的功能,在知乎上看到一篇不错的文章,顺手记下来以备后用 phantomjs selenium 如何动态修改代理? 可以这样做(Python代码): # 不使用代理代打开ip138 browser=webdriver.PhantomJS(PATH_PHANTOMJ 阅读全文
摘要:
在scrapy提交一个链接请求是用 Request(url,callback=func) 这种形式的,而parse只有一个response参数,如果自定义一个有多参数的parse可以考虑用下面的方法实现多个参数传递。 def parse(self,response): yield Request(u 阅读全文
摘要:
之前pip批量更新的时候发现有些包无法更新,而且速度也特别慢,今天尝试了下清华的镜像,速度是真快 # coding=utf-8import pipfrom subprocess import call for dist in pip.get_installed_distributions(): ca 阅读全文
摘要:
<table> <tbody id="tb-37327761306"> <tr class="sep-row"><td colspan="5"></td></tr><tr class="tr-th"><td colspan="5"><span class="gap"></span><span cla 阅读全文
摘要:
Selenium中使用PhantomJS,设置User-Agent的方法。默认情况下,是没有自动设置User-Agent的;设置PhantomJS的user-agent 阅读全文
摘要:
1:在spider中返回一个自定义的字典,老版本中需要先定义一个Item,填充后再返回一个对象 新版本中可以直接返回一个字典 2:Per-spider settings 为每个spider进行单独设置,以前只能在settings文件中设置,在settings中的设置是全局的会作用到每个spider, 阅读全文
摘要:
在settings.py里面配置pipeline,这里的配置的pipeline会作用于所有的spider,我们可以为每一个spider配置不同的pipeline, 设置 Spider 的 custom_settings对象属性 class UserInfoSpider(CrawlSpider): # 阅读全文
摘要:
处理scrapy中包括多个pipeline时如何让spider执行制定的pipeline管道1:创建一个装饰器from scrapy.exceptions import DropItemimport functools'''当有多个pipeline时,判断spider如何执行指定的管道''' def 阅读全文
摘要:
最近使用Python的过程中遇到了一些坑,例如用datetime.datetime.now()这个可变对象作为函数的默认参数,模块循环依赖等等。 在此记录一下,方便以后查询和补充。 避免可变对象作为默认参数 在使用函数的过程中,经常会涉及默认参数。在Python中,当使用可变对象作为默认参数的时候, 阅读全文
摘要:
最近用Scrapy写爬虫,将爬取的数据存入Mongodb中,使用的是pymongo这个库,但是运行的时候报错如标题所示 搜了好多网站包括stackoverflow都没有解决,后来发现自己用的是虚拟环境下的python,于是切换到虚拟环境目录并激活然后在运行就正常了. 阅读全文