08 2017 档案
摘要:针对py2,py3不需要这样。#coding=utf8import sysreload(sys)sys.setdefaultencoding('utf8')strx2='你好\u4e2d\u56fd,傻瓜\u65e5\u672c'print strx2print repr(strx2)finds=r
阅读全文
摘要:这几天行激活pycharm pro版会遇到问题,license server的网址都不可用了。包括各个网站的百度云的破解资源链接都被和谐了,发现最近jetbrains对盗版管得严。 首次安装在注册界面选择licence server激活模式 输入 http://elporfirio.com:1017
阅读全文
摘要:这是舆情分析系统,一种泛提取的爬虫,主要是要爬取63个网站或搜索引擎的新闻。 爬虫系统主要是分为主动式调度系统和被动式调度系统。这个架构图是主动去拿种子。 还有一种是被动调用模式,自己不去爬,但是会被http接口触发来爬,比如查一个地方的房价,不是全网爬完再存数据库,而是不需要数据库,每次爬取都是实
阅读全文
摘要:可以通过运行上一篇的代码就能发现。具体是什么,我不能说。大公司也有这种漏洞,哎。
阅读全文
摘要:附上引入的文件一: Logger.py 附上引入的文件二 myrequests.py文件,继承这个类,这样在ChinaUnicom中的self.post就是session类的post,每个请求都携带了登录和请求e3 checklogin接口的cookie。
阅读全文
摘要:先登录再爬取。 关于时间戳,就我见过的淘宝 联通 房天下和一些杂七杂八的网站来看,时间戳基本是不造成任何影响,请求参数中直接用一个固定的时间戳也没关系,如果你喜欢你也可以用time.time()来获得时间戳。 20170921:登录现在的header里面要加入refer,否则返回9974.
阅读全文
摘要:exception 能看到错误提示 traceback能看到具体的错误在哪一行,当try里面包含了上百行代码,包括功能现金的代码,如果只是用exception打印,可能不知道是哪出错了,而且不好调试定位,taraceback就十分好了。 sys.exc_info能看到错误类型和错误提示。
阅读全文
摘要:豆瓣的影评,每一页的页面链接不是可以预知的,url中start从0开始,第二页是20,第三页是40,这是理想状态,但真实不是这样。所以要从网页中提取下一页的链接,单线程,自己调用自己,每爬了几十分钟后报错maximum recursion depth exceeded in cmp,以为是个偶然,反
阅读全文
摘要:mannual和adhoc模式比较 Manual vs. Adhoc In the script above, we start the ChromeDriver server process when we create the WebDriver object and it is termina
阅读全文
摘要:可以看看这个里面的介绍,写得很好。https://duo.com/blog/driving-headless-chrome-with-python
阅读全文
摘要:from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS
阅读全文
摘要:splash 文档地址 http://splash.readthedocs.io/en/latest/scripting-tutorial.html docker安装,自己百度。 装完docker后,运行 docker pull scrapinghub/spalsh docker run -d -p
阅读全文
摘要:如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99%content=requests.get(url).contentbianma_group=re.search('<meta[\s\S]*?charset="?([
阅读全文
摘要:反爬很重要的手段之一就是根据ip来了,包括新浪微博搜索页 微信搜索页 360全系网站360搜索 360百科 360 问答 360新闻,这些都是明确的提示了是根据ip反扒的,所以需要买ip。买得是快代理和芝麻代理。 芝麻代理是4600元包年,每天200个ip,每个ip可用时长为25到180分钟,也就意
阅读全文