08 2017 档案

摘要:针对py2,py3不需要这样。#coding=utf8import sysreload(sys)sys.setdefaultencoding('utf8')strx2='你好\u4e2d\u56fd,傻瓜\u65e5\u672c'print strx2print repr(strx2)finds=r 阅读全文
posted @ 2017-08-28 13:41 北风之神0509 阅读(974) 评论(0) 推荐(0) 编辑
摘要:这几天行激活pycharm pro版会遇到问题,license server的网址都不可用了。包括各个网站的百度云的破解资源链接都被和谐了,发现最近jetbrains对盗版管得严。 首次安装在注册界面选择licence server激活模式 输入 http://elporfirio.com:1017 阅读全文
posted @ 2017-08-22 11:03 北风之神0509 阅读(10055) 评论(0) 推荐(0) 编辑
摘要:这是舆情分析系统,一种泛提取的爬虫,主要是要爬取63个网站或搜索引擎的新闻。 爬虫系统主要是分为主动式调度系统和被动式调度系统。这个架构图是主动去拿种子。 还有一种是被动调用模式,自己不去爬,但是会被http接口触发来爬,比如查一个地方的房价,不是全网爬完再存数据库,而是不需要数据库,每次爬取都是实 阅读全文
posted @ 2017-08-18 16:06 北风之神0509 阅读(512) 评论(0) 推荐(0) 编辑
摘要:可以通过运行上一篇的代码就能发现。具体是什么,我不能说。大公司也有这种漏洞,哎。 阅读全文
posted @ 2017-08-15 17:13 北风之神0509 阅读(596) 评论(2) 推荐(0) 编辑
摘要:附上引入的文件一: Logger.py 附上引入的文件二 myrequests.py文件,继承这个类,这样在ChinaUnicom中的self.post就是session类的post,每个请求都携带了登录和请求e3 checklogin接口的cookie。 阅读全文
posted @ 2017-08-15 17:11 北风之神0509 阅读(14663) 评论(1) 推荐(2) 编辑
摘要:先登录再爬取。 关于时间戳,就我见过的淘宝 联通 房天下和一些杂七杂八的网站来看,时间戳基本是不造成任何影响,请求参数中直接用一个固定的时间戳也没关系,如果你喜欢你也可以用time.time()来获得时间戳。 20170921:登录现在的header里面要加入refer,否则返回9974. 阅读全文
posted @ 2017-08-12 18:32 北风之神0509 阅读(482) 评论(0) 推荐(0) 编辑
摘要:exception 能看到错误提示 traceback能看到具体的错误在哪一行,当try里面包含了上百行代码,包括功能现金的代码,如果只是用exception打印,可能不知道是哪出错了,而且不好调试定位,taraceback就十分好了。 sys.exc_info能看到错误类型和错误提示。 阅读全文
posted @ 2017-08-10 19:54 北风之神0509 阅读(881) 评论(0) 推荐(0) 编辑
摘要:豆瓣的影评,每一页的页面链接不是可以预知的,url中start从0开始,第二页是20,第三页是40,这是理想状态,但真实不是这样。所以要从网页中提取下一页的链接,单线程,自己调用自己,每爬了几十分钟后报错maximum recursion depth exceeded in cmp,以为是个偶然,反 阅读全文
posted @ 2017-08-10 19:35 北风之神0509 阅读(412) 评论(0) 推荐(0) 编辑
摘要:mannual和adhoc模式比较 Manual vs. Adhoc In the script above, we start the ChromeDriver server process when we create the WebDriver object and it is termina 阅读全文
posted @ 2017-08-10 18:39 北风之神0509 阅读(377) 评论(0) 推荐(0) 编辑
摘要:可以看看这个里面的介绍,写得很好。https://duo.com/blog/driving-headless-chrome-with-python 阅读全文
posted @ 2017-08-10 18:24 北风之神0509 阅读(576) 评论(0) 推荐(0) 编辑
摘要:from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS 阅读全文
posted @ 2017-08-10 17:52 北风之神0509 阅读(336) 评论(0) 推荐(0) 编辑
摘要:splash 文档地址 http://splash.readthedocs.io/en/latest/scripting-tutorial.html docker安装,自己百度。 装完docker后,运行 docker pull scrapinghub/spalsh docker run -d -p 阅读全文
posted @ 2017-08-10 17:43 北风之神0509 阅读(444) 评论(0) 推荐(0) 编辑
摘要:如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99%content=requests.get(url).contentbianma_group=re.search('<meta[\s\S]*?charset="?([ 阅读全文
posted @ 2017-08-07 14:16 北风之神0509 阅读(515) 评论(0) 推荐(0) 编辑
摘要:反爬很重要的手段之一就是根据ip来了,包括新浪微博搜索页 微信搜索页 360全系网站360搜索 360百科 360 问答 360新闻,这些都是明确的提示了是根据ip反扒的,所以需要买ip。买得是快代理和芝麻代理。 芝麻代理是4600元包年,每天200个ip,每个ip可用时长为25到180分钟,也就意 阅读全文
posted @ 2017-08-07 11:05 北风之神0509 阅读(938) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示