2017 年 8月随笔档案 - 北风之神0509

字符串中包含汉字和\u，显示出汉字来

摘要：针对py2，py3不需要这样。#coding=utf8import sysreload(sys)sys.setdefaultencoding('utf8')strx2='你好\u4e2d\u56fd,傻瓜\u65e5\u672c'print strx2print repr(strx2)finds=r 阅读全文

posted @ 2017-08-28 13:41 北风之神0509 阅读(974) 评论(0) 推荐(0) 编辑

pycharm pro版本激活

摘要：这几天行激活pycharm pro版会遇到问题，license server的网址都不可用了。包括各个网站的百度云的破解资源链接都被和谐了，发现最近jetbrains对盗版管得严。首次安装在注册界面选择licence server激活模式输入 http://elporfirio.com:1017 阅读全文

posted @ 2017-08-22 11:03 北风之神0509 阅读(10055) 评论(0) 推荐(0) 编辑

一种爬虫架构分享

摘要：这是舆情分析系统，一种泛提取的爬虫，主要是要爬取63个网站或搜索引擎的新闻。爬虫系统主要是分为主动式调度系统和被动式调度系统。这个架构图是主动去拿种子。还有一种是被动调用模式，自己不去爬，但是会被http接口触发来爬，比如查一个地方的房价，不是全网爬完再存数据库，而是不需要数据库，每次爬取都是实阅读全文

posted @ 2017-08-18 16:06 北风之神0509 阅读(512) 评论(0) 推荐(0) 编辑

中国联通短信验证码

摘要：可以通过运行上一篇的代码就能发现。具体是什么，我不能说。大公司也有这种漏洞，哎。阅读全文

posted @ 2017-08-15 17:13 北风之神0509 阅读(596) 评论(2) 推荐(0) 编辑

中国联通通话记录、身份认证、上网记录等信息

摘要：附上引入的文件一: Logger.py 附上引入的文件二 myrequests.py文件，继承这个类，这样在ChinaUnicom中的self.post就是session类的post，每个请求都携带了登录和请求e3 checklogin接口的cookie。阅读全文

posted @ 2017-08-15 17:11 北风之神0509 阅读(14663) 评论(1) 推荐(2) 编辑

爬中国联通

摘要：先登录再爬取。关于时间戳，就我见过的淘宝联通房天下和一些杂七杂八的网站来看，时间戳基本是不造成任何影响，请求参数中直接用一个固定的时间戳也没关系，如果你喜欢你也可以用time.time（）来获得时间戳。 20170921：登录现在的header里面要加入refer，否则返回9974. 阅读全文

posted @ 2017-08-12 18:32 北风之神0509 阅读(482) 评论(0) 推荐(0) 编辑

python 捕捉错误，exception，traceback和sys.exc_info()比较

摘要：exception 能看到错误提示 traceback能看到具体的错误在哪一行，当try里面包含了上百行代码，包括功能现金的代码，如果只是用exception打印，可能不知道是哪出错了，而且不好调试定位，taraceback就十分好了。 sys.exc_info能看到错误类型和错误提示。阅读全文

posted @ 2017-08-10 19:54 北风之神0509 阅读(881) 评论(0) 推荐(0) 编辑

爬豆瓣影评，记下解决maximum recursion depth exceeded in cmp

摘要：豆瓣的影评，每一页的页面链接不是可以预知的，url中start从0开始，第二页是20，第三页是40，这是理想状态,但真实不是这样。所以要从网页中提取下一页的链接，单线程，自己调用自己，每爬了几十分钟后报错maximum recursion depth exceeded in cmp，以为是个偶然，反阅读全文

posted @ 2017-08-10 19:35 北风之神0509 阅读(412) 评论(0) 推荐(0) 编辑

selenium +chrome headless Adhoc模式渲染网页

摘要：mannual和adhoc模式比较 Manual vs. Adhoc In the script above, we start the ChromeDriver server process when we create the WebDriver object and it is termina 阅读全文

posted @ 2017-08-10 18:39 北风之神0509 阅读(377) 评论(0) 推荐(0) 编辑

selenium +chrome headless Manual 模式渲染网页

摘要：可以看看这个里面的介绍，写得很好。https://duo.com/blog/driving-headless-chrome-with-python 阅读全文

posted @ 2017-08-10 18:24 北风之神0509 阅读(576) 评论(0) 推荐(0) 编辑

selenium+phantomjs渲染网页

摘要：from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS 阅读全文

posted @ 2017-08-10 17:52 北风之神0509 阅读(336) 评论(0) 推荐(0) 编辑

splash渲染网页

摘要：splash 文档地址 http://splash.readthedocs.io/en/latest/scripting-tutorial.html docker安装，自己百度。装完docker后,运行 docker pull scrapinghub/spalsh docker run -d -p 阅读全文

posted @ 2017-08-10 17:43 北风之神0509 阅读(444) 评论(0) 推荐(0) 编辑

获取任意网页的编码格式

摘要：如果是非定向爬虫，不是专门爬一个固定位置的信息，而是成千上万的未知网站，那就需要找到编码格式了，使用如下正则，可以正确找到,准确率99%content=requests.get(url).contentbianma_group=re.search('<meta[\s\S]*?charset="?([ 阅读全文

posted @ 2017-08-07 14:16 北风之神0509 阅读(515) 评论(0) 推荐(0) 编辑

关于代理ip

摘要：反爬很重要的手段之一就是根据ip来了，包括新浪微博搜索页微信搜索页 360全系网站360搜索 360百科 360 问答 360新闻，这些都是明确的提示了是根据ip反扒的，所以需要买ip。买得是快代理和芝麻代理。芝麻代理是4600元包年，每天200个ip，每个ip可用时长为25到180分钟，也就意阅读全文

posted @ 2017-08-07 11:05 北风之神0509 阅读(938) 评论(0) 推荐(0) 编辑

北风之神0509

08 2017 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

python