北风之神0509

2017年8月10日

摘要：可以看看这个里面的介绍，写得很好。https://duo.com/blog/driving-headless-chrome-with-python 阅读全文

posted @ 2017-08-10 18:24 北风之神0509 阅读(575) 评论(0) 推荐(0) 编辑

摘要： from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS 阅读全文

posted @ 2017-08-10 17:52 北风之神0509 阅读(336) 评论(0) 推荐(0) 编辑

splash渲染网页

摘要： splash 文档地址 http://splash.readthedocs.io/en/latest/scripting-tutorial.html docker安装，自己百度。装完docker后,运行 docker pull scrapinghub/spalsh docker run -d -p 阅读全文

posted @ 2017-08-10 17:43 北风之神0509 阅读(444) 评论(0) 推荐(0) 编辑

2017年8月7日

获取任意网页的编码格式

摘要：如果是非定向爬虫，不是专门爬一个固定位置的信息，而是成千上万的未知网站，那就需要找到编码格式了，使用如下正则，可以正确找到,准确率99%content=requests.get(url).contentbianma_group=re.search('<meta[\s\S]*?charset="?([ 阅读全文

posted @ 2017-08-07 14:16 北风之神0509 阅读(515) 评论(0) 推荐(0) 编辑

关于代理ip

摘要：反爬很重要的手段之一就是根据ip来了，包括新浪微博搜索页微信搜索页 360全系网站360搜索 360百科 360 问答 360新闻，这些都是明确的提示了是根据ip反扒的，所以需要买ip。买得是快代理和芝麻代理。芝麻代理是4600元包年，每天200个ip，每个ip可用时长为25到180分钟，也就意阅读全文

posted @ 2017-08-07 11:05 北风之神0509 阅读(933) 评论(0) 推荐(0) 编辑

2017年7月23日

python编码问题1

摘要：爬虫，新手很容易遇到编码解码方面的问题。在这里总结下。如果处理不好编码解码的问题，爬虫轻则显示乱码，重则报错UnicodeDecodeError: 'xxxxxx' codec can't decode byte 0xc6 in position 1034: invalid continuatio 阅读全文

posted @ 2017-07-23 18:47 北风之神0509 阅读(2760) 评论(0) 推荐(0) 编辑

2017年7月22日

爬虫协程比线程爬取速度更快？

摘要：先做个小示例，不用废话谈理论，没有实践的空谈都是扯蛋误导人。这篇文章不讨论线程协程的理论。只讨论标题的主题问题，爬虫速度。 # coding=utf-8 import requests,time count=0 urlx= 'http://www.xxsy.net/' # 'http://www 阅读全文

posted @ 2017-07-22 22:51 北风之神0509 阅读(4212) 评论(1) 推荐(1) 编辑

2017年7月20日

gevent动态随时添加任务

摘要：保持和py的Threadpoolexecutor一样的submit 方法名，是程序更容易在两种模式之间切换。阅读全文

posted @ 2017-07-20 14:09 北风之神0509 阅读(1045) 评论(0) 推荐(0) 编辑

2017年7月19日

在程序中使用命令行的方式来调用py文件

摘要：做这个主要是程序可以做到直接调用一个脚本，而不是从脚本中把类或者函数import出来这样调用，比如我们写的python命令行文件，让java来调用，让c++来调用，都是可以的。这样不需要整个语言都用py，否则什么都自己做加大了工作量。做这个需要两点内容就行，一个是写一个接受命令行参数的脚本。另外阅读全文

posted @ 2017-07-19 18:36 北风之神0509 阅读(11509) 评论(0) 推荐(0) 编辑

2017年7月14日

淘宝爬取某人的所有购物订单

摘要：做风险控制和个人征信，需要做数据挖掘，第一步就是要爬到消费记录，当然还有很多其他项包括收货地址宝贝收藏快速退款额度芝麻信用绑定的手机等等，先要爬到数据才能分析。淘宝直接请求登录接口不可行，不知道post参数加密规则，（大公司安全就是做得好），用selenium操作浏览器来登录得到drive 阅读全文

posted @ 2017-07-14 12:49 北风之神0509 阅读(4167) 评论(4) 推荐(0) 编辑

2017年7月11日

世纪佳缘登录之二，修改

摘要：今天发现世纪佳缘的以前登录代码不行了，登录不成功。打印content后有毛病，没跳转过去。需要再次请求一下登录后返回的<script type='text/javascript'>window.location.replace（）中的url。登录代码改成如下，就是需要多点击一次。之后再用这个s 阅读全文

posted @ 2017-07-11 17:01 北风之神0509 阅读(480) 评论(0) 推荐(0) 编辑

2017年6月30日

fiddler抓包，搞定接口

摘要：上篇介绍的世纪佳缘登录是由已有cookie保持登录状态的。世纪佳缘登陆不需要填入验证码，可以很方便直接请求登录接口来达到登录状态的目的。这篇介绍直接从登录接口进行登录，那么这就要求要找到登录接口url和接口参数。登录接口是个https，fiddler中设置https。双击这个抓包，会跳转到in 阅读全文

posted @ 2017-06-30 11:08 北风之神0509 阅读(687) 评论(0) 推荐(0) 编辑

2017年6月29日

世纪佳缘信息爬取存储到mysql,下载图片到本地，从数据库选取账号对其发送消息更新发信状态

摘要：利用这种方法，可以把所有会员信息存储下来，多线程发信息，10秒钟就可以对几百个会员完成发信了。首先是筛选信息后爬取账号信息，执行这个后，就可以看到数据库里面会有很多会员信息了。附上建表语句 CREATE TABLE `shijijiayuan` ( `id` int(10) NOT NULL 阅读全文

posted @ 2017-06-29 16:00 北风之神0509 阅读(12443) 评论(0) 推荐(0) 编辑

2017年6月10日

使用scrapy_redis，实时增量更新东方头条网全站新闻

摘要：存储使用mysql，增量更新东方头条全站新闻的标题新闻简介发布时间新闻的每一页的内容以及新闻内的所有图片。东方头条网没有反爬虫，新闻除了首页，其余板块的都是请求一个js。抓包就可以看到。项目文件结构。这是settings.py 1 # -*- coding: utf-8 -*- 2 3 阅读全文

posted @ 2017-06-10 12:29 北风之神0509 阅读(15142) 评论(6) 推荐(0) 编辑

2017年5月28日

使用tensorflow深度学习识别验证码

摘要：除了传统的PIL包处理图片,然后用pytessert+OCR识别意外,还可以使用tessorflow训练来识别验证码。此篇代码大部分是转载的，只改了很少地方。代码是运行在linux环境，tessorflow没有支持windows的python 2.7。 gen_captcha.py代码。 tra 阅读全文

posted @ 2017-05-28 19:31 北风之神0509 阅读(30932) 评论(6) 推荐(2) 编辑

2017年5月27日

单线程、多线程、多进程、协程比较，以爬取新浪军事历史为例

摘要：演示python单线程、多线程、多进程、协程这篇主要是用四种方法来实现爬虫。无论是100线程还是100进程或者100协程，网速都撑满了，爬取速度很快，单线程对网速利用很不充分，当然就爬取缓慢。特别是我之前在面试房极客时候，那主管告诉我，他说他看了网上说python多线程是假的，所以他从来就没使用阅读全文

posted @ 2017-05-27 20:47 北风之神0509 阅读(10414) 评论(0) 推荐(0) 编辑

web开发中的安全问题

摘要： web开发中很多东西由前段来负责判断，比如常见的邮箱电话号码，前端判断到不是一个正确的格式，在你点击提交时候提示你格式填错了，然后不请求后端php，直到你填写正确的格式为止。这种其实可以修改js或者干脆用python里面的requests之类的http请求库直接请求接口，那么可以成功把错误的东西提阅读全文

posted @ 2017-05-27 18:15 北风之神0509 阅读(503) 评论(0) 推荐(0) 编辑

2017年5月15日

关于无效验证码

摘要：验证码作用更多是防止随意的机器，目的是给机器造成麻烦，但是我也见过很多项目的验证码是没有任何效果的，这里说的无效验证码包括图形验证码和短信验证码。为什么说是无效的，不是因为验证码的图形做的太简单很容易图形识别，这种不算无效的。下面举例子无效的验证码，图形验证码，点击获取验证码变图形，点击后，服阅读全文

posted @ 2017-05-15 12:53 北风之神0509 阅读(1598) 评论(0) 推荐(0) 编辑

2017年5月14日

怎么制作免费短信轰炸机

摘要：做短信轰炸机就是利用短信平台的功能，对某个人狂发短信。原理是比如网站某个地方需要输入手机号码，获取短信验证码，但网站措施弱例如没有图形验证码在获取短信验证码之前，这种接口很方便很适合可以拿来利用制作免费短信轰炸机。需要抓包，看接口地址和请求参数，然后把参数中的手机号码换成别人的手机号码去请求，这阅读全文

posted @ 2017-05-14 19:06 北风之神0509 阅读(5681) 评论(0) 推荐(1) 编辑

2017年5月8日

python2.7中关于编码，json格式的中文输出显示

摘要：当我们用requests请求一个返回json的接口时候，语法是 result=requests.post(url,data).content print type(result),result 得到的结果是 <type 'str'> {"no":12,"err_code":220012,"erro 阅读全文

posted @ 2017-05-08 15:05 北风之神0509 阅读(20161) 评论(0) 推荐(0) 编辑

公告