上一页 1 ··· 8 9 10 11 12 13 下一页
摘要: 可以看看这个里面的介绍,写得很好。https://duo.com/blog/driving-headless-chrome-with-python 阅读全文
posted @ 2017-08-10 18:24 北风之神0509 阅读(575) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS 阅读全文
posted @ 2017-08-10 17:52 北风之神0509 阅读(336) 评论(0) 推荐(0) 编辑
摘要: splash 文档地址 http://splash.readthedocs.io/en/latest/scripting-tutorial.html docker安装,自己百度。 装完docker后,运行 docker pull scrapinghub/spalsh docker run -d -p 阅读全文
posted @ 2017-08-10 17:43 北风之神0509 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 如果是非定向爬虫,不是专门爬一个固定位置的信息,而是成千上万的未知网站,那就需要找到编码格式了,使用如下正则,可以正确找到,准确率99%content=requests.get(url).contentbianma_group=re.search('<meta[\s\S]*?charset="?([ 阅读全文
posted @ 2017-08-07 14:16 北风之神0509 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 反爬很重要的手段之一就是根据ip来了,包括新浪微博搜索页 微信搜索页 360全系网站360搜索 360百科 360 问答 360新闻,这些都是明确的提示了是根据ip反扒的,所以需要买ip。买得是快代理和芝麻代理。 芝麻代理是4600元包年,每天200个ip,每个ip可用时长为25到180分钟,也就意 阅读全文
posted @ 2017-08-07 11:05 北风之神0509 阅读(933) 评论(0) 推荐(0) 编辑
摘要: 爬虫,新手很容易遇到编码解码方面的问题。在这里总结下。 如果处理不好编码解码的问题,爬虫轻则显示乱码,重则报错UnicodeDecodeError: 'xxxxxx' codec can't decode byte 0xc6 in position 1034: invalid continuatio 阅读全文
posted @ 2017-07-23 18:47 北风之神0509 阅读(2760) 评论(0) 推荐(0) 编辑
摘要: 先做个小示例,不用废话谈理论,没有实践的空谈都是扯蛋误导人。 这篇文章不讨论线程 协程的理论。只讨论标题的主题问题,爬虫速度。 # coding=utf-8 import requests,time count=0 urlx= 'http://www.xxsy.net/' # 'http://www 阅读全文
posted @ 2017-07-22 22:51 北风之神0509 阅读(4212) 评论(1) 推荐(1) 编辑
摘要: 保持和py的Threadpoolexecutor一样的submit 方法名,是程序更容易在两种模式之间切换。 阅读全文
posted @ 2017-07-20 14:09 北风之神0509 阅读(1045) 评论(0) 推荐(0) 编辑
摘要: 做这个主要是程序可以做到直接调用一个脚本,而不是从脚本中把类或者函数import出来这样调用,比如我们写的python命令行文件,让java来调用,让c++来调用,都是可以的。这样不需要整个语言都用py,否则什么都自己做加大了工作量。 做这个需要两点内容就行,一个是写一个接受命令行参数的脚本。 另外 阅读全文
posted @ 2017-07-19 18:36 北风之神0509 阅读(11509) 评论(0) 推荐(0) 编辑
摘要: 做风险控制和个人征信,需要做数据挖掘,第一步就是要爬到消费记录,当然还有很多其他项包括收货地址 宝贝收藏 快速退款额度 芝麻信用 绑定的手机等等,先要爬到数据才能分析。 淘宝直接请求登录接口不可行,不知道post参数加密规则,(大公司安全就是做得好),用selenium操作浏览器来登录得到drive 阅读全文
posted @ 2017-07-14 12:49 北风之神0509 阅读(4167) 评论(4) 推荐(0) 编辑
摘要: 今天发现世纪佳缘的以前登录代码不行了,登录不成功。打印content后有毛病,没跳转过去。 需要再次请求一下登录后返回的<script type='text/javascript'>window.location.replace()中的url。 登录代码改成如下,就是需要多点击一次。 之后再用这个s 阅读全文
posted @ 2017-07-11 17:01 北风之神0509 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 上篇介绍的世纪佳缘登录是由已有cookie保持登录状态的。世纪佳缘登陆不需要填入验证码,可以很方便直接请求登录接口来达到登录状态的目的。 这篇介绍直接从登录接口进行登录,那么这就要求要找到登录接口url和接口参数。 登录接口是个https,fiddler中设置https。 双击这个抓包,会跳转到in 阅读全文
posted @ 2017-06-30 11:08 北风之神0509 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 利用这种方法,可以把所有会员信息存储下来,多线程发信息,10秒钟就可以对几百个会员完成发信了。 首先是筛选信息后爬取账号信息, 执行这个后,就可以看到数据库里面会有很多会员信息了。 附上建表语句 CREATE TABLE `shijijiayuan` ( `id` int(10) NOT NULL 阅读全文
posted @ 2017-06-29 16:00 北风之神0509 阅读(12443) 评论(0) 推荐(0) 编辑
摘要: 存储使用mysql,增量更新东方头条全站新闻的标题 新闻简介 发布时间 新闻的每一页的内容 以及新闻内的所有图片。东方头条网没有反爬虫,新闻除了首页,其余板块的都是请求一个js。抓包就可以看到。 项目文件结构。 这是settings.py 1 # -*- coding: utf-8 -*- 2 3 阅读全文
posted @ 2017-06-10 12:29 北风之神0509 阅读(15142) 评论(6) 推荐(0) 编辑
摘要: 除了传统的PIL包处理图片,然后用pytessert+OCR识别意外,还可以使用tessorflow训练来识别验证码。 此篇代码大部分是转载的,只改了很少地方。 代码是运行在linux环境,tessorflow没有支持windows的python 2.7。 gen_captcha.py代码。 tra 阅读全文
posted @ 2017-05-28 19:31 北风之神0509 阅读(30932) 评论(6) 推荐(2) 编辑
摘要: 演示python单线程、多线程、多进程、协程 这篇主要是用四种方法来实现爬虫。无论是100线程还是100进程或者100协程,网速都撑满了,爬取速度很快,单线程对网速利用很不充分,当然就爬取缓慢。 特别是我之前在面试房极客时候,那主管告诉我,他说他看了网上说python多线程是假的,所以他从来就没使用 阅读全文
posted @ 2017-05-27 20:47 北风之神0509 阅读(10414) 评论(0) 推荐(0) 编辑
摘要: web开发中很多东西由前段来负责判断,比如常见的邮箱 电话号码,前端判断到不是一个正确的格式,在你点击提交时候提示你格式填错了,然后不请求后端php,直到你填写正确的格式为止。这种其实可以修改js或者干脆用python里面的requests之类的http请求库直接请求接口,那么可以成功把错误的东西提 阅读全文
posted @ 2017-05-27 18:15 北风之神0509 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 验证码作用更多是防止随意的机器,目的是给机器造成麻烦,但是我也见过很多项目的验证码是没有任何效果的,这里说的无效验证码包括图形验证码和短信验证码。 为什么说是无效的,不是因为验证码的图形做的太简单很容易图形识别,这种不算无效的。 下面举例子无效的验证码, 图形验证码,点击获取验证码变图形,点击后,服 阅读全文
posted @ 2017-05-15 12:53 北风之神0509 阅读(1598) 评论(0) 推荐(0) 编辑
摘要: 做短信轰炸机就是利用短信平台的功能,对某个人狂发短信。 原理是比如网站某个地方需要输入手机号码,获取短信验证码,但网站措施弱例如没有图形验证码在获取短信验证码之前,这种接口很方便很适合可以拿来利用制作免费短信轰炸机。 需要抓包,看接口地址和请求参数,然后把参数中的手机号码换成别人的手机号码去请求,这 阅读全文
posted @ 2017-05-14 19:06 北风之神0509 阅读(5681) 评论(0) 推荐(1) 编辑
摘要: 当我们用requests请求一个返回json的接口时候, 语法是 result=requests.post(url,data).content print type(result),result 得到的结果是 <type 'str'> {"no":12,"err_code":220012,"erro 阅读全文
posted @ 2017-05-08 15:05 北风之神0509 阅读(20161) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 下一页