摘要: pyspide为开启js的动态网页添加全局代理ip报错,报错内容是不支持显形js 作者找到方法1 :在启动pyspider时,默认开启服务是pyspdier或pyspider all,js就需要 pyspider --proxy ‘代理ip:端口’ all 如果谁有找到全局的添加方式,还请留言,谢谢 阅读全文
posted @ 2017-11-03 18:17 二梦非凡 阅读(142) 评论(0) 推荐(0) 编辑
摘要: #!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2017-07-27 15:08:01# Project: 36_ke from pyspider.libs.base_handler import *from msxflibs.p 阅读全文
posted @ 2017-08-30 19:18 二梦非凡 阅读(580) 评论(0) 推荐(0) 编辑
摘要: 修改字段 ,,这是直接在robo 3T可视化工具里面做的db.getCollection('表名').update({},{$rename:{'updata_time':'date'}},false,true)把所有的updata_time字段修改为date子弹,后面加的false,true是所有, 阅读全文
posted @ 2017-07-21 16:48 二梦非凡 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 先要导入模块 from selenium.webdriver import DesiredCapabilitiesfrom selenium import webdriver headers={'user-agent':'', 'referer':, ‘’:‘’ } desired_capabili 阅读全文
posted @ 2017-07-21 16:34 二梦非凡 阅读(751) 评论(0) 推荐(0) 编辑
摘要: 首先导入模块: 阅读全文
posted @ 2017-07-21 16:15 二梦非凡 阅读(911) 评论(0) 推荐(0) 编辑
摘要: 需要先导入mysqldb这个模块 import MySQLdbconn= MySQLdb.connect( host='localhost', #主机,127.0.0.1 port = 3306, #端口 user='root', #用户名 passwd='root', #密码 db ='gupia 阅读全文
posted @ 2017-07-06 18:34 二梦非凡 阅读(3917) 评论(0) 推荐(0) 编辑
摘要: 我说的是拿到的json数据: 将字符串转为字典的形式: 阅读全文
posted @ 2017-07-06 18:31 二梦非凡 阅读(511) 评论(0) 推荐(0) 编辑
摘要: 废话不多说,直接上代码: 阅读全文
posted @ 2017-07-06 18:29 二梦非凡 阅读(4005) 评论(0) 推荐(0) 编辑
摘要: 使用BeautifulSoup进行定位提取的时候,因为数据是一个列表,所以会使用到索引,但是经常会提示索引越界 ,这其实就是在我们匹配的时候,太过大意, 如上: 注意td和tr,tr说的是行,td是精确到元素的,所以后面的find_all很重要,td换成tr在执行后面的时候,匹配到的数据一定不一样 阅读全文
posted @ 2017-07-04 18:34 二梦非凡 阅读(1007) 评论(0) 推荐(0) 编辑
摘要: 废话不多说,直接说重点: 刚开始做的时候,代理IP,头部信息池,都已经做好了,使用selenium+phantomjs获取js动态加载后的源码 起初挺好的,能出来动态加载后的源码,但是运行了几次之后,电脑有点卡顿(估计是运存太小),源码就获取不到了,返回的数据 都是空数据,以至于都是出错 在做的时候 阅读全文
posted @ 2017-07-04 18:28 二梦非凡 阅读(2367) 评论(0) 推荐(0) 编辑