二梦非凡 - 博客园

2017年11月3日

摘要： pyspide为开启js的动态网页添加全局代理ip报错，报错内容是不支持显形js 作者找到方法1 ：在启动pyspider时，默认开启服务是pyspdier或pyspider all，js就需要 pyspider --proxy ‘代理ip：端口’ all 如果谁有找到全局的添加方式，还请留言，谢谢阅读全文

posted @ 2017-11-03 18:17 二梦非凡阅读(151) 评论(0) 推荐(0)

2017年8月30日

123123

摘要： #!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2017-07-27 15:08:01# Project: 36_ke from pyspider.libs.base_handler import *from msxflibs.p 阅读全文

posted @ 2017-08-30 19:18 二梦非凡阅读(607) 评论(0) 推荐(0)

2017年7月21日

mongodb数据库操作，导入导出，增删改查

摘要：修改字段，，这是直接在robo 3T可视化工具里面做的db.getCollection('表名').update({},{$rename:{'updata_time':'date'}},false,true)把所有的updata_time字段修改为date子弹，后面加的false，true是所有，阅读全文

posted @ 2017-07-21 16:48 二梦非凡阅读(627) 评论(0) 推荐(0)

selenium+phantomjs动态添加headers信息，动态加载

摘要：先要导入模块 from selenium.webdriver import DesiredCapabilitiesfrom selenium import webdriver headers={'user-agent':'', 'referer':, ‘’：‘’ } desired_capabili 阅读全文

posted @ 2017-07-21 16:34 二梦非凡阅读(762) 评论(0) 推荐(0)

使用selenium模拟登陆点击登陆按钮

摘要：首先导入模块：阅读全文

posted @ 2017-07-21 16:15 二梦非凡阅读(934) 评论(0) 推荐(0)

2017年7月6日

python2.7连接mysql数据库，并从插入数据

摘要：需要先导入mysqldb这个模块 import MySQLdbconn= MySQLdb.connect( host='localhost', #主机，127.0.0.1 port = 3306, #端口 user='root', #用户名 passwd='root', #密码 db ='gupia 阅读全文

posted @ 2017-07-06 18:34 二梦非凡阅读(3935) 评论(0) 推荐(0)

python爬虫拿出json数据

摘要：我说的是拿到的json数据：将字符串转为字典的形式：阅读全文

posted @ 2017-07-06 18:31 二梦非凡阅读(520) 评论(0) 推荐(0)

python年月日的循环，直到给定结束日期

摘要：废话不多说，直接上代码：阅读全文

posted @ 2017-07-06 18:29 二梦非凡阅读(4043) 评论(0) 推荐(0)

2017年7月4日

python爬虫索引越界

摘要：使用BeautifulSoup进行定位提取的时候，因为数据是一个列表，所以会使用到索引，但是经常会提示索引越界，这其实就是在我们匹配的时候，太过大意，如上：注意td和tr，tr说的是行，td是精确到元素的，所以后面的find_all很重要，td换成tr在执行后面的时候，匹配到的数据一定不一样阅读全文

posted @ 2017-07-04 18:34 二梦非凡阅读(1050) 评论(0) 推荐(0)

python爬虫 selenium+phantomjs动态解析网页，加载页面成功，返回空数据

摘要：废话不多说，直接说重点：刚开始做的时候，代理IP，头部信息池，都已经做好了，使用selenium+phantomjs获取js动态加载后的源码起初挺好的，能出来动态加载后的源码，但是运行了几次之后，电脑有点卡顿（估计是运存太小），源码就获取不到了，返回的数据都是空数据，以至于都是出错在做的时候阅读全文

posted @ 2017-07-04 18:28 二梦非凡阅读(2380) 评论(0) 推荐(0)

会飞的鱼_刘建良

公告