独善其身412

2017年9月13日

摘要： 1使用代理ip 使用代理ip是非常有必要的，我就成功的被反爬虫了。方法如下 1建一个代理ip列表 daili_ip = [ 'ip:端口' 'ip:端口' 'ip:端口' ] 2通过radom方法在上面列表中随机获取ip every_ip = radom.chice(daili_ip) 最后将任意i 阅读全文

posted @ 2017-09-13 21:15 独善其身412 阅读(341) 评论(0) 推荐(0) 编辑

转转北京二手物品抓取

摘要：说实话在0基础的情况下自己学习python确实有点吃力，可能是我笨了吧，废话不说上代码 1抓取各栏目的链接阅读全文

posted @ 2017-09-13 20:40 独善其身412 阅读(358) 评论(0) 推荐(0) 编辑

2017年9月5日

抓取小猪短租列表内容并保存在mongodb里

摘要： import pymongoimport requestsfrom bs4 import BeautifulSoupclient = pymongo.MongoClient('localhost',27017)xiaozhu = client['xiazhu']sheet_line = xiaozh 阅读全文

posted @ 2017-09-05 21:00 独善其身412 阅读(201) 评论(0) 推荐(0) 编辑

2017年9月4日

mongodb的一些简单操作

摘要： # import pymongo #导入pymongo库# client = pymongo.MongoClient('localhost',27017) 连接python与mongo数据库（localhost是本地）# walden = client['walden']给数据库起一个名字左边是在p 阅读全文

posted @ 2017-09-04 22:19 独善其身412 阅读(121) 评论(0) 推荐(0) 编辑

2017年8月10日

模拟浏览器浏览

摘要：方法一使用build_opener()修改报头阅读全文

posted @ 2017-08-10 15:27 独善其身412 阅读(132) 评论(0) 推荐(0) 编辑

2017年8月9日

urllib库与urlerror处理

摘要：首先导入urllib库 import urllib.ruquest 导入库 file = urllib.request.urlopen("http://www.baidu.com")打开并爬取一个网页 data = file.read() 读取全部内容 dataline = file.readlin 阅读全文

posted @ 2017-08-09 17:52 独善其身412 阅读(322) 评论(0) 推荐(0) 编辑

2017年7月20日

http协议请求实战——get请求示例之抓取百度搜索关键词对应网页信息

摘要： 1通过分析搜索关键词对应的网址发现字段名和内容均在网址中网址可简化为www.baidu.com/s?wd=搜索的关键词根据分析出的规律可通过构造get请求用爬虫实现在百度上自动查询某个关键词代码如下：阅读全文

posted @ 2017-07-20 21:39 独善其身412 阅读(2182) 评论(0) 推荐(0) 编辑

2017年7月18日

两种通过urllib抓取并保存本地的方式

摘要：方式1 阅读全文

posted @ 2017-07-18 23:21 独善其身412 阅读(377) 评论(0) 推荐(0) 编辑

2017年7月15日

从基础开始

摘要：输出1-10之间的数 #!/usr/bin/env python#-*- coding:utf-8 -*-import timen1 = 1 while True: print('n1') if n1 ==10: break n1 += 1 time.sleep(1)print('end') 输出1 阅读全文

posted @ 2017-07-15 21:46 独善其身412 阅读(106) 评论(0) 推荐(0) 编辑

2017年7月9日

抓取58同城二手手机一个列表页的对应详情页的内容

摘要：本来是根据教程上的是区分个人和商家的，但是教程是15年的58同城网站进行了改版，个人的二手物品时跳转转转的，商家的还在58，所以两个详情页面的标签不再通用，没有实现个人和商家页面的跳转。代码如下：阅读全文

posted @ 2017-07-09 18:19 独善其身412 阅读(362) 评论(0) 推荐(0) 编辑

公告