会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
独善其身412
博客园
首页
新随笔
联系
订阅
管理
2017年9月13日
通过转转项目的模仿学到的新东西
摘要: 1使用代理ip 使用代理ip是非常有必要的,我就成功的被反爬虫了。方法如下 1建一个代理ip列表 daili_ip = [ 'ip:端口' 'ip:端口' 'ip:端口' ] 2通过radom方法在上面列表中随机获取ip every_ip = radom.chice(daili_ip) 最后将任意i
阅读全文
posted @ 2017-09-13 21:15 独善其身412
阅读(342)
评论(0)
推荐(0)
编辑
转转北京二手物品抓取
摘要: 说实话在0基础的情况下自己学习python确实有点吃力,可能是我笨了吧,废话不说上代码 1抓取各栏目的链接
阅读全文
posted @ 2017-09-13 20:40 独善其身412
阅读(366)
评论(0)
推荐(0)
编辑
2017年9月5日
抓取小猪短租列表内容并保存在mongodb里
摘要: import pymongoimport requestsfrom bs4 import BeautifulSoupclient = pymongo.MongoClient('localhost',27017)xiaozhu = client['xiazhu']sheet_line = xiaozh
阅读全文
posted @ 2017-09-05 21:00 独善其身412
阅读(202)
评论(0)
推荐(0)
编辑
2017年9月4日
mongodb的一些简单操作
摘要: # import pymongo #导入pymongo库# client = pymongo.MongoClient('localhost',27017) 连接python与mongo数据库(localhost是本地)# walden = client['walden']给数据库起一个名字左边是在p
阅读全文
posted @ 2017-09-04 22:19 独善其身412
阅读(121)
评论(0)
推荐(0)
编辑
2017年8月10日
模拟浏览器浏览
摘要: 方法一 使用build_opener()修改报头
阅读全文
posted @ 2017-08-10 15:27 独善其身412
阅读(135)
评论(0)
推荐(0)
编辑
2017年8月9日
urllib库与urlerror处理
摘要: 首先导入urllib库 import urllib.ruquest 导入库 file = urllib.request.urlopen("http://www.baidu.com")打开并爬取一个网页 data = file.read() 读取全部内容 dataline = file.readlin
阅读全文
posted @ 2017-08-09 17:52 独善其身412
阅读(322)
评论(0)
推荐(0)
编辑
2017年7月20日
http协议请求实战——get请求示例之抓取百度搜索关键词对应网页信息
摘要: 1通过分析搜索关键词对应的网址发现字段名和内容均在网址中网址可简化为www.baidu.com/s?wd=搜索的关键词 根据分析出的规律可通过构造get请求用爬虫实现在百度上自动查询某个关键词 代码如下:
阅读全文
posted @ 2017-07-20 21:39 独善其身412
阅读(2199)
评论(0)
推荐(0)
编辑
2017年7月18日
两种通过urllib抓取并保存本地的方式
摘要: 方式1
阅读全文
posted @ 2017-07-18 23:21 独善其身412
阅读(380)
评论(0)
推荐(0)
编辑
2017年7月15日
从基础开始
摘要: 输出1-10之间的数 #!/usr/bin/env python#-*- coding:utf-8 -*-import timen1 = 1 while True: print('n1') if n1 ==10: break n1 += 1 time.sleep(1)print('end') 输出1
阅读全文
posted @ 2017-07-15 21:46 独善其身412
阅读(107)
评论(0)
推荐(0)
编辑
2017年7月9日
抓取58同城二手手机一个列表页的对应详情页的内容
摘要: 本来是根据教程上的是区分个人和商家的,但是教程是15年的58同城网站进行了改版,个人的二手物品时跳转转转的,商家的还在58,所以两个详情页面的标签不再通用,没有实现个人和商家页面的跳转。代码如下:
阅读全文
posted @ 2017-07-09 18:19 独善其身412
阅读(364)
评论(0)
推荐(0)
编辑
下一页
公告