摘要: 1使用代理ip 使用代理ip是非常有必要的,我就成功的被反爬虫了。方法如下 1建一个代理ip列表 daili_ip = [ 'ip:端口' 'ip:端口' 'ip:端口' ] 2通过radom方法在上面列表中随机获取ip every_ip = radom.chice(daili_ip) 最后将任意i 阅读全文
posted @ 2017-09-13 21:15 独善其身412 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 说实话在0基础的情况下自己学习python确实有点吃力,可能是我笨了吧,废话不说上代码 1抓取各栏目的链接 阅读全文
posted @ 2017-09-13 20:40 独善其身412 阅读(366) 评论(0) 推荐(0) 编辑
摘要: import pymongoimport requestsfrom bs4 import BeautifulSoupclient = pymongo.MongoClient('localhost',27017)xiaozhu = client['xiazhu']sheet_line = xiaozh 阅读全文
posted @ 2017-09-05 21:00 独善其身412 阅读(202) 评论(0) 推荐(0) 编辑
摘要: # import pymongo #导入pymongo库# client = pymongo.MongoClient('localhost',27017) 连接python与mongo数据库(localhost是本地)# walden = client['walden']给数据库起一个名字左边是在p 阅读全文
posted @ 2017-09-04 22:19 独善其身412 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 方法一 使用build_opener()修改报头 阅读全文
posted @ 2017-08-10 15:27 独善其身412 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 首先导入urllib库 import urllib.ruquest 导入库 file = urllib.request.urlopen("http://www.baidu.com")打开并爬取一个网页 data = file.read() 读取全部内容 dataline = file.readlin 阅读全文
posted @ 2017-08-09 17:52 独善其身412 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 1通过分析搜索关键词对应的网址发现字段名和内容均在网址中网址可简化为www.baidu.com/s?wd=搜索的关键词 根据分析出的规律可通过构造get请求用爬虫实现在百度上自动查询某个关键词 代码如下: 阅读全文
posted @ 2017-07-20 21:39 独善其身412 阅读(2199) 评论(0) 推荐(0) 编辑
摘要: 方式1 阅读全文
posted @ 2017-07-18 23:21 独善其身412 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 输出1-10之间的数 #!/usr/bin/env python#-*- coding:utf-8 -*-import timen1 = 1 while True: print('n1') if n1 ==10: break n1 += 1 time.sleep(1)print('end') 输出1 阅读全文
posted @ 2017-07-15 21:46 独善其身412 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 本来是根据教程上的是区分个人和商家的,但是教程是15年的58同城网站进行了改版,个人的二手物品时跳转转转的,商家的还在58,所以两个详情页面的标签不再通用,没有实现个人和商家页面的跳转。代码如下: 阅读全文
posted @ 2017-07-09 18:19 独善其身412 阅读(364) 评论(0) 推荐(0) 编辑