会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
笔记是工作中的财富
博客园
首页
新随笔
管理
上一页
1
···
10
11
12
13
14
15
16
下一页
2018年7月1日
Scrapy-Spider
摘要: CrawlSpider CrawlSpider类 CrawlSpider类常用于爬取一般的网站,其定义了一些规则(rule)来提供跟进链接的功能,使用非常方便。处理从Spider继承过来的属性外,还提供了一个新的属性ruels,该属性是一个过多个Rule对象的元组(list),每个Rule都对爬取网
阅读全文
posted @ 2018-07-01 21:53 doitjust
阅读(151)
评论(0)
推荐(0)
2018年6月30日
Scrapy-架构
摘要: Scrapy架构(各组件的功能)及Scrapy引擎控制数据流的过程 1. Scrapy架构图(绿线是数据流向): □ Scrapy引擎(Engine):引擎负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发事件。 □ 调度器(Scheduler):调度器从引擎接收Request并将它们入队
阅读全文
posted @ 2018-06-30 17:17 doitjust
阅读(185)
评论(0)
推荐(0)
scrapy-下载中间件
摘要: scrapy-下载中间件 每个下载中间件组件是定义了以下一个或多个方法的Python类■ process_request(request,spider)■ process_response(request,response,spider)■ process_exception(request,exc
阅读全文
posted @ 2018-06-30 00:24 doitjust
阅读(181)
评论(0)
推荐(0)
2018年6月24日
selenium+chrome浏览器驱动-爬取百度图片
摘要: 百度图片网页中中,当页面滚动到底部,页面会加载新的内容。 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片。 1 from selenium import webdriver 2 from selenium.webdriver.common.
阅读全文
posted @ 2018-06-24 22:37 doitjust
阅读(2001)
评论(0)
推荐(0)
selelinum+PhantomJS 爬取拉钩网职位
摘要: 使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘 拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的。 我们不去寻找它的API。这里使用另一种方式:使用PhantomJS模拟浏览,通过单击页面获取下一页。 这里
阅读全文
posted @ 2018-06-24 18:26 doitjust
阅读(213)
评论(0)
推荐(0)
urllib基础-利用网站结构爬取网页-百度搜索
摘要: 有的时候爬取网页,可以利用网站额结构特点爬取网页 在百度搜索框中输入搜索内容,单击搜索,浏览器会发送一个带有参数的url请求。尝试删除其中的一些参数,只剩下wd这个参数。发现wd是搜索内容。这样程序可以根据不同的wd值,请求不同的网页。 1 from urllib import request,pa
阅读全文
posted @ 2018-06-24 15:59 doitjust
阅读(674)
评论(0)
推荐(0)
urllib基础-构造请求对象,设置用户代理User-Agent
摘要: 有的网页具有一些反爬机制,如:需要浏览器请求头中的User-Agent。User-Agent类似浏览器的身份证。 程序中不设置User-Agent。默认是Python-urllib/3.5。这样网站就知道是程序(而不是人)在访问,有的网站(如:西刺代理)就不会响应这样的请求。 程序中要设置浏览器请求
阅读全文
posted @ 2018-06-24 15:40 doitjust
阅读(632)
评论(0)
推荐(0)
urllib基础-请求对象request
摘要: 简单的案例-爬取百度首页 1 from urllib import request 2 ''' 3 爬取百度首页 4 ''' 5 # 确定爬去目标 6 base_url = 'http://www.baidu.com' 7 8 # 发起http请求 返回一个类文件对象 9 response = re
阅读全文
posted @ 2018-06-24 14:48 doitjust
阅读(206)
评论(0)
推荐(0)
2018年5月27日
Model 模型
摘要: Model 模型模型是你的数据的唯一的、权威的信息源。它包含你所存储的数据的必要字段和行为。通常,每个模型对应数据库中唯一的一张表。 每个模型都是dhango.db.models.Model 的一个Python子类 模型的每个属性都表示数据中的的一个字段 Django提供一套自动生成的用于数据库访问
阅读全文
posted @ 2018-05-27 17:14 doitjust
阅读(518)
评论(0)
推荐(0)
天下事有难易乎?为之,则难者亦易矣;不为,则易者亦难矣。人之为学有难易乎?学之,则难者亦易矣;不学,则易者亦难矣。
摘要: 为学一首示子侄 清代:彭端淑 天下事有难易乎?为之,则难者亦易矣;不为,则易者亦难矣。人之为学有难易乎?学之,则难者亦易矣;不学,则易者亦难矣。 吾资之昏,不逮人也,吾材之庸,不逮人也;旦旦而学之,久而不怠焉,迄乎成,而亦不知其昏与庸也。吾资之聪,倍人也,吾材之敏,倍人也;屏弃而不用,其与昏与庸无以
阅读全文
posted @ 2018-05-27 16:58 doitjust
阅读(4847)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
下一页
公告