摘要: 任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中。 items.py文件 spiders文件 pipelines.py文件 settings.py文件 最终结果: 阅读全文
posted @ 2017-10-30 17:08 YangPython 阅读(10417) 评论(2) 推荐(0) 编辑
摘要: 目标任务:使用requests抓取电影网站信息和下载链接保存到数据库中,然后使用flask做数据展示。 爬取的网站在这里 最终效果如下: 主页: 可以进行搜索:输入水形物语 点击标题进入详情页: 爬虫程序 Flask项目目录如下: 在项目目录下运行如下命令,完成数据库迁移: python manag 阅读全文
posted @ 2017-10-30 13:14 YangPython 阅读(5721) 评论(2) 推荐(1) 编辑
摘要: 关于MySQL推荐一本书MySQL必知必会 首先安装第三方模块(ubuntu下Python2) 假设有一数据库test1,里面有一张产品信息表products,向其中插入一条产品信息,程序如下: Connection对象:用于建立与数据库的连接 创建对象:调用connect()方法conn=conn 阅读全文
posted @ 2017-10-18 17:08 YangPython 阅读(12763) 评论(0) 推荐(0) 编辑
摘要: requests文档 首先需要安装:pip install requests get请求 最基本的get: 添加headers及查询参数: post请求 最基本的post: 传入查询参数: 使用有道翻译的例子 设置代理 web客户端验证 比urllib2简单很多 cookie 如果一个响应中包含了c 阅读全文
posted @ 2017-10-18 14:43 YangPython 阅读(8431) 评论(0) 推荐(0) 编辑
摘要: Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,其中urlopen是模块默认构建的opener。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。如果要支持这些功能,可以使用相关的 Ha 阅读全文
posted @ 2017-10-18 13:37 YangPython 阅读(864) 评论(0) 推荐(0) 编辑
摘要: urllib2默认只支持HTTP/HTTPS的GET和POST方法 一、Get方式 GET请求一般用于我们向服务器获取数据,比如说,我们用百度搜索,在百度搜索框中搜索“秦时明月”,拿到地址栏里有效url为:https://www.baidu.com/s?wd=秦时明月 通过抓包得到其get的目标ur 阅读全文
posted @ 2017-10-18 12:18 YangPython 阅读(1918) 评论(0) 推荐(0) 编辑
摘要: 爬虫也就是所谓的网络数据采集,是一种通过多种手段收集网络数据的方式,不光是通过与 API 交互(或者直接与浏览器交互)的方式。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。实践中,网络数据采集涉及非常广泛的编程技术和 阅读全文
posted @ 2017-10-18 10:40 YangPython 阅读(2083) 评论(0) 推荐(2) 编辑
摘要: 目标任务:将之前新浪网的Scrapy爬虫项目,修改为基于RedisSpider类的scrapy-redis分布式爬虫项目,将数据存入redis数据库。 一、item文件,和之前项目一样不需要改变 二、spiders爬虫文件,使用RedisSpider类替换之前的Spider类,其余地方做些许改动即可 阅读全文
posted @ 2017-10-06 15:42 YangPython 阅读(16978) 评论(0) 推荐(1) 编辑
摘要: 目标任务:使用Scrapy框架爬取新浪网导航页所有大类、小类、小类里的子链接、以及子链接页面的新闻内容,最后保存到本地。 大类小类如下图所示: 点击国内这个小类,进入页面后效果如下图(部分截图): 查看页面元素,得到小类里的子链接如下图所示: 有子链接就可以发送请求来访问对应新闻的内容了。 首先创建 阅读全文
posted @ 2017-10-06 15:23 YangPython 阅读(10681) 评论(2) 推荐(1) 编辑
摘要: 目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。 一、创建Scrapy项目 命令执行后,会创建一个Tencent文件夹,结构如下 二、编写item文件,根据需要爬取的内容定义爬取字段 三、编写spider文件 进入Tencent目录,使 阅读全文
posted @ 2017-10-05 10:06 YangPython 阅读(99144) 评论(15) 推荐(10) 编辑