YangPython

2017年10月30日

摘要：任务目标：爬取豆瓣电影top250，将数据存储到MongoDB中。 items.py文件 spiders文件 pipelines.py文件 settings.py文件最终结果：阅读全文

posted @ 2017-10-30 17:08 YangPython 阅读(10417) 评论(2) 推荐(0) 编辑

摘要：目标任务：使用requests抓取电影网站信息和下载链接保存到数据库中，然后使用flask做数据展示。爬取的网站在这里最终效果如下：主页：可以进行搜索：输入水形物语点击标题进入详情页：爬虫程序 Flask项目目录如下：在项目目录下运行如下命令，完成数据库迁移: python manag 阅读全文

posted @ 2017-10-30 13:14 YangPython 阅读(5721) 评论(2) 推荐(1) 编辑

2017年10月18日

MySQL与Python交互

摘要：关于MySQL推荐一本书MySQL必知必会首先安装第三方模块（ubuntu下Python2）假设有一数据库test1，里面有一张产品信息表products，向其中插入一条产品信息，程序如下： Connection对象：用于建立与数据库的连接创建对象：调用connect()方法conn=conn 阅读全文

posted @ 2017-10-18 17:08 YangPython 阅读(12763) 评论(0) 推荐(0) 编辑

Python爬虫基础（四）Requests库的使用

摘要： requests文档首先需要安装：pip install requests get请求最基本的get：添加headers及查询参数： post请求最基本的post：传入查询参数：使用有道翻译的例子设置代理 web客户端验证比urllib2简单很多 cookie 如果一个响应中包含了c 阅读全文

posted @ 2017-10-18 14:43 YangPython 阅读(8431) 评论(0) 推荐(0) 编辑

Python爬虫基础（三）urllib2库的高级使用

摘要： Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例，其中urlopen是模块默认构建的opener。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。如果要支持这些功能，可以使用相关的 Ha 阅读全文

posted @ 2017-10-18 13:37 YangPython 阅读(864) 评论(0) 推荐(0) 编辑

Python爬虫基础（二）urllib2库的get与post方法

摘要： urllib2默认只支持HTTP/HTTPS的GET和POST方法一、Get方式 GET请求一般用于我们向服务器获取数据，比如说，我们用百度搜索，在百度搜索框中搜索“秦时明月”，拿到地址栏里有效url为：https://www.baidu.com/s?wd=秦时明月通过抓包得到其get的目标ur 阅读全文

posted @ 2017-10-18 12:18 YangPython 阅读(1918) 评论(0) 推荐(0) 编辑

Python爬虫基础（一）urllib2库的基本使用

摘要：爬虫也就是所谓的网络数据采集，是一种通过多种手段收集网络数据的方式，不光是通过与 API 交互（或者直接与浏览器交互）的方式。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。实践中，网络数据采集涉及非常广泛的编程技术和阅读全文

posted @ 2017-10-18 10:40 YangPython 阅读(2083) 评论(0) 推荐(2) 编辑

2017年10月6日

Python爬虫scrapy-redis分布式实例（一）

摘要：目标任务：将之前新浪网的Scrapy爬虫项目，修改为基于RedisSpider类的scrapy-redis分布式爬虫项目，将数据存入redis数据库。一、item文件，和之前项目一样不需要改变二、spiders爬虫文件，使用RedisSpider类替换之前的Spider类，其余地方做些许改动即可阅读全文

posted @ 2017-10-06 15:42 YangPython 阅读(16978) 评论(0) 推荐(1) 编辑

Python爬虫框架Scrapy实例（二）

摘要：目标任务：使用Scrapy框架爬取新浪网导航页所有大类、小类、小类里的子链接、以及子链接页面的新闻内容，最后保存到本地。大类小类如下图所示：点击国内这个小类，进入页面后效果如下图（部分截图）：查看页面元素，得到小类里的子链接如下图所示：有子链接就可以发送请求来访问对应新闻的内容了。首先创建阅读全文

posted @ 2017-10-06 15:23 YangPython 阅读(10681) 评论(2) 推荐(1) 编辑

2017年10月5日

Python爬虫框架Scrapy实例（一）

摘要：目标任务：爬取腾讯社招信息，需要爬取的内容为：职位名称，职位的详情链接，职位类别，招聘人数，工作地点，发布时间。一、创建Scrapy项目命令执行后，会创建一个Tencent文件夹，结构如下二、编写item文件，根据需要爬取的内容定义爬取字段三、编写spider文件进入Tencent目录，使阅读全文

posted @ 2017-10-05 10:06 YangPython 阅读(99144) 评论(15) 推荐(10) 编辑

公告