摘要: 上来先贴地址,刚入门的可以来van啊: 黑板客爬虫闯关 0x00 第一关 打开网址,看到如下页面: 先抱着试试看的心态在网址后面加上数字看看效果: 怕不是个循环,获取网页中的数字不断加到url中,验证猜想,继续试一试: ????? 那就把原来的数字换掉: 妙啊: 这里基本确定思路,获取网页内的数字, 阅读全文
posted @ 2019-01-24 22:06 Ragd0ll 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 采用scrapy实现对股票网站的爬取 功能描述: 技术路线:scrapy 目标:获取上交所和深交所所有股票名称和交易信息并存储 实例编写: 步骤1:建立工程和spider爬虫模板 步骤2:编写spider 步骤3:编写item pipeline 新建工程: 生成名为stocks的爬虫 打开IDE,将 阅读全文
posted @ 2019-01-17 17:17 Ragd0ll 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 0x00 scrapy爬虫框架 scrapy库的安装: 可以直接使用pip install scrapy来安装,如果IDE是pycharm的话参考之前requests库的安装 scrapy爬虫框架结构: scrapy采用5+2的结构,五个主要模块加上两个中间键 详细介绍一下各个组件: 引擎(Engi 阅读全文
posted @ 2019-01-15 21:25 Ragd0ll 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 0x00 获取某地七天天气预报 打开中国天气网,随便查询当地天气,查看返回页面的源码 发现我们需要的信息都在<ul>标签下的<li>标签中,所以这里的基本思路就是遍历<ul>标签下的<li>,每次获取日期,天气,温度三个数据, 首先定义四个函数来实现全部功能。第一个函数获取网页信息,第二个函数将信息 阅读全文
posted @ 2019-01-14 21:01 Ragd0ll 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 0x00 股票数据定向爬虫 功能描述: 目标:获取上交所和深交所所有股票名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 程序结构设计: 步骤1:从东方财富网获取股票列表 步骤2:根据股票列表逐个到百度股票获取个股信息 步骤3:将结果存储到文件 代码优化: 因为我们做的是 阅读全文
posted @ 2019-01-11 16:41 Ragd0ll 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 0x00 re正则表达式 正则表达式: 通用字符串表达的框架 简洁表达一组字符串的表达式 针对字符串表达“简洁”和“特征”思想的工具 正则表达式在文本处理中的作用: 表达文本类型 同时查找和替换一组字符串 匹配字符串的全部或部分 正则表达式常用操作符: 正则表达式语法实例: 经典的正则表达式实例: 阅读全文
posted @ 2019-01-10 19:54 Ragd0ll 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 0x00 中国最好大学排名的爬取 我们通过上海交通大学设计研发的最好大学网来进行数据的抓取 这是本次爬取的url:软科中国最好大学排名 功能描述: 输入目标url 输出大学排名信息(排名、学校、总分) 技术路线:requests-bs4 定向爬取:只对该url进行爬取 分析: 查看网页源代码,为了快 阅读全文
posted @ 2019-01-09 22:52 Ragd0ll 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 0x00 beautiful soup 首先安装beautiful soup,直接在cmd中使用pip install beautifulsoup4命令执行安装,若使用pycharmIDE 的话,参考之前安装requests库的方法。 beautiful soup库是解析、遍历、维护标签树的功能库。 阅读全文
posted @ 2019-01-08 19:31 Ragd0ll 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 0x00 理解requests库的异常 requests库的异常: 0x01 爬取网页的通用框架 实例1:对狗东某网页的简单爬取 首先对网页进行基本的判断,通过status_code、encoding方法查看网页 接着就是按照之前给的框架,将修改url进行爬取 实例2:百度、360参数提交 实例3: 阅读全文
posted @ 2019-01-07 22:35 Ragd0ll 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 0x00 环境简介和安装 我这里使用的是python2.7版本,直接使用pycharm2018这款IDE。 首先在pycharm中配置一下virtualenv环境,virtualenv是一个创建独立Python运行环境的工具,为一个应用创建一套“隔离”的Python运行环境。 创建new proje 阅读全文
posted @ 2019-01-05 23:56 Ragd0ll 阅读(305) 评论(0) 推荐(0) 编辑