摘要: 任务:对全国充电桩信息进行爬取 对于实战练习不像平时小练习,需要抓取的数据完整,准确,数据量相对较大,这种情况下就需要考虑到一些问题,比如速率,数据量大容易被反爬,cookie失效,还有重要的一个就是断点续传等问题。 由于数据量较大,中间容易各种原因断掉,比如网络,连接数过大,cookie失效等原因 阅读全文
posted @ 2019-08-19 21:00 下一站回忆 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 登陆主要有3种方法:使用selenium,cookies,模拟表单登陆 个人对于一般情况使用cookies登陆 可以实现一次手动,长期自动,可以绕过登陆(登陆的相关信息密码,账号等会存于cookies中) 注意:get网页信息时候最好是先建立一个session,不要直接reque 阅读全文
posted @ 2019-05-23 21:29 下一站回忆 阅读(584) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:每日新增微博指定信息抓取 抓取:requests 解析:xpath,正则表达式 存储:MongDB 遇到的问题: 1. xpath 解析时,如果有一个标签中有2个属性,2个属性之间用and相连,如果其中一个属性不一样,后面不用跟等号 阅读全文
posted @ 2019-05-21 23:25 下一站回忆 阅读(315) 评论(0) 推荐(0) 编辑
摘要: MongoDB与Redis的安装: MongoDB: 1.安装MongoDB后,需要安装ROBO客户端。 Redis: 1.官网下载速度极慢,使用迅雷下载即可 2.无需安装客户端,直接进行交互式操作,不管是交互式操作(redis-cli)还是用python连接,均需要先打开redis服务。 Mong 阅读全文
posted @ 2019-05-19 20:53 下一站回忆 阅读(419) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:微博指定信息抓取 抓取:requests 解析:xpath,正则表达式 遇到的问题: 1.正则解析或Xpath解析的时候采用先抓大再抓小的方法会使抓取的信息更加准确且不会有遗漏 2.先抓大:获取到div(class=c)下的div标签中所有节点的内容text,利用tostr 阅读全文
posted @ 2019-05-16 22:22 下一站回忆 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取某视频评论并下载 抓取:requests 解析:xpath,正则表达式 遇到的问题: 1.有些data参数使用的时间戳(由13位组成),每次访问的时间戳不一样,如果每一页爬取该参数值均一样可能导致爬取错误,需要自动生成时间戳:用time.time()*1000即可。 2 阅读全文
posted @ 2019-05-16 22:09 下一站回忆 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取某小说网站小说并下载 抓取:selenium 解析:xpath,正则表达式 遇到的问题: 1.用requests抓取的时候,无论如何修改请求头,抓取的源代码明显缺失严重,特别是小说文本、链接地址等重要信息都无法获取,最后万不得已只能使用 selenium模拟浏览器(我这 阅读全文
posted @ 2019-05-16 21:49 下一站回忆 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取某小说并下载 抓取:requests 解析:xpath,正则表达式 1.获取小说索引页源代码时,出现乱码,试了很多方法都不行,最后找到原因是请求头中有一参数 普通浏览器访问网页,之所以添加: "Accept-Encoding" = "gzip,deflate" 那是因为 阅读全文
posted @ 2019-05-16 21:42 下一站回忆 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取贴吧主题、作者、创建时间 抓取:requests 解析:xpath,正则表达式 遇到的问题点: 1.headers请求头要加全,以免被反爬(抓取不到任何信息或者抓取信息不全) 2.用xpath解析的时候,我们需要获取到的内容信息在网页源代码中是被注释掉了,通过js在加载 阅读全文
posted @ 2019-05-16 21:25 下一站回忆 阅读(787) 评论(0) 推荐(0) 编辑