下一站回忆

2019年8月19日

摘要：任务:对全国充电桩信息进行爬取对于实战练习不像平时小练习，需要抓取的数据完整，准确，数据量相对较大，这种情况下就需要考虑到一些问题，比如速率，数据量大容易被反爬，cookie失效，还有重要的一个就是断点续传等问题。由于数据量较大，中间容易各种原因断掉，比如网络，连接数过大，cookie失效等原因阅读全文

posted @ 2019-08-19 21:00 下一站回忆阅读(372) 评论(0) 推荐(0)

2019年5月23日

python爬虫学习之页面登陆

摘要：爬虫学习的一点心得登陆主要有3种方法：使用selenium，cookies，模拟表单登陆个人对于一般情况使用cookies登陆可以实现一次手动，长期自动，可以绕过登陆（登陆的相关信息密码，账号等会存于cookies中）注意：get网页信息时候最好是先建立一个session，不要直接reque 阅读全文

posted @ 2019-05-23 21:29 下一站回忆阅读(603) 评论(0) 推荐(0)

2019年5月21日

python爬虫学习之每日抓取新增微博

摘要：爬虫学习的一点心得任务：每日新增微博指定信息抓取抓取：requests 解析：xpath，正则表达式存储：MongDB 遇到的问题: 1. xpath 解析时，如果有一个标签中有2个属性，2个属性之间用and相连，如果其中一个属性不一样，后面不用跟等号阅读全文

posted @ 2019-05-21 23:25 下一站回忆阅读(328) 评论(0) 推荐(0)

2019年5月19日

python爬虫学习之MongoDB与Redis的运用

摘要： MongoDB与Redis的安装: MongoDB: 1.安装MongoDB后，需要安装ROBO客户端。 Redis： 1.官网下载速度极慢，使用迅雷下载即可 2.无需安装客户端，直接进行交互式操作，不管是交互式操作（redis-cli）还是用python连接，均需要先打开redis服务。 Mong 阅读全文

posted @ 2019-05-19 20:53 下一站回忆阅读(438) 评论(0) 推荐(0)

2019年5月16日

python爬虫学习之微博指定信息抓取

摘要：爬虫学习的一点心得任务：微博指定信息抓取抓取：requests 解析：xpath，正则表达式遇到的问题: 1.正则解析或Xpath解析的时候采用先抓大再抓小的方法会使抓取的信息更加准确且不会有遗漏 2.先抓大：获取到div（class=c）下的div标签中所有节点的内容text，利用tostr 阅读全文

posted @ 2019-05-16 22:22 下一站回忆阅读(615) 评论(0) 推荐(0)

python爬虫学习之视频评论抓取

摘要：爬虫学习的一点心得任务：抓取某视频评论并下载抓取：requests 解析：xpath，正则表达式遇到的问题： 1.有些data参数使用的时间戳（由13位组成），每次访问的时间戳不一样，如果每一页爬取该参数值均一样可能导致爬取错误，需要自动生成时间戳：用time.time()*1000即可。 2 阅读全文

posted @ 2019-05-16 22:09 下一站回忆阅读(369) 评论(0) 推荐(0)

python爬虫学习之小说抓取2

摘要：爬虫学习的一点心得任务：抓取某小说网站小说并下载抓取：selenium 解析：xpath，正则表达式遇到的问题: 1.用requests抓取的时候，无论如何修改请求头，抓取的源代码明显缺失严重，特别是小说文本、链接地址等重要信息都无法获取，最后万不得已只能使用 selenium模拟浏览器（我这阅读全文

posted @ 2019-05-16 21:49 下一站回忆阅读(257) 评论(0) 推荐(0)

python爬虫学习之小说抓取1

摘要：爬虫学习的一点心得任务：抓取某小说并下载抓取：requests 解析：xpath，正则表达式 1.获取小说索引页源代码时，出现乱码，试了很多方法都不行，最后找到原因是请求头中有一参数普通浏览器访问网页，之所以添加： "Accept-Encoding" = "gzip,deflate" 那是因为阅读全文

posted @ 2019-05-16 21:42 下一站回忆阅读(398) 评论(0) 推荐(0)

python爬虫学习之贴吧抓取

摘要：爬虫学习的一点心得任务：抓取贴吧主题、作者、创建时间抓取：requests 解析：xpath，正则表达式遇到的问题点： 1.headers请求头要加全，以免被反爬（抓取不到任何信息或者抓取信息不全） 2.用xpath解析的时候，我们需要获取到的内容信息在网页源代码中是被注释掉了，通过js在加载阅读全文

posted @ 2019-05-16 21:25 下一站回忆阅读(801) 评论(0) 推荐(0)

公告