摘要: 爬虫学习的一点心得 任务:微博指定信息抓取 抓取:requests 解析:xpath,正则表达式 遇到的问题: 1.正则解析或Xpath解析的时候采用先抓大再抓小的方法会使抓取的信息更加准确且不会有遗漏 2.先抓大:获取到div(class=c)下的div标签中所有节点的内容text,利用tostr 阅读全文
posted @ 2019-05-16 22:22 下一站回忆 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取某视频评论并下载 抓取:requests 解析:xpath,正则表达式 遇到的问题: 1.有些data参数使用的时间戳(由13位组成),每次访问的时间戳不一样,如果每一页爬取该参数值均一样可能导致爬取错误,需要自动生成时间戳:用time.time()*1000即可。 2 阅读全文
posted @ 2019-05-16 22:09 下一站回忆 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取某小说网站小说并下载 抓取:selenium 解析:xpath,正则表达式 遇到的问题: 1.用requests抓取的时候,无论如何修改请求头,抓取的源代码明显缺失严重,特别是小说文本、链接地址等重要信息都无法获取,最后万不得已只能使用 selenium模拟浏览器(我这 阅读全文
posted @ 2019-05-16 21:49 下一站回忆 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取某小说并下载 抓取:requests 解析:xpath,正则表达式 1.获取小说索引页源代码时,出现乱码,试了很多方法都不行,最后找到原因是请求头中有一参数 普通浏览器访问网页,之所以添加: "Accept-Encoding" = "gzip,deflate" 那是因为 阅读全文
posted @ 2019-05-16 21:42 下一站回忆 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 爬虫学习的一点心得 任务:抓取贴吧主题、作者、创建时间 抓取:requests 解析:xpath,正则表达式 遇到的问题点: 1.headers请求头要加全,以免被反爬(抓取不到任何信息或者抓取信息不全) 2.用xpath解析的时候,我们需要获取到的内容信息在网页源代码中是被注释掉了,通过js在加载 阅读全文
posted @ 2019-05-16 21:25 下一站回忆 阅读(787) 评论(0) 推荐(0) 编辑