随笔分类 -  爬虫

摘要:该爬虫用来实现指定关键词 以及特定时间区间的搜狗微信搜索_订阅号及文章内容的爬取.如果没有记错的话,未登录情况下,只能翻10页,想要更多,则需要基于selenium利用cookies实现模拟登录. 声明:本程序仅用于学习交流,请勿恶意使用!!! 完整程序 # -*- coding: utf-8 -* 阅读全文
posted @ 2020-04-03 17:31 LgRun 阅读(172) 评论(0) 推荐(0) 编辑
摘要:用selenium+requests进行央视网新闻抓取的时候,会出现搜索页面无法跳转的情况。 爬虫设计的思路: 爬虫在新闻搜索页面无法跳转: 可以通过: 多了一个,说明搜索成功了,只是没有跳转. 通常可以通过以下方法解决: 本文主要采用后者来解决search()的跳转问题。代码如下: 第一种:将关键 阅读全文
posted @ 2020-04-03 17:29 LgRun 阅读(579) 评论(0) 推荐(0) 编辑
摘要:网页信息提取常用的python工具包括正则表达式、CSS以及xpath. [toc] 正则表达式 叶落阁 的 "正则表达式总结" ; 以及正则表达式的 "在线测试工具" Xpath( "教程" ) XML中的节点关系包括:父(parent)、子(children)、同胞(sibling)、先辈(an 阅读全文
posted @ 2020-04-03 17:27 LgRun 阅读(431) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示