爬虫 - 随笔分类 - LgRun

基于selenium的爬虫

摘要：该爬虫用来实现指定关键词以及特定时间区间的搜狗微信搜索_订阅号及文章内容的爬取.如果没有记错的话,未登录情况下,只能翻10页,想要更多,则需要基于selenium利用cookies实现模拟登录. 声明:本程序仅用于学习交流,请勿恶意使用!!! 完整程序 # -*- coding: utf-8 -* 阅读全文

posted @ 2020-04-03 17:31 LgRun 阅读(218) 评论(0) 推荐(0)

Selenium+requests出现窗口不能跳转的情况

摘要：用selenium+requests进行央视网新闻抓取的时候，会出现搜索页面无法跳转的情况。爬虫设计的思路：爬虫在新闻搜索页面无法跳转：可以通过：多了一个，说明搜索成功了，只是没有跳转. 通常可以通过以下方法解决：本文主要采用后者来解决search()的跳转问题。代码如下：第一种：将关键阅读全文

posted @ 2020-04-03 17:29 LgRun 阅读(614) 评论(0) 推荐(0)

爬虫：网页信息提取

摘要：网页信息提取常用的python工具包括正则表达式、CSS以及xpath. [toc] 正则表达式叶落阁的 "正则表达式总结" ；以及正则表达式的 "在线测试工具" Xpath( "教程" ) XML中的节点关系包括：父（parent）、子(children)、同胞（sibling）、先辈(an 阅读全文

posted @ 2020-04-03 17:27 LgRun 阅读(479) 评论(0) 推荐(0)

LgRun

随笔分类 - 爬虫

公告