摘要: 上一期博客,我本来想爬取美团美食的,但是由于请求头太复杂,没有破解开其中的几个参数,所以放弃,这次我们来用selenium来模式浏览器抓取数据,我们先来简单看一下流程: 1,利用selenium驱动浏览器,得到美食列表 2,分析网页,并给予翻页后续的美食列表 3,分析提取数据(pyQuery) 项目 阅读全文
posted @ 2019-06-02 20:07 小菜技术 阅读(1213) 评论(0) 推荐(0) 编辑
摘要: 这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。 代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。 关于的爬虫的博客已经 阅读全文
posted @ 2019-06-02 15:09 小菜技术 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 这次我们来继续深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,我们所需的数据是通过ajax渲染到页面上去的,这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Requests,结果用到mongodb来存储(需要提前安装pymongo库),开启多线程爬。 分析:有很多网页 阅读全文
posted @ 2019-06-02 11:34 小菜技术 阅读(1403) 评论(0) 推荐(0) 编辑