2019 年 6月 2 日随笔档案 - 小菜技术

2019年6月2日

摘要：上一期博客，我本来想爬取美团美食的，但是由于请求头太复杂，没有破解开其中的几个参数，所以放弃，这次我们来用selenium来模式浏览器抓取数据，我们先来简单看一下流程： 1，利用selenium驱动浏览器，得到美食列表 2，分析网页，并给予翻页后续的美食列表 3，分析提取数据（pyQuery）项目阅读全文

posted @ 2019-06-02 20:07 小菜技术阅读(1213) 评论(0) 推荐(0) 编辑

python爬虫---实现项目(四) 用BeautifulSoup分析新浪新闻数据

摘要：这次只演示了，如何在真实项目内用到BeautifulSoup库来解析网页，而新浪的新闻是ajax加载过来的数据，在这里我们只演示解析部分数据（具体反扒机制没做分析）。代码地址：https://gitee.com/dwyui/BeautifulSoup_xinlang.git。关于的爬虫的博客已经阅读全文

posted @ 2019-06-02 15:09 小菜技术阅读(356) 评论(0) 推荐(0) 编辑

python爬虫---实现项目(二) 分析Ajax请求抓取数据

摘要：这次我们来继续深入爬虫数据，有些网页通过请求的html代码不能直接拿到数据，我们所需的数据是通过ajax渲染到页面上去的，这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Requests，结果用到mongodb来存储（需要提前安装pymongo库），开启多线程爬。分析：有很多网页阅读全文

posted @ 2019-06-02 11:34 小菜技术阅读(1403) 评论(0) 推荐(0) 编辑

小菜技术

公告