python3爬虫 - 随笔分类 - 宋讼颂

采集万方医药方向的期刊+文章+作者信息(数据量千万级)

摘要：最近将万方数据的爬取代码进行了重构，速度大概有10w每小时吧，因为属于公司项目，代码暂时就不开源了，所以在这里先说说思路和一些注意事项吧，顺带吐槽一下万方。先上图：其实逻辑也蛮简单的，医学类的期刊分了16个大类，那么首先手动将这16大类所对应的唯一id拿下来拼接出该类型的url，然后翻页请求它就阅读全文

posted @ 2019-09-22 23:29 宋讼颂阅读(723) 评论(0) 推荐(0)

使用selenium模拟登录知乎

摘要：网上流传着许多抓取知乎数据的代码，抓取它的数据有一个问题一定绕不过去，那就是模拟登录，今天我们就来聊聊知乎的模拟登录。获取知乎内容的方法有两种，一种是使用request，想办法携带cookies等必要参数去请求数据，但是使用requests的话，不仅要解析Cookies，还要获取XSRF，比较麻烦阅读全文

posted @ 2018-11-18 21:38 宋讼颂阅读(5638) 评论(0) 推荐(0)

python3爬虫之Urllib库（二）

摘要：在上一篇文章中，我们大概讲了一下urllib库中最重要的两个请求方法：urlopen() 和 Request() 但是仅仅凭借那两个方法无法执行一些更高级的请求，如Cookies处理，代理设置等等。这是就是Handler大显神威的时候了，简单地说，他是各种处理器，有处理验证登录的，有处理Cooki 阅读全文

posted @ 2018-11-12 15:48 宋讼颂阅读(272) 评论(0) 推荐(0)

python3爬虫之Urllib库（一）

摘要：上一篇我简单说了说爬虫的原理，这一篇我们来讲讲python自带的请求库：urllib 在python2里边，用urllib库和urllib2库来实现请求的发送，但是在python3种在也不用那么麻烦了，因为只有一个库了：Urllib. urllib库是python的标准库，简而言之就是不用自己安装，阅读全文

posted @ 2018-11-12 10:23 宋讼颂阅读(935) 评论(0) 推荐(0)

python3爬虫之开篇

摘要：写在前面的话：折腾爬虫也有一段时间了，从一开始的懵懵懂懂，到现在的有一定基础，对于这一路的跌跌撞撞，个人觉得应该留下一些文字性的东西，毕竟好记性不如烂笔头，而且毕竟这是吃饭的家伙，必须用心对待才可以，从今天起，我将会把关于爬虫的东西进行一个整理，以供后期的查阅，同时也想将自己的一点点经验分享给大家阅读全文

posted @ 2018-11-08 18:10 宋讼颂阅读(606) 评论(0) 推荐(0)

宋讼颂

随笔分类 - python3爬虫

公告