摘要: 今天我们来搞一下Boss直聘网,试着拿一下工作相关的信息,有助于ITer们在找工作的时候,做决策分析。 说一下思路,跟之前做的小练习,动态爬取中国图书网相比,Boss直聘的网站是采取REST风格的GET请求,我们首先看一下第一页,query=‘java’的请求URL: Request URL: ht 阅读全文
posted @ 2018-05-04 16:52 InsistPy 阅读(912) 评论(0) 推荐(1) 编辑
摘要: 在原版的基础上,添加了进程池,进程锁,以及数据处理分析小实验 原版的链接为:http://www.cnblogs.com/ChrisInsistPy/p/8981820.html 首先分析一下在整个程序的哪个进程中,可以实现多进程提高运行效率,首先爬虫程序会先去拿网站的url,然后对url内的jso 阅读全文
posted @ 2018-05-03 18:41 InsistPy 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 本人为一名刚开始学Python爬虫的小白,开贴仅为记录下自己的学习历程,方便做review 要爬取链接:http://tuan.bookschina.com/ 要爬取内容: 图书名称, 图书价格, 以及对应预览图的link 本文用到py packages: requests, BeautifulSo 阅读全文
posted @ 2018-05-02 18:37 InsistPy 阅读(861) 评论(2) 推荐(0) 编辑
隐藏