摘要: 利用多线程爬取,除了先前用到的几个模块之外,还需用到threading模块和queue模块: 为每一件事情开启一个线程:构造url_list、发送请求、提取数据、保存数据 __init__方法添加三个实例属性队列分别存放:url、响应内容、处理后的数据 改写原先每一个方法里的代码,需要的东西直接从队 阅读全文
posted @ 2019-07-02 18:01 springionic 阅读(287) 评论(0) 推荐(0) 编辑
摘要: Markdown: 阅读全文
posted @ 2019-07-01 17:38 springionic 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了 遍历发送请求获取响应 提取数据,这里用的是xpath提取,用的是Python的第三方模块lxml 保存数据到本地 爬取的数据有:段子内容、作者性别、作者年龄、作者头像的地址、被标记为好 阅读全文
posted @ 2019-07-01 17:04 springionic 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 首先还是谷歌浏览器抓包对该网站数据进行分析,结果如下: 该网站地址:http://www.budejie.com/text 该网站数据都是通过html页面进行展示,网站url默认为第一页,http://www.budejie.com/text/2为第二页,以此类推 对网站的内容段子所处位置进行分析, 阅读全文
posted @ 2019-06-30 16:45 springionic 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=rec 阅读全文
posted @ 2019-06-29 19:01 springionic 阅读(1149) 评论(0) 推荐(0) 编辑
摘要: Python中的列表推导式一般是大家所熟悉的,可以极大的简洁代码;而Python中的字典推导式和列表推导式也是大同小异的 cookie: PHPSESSID=et4a33og7nbftv60j3v9m86cro; Hm_lvt_51e3cc975b346e7705d8c255164036b3=156 阅读全文
posted @ 2019-06-26 21:50 springionic 阅读(2464) 评论(0) 推荐(0) 编辑
摘要: 此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善 首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数kw 首先创建类,写好__init__方法,run方法,__init__方法里先可以直接写pass 阅读全文
posted @ 2019-06-25 20:04 springionic 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 题目描述 HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢?例如:{6,-3,-2,7,-15,1 阅读全文
posted @ 2019-06-25 12:15 springionic 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 要求: 1. 不能依赖库函数直接实现此功能,需使用基础的数据结构实现 2. 时间复杂度 O(n) 思路: 1. 用字典存储每个字符在字符串中出现的次数 2. 列表是有序的,用来存储字符的出现先后 3. 最后,从前向后遍历列表,找出第一个出现次数为1的字符,即为符合条件的字符 阅读全文
posted @ 2019-06-06 16:56 springionic 阅读(6032) 评论(0) 推荐(0) 编辑
摘要: 以每年的立春作为起始点,每N天为一个单元,任给一个日期,返回该日期所在单元的起始和结束日期。例如:N=3, 输入日期20180208,返回 20180207,20180209(2018年的立春是20180204,所以第一个单元是20180204-20180206,第二个单元是 20180207-20 阅读全文
posted @ 2019-06-05 21:59 springionic 阅读(385) 评论(0) 推荐(0) 编辑