摘要: 一、引入 用eval内置方法可以将一个字符串转成python对象,不过,eval方法是有局限性的,对于普通的数据类型,json.loads和eval都能用,但遇到特殊类型的时候,eval就不管用了,所以eval的重点还是通常用来执行一个字符串表达式,并返回表达式的值。 1 import json 2 阅读全文
posted @ 2019-07-10 01:09 souwote 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 爬取目标:https://maoyan.com/board/4?offset=0 一、爬取首页 二、正则提取 正则提取首先要分析网站源代码 需要提取的信息有:排名,图片地址,片名,主演,上映日期和评分 从代码中可以看出,每个影片信息存放在一个<dd></dd>标签中 正则匹配时必须加上class名( 阅读全文
posted @ 2019-07-07 20:41 souwote 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 买了个阿里云学生优惠的服务器,搭建过程中也学到了不少,现在把我搭建的过程整理一遍,其中会加上我搭建时的各种各种各种坑 一共十三步: 建议先看第十步,准备网站的备案,备案时间可能会久一些 有任何疑问或哪些说的不对的,欢迎提问或指正 好了,闲话不多说,直接上干货 一、阿里云云翼计划,一年也不贵,是学生可 阅读全文
posted @ 2019-05-13 22:24 souwote 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 生成器 yield是用于生成器。生成器通俗的认为,在一个函数中,使用了yield来代替return的位置的函数,就是生成器。它不同于函数的使用方法是:函数使用return来进行返回值,每调用一次,返回一个新加工好的数据返回给你;yield不同,它会在调用生成器的时候,把数据生成object,然后当需 阅读全文
posted @ 2019-04-25 22:11 souwote 阅读(527) 评论(0) 推荐(0) 编辑
摘要: 参数组:*args,**kwargs 加了星号 * 的参数会以元组(tuple)的形式导入,存放所有未命名的变量参数 result 加了两个星号 ** 的参数会以字典的形式导入 result 阅读全文
posted @ 2019-04-24 21:21 souwote 阅读(1101) 评论(0) 推荐(0) 编辑
摘要: ThreadPoolExecutor(线程池) 线程池一些知识点: 编写方法一:直接返回处理 result 编写方法二:通过回调函数进行处理 result 阅读全文
posted @ 2019-04-24 20:29 souwote 阅读(3267) 评论(0) 推荐(0) 编辑
摘要: 自动登录GitHub 获取网页信息等 阅读全文
posted @ 2019-04-23 22:50 souwote 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 阶段大纲: 一. 爬虫1. 基本操作- 登录任意网站(伪造浏览器的任何行为)2. 性能相关- 并发方案: - 异步IO: gevent/Twisted/asyncio/aiohttp- 自定义异步IO模块- IO多路复用:select3. Scrapy框架介绍:异步IO:Twisted- 基于Scr 阅读全文
posted @ 2019-04-23 19:05 souwote 阅读(353) 评论(0) 推荐(0) 编辑