摘要: 任务:将妹子图首页展示的200多页数据全部爬取下来 在爬取的过程中,需要用到requests库来获取网页 使用bs库来解析网页 随后将图片以图集的形式保存到文件汇总 首先是获取所有图集url的函数 随后定义了一个函数来对每一个 url 进行操作 在观察了网页源代码之后,我发现了图集的第一章图的页面构 阅读全文
posted @ 2019-09-27 21:50 明恕而行 阅读(1388) 评论(1) 推荐(0) 编辑
摘要: CSV数据的读取十分地简单 分为两部分 读 读取csv文件可以使用csv模块下的reader(f)以及DictReader(f) 结果表示为 而使用DictReader()来读取文件方便的一点在于可以使用索引的方式获取信息 其结果边表示为 区别:看个人喜好,喜欢哪种用哪种,但是以后应该会接触到根据不 阅读全文
posted @ 2019-09-27 12:52 明恕而行 阅读(283) 评论(0) 推荐(0) 编辑
摘要: json的表现形式和python中的字典是没有很大区别的,唯一的区别是dict的键是可hash对象,而json只能是字符串。 对于json的操作可以分为两类 一是对字符串的操作: 当需要将python数据类型转换为json 只需要使用json.dumps(obj) 就可以编码json字符串 当需要进 阅读全文
posted @ 2019-09-27 12:24 明恕而行 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 1:任务步骤:抓取博客的(标题,简要内容,发布人,发布时间) 首先直接上手requests获取网站数据,发现可以直接获取。 因此不需要进行多余的反爬措施,只需要专注于数据的获取逻辑。 数据是直接放在源代码中的。 数据获取:观察页面源代码可知 数据都是存放在 ”<div class="post_ite 阅读全文
posted @ 2019-09-27 11:35 明恕而行 阅读(212) 评论(1) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-09-27 11:09 明恕而行 阅读(2) 评论(0) 推荐(0) 编辑