2019 年 9月 27 日随笔档案 - 明恕而行

2019年9月27日

摘要：任务：将妹子图首页展示的200多页数据全部爬取下来在爬取的过程中，需要用到requests库来获取网页使用bs库来解析网页随后将图片以图集的形式保存到文件汇总首先是获取所有图集url的函数随后定义了一个函数来对每一个 url 进行操作在观察了网页源代码之后，我发现了图集的第一章图的页面构阅读全文

posted @ 2019-09-27 21:50 明恕而行阅读(1388) 评论(1) 推荐(0) 编辑

CSV数据存取

摘要： CSV数据的读取十分地简单分为两部分读读取csv文件可以使用csv模块下的reader(f)以及DictReader(f) 结果表示为而使用DictReader()来读取文件方便的一点在于可以使用索引的方式获取信息其结果边表示为区别：看个人喜好，喜欢哪种用哪种，但是以后应该会接触到根据不阅读全文

posted @ 2019-09-27 12:52 明恕而行阅读(283) 评论(0) 推荐(0) 编辑

爬虫json文件存储形式

摘要： json的表现形式和python中的字典是没有很大区别的，唯一的区别是dict的键是可hash对象，而json只能是字符串。对于json的操作可以分为两类一是对字符串的操作：当需要将python数据类型转换为json 只需要使用json.dumps(obj) 就可以编码json字符串当需要进阅读全文

posted @ 2019-09-27 12:24 明恕而行阅读(410) 评论(0) 推荐(0) 编辑

博客园200页数据的抓取

摘要： 1：任务步骤：抓取博客的（标题，简要内容，发布人，发布时间）首先直接上手requests获取网站数据，发现可以直接获取。因此不需要进行多余的反爬措施，只需要专注于数据的获取逻辑。数据是直接放在源代码中的。数据获取：观察页面源代码可知数据都是存放在 ”<div class="post_ite 阅读全文

posted @ 2019-09-27 11:35 明恕而行阅读(212) 评论(1) 推荐(0) 编辑

第一篇博客

该文被密码保护。阅读全文

posted @ 2019-09-27 11:09 明恕而行阅读(2) 评论(0) 推荐(0) 编辑

前端小白

公告