2020 年 10月 5 日随笔档案 - silencio。

2020年10月5日

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2020-10-05 09:23 silencio。阅读(162) 评论(0) 推荐(0) 编辑

Requests模块

摘要：一 Requests模块简介 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） #注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的req 阅读全文

posted @ 2020-10-05 09:21 silencio。阅读(123) 评论(0) 推荐(0) 编辑

selenium模块

摘要：一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium 阅读全文

posted @ 2020-10-05 09:19 silencio。阅读(120) 评论(0) 推荐(0) 编辑

面向对象进阶

摘要：类型判断 issubclass 首先，我们先看issubclass() 这个内置函数可以帮我们判断x类是否是y类型的子类 class Base: pass class Foo(Base): pass class Bar(Foo): pass print(issubclass(Bar, Foo)) # 阅读全文

posted @ 2020-10-05 09:06 silencio。阅读(112) 评论(0) 推荐(0) 编辑

silencio

公告