11 2018 档案
摘要:一、Scrapy介绍 1、Scrapy是什么 Scrapy 是一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取AP
阅读全文
摘要:一、selenlum介绍 selenium这个三方库,最初是一个自动化测试工具,可以实现让浏览器完成自动化的操作。 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。 而爬虫中使用它主要是为了解决 requests无
阅读全文
摘要:一、lxml介绍 第三方库lxml是第一款表现出高性能特征的python xml库,天生支持Xpath1.0、XSLT1.0、定制元素类,甚至python风格的数据绑定接口。lxml是通过Cpython实现的,构建在两个C库上(libxml2和libxslt),为执行解析、序列化、转换等核心任务提供
阅读全文
摘要:一、urllib介绍 urllib是python中自带的一个基于爬虫的模块, 作用:urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象。可以使用代码模拟浏览器发起请求。 详见官网资料:2.7.5:urllib — Open
阅读全文
摘要:一、Jupyter Notebook介绍 1、什么是Jupyter Notebook Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过编码开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍。 简而言之,Jupyter Notebook
阅读全文