10 2018 档案

摘要:动态数据加载处理 动态数据加载处理 一、图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml impo 阅读全文
posted @ 2018-10-29 11:44 王竹笙 阅读(251) 评论(0) 推荐(0) 编辑
摘要:数据解析三种方式 引言:回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指 阅读全文
posted @ 2018-10-29 11:01 王竹笙 阅读(62) 评论(0) 推荐(0) 编辑
摘要:这里我们通过请求网页例子来一步步理解爬虫性能 当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环。 简单的循环串行 这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和代码如下: 通过线程池 通过线程池的方式访问,这样整体的耗时是所有连接里耗时最久的那 阅读全文
posted @ 2018-10-26 14:59 王竹笙 阅读(195) 评论(0) 推荐(0) 编辑
摘要:这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送 requests请求的时候以及网页将 response结果返回给 spiders的时候,所以从这里我们可以知道下载中间件是介于 Scrapy的 request/response处理的钩子 阅读全文
posted @ 2018-10-26 14:48 王竹笙 阅读(312) 评论(0) 推荐(0) 编辑
摘要:当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文
posted @ 2018-10-26 14:35 王竹笙 阅读(317) 评论(0) 推荐(0) 编辑
摘要:Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 1、以初始的URL初始化Request,并设置回调函数,当该request下载完毕并返回时,将生成response,并作为参数传给回调函数. 阅读全文
posted @ 2018-10-26 13:44 王竹笙 阅读(312) 评论(0) 推荐(0) 编辑
摘要:Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X 阅读全文
posted @ 2018-10-26 13:42 王竹笙 阅读(208) 评论(0) 推荐(0) 编辑
摘要:创建爬虫项目 scrapy startproject 项目名 例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字 爬虫的网址 关于命令详细使用 命令 阅读全文
posted @ 2018-10-26 13:04 王竹笙 阅读(291) 评论(0) 推荐(0) 编辑
摘要:这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程 阅读全文
posted @ 2018-10-26 10:36 王竹笙 阅读(271) 评论(0) 推荐(0) 编辑
摘要:这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了 阅读全文
posted @ 2018-10-26 10:25 王竹笙 阅读(219) 评论(0) 推荐(0) 编辑
摘要:一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit 阅读全文
posted @ 2018-10-16 16:19 王竹笙 阅读(35) 评论(0) 推荐(0) 编辑
摘要:上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正 阅读全文
posted @ 2018-10-16 13:35 王竹笙 编辑
摘要:什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python正则的详细讲解 常用 阅读全文
posted @ 2018-10-16 10:37 王竹笙 阅读(297) 评论(0) 推荐(0) 编辑
摘要:什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作 阅读全文
posted @ 2018-10-15 17:42 王竹笙 阅读(4783) 评论(0) 推荐(0) 编辑
摘要:什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块 urlopen 关于urllib.re 阅读全文
posted @ 2018-10-12 16:29 王竹笙 编辑
摘要:可以知道需要安装的是32位系统上的python 3.6.5版本的 ②登陆 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 网址找到相应文件 pip install wordcloud-1.4.1-cp36-cp36m-win32.whl ( 阅读全文
posted @ 2018-10-09 11:57 王竹笙 阅读(1259) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示