2018 年 10月随笔档案 - 王竹笙

6-----selenuim和phantonJs处理网页动态加载数据的爬取

摘要：动态数据加载处理动态数据加载处理一、图片懒加载什么是图片懒加载？案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml impo 阅读全文

posted @ 2018-10-29 11:44 王竹笙阅读(251) 评论(0) 推荐(0) 编辑

4-----三种数据解析方式学习

摘要：数据解析三种方式引言：回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实，在上述流程中还需要较为重要的一步，就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指阅读全文

posted @ 2018-10-29 11:01 王竹笙阅读(62) 评论(0) 推荐(0) 编辑

爬虫性能

摘要：这里我们通过请求网页例子来一步步理解爬虫性能当我们有一个列表存放了一些url需要我们获取相关数据，我们首先想到的是循环。简单的循环串行这一种方法相对来说是最慢的，因为一个一个循环，耗时是最长的，是所有的时间总和代码如下：通过线程池通过线程池的方式访问，这样整体的耗时是所有连接里耗时最久的那阅读全文

posted @ 2018-10-26 14:59 王竹笙阅读(195) 评论(0) 推荐(0) 编辑

7-----Scrapy框架中Download Middleware用法

摘要：这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送 requests请求的时候以及网页将 response结果返回给 spiders的时候，所以从这里我们可以知道下载中间件是介于 Scrapy的 request/response处理的钩子阅读全文

posted @ 2018-10-26 14:48 王竹笙阅读(312) 评论(0) 推荐(0) 编辑

6-----Scrapy框架中Item Pipeline用法

摘要：当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文

posted @ 2018-10-26 14:35 王竹笙阅读(317) 评论(0) 推荐(0) 编辑

5-----Scrapy框架中Spiders用法

摘要：Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析 1、以初始的URL初始化Request，并设置回调函数，当该request下载完毕并返回时，将生成response，并作为参数传给回调函数. 阅读全文

posted @ 2018-10-26 13:44 王竹笙阅读(312) 评论(0) 推荐(0) 编辑

4-----Scrapy框架中选择器的用法

摘要：Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。 X 阅读全文

posted @ 2018-10-26 13:42 王竹笙阅读(208) 评论(0) 推荐(0) 编辑

3-----Scrapy框架的命令行详解

摘要：创建爬虫项目 scrapy startproject 项目名例子如下：这个时候爬虫的目录结构就已经创建完成了,目录结构如下：接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字爬虫的网址关于命令详细使用命令阅读全文

posted @ 2018-10-26 13:04 王竹笙阅读(291) 评论(0) 推荐(0) 编辑

2-----Scrapy框架架构和原理

摘要：这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架，Twisted有些特殊的地方是它是事件驱动的，并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程阅读全文

posted @ 2018-10-26 10:36 王竹笙阅读(271) 评论(0) 推荐(0) 编辑

1-----Scrapy框架整体的一个了解

摘要：这里是通过爬取伯乐在线的全部文章为例子，让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址：https://github.com/pythonsite/spider/tree/master/jobboleSpider 注：这个文章并不会对详细的用法进行讲解，是为了阅读全文

posted @ 2018-10-26 10:25 王竹笙阅读(219) 评论(0) 推荐(0) 编辑

Python8-----Selenium库的使用

摘要：一、什么是Selenium selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit 阅读全文

posted @ 2018-10-16 16:19 王竹笙阅读(35) 评论(0) 推荐(0) 编辑

Python6-----BeautifulSoup库的基本使用

摘要：上一篇文章的正则，其实对很多人来说用起来是不方便的，加上需要记很多规则，所以用起来不是特别熟练，而这节我们提到的beautifulsoup就是一个非常强大的工具，爬虫利器。 beautifulSoup “美味的汤，绿色的浓汤” 一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正阅读全文

posted @ 2018-10-16 13:35 王竹笙编辑

Python入妖5-----正则的基本使用

摘要：什么是正则表达式正则表达式是对字符串操作的一种逻辑公式，就是事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的，其他语言也都有正则python中的正则，封装了re模块 python正则的详细讲解常用阅读全文

posted @ 2018-10-16 10:37 王竹笙阅读(297) 评论(0) 推荐(0) 编辑

Python入妖4-----Request库的基本使用

摘要：什么是Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的工作阅读全文

posted @ 2018-10-15 17:42 王竹笙阅读(4783) 评论(0) 推荐(0) 编辑

Python入妖3-----Urllib库的基本使用

摘要：什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块 urlopen 关于urllib.re 阅读全文

posted @ 2018-10-12 16:29 王竹笙编辑

win安装wordcloud报错解决方案

摘要：可以知道需要安装的是32位系统上的python 3.6.5版本的 ②登陆 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 网址找到相应文件 pip install wordcloud-1.4.1-cp36-cp36m-win32.whl ( 阅读全文

posted @ 2018-10-09 11:57 王竹笙阅读(1259) 评论(0) 推荐(0) 编辑

王竹笙

纵浪大化中，不喜亦不忧，应尽便须尽，无复独多虑。

10 2018 档案

公告

搜索

常用链接

随笔分类

随笔档案

文章分类

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论