随笔分类 - Python
摘要:ItemLoader 在我们执行scrapy爬取字段中,会有大量的CSS或是Xpath代码,当要爬取的网站多了,要维护起来很麻烦,为解决这类问题,我们可以根据scrapy提供的loader机制。 导入ItemLoader 实例化ItemLoader对象 要使用Itemloader,必须先将它实例化。
阅读全文
摘要:Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline
阅读全文
摘要:爬取所有页面 之前只是爬取某一篇文章的内容,但是如何爬取所有文章 修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新启动scrapy的shell parse函数需要做两件事 获取列表页中的所有文章URL 获取所有URL之后将其交给scra
阅读全文
摘要:爬取说明 以单个页面为例,如:http://blog.jobbole.com/110287/ 我们可以提取标题、日期、多少个评论、正文内容等 Xpath介绍 1. xpath简介 (1) xpath使用路径表达式在xml和html中进行导航 (2) xpath包含标准函数库 (3) xpath是一个
阅读全文
摘要:Scrapy生成的项目目录 文件说明: scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py 设置数据存储模板,用于结构化数据,如:Django的Model pipelines 数据处理行
阅读全文
摘要:1) 使用scrapy自带的set集合去重,当程序结束的时候会被清空,缺点:再次运行会导致数据重复。 2) 使用mysql做去重,对url地址进行md5,base64加密,加密之后会得到一串字符,判断字符串 是否在mysql表中,如果在表示已经爬取过了,如果不在,表示没有爬取,执行请求,将加密后的u
阅读全文
摘要:技术选型 scrapy VS requests+beautifulsoup 1. requests+beautifulsoup都是库,而scrapy是框架 2. scrapy框架中可以加入requests+beautifulsoup 3. scrapy框架是基于twisted(异步IO框架)的,性能
阅读全文
摘要:原理图一 原理图二 Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的: 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器,通过下载中间件下载网络数据。 5、一旦下
阅读全文
摘要:虚拟环境安装scrapy 在虚拟环境中执行命令 说明: 创建Scrapy项目 由于PyCharm工具无法创建scrapy项目,所以需要现在cmd中进行创建 创建EnterpriseSpider项目 按照给出的提示进行操作,其中www.ubaike.cn是红盾网的网址 之后使用PyCharm导入新创建
阅读全文
摘要:为什么需要虚拟环境 在python开发中,我们可能会遇到一种情况:就是当前的项目依赖的是某一个版本,但是另一个项目依赖的是另一个版本,这样就会造成依赖冲突。在这种情况之下,我们就需要一个工具能够将这两种或几种不同版本的环境隔离开来,需要哪个版本就切换到哪个版本做为默认版本,让每个版本应用都各自拥有一
阅读全文
摘要:爬虫的四个主要步骤 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正
阅读全文
摘要:HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT
阅读全文
摘要:通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作
阅读全文
摘要:Python基础 基础教程参考廖雪峰的官方网站https://www.liaoxuefeng.com/ 一、"大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样
阅读全文
摘要:前言 python3应该是Python的趋势所在,当然目前争议也比较大,这篇随笔的主要目的是记录在centos6.7下搭建python3环境的过程 以及碰到的问题和解决过程。 另外,如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依赖目前的pyt
阅读全文