Python - 随笔分类 - 扎心了，老铁

爬取伯乐在线文章（五）itemloader

摘要：ItemLoader 在我们执行scrapy爬取字段中，会有大量的CSS或是Xpath代码，当要爬取的网站多了，要维护起来很麻烦，为解决这类问题，我们可以根据scrapy提供的loader机制。导入ItemLoader 实例化ItemLoader对象要使用Itemloader，必须先将它实例化。阅读全文

posted @ 2018-11-12 10:47 扎心了，老铁阅读(2379) 评论(1) 推荐(1) 编辑

爬取伯乐在线文章（四）将爬取结果保存到MySQL

摘要：Item Pipeline 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline 阅读全文

posted @ 2018-11-12 09:14 扎心了，老铁阅读(1420) 评论(0) 推荐(1) 编辑

爬取伯乐在线文章（三）爬取所有页面的文章

摘要：爬取所有页面之前只是爬取某一篇文章的内容，但是如何爬取所有文章修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新启动scrapy的shell parse函数需要做两件事获取列表页中的所有文章URL 获取所有URL之后将其交给scra 阅读全文

posted @ 2018-11-05 15:07 扎心了，老铁阅读(1734) 评论(0) 推荐(0) 编辑

爬取伯乐在线文章（二）通过xpath提取源文件中需要的内容

摘要：爬取说明以单个页面为例，如：http://blog.jobbole.com/110287/ 我们可以提取标题、日期、多少个评论、正文内容等 Xpath介绍 1.　xpath简介（1）　xpath使用路径表达式在xml和html中进行导航（2）　xpath包含标准函数库（3）　xpath是一个阅读全文

posted @ 2018-11-05 10:48 扎心了，老铁阅读(1919) 评论(1) 推荐(0) 编辑

爬取伯乐在线文章（一）

摘要：Scrapy生成的项目目录文件说明： scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中） items.py 设置数据存储模板，用于结构化数据，如：Django的Model pipelines 数据处理行阅读全文

posted @ 2018-10-31 16:58 扎心了，老铁阅读(2547) 评论(0) 推荐(0) 编辑

爬虫去重策略

摘要：1）使用scrapy自带的set集合去重，当程序结束的时候会被清空，缺点：再次运行会导致数据重复。 2）使用mysql做去重，对url地址进行md5，base64加密，加密之后会得到一串字符，判断字符串是否在mysql表中，如果在表示已经爬取过了，如果不在，表示没有爬取，执行请求，将加密后的u 阅读全文

posted @ 2018-10-31 16:42 扎心了，老铁阅读(3384) 评论(0) 推荐(0) 编辑

正则表达式

摘要：表达式全集常用正则表达式阅读全文

posted @ 2018-10-31 16:41 扎心了，老铁阅读(1521) 评论(0) 推荐(0) 编辑

关于爬虫

摘要：技术选型 scrapy VS requests+beautifulsoup 1.　requests+beautifulsoup都是库，而scrapy是框架 2.　scrapy框架中可以加入requests+beautifulsoup 3.　scrapy框架是基于twisted（异步IO框架）的，性能阅读全文

posted @ 2018-10-31 16:35 扎心了，老铁阅读(927) 评论(0) 推荐(2) 编辑

Scrapy框架

摘要：原理图一原理图二 Scrapy数据流是由执行的核心引擎(engine)控制，流程是这样的： 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序，并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器，通过下载中间件下载网络数据。 5、一旦下阅读全文

posted @ 2018-10-25 16:40 扎心了，老铁阅读(1409) 评论(0) 推荐(0) 编辑

在Python虚拟环境中安装scrapy

摘要：虚拟环境安装scrapy 在虚拟环境中执行命令说明：创建Scrapy项目由于PyCharm工具无法创建scrapy项目，所以需要现在cmd中进行创建创建EnterpriseSpider项目按照给出的提示进行操作，其中www.ubaike.cn是红盾网的网址之后使用PyCharm导入新创建阅读全文

posted @ 2018-10-25 16:21 扎心了，老铁阅读(1689) 评论(0) 推荐(0) 编辑

Python--Windows下安装虚拟环境

摘要：为什么需要虚拟环境在python开发中，我们可能会遇到一种情况：就是当前的项目依赖的是某一个版本，但是另一个项目依赖的是另一个版本，这样就会造成依赖冲突。在这种情况之下，我们就需要一个工具能够将这两种或几种不同版本的环境隔离开来，需要哪个版本就切换到哪个版本做为默认版本，让每个版本应用都各自拥有一阅读全文

posted @ 2018-10-25 16:03 扎心了，老铁阅读(2216) 评论(0) 推荐(0) 编辑

Python学习之路（六）爬虫（五）爬取拉勾网招聘信息

摘要：待添加阅读全文

posted @ 2018-03-28 18:30 扎心了，老铁阅读(1550) 评论(0) 推荐(0) 编辑

Python学习之路（五）爬虫（四）正则表示式爬去名言网

摘要：爬虫的四个主要步骤什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正阅读全文

posted @ 2018-03-28 18:29 扎心了，老铁阅读(1863) 评论(0) 推荐(1) 编辑

Python学习之路（四）爬虫（三）HTTP和HTTPS

摘要：HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HT 阅读全文

posted @ 2018-03-28 18:27 扎心了，老铁阅读(10100) 评论(0) 推荐(1) 编辑

Python学习之路（三）爬虫（二）

摘要：通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用搜索引擎（Search Engine）工作阅读全文

posted @ 2018-03-28 18:26 扎心了，老铁阅读(1961) 评论(0) 推荐(0) 编辑

Python学习之路（二）爬虫（一）

摘要：Python基础基础教程参考廖雪峰的官方网站https://www.liaoxuefeng.com/ 一、"大数据时代"，数据获取的方式 1. 企业生产的用户数据：大型互联网公司有海量用户，所以他们积累数据有天然的优势。有数据意识的中小型企业，也开始积累的数据。 2. 数据管理咨询公司：通常这样阅读全文

posted @ 2018-03-28 18:24 扎心了，老铁阅读(2488) 评论(0) 推荐(0) 编辑

Python学习之路（一）开发环境搭建

摘要：前言 python3应该是Python的趋势所在，当然目前争议也比较大，这篇随笔的主要目的是记录在centos6.7下搭建python3环境的过程以及碰到的问题和解决过程。另外，如果本机安装了python2，尽量不要管他，使用python3运行python脚本就好，因为可能有程序依赖目前的pyt 阅读全文

posted @ 2018-03-28 18:22 扎心了，老铁阅读(4776) 评论(1) 推荐(0) 编辑

扎心了，老铁

随笔分类 - Python

公告

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论