10 2018 档案

摘要:Scrapy生成的项目目录 文件说明: scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py 设置数据存储模板,用于结构化数据,如:Django的Model pipelines 数据处理行 阅读全文
posted @ 2018-10-31 16:58 扎心了,老铁 阅读(2547) 评论(0) 推荐(0) 编辑
摘要:1) 使用scrapy自带的set集合去重,当程序结束的时候会被清空,缺点:再次运行会导致数据重复。 2) 使用mysql做去重,对url地址进行md5,base64加密,加密之后会得到一串字符,判断字符串 是否在mysql表中,如果在表示已经爬取过了,如果不在,表示没有爬取,执行请求,将加密后的u 阅读全文
posted @ 2018-10-31 16:42 扎心了,老铁 阅读(3384) 评论(0) 推荐(0) 编辑
摘要:表达式全集 常用正则表达式 阅读全文
posted @ 2018-10-31 16:41 扎心了,老铁 阅读(1521) 评论(0) 推荐(0) 编辑
摘要:技术选型 scrapy VS requests+beautifulsoup 1. requests+beautifulsoup都是库,而scrapy是框架 2. scrapy框架中可以加入requests+beautifulsoup 3. scrapy框架是基于twisted(异步IO框架)的,性能 阅读全文
posted @ 2018-10-31 16:35 扎心了,老铁 阅读(927) 评论(0) 推荐(2) 编辑
摘要:原理图一 原理图二 Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的: 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器,通过下载中间件下载网络数据。 5、一旦下 阅读全文
posted @ 2018-10-25 16:40 扎心了,老铁 阅读(1409) 评论(0) 推荐(0) 编辑
摘要:虚拟环境安装scrapy 在虚拟环境中执行命令 说明: 创建Scrapy项目 由于PyCharm工具无法创建scrapy项目,所以需要现在cmd中进行创建 创建EnterpriseSpider项目 按照给出的提示进行操作,其中www.ubaike.cn是红盾网的网址 之后使用PyCharm导入新创建 阅读全文
posted @ 2018-10-25 16:21 扎心了,老铁 阅读(1689) 评论(0) 推荐(0) 编辑
摘要:为什么需要虚拟环境 在python开发中,我们可能会遇到一种情况:就是当前的项目依赖的是某一个版本,但是另一个项目依赖的是另一个版本,这样就会造成依赖冲突。在这种情况之下,我们就需要一个工具能够将这两种或几种不同版本的环境隔离开来,需要哪个版本就切换到哪个版本做为默认版本,让每个版本应用都各自拥有一 阅读全文
posted @ 2018-10-25 16:03 扎心了,老铁 阅读(2216) 评论(0) 推荐(0) 编辑
摘要:聚类与分类的区别 分类 类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习。 聚类 事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。 关于监督学习和无监督学习,这里给一个简单的介绍 阅读全文
posted @ 2018-10-09 16:09 扎心了,老铁 阅读(7451) 评论(0) 推荐(1) 编辑
摘要:简介 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。 Dat 阅读全文
posted @ 2018-10-09 14:08 扎心了,老铁 阅读(26650) 评论(6) 推荐(0) 编辑

点击右上角即可分享
微信分享提示