2018 年 10月随笔档案 - 扎心了，老铁

爬取伯乐在线文章（一）

摘要：Scrapy生成的项目目录文件说明： scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中） items.py 设置数据存储模板，用于结构化数据，如：Django的Model pipelines 数据处理行阅读全文

posted @ 2018-10-31 16:58 扎心了，老铁阅读(2547) 评论(0) 推荐(0) 编辑

爬虫去重策略

摘要：1）使用scrapy自带的set集合去重，当程序结束的时候会被清空，缺点：再次运行会导致数据重复。 2）使用mysql做去重，对url地址进行md5，base64加密，加密之后会得到一串字符，判断字符串是否在mysql表中，如果在表示已经爬取过了，如果不在，表示没有爬取，执行请求，将加密后的u 阅读全文

posted @ 2018-10-31 16:42 扎心了，老铁阅读(3384) 评论(0) 推荐(0) 编辑

正则表达式

摘要：表达式全集常用正则表达式阅读全文

posted @ 2018-10-31 16:41 扎心了，老铁阅读(1521) 评论(0) 推荐(0) 编辑

关于爬虫

摘要：技术选型 scrapy VS requests+beautifulsoup 1.　requests+beautifulsoup都是库，而scrapy是框架 2.　scrapy框架中可以加入requests+beautifulsoup 3.　scrapy框架是基于twisted（异步IO框架）的，性能阅读全文

posted @ 2018-10-31 16:35 扎心了，老铁阅读(927) 评论(0) 推荐(2) 编辑

Scrapy框架

摘要：原理图一原理图二 Scrapy数据流是由执行的核心引擎(engine)控制，流程是这样的： 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序，并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器，通过下载中间件下载网络数据。 5、一旦下阅读全文

posted @ 2018-10-25 16:40 扎心了，老铁阅读(1409) 评论(0) 推荐(0) 编辑

在Python虚拟环境中安装scrapy

摘要：虚拟环境安装scrapy 在虚拟环境中执行命令说明：创建Scrapy项目由于PyCharm工具无法创建scrapy项目，所以需要现在cmd中进行创建创建EnterpriseSpider项目按照给出的提示进行操作，其中www.ubaike.cn是红盾网的网址之后使用PyCharm导入新创建阅读全文

posted @ 2018-10-25 16:21 扎心了，老铁阅读(1689) 评论(0) 推荐(0) 编辑

Python--Windows下安装虚拟环境

摘要：为什么需要虚拟环境在python开发中，我们可能会遇到一种情况：就是当前的项目依赖的是某一个版本，但是另一个项目依赖的是另一个版本，这样就会造成依赖冲突。在这种情况之下，我们就需要一个工具能够将这两种或几种不同版本的环境隔离开来，需要哪个版本就切换到哪个版本做为默认版本，让每个版本应用都各自拥有一阅读全文

posted @ 2018-10-25 16:03 扎心了，老铁阅读(2216) 评论(0) 推荐(0) 编辑

K-Means算法

摘要：聚类与分类的区别分类类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。属于监督学习。聚类事先不知道数据会分为几类，通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。关于监督学习和无监督学习，这里给一个简单的介绍阅读全文

posted @ 2018-10-09 16:09 扎心了，老铁阅读(7451) 评论(0) 推荐(1) 编辑

DataX的使用

摘要：简介 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件的模式，目前已开源，代码托管在github。 Dat 阅读全文

posted @ 2018-10-09 14:08 扎心了，老铁阅读(26650) 评论(6) 推荐(0) 编辑

扎心了，老铁

10 2018 档案

公告

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论