2019 年 1月 16 日随笔档案 - Hear7

2019年1月16日

摘要： 1. 前言对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策阅读全文

posted @ 2019-01-16 22:08 Hear7 阅读(233) 评论(0) 推荐(0) 编辑

解决 Scrapy-Redis 空跑问题，链接跑完后自动关闭爬虫

摘要： Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫问题： scrapy-redis框架中，reids存储的xxx:requests已经爬取完毕，但程序仍然一直运行，如何自动停止程序，结束空跑。相信大家都很头疼，尤其是网上一堆搬来搬去的帖子，来看一下我是如何解决这个问阅读全文

posted @ 2019-01-16 21:54 Hear7 阅读(1088) 评论(0) 推荐(0) 编辑

数据清洗基本概念

摘要： 1基本概念数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之阅读全文

posted @ 2019-01-16 21:52 Hear7 阅读(4087) 评论(0) 推荐(0) 编辑

Hear7

公告