摘要: 1. 前言 对于一张网页,我们往往希望它是结构良好,内容清晰的,这样搜索引擎才能准确地认知它。而反过来,又有一些情景,我们不希望内容能被轻易获取,比方说电商网站的交易额,教育网站的题目等。因为这些内容,往往是一个产品的生命线,必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策 阅读全文
posted @ 2019-01-16 22:08 Hear7 阅读(233) 评论(0) 推荐(0) 编辑
摘要: Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫 问题: scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动停止程序,结束空跑。 相信大家都很头疼,尤其是网上一堆搬来搬去的帖子,来看一下 我是如何解决这个问 阅读全文
posted @ 2019-01-16 21:54 Hear7 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: 1基本概念 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之 阅读全文
posted @ 2019-01-16 21:52 Hear7 阅读(4087) 评论(0) 推荐(0) 编辑