摘要: 以京东购买预测为例,讲述数据挖局一般流程: 数据挖掘流程: (一)、数据清洗 1、数据集完整性验证 2、数据集中是否存在缺失值 3、数据集中各特征数值应该如何处理 4、哪些数据使我们想要的,哪些是可以过滤掉的 5、将有价值数据信息做成新的数据源 6.去除无行为交互的商品和用户 7、去掉浏览量很大而购 阅读全文
posted @ 2018-11-23 22:46 飘在天上的云 阅读(226) 评论(0) 推荐(0) 编辑
摘要: pipeLines文件中的open_spider函数和close_spider函数都只会执行一次。 (open_spider函数:爬虫开启时只执行一次;close_spider函数:爬虫结束时执行一次) 阅读全文
posted @ 2018-11-23 22:12 飘在天上的云 阅读(521) 评论(0) 推荐(0) 编辑
摘要: 以爬取阳光阳光热线问政平台网站为例,进行详情页的爬取。 下面为pipelines.py文件中对爬取的数据处理操作。 在settings.py文件中修改USER_AGENT的内容是对方服务器无法一眼看出我们的请求是爬虫。 默认settings.py文件中的USER_AGENT为: 将settings. 阅读全文
posted @ 2018-11-23 11:16 飘在天上的云 阅读(3176) 评论(0) 推荐(1) 编辑