2018 年 11月 23 日随笔档案 - 飘在天上的云

2018年11月23日

摘要：以京东购买预测为例，讲述数据挖局一般流程：数据挖掘流程：（一）、数据清洗 1、数据集完整性验证 2、数据集中是否存在缺失值 3、数据集中各特征数值应该如何处理 4、哪些数据使我们想要的，哪些是可以过滤掉的 5、将有价值数据信息做成新的数据源 6.去除无行为交互的商品和用户 7、去掉浏览量很大而购阅读全文

posted @ 2018-11-23 22:46 飘在天上的云阅读(231) 评论(0) 推荐(0) 编辑

scrapy中pipellines的深度使用

摘要： pipeLines文件中的open_spider函数和close_spider函数都只会执行一次。（open_spider函数：爬虫开启时只执行一次；close_spider函数：爬虫结束时执行一次）阅读全文

posted @ 2018-11-23 22:12 飘在天上的云阅读(526) 评论(0) 推荐(0) 编辑

scrapy框架下爬虫实现详情页抓取

摘要：以爬取阳光阳光热线问政平台网站为例，进行详情页的爬取。下面为pipelines.py文件中对爬取的数据处理操作。在settings.py文件中修改USER_AGENT的内容是对方服务器无法一眼看出我们的请求是爬虫。默认settings.py文件中的USER_AGENT为：将settings. 阅读全文

posted @ 2018-11-23 11:16 飘在天上的云阅读(3187) 评论(0) 推荐(1) 编辑

王志良

公告