摘要:
三、利用HiveSql语句离线分析信件内容数据 基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduc 阅读全文
摘要:
二、编写MapReduce程序清洗信件内容数据 数据清洗概述 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等 阅读全文
摘要:
一、 采集北京市政百姓信件内容 什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬 阅读全文
摘要:
今天被黑中介坑惨了。本来说的是上门送礼,结果去了是拍视频。上班地址是离家一个小时,下班离家两个多小时。他们拍视频的还挺会选,专挑离自己家近的。5点半拍完,8点到家。我羽绒服毛领还被人偷了,本来平时上班就累,平时都不想发。还是那句话,黑中介,上班内容信息错误,地点误导,黑中介你妈死了。 阅读全文
摘要:
安装配置python。 查看状态。 准备安装pycharm。 破解完成,开始使用。 阅读全文