20173667

2020年2月13日

摘要：初始化操作 1.首先，使用jps查看hadoop相关进程是否已经启动 jps 若未启动，则启动hadoop： cd /apps/hadoop/sbin ./start-all.sh 再次输入JPS查看进程： jps 2.启动MySQL服务(数据库密码为：zhangyu) sudo service m 阅读全文

posted @ 2020-02-13 20:51 20173667 阅读(256) 评论(0) 推荐(0) 编辑

2020年2月12日

3.1

摘要：基础概述 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十阅读全文

posted @ 2020-02-12 21:31 20173667 阅读(222) 评论(0) 推荐(0) 编辑

2020年2月11日

2

摘要：二、编写MapReduce程序清洗信件内容数据数据清洗概述数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等阅读全文

posted @ 2020-02-11 23:28 20173667 阅读(264) 评论(0) 推荐(0) 编辑

2020年2月10日

爬虫2

摘要：什么是爬虫网络爬虫，也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。爬虫访问网站的过程会消耗目标系统资阅读全文

posted @ 2020-02-10 22:37 20173667 阅读(486) 评论(0) 推荐(0) 编辑

2020年2月9日

RDD

摘要：弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效：一是迭代式算法，这在图应用和机器学习领域很常见；二是交互式数据挖掘工具阅读全文

posted @ 2020-02-09 22:55 20173667 阅读(337) 评论(0) 推荐(0) 编辑

2020年2月8日

scala

摘要： Scala是一种纯面向对象的语言，每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径：一种途径是子类继承，另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。函数式编程 Scala也是一种函数式语言，其函数也能当成值来使用。Scala提供了轻量级的语法用阅读全文

posted @ 2020-02-08 23:03 20173667 阅读(120) 评论(0) 推荐(0) 编辑

2020年2月7日

爬虫

摘要：什么是爬虫网络爬虫，也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。爬虫访问网站的过程会消耗目标系统资阅读全文

posted @ 2020-02-07 22:21 20173667 阅读(154) 评论(0) 推荐(0) 编辑

2020年2月6日

Spark5

摘要：暂定阅读全文

posted @ 2020-02-06 21:45 20173667 阅读(108) 评论(0) 推荐(0) 编辑

2020年2月5日

Spark4

摘要：维修中阅读全文

posted @ 2020-02-05 20:20 20173667 阅读(97) 评论(0) 推荐(0) 编辑

2020年2月4日

Spark3

摘要：电脑损坏等待配件中阅读全文

posted @ 2020-02-04 21:19 20173667 阅读(87) 评论(0) 推荐(0) 编辑

公告