上一页 1 2 3 4 5 6 7 ··· 11 下一页
摘要: 这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。 应对实验,我在创建了一个文本文件。内容包括—— 之后就是尝试创建RDD。 在pyspark中使用—— >>> students=sc.textFile("file:// 阅读全文
posted @ 2020-01-27 20:12 limitCM 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 接下来要写4篇的进度报告,准备把RDD编程和SparkSQL放在这几天一起弄掉(没回老家的大年三十稍微有些无聊)。 这一篇我想先笼统一下各方面的知识,省的有不理解的地方。 首先是RDD。 作为一个分布式的数据构造,RDD对我来说方法是抽象的,而且一般来说面向我的都是函数式的编程操作,很难体会到RDD 阅读全文
posted @ 2020-01-24 18:42 limitCM 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 上次是安装完成了,这次就来试试Spark的基本操作。 首先是运行Spark自带的实例SparkPi。 在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后—— 虽然计算结果有所偏差,但多少能证明Spark的计算能力可以使用。 第二个运行的就是和计算能力没太大关联的W 阅读全文
posted @ 2020-01-22 16:45 limitCM 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 紧接上一次。 这次是对于spark安装的总结。 首先便是下载spark。 从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。 放入虚拟机之后解压缩,修改权限,之后就可以开始配置了。 配置文件需要配置slaves 阅读全文
posted @ 2020-01-18 12:55 limitCM 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 写博客是时隔两天,但学习并没有停止。 这一篇博客还是写一下关于Spark基础知识的,上次只是总体名词的理解。 Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务 于是RDD——由DAG图帮助形成的分布式内存的数据集帮助Spar 阅读全文
posted @ 2020-01-18 12:43 limitCM 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 2020快乐!新年开始要有新气象。 上学期已经对于分布式大数据计算有些许了解以及操作过hadoop系的很多工具了,而现在的是时候进一步深入了。 对于Hadoop系的工具,包括HDFS文件系统和MapReduce分布式计算,这些都是过去用来解决分布计算的基本工具,但实际用起来可以说不算方便。HDFS不 阅读全文
posted @ 2020-01-15 19:54 limitCM 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 时隔许久的博客。 本次测试包括了三个阶段,清洗、处理和可视化,目的是实现把Result文件内数据进行处理、统计和展示。 阶段一 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 虽然内容要求把数据格式从——> ip: 199.30.25.88 time: 10/Nov/2016:00 阅读全文
posted @ 2019-11-13 22:45 limitCM 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 这次博客记录下MapReduce模型的编程和相关学习。 MapReduce的最主要的特点就是移动计算,而不是数据跟着计算走,这个在分布式系统中十分有效,最大的好处就是节约数据移动的开销,用很小的数据流量来完成对数据的分析和计算。 MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象 阅读全文
posted @ 2019-08-21 19:21 limitCM 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 本次博客主要记录HBASE的eclipse api编程访问,与shell方式操作HBASE数据库不同,用java代码形式运行可以封装打包运行,不过需要进行一些配置。 首先启动Hadoop和HBASE(因为之前设置好了虚拟机所以可以在Windows上使用eclipse,只需要启动就可以)。 然后新建个 阅读全文
posted @ 2019-08-20 23:33 limitCM 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 这次来安装HBase到虚拟机上边。 把HBase1.4.0上传到usr/local/位置并解压完毕。 配置好环境变量。 改好权限后就可以查看数据库版本以检查安装是否完成。 之后就是单机模式的配置。 修改/usr/local/hbase/conf/hbase-env.sh,添加以下—— 修改/usr/ 阅读全文
posted @ 2019-08-09 22:27 limitCM 阅读(129) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 11 下一页