学习记录24
摘要:本次学习了spark的机器学习相关内容。 机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。 机器学习强调三个关键词:算法、经验、性能 Spark提供了一个基于海量数据的机器学习库,它提供了常用机器学习算法的分布式实现
阅读全文
学习记录25
摘要:本次进行了大数据hdfs的相关操作,通过实验进行了hdfs的操作,在Linux系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt,并在该文件中随便输入一些内容,然后上传到HDFS的“/user/hadoop”目录下; 【参考答案】 $cd /home/hadoop
阅读全文
学习记录23
摘要:本次学习了DStream无状态转换操作 DStream:RDD的集合 map(func) :对源DStream的每个元素,采用func函数进行转换,得到一个新的Dstream flatMap(func): 与map相似,但是每个输入项可用被映射为0个或者多个输出项 filter(func): 返回一
阅读全文
学习记录22
摘要:本次学习了spark Streaming里进行读取高级数据源的一些操作 进行安装kafka 网站:https://dblab.xmu.edu.cn/blog/1096/ 接下来在Ubuntu系统环境下测试简单的实例,按顺序执行如下命令: # 进入kafka所在的目录 cd /usr/local/ka
阅读全文
学习记录21
摘要:本次学习学习了Spark的Streaming的一些外来输入源进行操作的形式 文件流 创建一个文件 [atguigu@hadoop102 ~]$ cd /usr/local/spark/mycode/ [atguigu@hadoop102 mycode]$ mkdir streaming [atgui
阅读全文
学习记录20
摘要:本次学习学习了spark的流计算相干概念 静态数据和流计算 静态数据: 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据,技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息 流数据
阅读全文
学习记录19
摘要:今天,完成了实验五,做这次实验的时候,遇到一些问题吗,找了一些时间后,进行了解决,然后,感觉对于spark的学习仅仅学习了基本流程,目前只能停留在看懂别人的答案的层次上,还不能进行自己编写一些独立程序
阅读全文