隐藏页面特效

随笔分类 -  spark学习

摘要:一、测试要求: 1、 数据采集(要求至少爬取三千条记录,时间跨度超过一星期):(10分) 要求Python 编写程序爬取京东手机的评论数据,生成Json形式的数据文件。 python代码(一次只是爬取单个商品的用户评论、本次爬取了三个产品的用户评论): 需要修改的参数:agents、url、cook 阅读全文 »
posted @ 2022-03-14 18:32 往心。 阅读(1214) 评论(0) 推荐(0) 编辑
摘要:1、安装环境 虚拟机:CentOS Linux release 8.5.2111 名称:june Hadoop环境:Hadoop 2.7.3 hive环境:hive-2.3.9 Hbase版本:hbase-1.2.6 Mysql版本:mysql Ver 14.14 Distrib 5.7.36, f 阅读全文 »
posted @ 2022-01-29 11:27 往心。 阅读(94) 评论(0) 推荐(0) 编辑
摘要:1、Scala中的空类型 Unit、null、Nothing package com.demo3 import com.demo1.Student /** * @author June * @date 2022/1/26 8:52 */ object Test3_1 { def main(args: 阅读全文 »
posted @ 2022-01-26 11:39 往心。 阅读(37) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/46277159 近年来,关于大数据讨论已然是热火朝天,虽不说是家喻户晓,那至少对于业界来说也是引起了轩然大波。作为学生党的我,最近也在研究关于大数据的东东。作为一个技术迷,总是 阅读全文 »
posted @ 2022-01-23 16:39 往心。 阅读(1189) 评论(0) 推荐(0) 编辑
摘要:1、flume安装 1)上传压缩包并解压 2)文件配置 flume-env.sh # If this file is placed at FLUME_CONF_DIR/flume-env.sh, it will be sourced # during Flume startup. # Envirom 阅读全文 »
posted @ 2022-01-22 11:46 往心。 阅读(31) 评论(0) 推荐(0) 编辑
摘要:附上zookeeper启动命令: Sqoop解压缩包后 Sqoop文件配置: 阅读全文 »
posted @ 2022-01-21 18:01 往心。 阅读(25) 评论(0) 推荐(0) 编辑
摘要:1.Spark SQL 基本操作 创建DataFrame (1) 查询所有数据 (2) 查询所有数据,并去除重复的数据; (3) 查询所有数据,打印时去除 id 字段; (4) 筛选出 age>30 的记录; (5) 将数据按 age 分组; (6) 将数据按 name 升序排列; (7) 取出前 阅读全文 »
posted @ 2022-01-20 18:40 往心。 阅读(84) 评论(0) 推荐(0) 编辑
摘要:1.spark-shell 交互式编程 (1)该系总共有多少学生; 执行命令: var tests=sc.textFile("file:///home/hadoop/studata/chapter5-data1.txt") var par=tests.map(row=>row.split(",")( 阅读全文 »
posted @ 2022-01-19 15:34 往心。 阅读(86) 评论(0) 推荐(0) 编辑
摘要:1.安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后,再安装 Spark(Local 模式)。 2.HDFS 常用操作 (1) 启动 Hadoop,在 H 阅读全文 »
posted @ 2022-01-16 17:46 往心。 阅读(148) 评论(0) 推荐(0) 编辑
摘要:1. 计算级数 代码: import scala.io.StdIn object jishu { def main(args:Array[String]) { var Sum=0.0 println("请输入q的值") var q:Int=StdIn.readInt() var i=1.0 whil 阅读全文 »
posted @ 2022-01-14 17:31 往心。 阅读(49) 评论(0) 推荐(0) 编辑
摘要:(1)切换到目录 /usr/bin; $ cd /usr/bin (2)查看目录/usr/local 下所有的文件; $cd /usr/local $ls (3)进入/usr 目录,创建一个名为 test 的目录,并查看有多少目录存在; $ cd /usr $ mkdir test $ ll (4) 阅读全文 »
posted @ 2022-01-13 18:06 往心。 阅读(69) 评论(0) 推荐(0) 编辑
摘要:(注:由于第一次安装操作失误,所以重新安装了,因此截图为第一次的截图,命令为第二次安装的命令) (注:图是本人安装所截图,本人安装参考网址:https://www.cnblogs.com/shaosks/p/9242536.html) 1、下载压缩包 命令:wget https://download 阅读全文 »
posted @ 2022-01-12 17:35 往心。 阅读(121) 评论(0) 推荐(0) 编辑
摘要:1、下载压缩包 命令:wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 2、解压缩包 命令:tar -xzvf scala-2.11.8.tgz 3、配置执行文件 4、运行 阅读全文 »
posted @ 2022-01-10 17:21 往心。 阅读(88) 评论(0) 推荐(0) 编辑
摘要:Apache Spark是一种快速通用的集群计算系统。 它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Str 阅读全文 »
posted @ 2021-12-25 17:41 往心。 阅读(688) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示