spark学习 - 随笔分类 - 往心。

大数据技术与应用案例测试--电子商务大数据分析

摘要：一、测试要求： 1、数据采集（要求至少爬取三千条记录，时间跨度超过一星期）：（10分）要求Python 编写程序爬取京东手机的评论数据，生成Json形式的数据文件。 python代码（一次只是爬取单个商品的用户评论、本次爬取了三个产品的用户评论）：需要修改的参数：agents、url、cook 阅读全文

posted @ 2022-03-14 18:32 往心。阅读(1349) 评论(0) 推荐(0)

Centos下安装Sqoop

摘要：1、安装环境虚拟机：CentOS Linux release 8.5.2111 名称：june Hadoop环境：Hadoop 2.7.3 hive环境：hive-2.3.9 Hbase版本：hbase-1.2.6 Mysql版本：mysql Ver 14.14 Distrib 5.7.36, f 阅读全文

posted @ 2022-01-29 11:27 往心。阅读(117) 评论(0) 推荐(0)

Scala语言学习记录（三）

摘要：1、Scala中的空类型 Unit、null、Nothing package com.demo3 import com.demo1.Student /** * @author June * @date 2022/1/26 8:52 */ object Test3_1 { def main(args: 阅读全文

posted @ 2022-01-26 11:39 往心。阅读(53) 评论(0) 推荐(0)

为什么选择Scala，它在大数据处理方面有何优势？

摘要：原文链接：https://blog.csdn.net/scgaliguodong123_/article/details/46277159 近年来，关于大数据讨论已然是热火朝天，虽不说是家喻户晓，那至少对于业界来说也是引起了轩然大波。作为学生党的我，最近也在研究关于大数据的东东。作为一个技术迷，总是阅读全文

posted @ 2022-01-23 16:39 往心。阅读(1315) 评论(0) 推荐(0)

Spark-寒假-实验6

摘要：1、flume安装 1）上传压缩包并解压 2）文件配置 flume-env.sh # If this file is placed at FLUME_CONF_DIR/flume-env.sh, it will be sourced # during Flume startup. # Envirom 阅读全文

posted @ 2022-01-22 11:46 往心。阅读(60) 评论(0) 推荐(0)

Centos下安装Sqoop

摘要：附上zookeeper启动命令： Sqoop解压缩包后 Sqoop文件配置：阅读全文

posted @ 2022-01-21 18:01 往心。阅读(30) 评论(0) 推荐(0)

Spark-寒假-实验5

摘要：1．Spark SQL 基本操作创建DataFrame (1) 查询所有数据 (2) 查询所有数据，并去除重复的数据； (3) 查询所有数据，打印时去除 id 字段； (4) 筛选出 age>30 的记录； (5) 将数据按 age 分组； (6) 将数据按 name 升序排列； (7) 取出前阅读全文

posted @ 2022-01-20 18:40 往心。阅读(108) 评论(0) 推荐(0)

Spark-寒假-实验4

摘要：1．spark-shell 交互式编程（1）该系总共有多少学生；执行命令： var tests=sc.textFile("file:///home/hadoop/studata/chapter5-data1.txt") var par=tests.map(row=>row.split(",")( 阅读全文

posted @ 2022-01-19 15:34 往心。阅读(149) 评论(0) 推荐(0)

Spark-寒假-实验3

摘要：1．安装 Hadoop 和 Spark 进入 Linux 系统，参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”，完成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后，再安装 Spark（Local 模式）。 2．HDFS 常用操作（1）启动 Hadoop，在 H 阅读全文

posted @ 2022-01-16 17:46 往心。阅读(163) 评论(0) 推荐(0)

Spark-寒假-实验2

摘要：1. 计算级数代码： import scala.io.StdIn object jishu { def main(args:Array[String]) { var Sum=0.0 println("请输入q的值") var q:Int=StdIn.readInt() var i=1.0 whil 阅读全文

posted @ 2022-01-14 17:31 往心。阅读(58) 评论(0) 推荐(0)

Spark-寒假-实验1

摘要：（1）切换到目录 /usr/bin； $ cd /usr/bin （2）查看目录/usr/local 下所有的文件； $cd /usr/local $ls （3）进入/usr 目录，创建一个名为 test 的目录，并查看有多少目录存在； $ cd /usr $ mkdir test $ ll （4）阅读全文

posted @ 2022-01-13 18:06 往心。阅读(104) 评论(0) 推荐(0)

Centos下安装Spark

摘要：（注：由于第一次安装操作失误，所以重新安装了，因此截图为第一次的截图，命令为第二次安装的命令） (注：图是本人安装所截图，本人安装参考网址：https://www.cnblogs.com/shaosks/p/9242536.html) 1、下载压缩包命令：wget https://download 阅读全文

posted @ 2022-01-12 17:35 往心。阅读(149) 评论(0) 推荐(0)

Centos下安装Scala（2）

摘要：1、下载压缩包命令：wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 2、解压缩包命令：tar -xzvf scala-2.11.8.tgz 3、配置执行文件 4、运行阅读全文

posted @ 2022-01-10 17:21 往心。阅读(104) 评论(0) 推荐(0)

Spark基础知识详解

摘要：Apache Spark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX和Spark Str 阅读全文

posted @ 2021-12-25 17:41 往心。阅读(770) 评论(0) 推荐(0)

往心、

随笔分类 - spark学习

公告