摘要: 对各省销售指标,每个省的销售额进行统计 TOP3销售省份中,有多少家店铺日均销售额 > 1000 TOP3省份中各个省份的平均单单价 TOP3省份中,各个省份的支付类型比例 #coding:utf8 from pyspark.sql import SparkSession from pyspark. 阅读全文
posted @ 2026-02-07 15:20 呓语-MSHK 阅读(2) 评论(0) 推荐(0)
摘要: 电影评分数据分析 #coding:utf8 from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StringType, IntegerType import pandas as pd from 阅读全文
posted @ 2026-02-06 17:16 呓语-MSHK 阅读(1) 评论(0) 推荐(0)
摘要: 对数据进行分析 1、正常的单词进行单词计数 2、特殊字符统计出现多少个 from pyspark import SparkConf, SparkContext from pyspark.storagelevel import StorageLevel from defs import context 阅读全文
posted @ 2026-02-05 23:13 呓语-MSHK 阅读(2) 评论(0) 推荐(0)
摘要: Rdd算子: 转换算子 // 1. map: 每个数+1 [1,2,3] → [2,3,4] // 2. flatMap: 句子拆单词 ["a b","c"] → ["a","b","c"] // 3. reduceByKey: 相同key求和 [(a,1),(a,2),(b,3)] → [(a,3 阅读全文
posted @ 2026-02-04 21:39 呓语-MSHK 阅读(1) 评论(0) 推荐(0)
摘要: 今天在启动zookeeper时出现了很多问题。 问题1: 命令找不到 (zkServer.sh: 未找到命令) 原因: PATH环境变量中没有ZooKeeper的bin目录 解决方案: export ZOOKEEPER_HOME=/export/server/zookeeper-3.4.6 expo 阅读全文
posted @ 2026-02-03 11:26 呓语-MSHK 阅读(1) 评论(0) 推荐(0)
摘要: 今天在启动Spark时: 1、启动顺序错误:先启动Spark HistoryServer,但HDFS还没启动 → HistoryServer连接NameNode失败 2、服务冲突:start-all.sh时其他节点已有服务运行 → 需要先停止 3、Spark集群误启动:最后执行了sbin/start 阅读全文
posted @ 2026-02-01 23:30 呓语-MSHK 阅读(4) 评论(0) 推荐(0)
摘要: 在虚拟环境中安装了acaconda,配置了国内源,pyspark环境 启动pyspark: (需要先开启hadoop集群) 阅读全文
posted @ 2026-02-01 11:48 呓语-MSHK 阅读(3) 评论(0) 推荐(0)
摘要: 在虚拟机中下载安装了mysql,学习了hive的常用创建数据库和建表语言。与之前的javaweb学习里的MySQL语法相似。 启动hive: nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore & nohup 阅读全文
posted @ 2026-01-30 12:07 呓语-MSHK 阅读(3) 评论(0) 推荐(0)
摘要: 了解了HDFS,maperduce,yarn,动手用maperduce做了词频统计 阅读全文
posted @ 2026-01-22 01:21 呓语-MSHK 阅读(3) 评论(0) 推荐(0)
摘要: 安装部署了Hadoop并上手初体验 体验了简单的词频统计 阅读全文
posted @ 2026-01-20 23:23 呓语-MSHK 阅读(2) 评论(0) 推荐(0)