呓语-MSHK - 博客园

2026年2月7日

摘要：对各省销售指标，每个省的销售额进行统计 TOP3销售省份中，有多少家店铺日均销售额 > 1000 TOP3省份中各个省份的平均单单价 TOP3省份中，各个省份的支付类型比例 #coding:utf8 from pyspark.sql import SparkSession from pyspark. 阅读全文

posted @ 2026-02-07 15:20 呓语-MSHK 阅读(2) 评论(0) 推荐(0)

2026年2月6日

Spark学习 day7

摘要：电影评分数据分析 #coding:utf8 from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StringType, IntegerType import pandas as pd from 阅读全文

posted @ 2026-02-06 17:16 呓语-MSHK 阅读(1) 评论(0) 推荐(0)

2026年2月5日

Spark学习 day6

摘要：对数据进行分析 1、正常的单词进行单词计数 2、特殊字符统计出现多少个 from pyspark import SparkConf, SparkContext from pyspark.storagelevel import StorageLevel from defs import context 阅读全文

posted @ 2026-02-05 23:13 呓语-MSHK 阅读(2) 评论(0) 推荐(0)

2026年2月4日

Spark学习 day5

摘要： Rdd算子：转换算子 // 1. map: 每个数+1 [1,2,3] → [2,3,4] // 2. flatMap: 句子拆单词 ["a b","c"] → ["a","b","c"] // 3. reduceByKey: 相同key求和 [(a,1),(a,2),(b,3)] → [(a,3 阅读全文

posted @ 2026-02-04 21:39 呓语-MSHK 阅读(1) 评论(0) 推荐(0)

2026年2月3日

Spark学习 day3

摘要：今天在启动zookeeper时出现了很多问题。问题1: 命令找不到 (zkServer.sh: 未找到命令) 原因: PATH环境变量中没有ZooKeeper的bin目录解决方案: export ZOOKEEPER_HOME=/export/server/zookeeper-3.4.6 expo 阅读全文

posted @ 2026-02-03 11:26 呓语-MSHK 阅读(1) 评论(0) 推荐(0)

2026年2月1日

Spark学习 day2

摘要：今天在启动Spark时： 1、启动顺序错误：先启动Spark HistoryServer，但HDFS还没启动 → HistoryServer连接NameNode失败 2、服务冲突：start-all.sh时其他节点已有服务运行 → 需要先停止 3、Spark集群误启动：最后执行了sbin/start 阅读全文

posted @ 2026-02-01 23:30 呓语-MSHK 阅读(4) 评论(0) 推荐(0)

Spark学习 day1

摘要：在虚拟环境中安装了acaconda，配置了国内源，pyspark环境启动pyspark: (需要先开启hadoop集群) 阅读全文

posted @ 2026-02-01 11:48 呓语-MSHK 阅读(3) 评论(0) 推荐(0)

2026年1月30日

Hadoop学习 day4

摘要：在虚拟机中下载安装了mysql，学习了hive的常用创建数据库和建表语言。与之前的javaweb学习里的MySQL语法相似。启动hive: nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore & nohup 阅读全文

posted @ 2026-01-30 12:07 呓语-MSHK 阅读(3) 评论(0) 推荐(0)

2026年1月22日

Hadoop学习 day3

摘要：了解了HDFS,maperduce,yarn，动手用maperduce做了词频统计阅读全文

posted @ 2026-01-22 01:21 呓语-MSHK 阅读(3) 评论(0) 推荐(0)

2026年1月20日

Hadoop学习 day2

摘要：安装部署了Hadoop并上手初体验体验了简单的词频统计阅读全文

posted @ 2026-01-20 23:23 呓语-MSHK 阅读(2) 评论(0) 推荐(0)

公告