小王子C

2021年5月17日

摘要：读学生课程分数文件chapter4-data01.txt，创建DataFrame。 url = "file:///D:/chapter4-data01.txt" rdd = spark.sparkContext.textFile(url).map(lambda line:line.split(',' 阅读全文

posted @ 2021-05-17 20:58 小王子C 阅读(644) 评论(0) 推荐(0) 编辑

2021年5月10日

从RDD创建DataFrame

摘要： 0.前次作业：从文件创建DataFrame 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() # 从数组创建pandas dataframe import pandas as pd im 阅读全文

posted @ 2021-05-10 19:31 小王子C 阅读(182) 评论(0) 推荐(0) 编辑

2021年5月9日

Spark SQL 及其DataFrame的基本操作

摘要： 1.Spark SQL出现的原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD)，Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrame API和Data 阅读全文

posted @ 2021-05-09 19:47 小王子C 阅读(230) 评论(0) 推荐(0) 编辑

2021年4月18日

RDD编程

摘要：一、词频统计： 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') 2.将一行一行的文本分割成单词 words flatmap() words = lines.flatMap(lambda line:line. 阅读全文

posted @ 2021-04-18 13:43 小王子C 阅读(91) 评论(0) 推荐(0) 编辑

2021年4月4日

RDD练习：词频统计

摘要：一、词频统计： 1.读文本文件生成RDD lines lines=sc.textFile("file:///home/hadoop/word.txt") #读取本地文件 lines.collect() 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatM 阅读全文

posted @ 2021-04-04 11:30 小王子C 阅读(254) 评论(0) 推荐(0) 编辑

2021年3月30日

RDD编程练习

摘要：一、filter,map,flatmap练习： 1.读文本文件生成RDD lines lines=sc.textFile("file:///home/hadoop/word.txt") #读取本地文件 lines.collect() 2.将一行一行的文本分割成单词 words words=lines 阅读全文

posted @ 2021-03-30 19:31 小王子C 阅读(71) 评论(0) 推荐(0) 编辑

2021年3月26日

Spark RDD编程

摘要： 1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 >>>lines=sc.textFile("file:///home/hadoop/word.txt") >>>lines.foreach(pr 阅读全文

posted @ 2021-03-26 17:12 小王子C 阅读(68) 评论(0) 推荐(0) 编辑

2021年3月12日

Spark架构与运行流程

摘要： 1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 2. Spark已打造出结构一体化、功能多样化的大数据生态系统，请简述Spark生态系统。 3. 用图文描述你所理解的Spark运行架构，运行流程。 4. 软件平台准备：Linux-H 阅读全文

posted @ 2021-03-12 15:17 小王子C 阅读(118) 评论(0) 推荐(0) 编辑

2020年12月30日

网站用户行为分析

摘要：网站用户行为分析步骤 1.1 本地数据集上传到数据仓库Hive 数据集下载与查看数据集预处理把数据集导入HDFS中在Hive上创建数据库 1.2 Hive数据分析给出数据分析需求用select语句实现数据分析数据分析结果查看与保存 1.3 Hive、MySQL、HBase数据互导 Hi 阅读全文

posted @ 2020-12-30 15:50 小王子C 阅读(133) 评论(0) 推荐(0) 编辑

2020年12月12日

Sqoop安装与使用

摘要：使用sqoop进行将Hive 词频统计的结果数据传输到Mysql中。 mysql准备接受数据的数据库与表 hive准备待传输的数据 sqoop进行数据传输 mysql查看传输结果先用测试文件做实验，成功后将电子书的统计结果传输出mysql中。阅读全文

posted @ 2020-12-12 18:23 小王子C 阅读(66) 评论(0) 推荐(0) 编辑

公告