03 2022 档案
摘要:1.自动类型转换,即类型范围小的变量可以直接赋值给类型范围大的变量 类型的转换规律:byte -->short-->int-->long-->float-->double char-->int byte a =12; int b = a; System.out.println(b);//12 2.表
阅读全文
摘要:准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频
阅读全文
摘要:Shell自主创建 RDD 本地文件中创建RDD 从HDFS中加载数据 打开hdfs 上传和查看hdfs文件 停止hdfs RDD列表创建 RDD转换filter操作 RDD转换map操作 Map(fun)另一个实例 GroupByKey操作 Reducebykey操作 Sortby操作 Sortb
阅读全文
摘要:第一.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。 伯克利将整个Spark的生态系统称为伯克利数据分析栈(BDAS) 以下简要介绍BDAS
阅读全文
摘要:1.环境准备检查 2.spark位置 3.配置环境 4.配置spark和pyspark 5.运行pyspark 6.词频统计 1 def gettext(): 2 txt = open("piao.txt","r",errors='ignore').read() 3 txt = txt.lower(
阅读全文