上一页 1 2 3 4 5 6 7 ··· 27 下一页
摘要: 实时ETL 准备: 每台节点启动zookeeper集群 cd /usr/local/zookeeper/bin/ ./zkServer.sh start master上启动kafka: cd /usr/local/kafka_2.12-2.7.0/bin kafka-server-start.sh 阅读全文
posted @ 2021-03-13 20:26 ziyuliu 阅读(621) 评论(0) 推荐(0) 编辑
摘要: Output Modes输出模式 package cn.itcast.structured import org.apache.spark.SparkContext import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession} 阅读全文
posted @ 2021-03-13 16:30 ziyuliu 阅读(142) 评论(0) 推荐(0) 编辑
摘要: pycharm设置的问题,在菜单栏File-Setting-Tools-Python Scientific中去除勾选Show plots in tool window即可解决问题。 阅读全文
posted @ 2021-03-12 20:10 ziyuliu 阅读(4109) 评论(0) 推荐(0) 编辑
摘要: 编程模型和数据抽象 编程模型 :无界表/动态表格 数据抽象: DataFrame/DataSet StructuredStreaming-Source Socket package cn.itcast.structured import org.apache.spark.SparkContext i 阅读全文
posted @ 2021-03-10 12:11 ziyuliu 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 练习了sparksql+hive学习 阅读全文
posted @ 2021-03-09 22:48 ziyuliu 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 我这里spark3.0.1+hive3.1.2 先启动Hive的metastore node2 nohup /usr/local/hive/bin/hive --service metastore & jps 把hive的配置文件hive-site.xml拷贝到spark/conf目录,把mysql 阅读全文
posted @ 2021-03-09 22:36 ziyuliu 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 需求:针对personDF中的数据使用SQL和DSL两种方式进行各种查询 package cn.itcast.sql import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spar 阅读全文
posted @ 2021-03-09 13:06 ziyuliu 阅读(290) 评论(0) 推荐(0) 编辑
摘要: package cn.itcast.sql import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Dataset, Row, Spark 阅读全文
posted @ 2021-03-09 11:22 ziyuliu 阅读(599) 评论(0) 推荐(0) 编辑
摘要: 数据分析方式 说明: 结构化数据--支持 有固定的结构和约束Schema(字段名称/类型) 半结构化数据--支持较为严格的半结构化数据 有不是固定的结构和约束 [ { "name": "jack", "tel": "1388888888", }, { "name": "jack", "tel": 1 阅读全文
posted @ 2021-03-08 23:09 ziyuliu 阅读(180) 评论(1) 推荐(0) 编辑
摘要: 学习了sparksql学习 阅读全文
posted @ 2021-03-08 22:42 ziyuliu 阅读(31) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 27 下一页