上一页 1 2 3 4 5 6 7 8 ··· 14 下一页
摘要: docker的安装(阿里云) 环境准备 为了保证环境干净先执行一下几步 执行以上的命令,主要是保证4和5 # 安装依赖包 测试是否成功 输入docker命令看是否有命令帮助出来 像下图 那就是安装成功了 # 卸载 官方安装文档: https://docs.docker.com/engine/inst 阅读全文
posted @ 2019-10-22 17:15 任重而道远的小蜗牛 阅读(1104) 评论(0) 推荐(0) 编辑
摘要: Error Downloading Packages:报错其中一种情况 yum-utils-1.1.30-42.el6_10.noarch: Insufficient space in download directory /var/cache/yum/x86_64/6/updates/packag 阅读全文
posted @ 2019-10-22 17:08 任重而道远的小蜗牛 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 本篇文章只讲Airflow的部署以及再部署中遇到的坑和解决方式 环境准备 环境准备 Python的安装 Python的安装 python安装的过程中 你可能会遇到各种各样的问题,上网搜各种问题的解法也不尽相同,最关键的是基本没啥效果。在我安装的过程中总结了几点,再执行我下面的流程的时候,一定要一步不 阅读全文
posted @ 2019-10-19 11:45 任重而道远的小蜗牛 阅读(5178) 评论(0) 推荐(1) 编辑
摘要: 1.MapWithState 小案列 Spark Stream:以批处理为主,用微批处理来处理流数据 Flink:真正的流式处理,以流处理为主,用流处理来处理批数据 但是Spark的Strurctured Stream 确实是真正的流式处理来处理批数据 但是Spark的structured Stre 阅读全文
posted @ 2019-07-29 14:56 任重而道远的小蜗牛 阅读(781) 评论(0) 推荐(0) 编辑
摘要: Spark Stream简介 SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数 阅读全文
posted @ 2019-07-19 15:52 任重而道远的小蜗牛 阅读(436) 评论(0) 推荐(0) 编辑
摘要: Catalog API 访问Catalog Catalog可以通过SparkSession获取,下面代码展示如何获取Catalog: Querying the databases 我们一旦创建好catalog对象之后,我们可以使用它来查询元数据中的数据库,catalog上的API返回的结果全部都是d 阅读全文
posted @ 2019-07-17 16:27 任重而道远的小蜗牛 阅读(1391) 评论(0) 推荐(0) 编辑
摘要: 自定义函数 运行结果 + + + +|name| like |num|+ + + +|17er |ruoze,j哥,星星,小海| 4|| 老二| zwr,17er | 2 || 小海| 苍老师,波老师 | 2 |+ + + + 定义了每个人喜欢的人的个数的函数;以上的是定义函数以后通过sql来使用的 阅读全文
posted @ 2019-07-17 11:06 任重而道远的小蜗牛 阅读(2783) 评论(0) 推荐(0) 编辑
摘要: kafka的部署模式 实际的生产环境中使用的是第3中方式,以集群的方式来部署kafka。kafka强依赖ZK,如果想要使用Kafka,就必须安装ZK,kafka中的消息偏置信息、kafka集群、topic信息会被存储在ZK中。有人可能会说在在使用kafka的时候就没有安装ZK,那是因为kafka内置 阅读全文
posted @ 2019-07-15 15:56 任重而道远的小蜗牛 阅读(1690) 评论(0) 推荐(0) 编辑
摘要: DataSet简介 Dataset的演变流程:SchemaRDD->DataFrame->DataSet DataSet的操作方式和DataFrame几乎没有区别,它是spark1.6出现的 DataSet是Strong type 为什么官方要推出DataSet? 如一个sql: selec a f 阅读全文
posted @ 2019-07-05 17:18 任重而道远的小蜗牛 阅读(250) 评论(0) 推荐(0) 编辑
摘要: DataFrame(重点) 无论是啥语言写的Spark SQL,还是用啥API,最终底层都是专成逻辑执行计划 SparkSession.sql() SparkSession.sql() DataFrame.show(),默认显示20条,字段字符超过一定长度就会被截取 DataFrame.show() 阅读全文
posted @ 2019-07-05 11:17 任重而道远的小蜗牛 阅读(730) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 14 下一页