任重而道远的小蜗牛

2019年10月22日

摘要： docker的安装（阿里云）环境准备为了保证环境干净先执行一下几步执行以上的命令，主要是保证4和5 # 安装依赖包测试是否成功输入docker命令看是否有命令帮助出来像下图那就是安装成功了 # 卸载官方安装文档： https://docs.docker.com/engine/inst 阅读全文

posted @ 2019-10-22 17:15 任重而道远的小蜗牛阅读(1114) 评论(0) 推荐(0) 编辑

Error Downloading Packages --Insufficient space

摘要： Error Downloading Packages:报错其中一种情况 yum-utils-1.1.30-42.el6_10.noarch: Insufficient space in download directory /var/cache/yum/x86_64/6/updates/packag 阅读全文

posted @ 2019-10-22 17:08 任重而道远的小蜗牛阅读(578) 评论(0) 推荐(0) 编辑

2019年10月19日

Airflow的部署（全网图文结合最全）

摘要：本篇文章只讲Airflow的部署以及再部署中遇到的坑和解决方式环境准备环境准备 Python的安装 Python的安装 python安装的过程中你可能会遇到各种各样的问题，上网搜各种问题的解法也不尽相同，最关键的是基本没啥效果。在我安装的过程中总结了几点，再执行我下面的流程的时候，一定要一步不阅读全文

posted @ 2019-10-19 11:45 任重而道远的小蜗牛阅读(5386) 评论(0) 推荐(1) 编辑

2019年7月29日

Spark之Stream高级知识分享二(MapWithState +foreachRDD+Window+transform)

摘要： 1.MapWithState 小案列 Spark Stream:以批处理为主，用微批处理来处理流数据 Flink：真正的流式处理，以流处理为主，用流处理来处理批数据但是Spark的Strurctured Stream 确实是真正的流式处理来处理批数据但是Spark的structured Stre 阅读全文

posted @ 2019-07-29 14:56 任重而道远的小蜗牛阅读(818) 评论(0) 推荐(0) 编辑

2019年7月19日

Spark之Streaming学习（）

摘要： Spark Stream简介 SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。支持多种数据源获取数据： Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数阅读全文

posted @ 2019-07-19 15:52 任重而道远的小蜗牛阅读(441) 评论(0) 推荐(0) 编辑

2019年7月17日

Spark SQL之Catalog API介绍和使用

摘要： Catalog API 访问Catalog Catalog可以通过SparkSession获取，下面代码展示如何获取Catalog： Querying the databases 我们一旦创建好catalog对象之后，我们可以使用它来查询元数据中的数据库，catalog上的API返回的结果全部都是d 阅读全文

posted @ 2019-07-17 16:27 任重而道远的小蜗牛阅读(1424) 评论(0) 推荐(0) 编辑

sparksql的自定义函数

摘要：自定义函数运行结果 + + + +|name| like |num|+ + + +|17er |ruoze,j哥,星星,小海| 4|| 老二| zwr,17er | 2 || 小海| 苍老师,波老师 | 2 |+ + + + 定义了每个人喜欢的人的个数的函数；以上的是定义函数以后通过sql来使用的阅读全文

posted @ 2019-07-17 11:06 任重而道远的小蜗牛阅读(2787) 评论(0) 推荐(0) 编辑

2019年7月15日

KAFKA的部署与使用

摘要： kafka的部署模式实际的生产环境中使用的是第3中方式，以集群的方式来部署kafka。kafka强依赖ZK，如果想要使用Kafka，就必须安装ZK，kafka中的消息偏置信息、kafka集群、topic信息会被存储在ZK中。有人可能会说在在使用kafka的时候就没有安装ZK，那是因为kafka内置阅读全文

posted @ 2019-07-15 15:56 任重而道远的小蜗牛阅读(1705) 评论(0) 推荐(0) 编辑

2019年7月5日

DataSet那点事

摘要： DataSet简介 Dataset的演变流程：SchemaRDD->DataFrame->DataSet DataSet的操作方式和DataFrame几乎没有区别，它是spark1.6出现的 DataSet是Strong type 为什么官方要推出DataSet？如一个sql： selec a f 阅读全文

posted @ 2019-07-05 17:18 任重而道远的小蜗牛阅读(252) 评论(0) 推荐(0) 编辑

DataFram 的使用

摘要： DataFrame(重点) 无论是啥语言写的Spark SQL，还是用啥API，最终底层都是专成逻辑执行计划 SparkSession.sql() SparkSession.sql() DataFrame.show(),默认显示20条，字段字符超过一定长度就会被截取 DataFrame.show() 阅读全文

posted @ 2019-07-05 11:17 任重而道远的小蜗牛阅读(742) 评论(0) 推荐(0) 编辑

IT界的小十七

公告