04 2018 档案
摘要:Spark Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。 可以参考,Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。 一、DataFrame对象的
阅读全文
摘要:转载自:https://blog.csdn.net/u012297062/article/details/52227909 UDF: User Defined Function,用户自定义的函数,函数的输入是一条具体的数据记录,实现上讲就是普通的Scala函数;UDAF:User Defined A
阅读全文
摘要:下划线这个符号几乎贯穿了任何一本Scala编程书籍,并且在不同的场景下具有不同的含义,绕晕了不少初学者。正因如此,下划线这个特殊符号无形中增加Scala的入门难度。本文希望帮助初学者踏平这个小山坡。 1. 用于替换Java的等价语法 由于大部分的Java关键字在Scala中拥有了新的含义,所以一些基
阅读全文
摘要:Spark Sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了,我满足不了你,自己按照我的规范去定义一个sql函数,该怎么折腾就怎么折腾! 这里还是先以Scala
阅读全文
摘要:下面的测试代码使用的都是下面的topic: Kafka Java API之producer 关于producer API的使用说明,可以查看org.apache.kafka.clients.producer.KafkaProducer这个类的代码注释,有非常详细的说明,下面就直接给出程序代码及测试。
阅读全文
摘要:Kafka简介 消息队列(Message Queue) MQ分类 Kafka简介 Kafka组件 Kafka安装配置 当然,kafka的配置文件也非常重要,有必要对其中的内容学习一下,这里给出其配置文件的说明: 另外需要注意的是,kafka启动后,会在zookeeper中创建相关的节点: Kafka
阅读全文
摘要:个人理解:就是TF的一种输入语法。 跟C语言的scanf(),C++的 cin>> 意思差不多,只是长相奇怪了点而已。 做完下面几个例子,基本也就适应了。 首先占位符申请空间;使用的时候,通过占位符“喂(feed)”给程序。然后程序就可以run了。。。 理解的不一定对,也不够深入,仅供参考。 tf.
阅读全文
摘要:此程序被称为TF的 Hello World,19行代码,给人感觉很简单。第一遍看的时候,不到半个小时,就把程序看完了。感觉有点囫囵吞枣的意思,没理解透彻。现在回过头来看,感觉还可以从中学到更多东西。 注:研究了一下数据流向,画了张图
阅读全文
摘要:Kafka消费形式验证 前面的《Kafka笔记整理(一)》中有提到消费者的消费形式,说明如下: 下面就来验证Kafka的消费形式,不过需要说明的是,在消费者的程序代码中,可以指定消费者的group.id(我们下面将会在配置文件中指定)。 而在使用kafka的shell命令时,其实也是可以指定配置文件
阅读全文