随笔分类 - 大数据
摘要:1. 导入隐式转换 import spark.implicits._ 2. 读取 / 存储 mongodb 数据并转换为对象 df (不 as 转换也是 DataFrame 对象,但一般会习惯转换一下在进行操作) case class Rating(val uid: Int, val mid: In
阅读全文
摘要:1. war包导入 2. 代码实现 3. 测试 1)启动 2 中程序 2)启动 kafka 3)启动一个名称为 abc 的 topic 生产者 bin/kafka-topics.sh --create --zookeeper hadoop1:2181 --replication-factor 1 -
阅读全文
摘要:1. parquet 2. DataFrame 3. //dataSet 转 DataFrame 使用内置函数
阅读全文
摘要:1. spark 去重 (将每一行数据做为key来分组,这样就进行了去重,然后再取出key就可以了) 原数据: 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-2 b 实现源码: rdd.filter(_.trim().length() > 0).map(line =
阅读全文
摘要:1. 创建 maven 工程 只加 spark-streaming 这个包就可以 2. 示例代码
阅读全文
摘要:1、source为http模式,sink为logger模式,将数据在控制台打印出来。 conf配置文件如下: # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/c
阅读全文
摘要:2.测试增强 for 循环 3.测试 if 4. 5. 测试 map 6. 测试 数组 7. scala 读取文件 8. 函数 9. 递归函数 10. 有参函数 10. 数组 val arr = new Array[Int](10) //> arr : Array[Int] = Array(0, 0
阅读全文
摘要:1. 算子 jar包 链接:https://pan.baidu.com/s/1UDp81G8tY7IgwJatlT_1Vg 密码:yj06
阅读全文
摘要:a1.sources=r1a1.channels=c1a1.sinks=k1 a1.sources.r1.type = httpa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 1084a1.sources.r1.handler=jkong.test.
阅读全文
摘要:1. 获取SparkSession spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate() 2. 获取SparkContext 3. 读取文件 4. filter 使用方法 5. map 和 flatMap 使用方法
阅读全文
摘要:package com.test.bbs.util; import org.hibernate.Session; import org.hibernate.SessionFactory; import org.hibernate.cfg.Configuration; import org.hibernate.service.ServiceRegistry; import org.hiberna...
阅读全文