大数据 - 随笔分类 - 林**

scala spark 示例代码

摘要：1. 导入隐式转换 import spark.implicits._ 2. 读取 / 存储 mongodb 数据并转换为对象 df （不 as 转换也是 DataFrame 对象，但一般会习惯转换一下在进行操作） case class Rating(val uid: Int, val mid: In 阅读全文

posted @ 2019-11-06 16:27 林** 阅读(1052) 评论(2) 推荐(0)

kafka stream 使用样例

摘要：1. war包导入 2. 代码实现 3. 测试 1）启动 2 中程序 2）启动 kafka 3）启动一个名称为 abc 的 topic 生产者 bin/kafka-topics.sh --create --zookeeper hadoop1:2181 --replication-factor 1 - 阅读全文

posted @ 2019-10-18 10:09 林** 阅读(2142) 评论(0) 推荐(0)

Spark 实例

摘要：1. parquet 2. DataFrame 3. //dataSet 转 DataFrame 使用内置函数阅读全文

posted @ 2019-08-28 14:22 林** 阅读(448) 评论(0) 推荐(0)

Spark 各种示例

摘要：1. spark 去重（将每一行数据做为key来分组，这样就进行了去重，然后再取出key就可以了）原数据： 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-2 b 实现源码： rdd.filter(_.trim().length() > 0).map(line = 阅读全文

posted @ 2019-07-25 10:21 林** 阅读(729) 评论(0) 推荐(0)

java 实现 spark Streaming

摘要：1. 创建 maven 工程只加 spark-streaming 这个包就可以 2. 示例代码阅读全文

posted @ 2019-05-06 08:27 林** 阅读(3251) 评论(0) 推荐(0)

Spark笔记

该文被密码保护。

posted @ 2019-03-19 14:38 林** 阅读(22) 评论(0) 推荐(0)

flume将数据发送到kafka、hdfs、hive、http、netcat等模式的使用总结

摘要：1、source为http模式，sink为logger模式，将数据在控制台打印出来。 conf配置文件如下： # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/c 阅读全文

posted @ 2018-08-08 14:06 林** 阅读(2538) 评论(0) 推荐(0)

scala 基本语法

摘要：2.测试增强 for 循环 3.测试 if 4. 5. 测试 map 6. 测试数组 7. scala 读取文件 8. 函数 9. 递归函数 10. 有参函数 10. 数组 val arr = new Array[Int](10) //> arr : Array[Int] = Array(0, 0 阅读全文

posted @ 2018-07-09 16:42 林** 阅读(187) 评论(0) 推荐(0)

Spark java 笔记

该文被密码保护。

posted @ 2018-06-25 14:07 林** 阅读(5) 评论(0) 推荐(0)

spark java wordCount实例

摘要：1. 算子 jar包链接：https://pan.baidu.com/s/1UDp81G8tY7IgwJatlT_1Vg 密码：yj06 阅读全文

posted @ 2018-06-21 18:18 林** 阅读(245) 评论(0) 推荐(0)

通过 flume 上传数据到hive

摘要：a1.sources=r1a1.channels=c1a1.sinks=k1 a1.sources.r1.type = httpa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 1084a1.sources.r1.handler=jkong.test. 阅读全文

posted @ 2018-05-18 11:21 林** 阅读(493) 评论(0) 推荐(0)

python操作Spark常用命令

摘要：1. 获取SparkSession spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate() 2. 获取SparkContext 3. 读取文件 4. filter 使用方法 5. map 和 flatMap 使用方法阅读全文

posted @ 2018-03-28 18:23 林** 阅读(21810) 评论(0) 推荐(1)

spark-python 常用命令

该文被密码保护。

posted @ 2018-03-21 18:19 林** 阅读(8) 评论(0) 推荐(0)

HibernateUtil hibernate4.0以上

摘要：package com.test.bbs.util; import org.hibernate.Session; import org.hibernate.SessionFactory; import org.hibernate.cfg.Configuration; import org.hibernate.service.ServiceRegistry; import org.hiberna... 阅读全文

posted @ 2018-03-19 15:14 林** 阅读(70) 评论(0) 推荐(0)

haoop 笔记

该文被密码保护。

posted @ 2018-03-15 11:00 林** 阅读(4) 评论(0) 推荐(0)

林**

随笔分类 - 大数据

公告