摘要: *4 集合的高级函数(重点) count 统计个数 记得要加条件不然要报错 filter 过滤 条件:x>4 sortBy 排序 正序: 逆序(记得加个空格): sortWwith 排序 这里参数x1,x2可以理解为上一个元素和下一个元素进行比较,都是同一个集合中出来的元素进行对比。 grouped 阅读全文
posted @ 2019-06-16 17:27 大魔王阿黎 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 六:scala数组 1 数组定义: 数组定义1: var arr = new Array[String](3) String:存储的元素类型 3:存储3个元素 添加元素: arr(1) = "dawn" 数组定义2: val arr1 = Array[Int](1,2,3,4,5,6) 改变内容:a 阅读全文
posted @ 2019-06-12 16:28 大魔王阿黎 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 五:scala函数 1函数创建方式 方式1:方法转换为函数 方式:方法名 _ res6: (Int, Int) => Int = <function2> <function2> 代表一个函数,并且有两个参数。 (Int, Int) 代表参数列表 Int 代表返回值类型 => 代表函数 方式2 定义函 阅读全文
posted @ 2019-06-11 21:59 大魔王阿黎 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 一:scala简介 官网:https://www.scala-lang.org/ Scala语言很强大,集成了面向对象和函数式编程的特点。 运行在JVM(jdk)。 大数据中为什么学习scala? spark是scala语言编写。 python写spark 挺好的 java写spark 很糟糕(代码 阅读全文
posted @ 2019-06-11 21:51 大魔王阿黎 阅读(216) 评论(1) 推荐(0) 编辑
摘要: 案例一:统计网站访问量(实时统计) 实时流式计算框架:storm 1)spout 数据源,接入数据源 本地文件如下 编写spout程序: 2)splitbolt 业务逻辑处理 切分数据 拿到网址 3)bolt 累加次数求和 4)Driver 使用字段分组 运行结果如下: 总共190条数据。统计完成之 阅读全文
posted @ 2019-06-07 11:25 大魔王阿黎 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 五:storm-wordcount 实时版开发 1:编写Spout 2:编写分词bolt 3:编写计数bolt 4:编写driver驱动类 六:storm-wordcount 提交到集群上运行 1:打包程序到Linux上 2:提交任务 3:在Storm UI上看任务执行情况 七:分组策略 使用上面w 阅读全文
posted @ 2019-06-05 18:42 大魔王阿黎 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 一:Storm概述 网址:http://storm.apache.org/ ApacheStorm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多 阅读全文
posted @ 2019-06-05 18:34 大魔王阿黎 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 为什么使用多线程? 每一个线程的启动和结束都是比较消耗时间和占用资源的。 如果在系统中用到了很多的线程,大量的启动和结束动作会导致系统的性能变卡,响应变慢。 为了解决这个问题,引入线程池这种设计思想。 步骤一:线程池设计思路 步骤一:线程池设计思路 步骤一:线程池设计思路 1. 准备一个任务容器2. 阅读全文
posted @ 2019-06-04 22:35 大魔王阿黎 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 七:kafka基本的Java API操作 案例一:send函数参数中不带回调函数的Producer API操作: 1:先启动一个消费者 2:编写代码如下 3:运行结果 案例二:自定义分区以及Send函数参数中使用带回调函数的Producer 1:还是使用morning主题 2:编写代码: 分区: 生 阅读全文
posted @ 2019-06-04 09:59 大魔王阿黎 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 一:Kafka概述 离线部分: Hadoop->离线计算(hdfs / mapreduce) yarn zookeeper->分布式协调(动物管理员) hive->数据仓库(离线计算 / sql)easy coding flume->数据采集 sqoop->数据迁移mysql->hdfs/hive 阅读全文
posted @ 2019-06-04 09:00 大魔王阿黎 阅读(263) 评论(0) 推荐(0) 编辑