摘要: 添加依赖 <!--es 相关依赖开始--> <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version>6.3.1</version> </dependency> <dependency> < 阅读全文
posted @ 2020-06-03 22:22 可以看看你胖次吗 阅读(688) 评论(0) 推荐(0) 编辑
摘要: 问题来源 官网原话是这样的: Since Sqoop breaks down export process into multiple transactions, it is possible that a failed export job may result in partial data b 阅读全文
posted @ 2020-05-31 23:54 可以看看你胖次吗 阅读(1065) 评论(0) 推荐(0) 编辑
摘要: 正则的基本语法: [ab] a或者b [a-z] 所有的小写字母 [a-zA-Z0-9_] 数字字母下划线 [^a] 非字符a [^ab] 非字符a和非字符b 注意: ^只有在[]内部才表示非, 如果不是在内部表示字符开头 \d 表示数字 等价于 [0-9] (digital) \D 表示非数字 等 阅读全文
posted @ 2020-05-31 17:57 可以看看你胖次吗 阅读(152) 评论(0) 推荐(0) 编辑
摘要: Canal的数据结构 网上对Canal的介绍已经够多了,这里不再赘述,但是有一点必须要强调,就是Canal 是怎么对数据进行的封装,只有明白了这点,才可以去消费其中的数据 Canal的安装及配置 配置Mysql主服务器的my.cnf文件(位于/etc目录下,没有就新建) #主服务器的id serve 阅读全文
posted @ 2020-05-31 16:15 可以看看你胖次吗 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 有一个需求是: 最近一小时内商品的点击次数 方案是用SparkStreaming 来做,利用窗口可以轻松达到目的,然后再将结果存入数据库,可问题就出现了,因为商品id为主键,这是不能重复的,如何更新呢?这就要用到以下的sql "insert into ads_hour values(?, ?) on 阅读全文
posted @ 2020-05-19 20:12 可以看看你胖次吗 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 错误思想 举个列子,当我们想要比较 一个 类型为 RDD[(Long, (String, Int))] 的RDD,让它先按Long分组,然后按int的值进行倒序排序,最容易想到的思维就是先分组,然后把Iterable 转换为 list,然后sortby,但是这样却有一个致命的缺点,就是Iterabl 阅读全文
posted @ 2020-05-18 19:01 可以看看你胖次吗 阅读(1013) 评论(0) 推荐(0) 编辑
摘要: 配置 1、将Hive-site.xml复制到Spark/conf目录下 如果hive-site中配置了查询引擎,需要将其注掉 <!-- <property> <name>hive.execution.engine</name> <value>tez</value> </property> --> 2 阅读全文
posted @ 2020-05-14 19:04 可以看看你胖次吗 阅读(4275) 评论(1) 推荐(0) 编辑
摘要: JDBC 以MySQL为例 读取 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} /** * Author yang 阅读全文
posted @ 2020-05-09 21:58 可以看看你胖次吗 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 问题 为防止因为虚拟机内存过少,进程被杀死,需要关闭yarn的内存检测 yarn-site.xml <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-che 阅读全文
posted @ 2020-05-04 19:55 可以看看你胖次吗 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 传送门https://blog.csdn.net/z1941563559/article/details/88751099?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_sour 阅读全文
posted @ 2020-04-27 21:45 可以看看你胖次吗 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 代码示例 package com.atguigu.chapter08.mixin //看看混入多个特质的特点(叠加特质) object AddTraits { def main(args: Array[String]): Unit = { val mysql = new MySQL4 with DB 阅读全文
posted @ 2020-04-25 21:32 可以看看你胖次吗 阅读(350) 评论(0) 推荐(0) 编辑
摘要: https://www.jianshu.com/p/d66ae2359968 (传送门) 阅读全文
posted @ 2020-04-25 00:07 可以看看你胖次吗 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 问题 错误代码如下 object Obj3 { def main(args: Array[String]): Unit = { val u31 = new User3(20) println(u31.age) } } class User3(var name: String) { var age: 阅读全文
posted @ 2020-04-24 17:41 可以看看你胖次吗 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 循环步长 def main(args: Array[String]): Unit = { println(10 to 1 by -1) //Range(10, 9, 8, 7, 6, 5, 4, 3, 2, 1) } API——Reverse def main(args: Array[String] 阅读全文
posted @ 2020-04-22 00:25 可以看看你胖次吗 阅读(565) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/u013294097/article/details/87861708?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2&utm_source=d 阅读全文
posted @ 2020-04-19 19:42 可以看看你胖次吗 阅读(1794) 评论(0) 推荐(0) 编辑
Live2D