摘要: 1 查询上下文中,查询操作不仅仅会进行查询,还会计算分值,用于确定相关度;在过滤器上下文中,查询操作仅判断是否满足查询条件 2 过滤器上下文中,查询的结果可以被缓存。 阅读全文
posted @ 2020-03-09 09:51 再见傅里叶 阅读(989) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/jyroy/p/11365935.html 阅读全文
posted @ 2020-03-08 12:11 再见傅里叶 阅读(84) 评论(0) 推荐(0) 编辑
摘要: spark_sql_shuffle_partitions设置executor的partitions个数,注意这个参数只对SparkSQL有用 但是有的文章说这是并行度,一个partitions相当于一个task? 阅读全文
posted @ 2020-03-07 22:00 再见傅里叶 阅读(224) 评论(0) 推荐(0) 编辑
摘要: sql语句方式 flightData2015.createOrReplaceTempView("flightData2015") spark.sql("select DEST_COUNTRY_NAME ,sum(count) as destination_total" + " from flight 阅读全文
posted @ 2020-03-07 21:51 再见傅里叶 阅读(3044) 评论(0) 推荐(0) 编辑
摘要: 参考https://www.cnblogs.com/flymin/p/11345646.html 小文件:存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。 阅读全文
posted @ 2020-03-07 21:45 再见傅里叶 阅读(1612) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/shuangyueliao/article/details/89344256 阅读全文
posted @ 2020-03-06 18:14 再见傅里叶 阅读(116) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/weixin_42874157/article/details/88863913 阅读全文
posted @ 2020-03-06 12:20 再见傅里叶 阅读(2042) 评论(0) 推荐(0) 编辑
摘要: https://www.csdn.net/gather_20/MtTaYgwsOTY3MS1ibG9n.html 阅读全文
posted @ 2020-03-06 11:57 再见傅里叶 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 拉链表就是保存历史快照数据,去掉每天相同状态的数据,只保留不一样的数据,并且记录状态发生变化的开始日期和结束日期。 http://lxw1234.com/archives/2015/04/20.htm https://blog.csdn.net/liyong19850208/article/deta 阅读全文
posted @ 2020-03-06 11:52 再见傅里叶 阅读(620) 评论(0) 推荐(0) 编辑
摘要: 当高并发访问某个接口的时候,如果这个接口访问的数据库中的资源,并且你的数据库事务级别是可重复读(Repeatable read)的话,确实是没有线程问题的,因为数据库锁的级别就够了;但是如果这个接口需要访问一个静态变量、静态代码块、全局缓存的中的资源或者redis中的资源的时候,就会出现线程安全的问 阅读全文
posted @ 2020-03-04 20:36 再见傅里叶 阅读(120) 评论(0) 推荐(0) 编辑