上一页 1 ··· 3 4 5 6 7 8 9 下一页
摘要: 1)date_format函数(根据格式整理日期) select date_format('2019-02-10','yyyy-MM') 2)date_add函数(加减日期) select date_add('2019-02-10',-1) 结果2019-02-09 select date_add( 阅读全文
posted @ 2020-03-20 11:07 hulifang 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1)flink datastream封装了一些输入流的api 2)flink datastream 自定义一些source (无并行度和有并行度的)https://blog.csdn.net/hongzhen91/article/details/90055041 3)算子:https://blog. 阅读全文
posted @ 2019-11-04 16:26 hulifang 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 1)使用高性能序列化类库 2)优化数据结构 3)对多次使用的RDD进行持久化或Checkpoint 4)提高并行度(根据Spark官方的推荐,最优的方案是给集群中的每个cpu core设置2~3个task,也就是task的数量是cpu核的2~3倍。) 5)广播共享数据 6)数据本地化 7)reduc 阅读全文
posted @ 2019-10-15 17:45 hulifang 阅读(115) 评论(0) 推荐(0) 编辑
摘要: (1)Bloomfilter在Hbase中的作用 Hbase利用Bloomfilter来提高随机读(get)的性能,对于顺序读(scan)而言,设置Bloomfilter是没有作用的(0.92版本以后,如果设置了bloomfilter为rowcol,对于执行了qualifier的scan有一定的优化 阅读全文
posted @ 2019-10-10 17:14 hulifang 阅读(997) 评论(0) 推荐(0) 编辑
摘要: 可以计算一定范围内,一定值域内或者一段时间内的累积和以及移动平均值等 语法: 分析函数over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置) 常用分析函数: 聚合类:avg() sum() max() min() 排名类 : row_ 阅读全文
posted @ 2019-10-09 15:56 hulifang 阅读(663) 评论(0) 推荐(0) 编辑
摘要: 1、你要切换到yarn-cluster或者yarn-client模式,很简单,将我们之前用于提交spark应用程序的spark-submit脚本,加上--master参数,设置为yarn-cluster,或yarn-client,即可。如果你没设置,那么,就是standalone模式。2、yarn集 阅读全文
posted @ 2019-09-19 17:36 hulifang 阅读(2586) 评论(1) 推荐(0) 编辑
摘要: 首先acks参数,是在kafkaProducer,也就是在生产者客户端里设置的也就是说,你往kafka写东西的时候,就可以设置这个参数。 这个参数实际上有三种值可以设置,分别是0,1,和all. 第一种选择是把参数设置成0 我的kafkaProducer在客户端,只要把消息发送出去,不管那条数据有没 阅读全文
posted @ 2019-09-19 16:57 hulifang 阅读(11271) 评论(1) 推荐(3) 编辑
摘要: 1)es是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进,性能最好的,功能最全的搜索引擎库。 es不仅仅是Lucene和全文搜索,我们还能这样去描述它: 分布式的实时文件存储,每个字段都被索引并可被搜索。 分布式的实时分析搜索 阅读全文
posted @ 2019-09-17 16:10 hulifang 阅读(293) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/hbsygfz/p/4759680.html 人们对数据的处理行为可以分为操作型数据处理和分析型数据处理,操作型数据处理一般放在传统的数据库(DB)中进行,分析型数据处理则需要放在数据仓库(DW)中进行。但是并不是所有的数据处理都可以这样划分,换句话说 阅读全文
posted @ 2019-09-10 14:46 hulifang 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 下面讲解的链接 https://blog.csdn.net/shf1730797676/article/details/97100815 基本思路:当用户A需要个性化推荐的时候,可以先找到和他兴趣相似的用户群体G,然后把G中所包含的且A中没有的东西进行预测评估,最后根据预测评估值对用户A进行推荐。 阅读全文
posted @ 2019-09-09 15:56 hulifang 阅读(996) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 下一页