日月的弯刀  
Where Amazing Happens!

摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/0593214ae0a5395d1411395169eaabfa.html Spark Core 资源调度与任务调度(standalone client 流程描述) Spark集群启动: 集群启动后,Worker 阅读全文
posted @ 2017-03-15 22:27 日月的弯刀 阅读(4038) 评论(0) 推荐(0) 编辑

摘要: Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! <!--more--> 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致 阅读全文
posted @ 2017-03-12 13:40 日月的弯刀 阅读(22864) 评论(0) 推荐(4) 编辑

摘要: Spark性能调优之资源分配 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,<!--more--> 进行性能调优的时候,首先第一步,我觉得,就是要来调节 阅读全文
posted @ 2017-03-11 00:37 日月的弯刀 阅读(7364) 评论(0) 推荐(3) 编辑

摘要: Spark数据本地化-->如何达到性能调优的目的 1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL NODE_LOCAL NO_PREF RACK 阅读全文
posted @ 2017-03-10 23:22 日月的弯刀 阅读(954) 评论(0) 推荐(0) 编辑

摘要: hbase性能调优案例 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 设计思路 person表 阅读全文
posted @ 2017-03-02 23:45 日月的弯刀 阅读(1555) 评论(0) 推荐(0) 编辑
 
摘要: ItemCF_基于物品的协同过滤 1. 概念 <!--more--> 2. 原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第二步:构建用户的得分矩阵 第三步:同现矩阵*评分矩阵 第四步:拿到最终结果,排序,得到给用户的 阅读全文
posted @ 2017-03-02 23:34 日月的弯刀 阅读(3125) 评论(0) 推荐(1) 编辑
 
摘要: TF-IDF 1. 概念 2. 原理 3. java代码实现思路 数据集: 三个MapReduce 第一个MapReduce:(利用ik分词器,将一篇博文,也就是一条记录中的content进行词的拆分) 第一个MapReduce最终运行的结果: 1. 得到数据集中微博的总数; 2. 得到每个词在当前 阅读全文
posted @ 2017-03-02 23:33 日月的弯刀 阅读(1358) 评论(0) 推荐(0) 编辑
 
摘要: HQL学习 1.hive的数据类型 2.hive_DDL 2.1创建、删除、修改、使用数据库 2.hive_DDL 2.1创建、删除、修改、使用数据库 Default数据库,默认的,优先级相对于其他数据库是最高的 2.2重点:创建表_内部表_外部表 hive通过sql来分析hdfs上结构化的数据,将 阅读全文
posted @ 2017-03-02 23:12 日月的弯刀 阅读(637) 评论(0) 推荐(0) 编辑

摘要: 转载请标明出处 http://www.cnblogs.com/haozhengfei/p/6049276.html 首先说一下inverse: "inverse" 直译过来就是"反转,使颠倒"的意思,书面化的解释为"是否将关系维护的权力交给对方" 1. 在hibernate中inverse默认是fa 阅读全文
posted @ 2016-11-10 19:24 日月的弯刀 阅读(4600) 评论(2) 推荐(1) 编辑

2018年1月25日

摘要: UDF函数中定义的集合对象何时初始化 udf函数放在sql中对某个字段进行处理,那么在底层会创建一个该类的对象,这个对象不断的去调用这个evaluate(...)方法,截图如下: 1.1 如果说对于每一条传入UDF中需要处理的数据都需要全新的集合对象,那么这个时候集合对象就需要在类中声明,在eval 阅读全文
posted @ 2018-01-25 17:51 日月的弯刀 阅读(2110) 评论(0) 推荐(0) 编辑

2017年9月13日

摘要: kafka producer生产数据到kafka异常:Got error produce response with correlation id 16 on topic-partition...Error: NETWORK_EXCEPTION 1.问题描述 2017-09-13 15:11:30. 阅读全文
posted @ 2017-09-13 16:30 日月的弯刀 阅读(11973) 评论(1) 推荐(0) 编辑

2017年9月11日

摘要: Kafka中操作topic时 Error: Failed to parse the broker info from zookeeper 1.问题描述 2.问题原因 kafka在启动后,会将broker的信息存放在对应的zookeeper里的zNode中,默认存放在zookeeper中的路径 /br 阅读全文
posted @ 2017-09-11 16:03 日月的弯刀 阅读(2998) 评论(0) 推荐(0) 编辑

2017年4月3日

摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/e3db73cb83afb213a3bff43a850d56c4.html keepalived VS zookeeper 两者都可以做高可用HA,那么有什么区别呢? 1.从主被动的角度考虑 我们知道,nginx 阅读全文
posted @ 2017-04-03 23:35 日月的弯刀 阅读(5932) 评论(0) 推荐(2) 编辑

2017年3月22日

摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/abb04e825ba4b847dcb704605ea1cd36.html 链表的回文结构 <!--more--> 链表回文结构练习 第9节 链表的回文结构练习题 请编写一个函数,检查链表是否为回文。 给定一个链 阅读全文
posted @ 2017-03-22 22:20 日月的弯刀 阅读(758) 评论(0) 推荐(0) 编辑
 
摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/5155a3f1ce0612e35ec202156921836f.html 链表指定值清除 <!--more--> 第8节 链表指定值清除练习题 现在有一个单链表。链表中每个节点保存一个整数,再给定一个值val, 阅读全文
posted @ 2017-03-22 21:46 日月的弯刀 阅读(468) 评论(0) 推荐(0) 编辑
 
摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/9e6f4dda3138cf9fab17f996ec85b624.html 链表的K逆序问题 <!--more--> 链表的k逆序 第7节 链表的k逆序练习题 有一个单链表,请设计一个算法,使得每K个节点之间逆序 阅读全文
posted @ 2017-03-22 21:12 日月的弯刀 阅读(972) 评论(1) 推荐(0) 编辑
 
摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/a31ea00f9b17ae900ab225f6c32334c2.html 打印两个链表的公共值 <!--more--> 打印两个链表的公共值练习 <!--more--> 打印两个链表的公共值练习 打印两个链表的 阅读全文
posted @ 2017-03-22 20:29 日月的弯刀 阅读(427) 评论(0) 推荐(0) 编辑
 
摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/c4d685012a2e7a9d2a29531f249be630.html 链表的分化 <!--more--> 链表的分化练习 第5节 链表的分化练习题 对于一个链表,我们需要用一个特定阈值完成对它的分化,使得小 阅读全文
posted @ 2017-03-22 20:16 日月的弯刀 阅读(532) 评论(0) 推荐(0) 编辑
 
摘要: 协方差的意义和计算公式 学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。 很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们 阅读全文
posted @ 2017-03-22 00:10 日月的弯刀 阅读(706) 评论(0) 推荐(0) 编辑