日月的弯刀  
Where Amazing Happens!

2017年3月2日

摘要: hbase性能调优案例 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 设计思路 person表 阅读全文
posted @ 2017-03-02 23:45 日月的弯刀 阅读(1555) 评论(0) 推荐(0) 编辑
 
摘要: ItemCF_基于物品的协同过滤 1. 概念 <!--more--> 2. 原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第二步:构建用户的得分矩阵 第三步:同现矩阵*评分矩阵 第四步:拿到最终结果,排序,得到给用户的 阅读全文
posted @ 2017-03-02 23:34 日月的弯刀 阅读(3125) 评论(0) 推荐(1) 编辑
 
摘要: TF-IDF 1. 概念 2. 原理 3. java代码实现思路 数据集: 三个MapReduce 第一个MapReduce:(利用ik分词器,将一篇博文,也就是一条记录中的content进行词的拆分) 第一个MapReduce最终运行的结果: 1. 得到数据集中微博的总数; 2. 得到每个词在当前 阅读全文
posted @ 2017-03-02 23:33 日月的弯刀 阅读(1358) 评论(0) 推荐(0) 编辑
 
摘要: PageRank 1. 概念 1. 概念 2. 原理 3. java代码实现思路 1、定义收敛标准 每次算出新的pr-oldpr=差值 ,所有页面的差值累加 ,除以pagecount,得到avg差值 ,如果。小于0.01 2、计算总页面数,并且算出每个页面的初始pr值=1/pagecount 3、 阅读全文
posted @ 2017-03-02 23:32 日月的弯刀 阅读(381) 评论(0) 推荐(0) 编辑
 
摘要: Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速开发) <!--more--> 1.2Spark比Hadoop快的两个原因 第一,内存计算 第二,DAG(有向无环图) 2.Spark运行模式(四种 ) 阅读全文
posted @ 2017-03-02 23:28 日月的弯刀 阅读(2921) 评论(1) 推荐(0) 编辑
 
摘要: HQL学习 1.hive的数据类型 2.hive_DDL 2.1创建、删除、修改、使用数据库 2.hive_DDL 2.1创建、删除、修改、使用数据库 Default数据库,默认的,优先级相对于其他数据库是最高的 2.2重点:创建表_内部表_外部表 hive通过sql来分析hdfs上结构化的数据,将 阅读全文
posted @ 2017-03-02 23:12 日月的弯刀 阅读(637) 评论(0) 推荐(0) 编辑
 
摘要: Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKE 阅读全文
posted @ 2017-03-02 23:08 日月的弯刀 阅读(1646) 评论(0) 推荐(0) 编辑
 
摘要: Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh <!--more--> 2.Spark on YARN--不需要启动Spark集群,因为已经在spark的配置文件中配置了hadoop的目录 2.Spark o 阅读全文
posted @ 2017-03-02 23:06 日月的弯刀 阅读(883) 评论(0) 推荐(0) 编辑
 
摘要: 转载请标明出处http://www.cnblogs.com/haozhengfei/p/f421e517457b01f6db36d934bfab5ac6.html Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安 阅读全文
posted @ 2017-03-02 22:58 日月的弯刀 阅读(1087) 评论(0) 推荐(0) 编辑