日月的弯刀  
Where Amazing Happens!

2017年3月4日

摘要: Spark应用_PageView_UserView_HotChannel 一、PV <!--more--> 对某一个页面的访问量,在页面中进行刷新一次就是一次pv PV {p1, (u1,u2,u3,u1,u2,u4…)} 对同一个页面的浏览量进行统计,用户可以重复 1 2 3 4 5 6 7 8 阅读全文
posted @ 2017-03-04 20:31 日月的弯刀 阅读(529) 评论(0) 推荐(0) 编辑

2017年3月3日

摘要: Cloudera Manager安装_搭建CDH集群 cpu <!--more--> 内存16G 内存12G 内存8G 默认单核单线 CDH1_node9 Server || Agent 10G 6G 5G CDH2_node10 Agent 2G 1-1.5G 1G CDH3_node11 Age 阅读全文
posted @ 2017-03-03 09:08 日月的弯刀 阅读(43039) 评论(8) 推荐(2) 编辑

2017年3月2日

摘要: hbase性能调优案例 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 设计思路 person表 阅读全文
posted @ 2017-03-02 23:45 日月的弯刀 阅读(1555) 评论(0) 推荐(0) 编辑
 
摘要: ItemCF_基于物品的协同过滤 1. 概念 <!--more--> 2. 原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第二步:构建用户的得分矩阵 第三步:同现矩阵*评分矩阵 第四步:拿到最终结果,排序,得到给用户的 阅读全文
posted @ 2017-03-02 23:34 日月的弯刀 阅读(3127) 评论(0) 推荐(1) 编辑
 
摘要: TF-IDF 1. 概念 2. 原理 3. java代码实现思路 数据集: 三个MapReduce 第一个MapReduce:(利用ik分词器,将一篇博文,也就是一条记录中的content进行词的拆分) 第一个MapReduce最终运行的结果: 1. 得到数据集中微博的总数; 2. 得到每个词在当前 阅读全文
posted @ 2017-03-02 23:33 日月的弯刀 阅读(1359) 评论(0) 推荐(0) 编辑
 
摘要: PageRank 1. 概念 1. 概念 2. 原理 3. java代码实现思路 1、定义收敛标准 每次算出新的pr-oldpr=差值 ,所有页面的差值累加 ,除以pagecount,得到avg差值 ,如果。小于0.01 2、计算总页面数,并且算出每个页面的初始pr值=1/pagecount 3、 阅读全文
posted @ 2017-03-02 23:32 日月的弯刀 阅读(381) 评论(0) 推荐(0) 编辑
 
摘要: Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速开发) <!--more--> 1.2Spark比Hadoop快的两个原因 第一,内存计算 第二,DAG(有向无环图) 2.Spark运行模式(四种 ) 阅读全文
posted @ 2017-03-02 23:28 日月的弯刀 阅读(2921) 评论(1) 推荐(0) 编辑
 
摘要: HQL学习 1.hive的数据类型 2.hive_DDL 2.1创建、删除、修改、使用数据库 2.hive_DDL 2.1创建、删除、修改、使用数据库 Default数据库,默认的,优先级相对于其他数据库是最高的 2.2重点:创建表_内部表_外部表 hive通过sql来分析hdfs上结构化的数据,将 阅读全文
posted @ 2017-03-02 23:12 日月的弯刀 阅读(637) 评论(0) 推荐(0) 编辑
 
摘要: Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKE 阅读全文
posted @ 2017-03-02 23:08 日月的弯刀 阅读(1646) 评论(0) 推荐(0) 编辑
 
摘要: Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh <!--more--> 2.Spark on YARN--不需要启动Spark集群,因为已经在spark的配置文件中配置了hadoop的目录 2.Spark o 阅读全文
posted @ 2017-03-02 23:06 日月的弯刀 阅读(883) 评论(0) 推荐(0) 编辑