Where Amazing Happens!

2017年3月4日

摘要： Spark应用_PageView_UserView_HotChannel 一、PV  对某一个页面的访问量，在页面中进行刷新一次就是一次pv PV {p1, (u1,u2,u3,u1,u2,u4…)} 对同一个页面的浏览量进行统计，用户可以重复 1 2 3 4 5 6 7 8 阅读全文

posted @ 2017-03-04 20:31 日月的弯刀阅读(529) 评论(0) 推荐(0) 编辑

2017年3月3日

Cloudera Manager安装_搭建CDH集群

摘要： Cloudera Manager安装_搭建CDH集群 cpu  内存16G 内存12G 内存8G 默认单核单线 CDH1_node9 Server || Agent 10G 6G 5G CDH2_node10 Agent 2G 1-1.5G 1G CDH3_node11 Age 阅读全文

posted @ 2017-03-03 09:08 日月的弯刀阅读(43039) 评论(8) 推荐(2) 编辑

2017年3月2日

hbase性能调优_表设计案例

摘要： hbase性能调优案例 1、人员-角色人员有多个角色角色优先级角色有多个人员人员删除添加角色角色可以添加删除人员人员角色删除添加 1、人员-角色人员有多个角色角色优先级角色有多个人员人员删除添加角色角色可以添加删除人员人员角色删除添加设计思路 person表阅读全文

posted @ 2017-03-02 23:45 日月的弯刀阅读(1555) 评论(0) 推荐(0) 编辑

ItemCF_基于物品的协同过滤_MapReduceJava代码实现思路

摘要： ItemCF_基于物品的协同过滤 1. 概念  2. 原理如何给用户推荐？给用户推荐他没有买过的物品--103 3. java代码实现思路数据集：第一步：构建物品的同现矩阵第二步：构建用户的得分矩阵第三步：同现矩阵*评分矩阵第四步：拿到最终结果，排序，得到给用户的阅读全文

posted @ 2017-03-02 23:34 日月的弯刀阅读(3127) 评论(0) 推荐(1) 编辑

TF-IDF_MapReduceJava代码实现思路

摘要： TF-IDF 1. 概念 2. 原理 3. java代码实现思路数据集：三个MapReduce 第一个MapReduce：（利用ik分词器，将一篇博文，也就是一条记录中的content进行词的拆分）第一个MapReduce最终运行的结果： 1. 得到数据集中微博的总数； 2. 得到每个词在当前阅读全文

posted @ 2017-03-02 23:33 日月的弯刀阅读(1359) 评论(0) 推荐(0) 编辑

PageRank_网页排名_MapReduceJava代码实现思路

摘要： PageRank 1. 概念 1. 概念 2. 原理 3. java代码实现思路 1、定义收敛标准每次算出新的pr-oldpr=差值，所有页面的差值累加 ,除以pagecount，得到avg差值，如果。小于0.01 2、计算总页面数，并且算出每个页面的初始pr值=1/pagecount 3、阅读全文

posted @ 2017-03-02 23:32 日月的弯刀阅读(381) 评论(0) 推荐(0) 编辑

Spark_总结一

摘要： Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架，使数据计算更快（高效运行，快速开发）  1.2Spark比Hadoop快的两个原因第一，内存计算第二，DAG（有向无环图） 2.Spark运行模式（四种）阅读全文

posted @ 2017-03-02 23:28 日月的弯刀阅读(2921) 评论(1) 推荐(0) 编辑

Hive HQL学习

摘要： HQL学习 1.hive的数据类型 2.hive_DDL 2.1创建、删除、修改、使用数据库 2.hive_DDL 2.1创建、删除、修改、使用数据库 Default数据库，默认的，优先级相对于其他数据库是最高的 2.2重点：创建表_内部表_外部表 hive通过sql来分析hdfs上结构化的数据，将阅读全文

posted @ 2017-03-02 23:12 日月的弯刀阅读(637) 评论(0) 推荐(0) 编辑

Spark高可用集群搭建

摘要： Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh，注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKE 阅读全文

posted @ 2017-03-02 23:08 日月的弯刀阅读(1646) 评论(0) 推荐(0) 编辑

Spark集群搭建_YARN

摘要： Spark集群搭建_YARN 前提：参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh  2.Spark on YARN--不需要启动Spark集群，因为已经在spark的配置文件中配置了hadoop的目录 2.Spark o 阅读全文

posted @ 2017-03-02 23:06 日月的弯刀阅读(883) 评论(0) 推荐(0) 编辑


Copyright © 2024 日月的弯刀 Powered by .NET 8.0 on Kubernetes 博客园

导航

2017年3月4日

2017年3月3日

2017年3月2日