随笔分类 -  推荐系统

摘要:kafka的安装非常简单, 只需要配置几个必须的参数 首先, 必须要有zookeeper 集群正常启动 1, conf/server.properties配置 broker.id=0 # 第几个broker就写几, 从0开始port=9092 num.network.threads=3 num.io 阅读全文
posted @ 2020-06-11 15:08 bronk 阅读(477) 评论(0) 推荐(0) 编辑
摘要:http://www.aboutyun.com/thread-9219-1-1.html 非常强大的博客 ! ! ! 1, cdh简介 CDH (Cloudera’s Distribution, including Apache Hadoop),是hadoop众多分支中的一种,由Cloudera维护 阅读全文
posted @ 2017-09-04 22:45 bronk 阅读(577) 评论(0) 推荐(0) 编辑
摘要:1, 数据膨胀后, 才对region进行分区, 效率比较低, 所以需要预创建region, 进行负载均衡写入 2, rowkey的调优 HBase中row key用来检索表中的记录,支持以下三种方式: 通过单个row key访问:即按照某个row key键值进行get操作; 通过row key的ra 阅读全文
posted @ 2017-09-03 00:42 bronk 阅读(394) 评论(0) 推荐(0) 编辑
摘要:如果您的工作要求您在一天之中连接许多不同的数据库 (oracle、DB2、mysql、postgresql、Sql Server等等),或者你经常需要在多个不同种类的数据库之间进行数导入导出。那么SQuirreL SQL Client 将会是比较理想的数据库客户端链接工具。 SQuirrel SQL 阅读全文
posted @ 2017-08-29 17:29 bronk 阅读(291) 评论(0) 推荐(0) 编辑
摘要:有一些大的文件,需要存入HBase中,其思想是先把文件传到HDFS上,利用map阶段读取<key,value>对,可在reduce把这些键值对上传到HBase中。 HbaseMapper: HbaseReducer job 系列来自尚学堂视频 阅读全文
posted @ 2017-08-29 17:28 bronk 阅读(280) 评论(0) 推荐(0) 编辑
摘要:因为rowkey一般有业务逻辑, 所以不可以直接使用rowkey进行分页, startkey, endkey 想要使用SQL语句对Hbase进行查询,需要使用Apache的开源框架Phoenix。 安装 1, 下载phonenix http://mirrors.cnnic.cn/apache/pho 阅读全文
posted @ 2017-08-29 17:24 bronk 阅读(451) 评论(0) 推荐(0) 编辑
摘要:hbase的完全分布式建立起来了, 可以试下好使不 1, 导包, {HBASE_HOME}/lib 下所有的jar包, 导入 2, 使用junit测试, 会报错, 因为缺少一个jar 3, 获取链接, 只需要提供zookeeper的地址即可 4, 新建表 5, 插入模拟数据 生成模拟rowkey的方 阅读全文
posted @ 2017-08-22 23:42 bronk 阅读(235) 评论(0) 推荐(0) 编辑
摘要:hbase的安装分为单机模式和完全分布式 单机模式 单机模式的安装很简单, 需要注意hbase自己内置一个zookeeper, 如果使用单机模式, 那么该机器的zookeepr不可以启动 1, 添加java的环境变量 vim {HBASE_HOME}/conf/hbase-env.sh 2, 修改配 阅读全文
posted @ 2017-08-22 23:41 bronk 阅读(527) 评论(0) 推荐(0) 编辑
摘要:hadoop的生态系统 1, hbase简介 高可用; 多备份, 分布式 高性能: 比mapreduce的性能高出许多 面向列: 存储模式是列族和列的存储模型 可伸缩: 集群可伸缩性 实时读写: 可毫秒级的响应, 可做在线数据库使用 半结构化: 通过flume导入的都是半结构化的数据 2, hbas 阅读全文
posted @ 2017-08-20 00:17 bronk 阅读(2234) 评论(0) 推荐(0) 编辑
摘要:内置函数: 函数分类: 内置函数查看: 查看函数描述: 具体见: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1, 简单函数( 函数的计算粒度为单条记录) 关系运算 数学运算 逻辑运算 数值计算 类型转换 日 阅读全文
posted @ 2017-08-19 16:07 bronk 阅读(639) 评论(0) 推荐(0) 编辑
摘要:hive 可以 类似jdbc链接, 但启动的必须是hiveserver2, 才可以使用 hiveserver2 默认监听 10000 端口 1, 启动: 重定向输出, 不干扰shell界面 nohup 用户退出, 也可以继续执行 或者 2, 使用 Beeline 进行连接 使用beeline链接, 阅读全文
posted @ 2017-08-17 19:39 bronk 阅读(339) 评论(0) 推荐(0) 编辑
摘要:跟mysql类似, hive也有 DDL, 和 DML操作 数据类型: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL primitive_type为基本类型, 包括: DDL: 基本语法: 1, 使用简单数据类 阅读全文
posted @ 2017-08-15 20:32 bronk 阅读(434) 评论(0) 推荐(0) 编辑
摘要:1, hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduc 阅读全文
posted @ 2017-08-12 22:51 bronk 阅读(436) 评论(0) 推荐(0) 编辑
摘要:1, tf-idf 计算每个人的词条中的重要度 需要3个mapreduce 的 job执行, 第一个计算 TF 和 n, 第二个计算 DF, 第三个代入公式计算结果值 1, 第一个job reduce partition mainJob 2, 第二个 reduce mainjob 3, 第三个Job 阅读全文
posted @ 2017-08-12 17:19 bronk 阅读(466) 评论(0) 推荐(0) 编辑
摘要:好友推荐的案例, 需要两个job, 第一个进行好友关系度计算, 第二个job将计算的关系进行推荐 1, fof关系类 2, user类 3, sort 4, group 5, job 初始文档 系列来自尚学堂视频 阅读全文
posted @ 2017-08-08 20:04 bronk 阅读(431) 评论(0) 推荐(0) 编辑
摘要:weather案例, 简单分析每年的前三个月的最高温即可, 使用自定义的分组和排序 设计分析 设定多个reduce 每年的数据都很多,如果按照默认情况处理,统计性能是非常慢(因为默认只有一个reduce),所以我们需要重新分配reduceTask,将一年的数据交给一个reduceTask处理, 分区 阅读全文
posted @ 2017-08-08 20:01 bronk 阅读(447) 评论(0) 推荐(0) 编辑
摘要:转: http://www.cnblogs.com/rubinorth/p/5799848.html 参考尚学堂视频 1, 概念( 来自百度百科) PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Br 阅读全文
posted @ 2017-08-07 23:55 bronk 阅读(566) 评论(1) 推荐(0) 编辑
摘要:在搭建好的 resourceHA的环境下, 配置yarn yarn是 hadoop2以后的计算框架, 通过ResourceManager的调用, 将我们写的程序包分到各个nodeManager上, 由于hadoop的理念是移动计算, 所以NodeManager和 DataNode是同一个机器 在 $ 阅读全文
posted @ 2017-07-20 21:55 bronk 阅读(356) 评论(0) 推荐(0) 编辑
摘要:mapreduce是hadoop的核心组件, 设计理念是移动计算而不是移动数据, mapreduce的思想是'分而治之', 将复杂的任务分解成几个简单的任务去执行 共分为4个步骤: 1, split 切分blcok, 切分为数据片段, split0, split1, split2 计算公式为: 2, 阅读全文
posted @ 2017-06-24 18:41 bronk 阅读(322) 评论(0) 推荐(0) 编辑
摘要:好久没更新了, 也好久没学了, 今天换了个eclipse版本, 安装插件坑了一会, 果然好记性不如烂笔头, 记下来吧 编译安装或者直接安装都可以, 先说下编译安装吧 1, 编译安装, 是使用的ant, 所以需要先安装ant, 没有安装的, google一下 2, 源码地址: https://gith 阅读全文
posted @ 2017-05-03 20:44 bronk 阅读(372) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示