推荐系统 - 随笔分类 - bronk

51-kafka-安装及常用的命令

摘要：kafka的安装非常简单, 只需要配置几个必须的参数首先, 必须要有zookeeper 集群正常启动 1, conf/server.properties配置 broker.id=0 # 第几个broker就写几, 从0开始port=9092 num.network.threads=3 num.io 阅读全文

posted @ 2020-06-11 15:08 bronk 阅读(510) 评论(0) 推荐(0)

33-hadoop-cdh搭建coudemanager安装

摘要：http://www.aboutyun.com/thread-9219-1-1.html 非常强大的博客 ! ! ! 1, cdh简介 CDH (Cloudera’s Distribution, including Apache Hadoop)，是hadoop众多分支中的一种，由Cloudera维护阅读全文

posted @ 2017-09-04 22:45 bronk 阅读(603) 评论(0) 推荐(0)

32-hadoop-hbase调优

摘要：1, 数据膨胀后, 才对region进行分区, 效率比较低, 所以需要预创建region, 进行负载均衡写入 2, rowkey的调优 HBase中row key用来检索表中的记录，支持以下三种方式：通过单个row key访问：即按照某个row key键值进行get操作；通过row key的ra 阅读全文

posted @ 2017-09-03 00:42 bronk 阅读(417) 评论(0) 推荐(0)

30-hadoop-hbase-安装squirrel工具

摘要：如果您的工作要求您在一天之中连接许多不同的数据库（oracle、DB2、mysql、postgresql、Sql Server等等），或者你经常需要在多个不同种类的数据库之间进行数导入导出。那么SQuirreL SQL Client 将会是比较理想的数据库客户端链接工具。 SQuirrel SQL 阅读全文

posted @ 2017-08-29 17:29 bronk 阅读(314) 评论(0) 推荐(0)

31-hadoop-hbase-mapreduce操作hbase

摘要：有一些大的文件，需要存入HBase中，其思想是先把文件传到HDFS上，利用map阶段读取<key,value>对，可在reduce把这些键值对上传到HBase中。 HbaseMapper: HbaseReducer job 系列来自尚学堂视频阅读全文

posted @ 2017-08-29 17:28 bronk 阅读(289) 评论(0) 推荐(0)

29-hadoop-使用phtonenix工具&分页&数据导入

摘要：因为rowkey一般有业务逻辑, 所以不可以直接使用rowkey进行分页, startkey, endkey 想要使用SQL语句对Hbase进行查询，需要使用Apache的开源框架Phoenix。安装 1, 下载phonenix http://mirrors.cnnic.cn/apache/pho 阅读全文

posted @ 2017-08-29 17:24 bronk 阅读(469) 评论(0) 推荐(0)

28-hadoop-hbase入门小程序

摘要：hbase的完全分布式建立起来了, 可以试下好使不 1, 导包, {HBASE_HOME}/lib 下所有的jar包, 导入 2, 使用junit测试, 会报错, 因为缺少一个jar 3, 获取链接, 只需要提供zookeeper的地址即可 4, 新建表 5, 插入模拟数据生成模拟rowkey的方阅读全文

posted @ 2017-08-22 23:42 bronk 阅读(249) 评论(0) 推荐(0)

27-hadoop-hbase安装

摘要：hbase的安装分为单机模式和完全分布式单机模式单机模式的安装很简单, 需要注意hbase自己内置一个zookeeper, 如果使用单机模式, 那么该机器的zookeepr不可以启动 1, 添加java的环境变量 vim {HBASE_HOME}/conf/hbase-env.sh 2, 修改配阅读全文

posted @ 2017-08-22 23:41 bronk 阅读(536) 评论(0) 推荐(0)

26-hadoop-hbase简介

摘要：hadoop的生态系统 1, hbase简介高可用; 多备份, 分布式高性能: 比mapreduce的性能高出许多面向列: 存储模式是列族和列的存储模型可伸缩: 集群可伸缩性实时读写: 可毫秒级的响应, 可做在线数据库使用半结构化: 通过flume导入的都是半结构化的数据 2, hbas 阅读全文

posted @ 2017-08-20 00:17 bronk 阅读(2255) 评论(0) 推荐(0)

25-hadoop-hive-函数

摘要：内置函数: 函数分类: 内置函数查看: 查看函数描述: 具体见: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1, 简单函数( 函数的计算粒度为单条记录) 关系运算数学运算逻辑运算数值计算类型转换日阅读全文

posted @ 2017-08-19 16:07 bronk 阅读(648) 评论(0) 推荐(0)

24-hadoop-hiveserver2&jdbc-正则数据导入

摘要：hive 可以类似jdbc链接, 但启动的必须是hiveserver2, 才可以使用 hiveserver2 默认监听 10000 端口 1, 启动: 重定向输出, 不干扰shell界面 nohup 用户退出, 也可以继续执行或者 2, 使用 Beeline 进行连接使用beeline链接, 阅读全文

posted @ 2017-08-17 19:39 bronk 阅读(367) 评论(0) 推荐(0)

23-hadoop-hive的DDL和DML操作

摘要：跟mysql类似, hive也有 DDL, 和 DML操作数据类型: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL primitive_type为基本类型, 包括: DDL: 基本语法: 1, 使用简单数据类阅读全文

posted @ 2017-08-15 20:32 bronk 阅读(446) 评论(0) 推荐(0)

22-hadoop-hive搭建

摘要：1, hive简介 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduc 阅读全文

posted @ 2017-08-12 22:51 bronk 阅读(455) 评论(0) 推荐(0)

21-hadoop-weibo推送广告

摘要：1, tf-idf 计算每个人的词条中的重要度需要3个mapreduce 的 job执行, 第一个计算 TF 和 n, 第二个计算 DF, 第三个代入公式计算结果值 1, 第一个job reduce partition mainJob 2, 第二个 reduce mainjob 3, 第三个Job 阅读全文

posted @ 2017-08-12 17:19 bronk 阅读(476) 评论(0) 推荐(0)

19-hadoop-fof好友推荐

摘要：好友推荐的案例, 需要两个job, 第一个进行好友关系度计算, 第二个job将计算的关系进行推荐 1, fof关系类 2, user类 3, sort 4, group 5, job 初始文档系列来自尚学堂视频阅读全文

posted @ 2017-08-08 20:04 bronk 阅读(439) 评论(0) 推荐(0)

18-hadoop-weather案例

摘要：weather案例, 简单分析每年的前三个月的最高温即可, 使用自定义的分组和排序设计分析设定多个reduce 每年的数据都很多，如果按照默认情况处理，统计性能是非常慢（因为默认只有一个reduce），所以我们需要重新分配reduceTask，将一年的数据交给一个reduceTask处理，分区阅读全文

posted @ 2017-08-08 20:01 bronk 阅读(464) 评论(0) 推荐(0)

20-hadoop-pagerank的计算

摘要：转: http://www.cnblogs.com/rubinorth/p/5799848.html 参考尚学堂视频 1, 概念( 来自百度百科) PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Br 阅读全文

posted @ 2017-08-07 23:55 bronk 阅读(603) 评论(1) 推荐(0)

17-hadoop-yarn安装

摘要：在搭建好的 resourceHA的环境下, 配置yarn yarn是 hadoop2以后的计算框架, 通过ResourceManager的调用, 将我们写的程序包分到各个nodeManager上, 由于hadoop的理念是移动计算, 所以NodeManager和 DataNode是同一个机器在 $ 阅读全文

posted @ 2017-07-20 21:55 bronk 阅读(366) 评论(0) 推荐(0)

16-hadoop-mapreduce简介

摘要：mapreduce是hadoop的核心组件, 设计理念是移动计算而不是移动数据, mapreduce的思想是'分而治之', 将复杂的任务分解成几个简单的任务去执行共分为4个步骤: 1, split 切分blcok, 切分为数据片段, split0, split1, split2 计算公式为: 2, 阅读全文

posted @ 2017-06-24 18:41 bronk 阅读(334) 评论(0) 推荐(0)

15-hadoop-eclipse插件的安装

摘要：好久没更新了, 也好久没学了, 今天换了个eclipse版本, 安装插件坑了一会, 果然好记性不如烂笔头, 记下来吧编译安装或者直接安装都可以, 先说下编译安装吧 1, 编译安装, 是使用的ant, 所以需要先安装ant, 没有安装的, google一下 2, 源码地址: https://gith 阅读全文

posted @ 2017-05-03 20:44 bronk 阅读(384) 评论(0) 推荐(0)

bronk

随笔分类 - 推荐系统

公告