摘要:
一、现象二、原因排查2.1 SparkStreaming程序排查2.2 Kafka数据验证2.3 查看OGG源码2.3.1 生成Kafka消息类2.3.2 Kafka配置类2.3.3 Kafka 消息发送类2.3.4 Kafka 分区获取方式三、结论 一、现象 目前我们的数据是通过OGG->Kafka->Spark Streaming->HBase。由于之前我们发现HBase的列表put无... 阅读全文
摘要:
一、 已知的问题和不足二、解决思路三、代码3.1 读取config文件内容3.2 封装SolrServer的获取方式3.3 编写提交数据到Solr的代码3.4 拦截HBase的Put和Delete操作信息四、 使用 一、 已知的问题和不足 在上一个版本中,实现了使用HBase的协处理器将HBase的二级索引同步到Solr中,但是仍旧有几个缺陷: 写入Solr的Collectio... 阅读全文
摘要:
一、 背景二、 什么是HBase的协处理器三、 HBase协处理器同步数据到Solr四、 添加协处理器五、 测试六、 协处理器动态加载 一、 背景 在实际生产中,HBase往往不能满足多维度分析,我们能想到的办法就是通过创建HBase数据的二级索引来快速获取rowkey,从而得到想要的数据。目前比较流行的二级索引解决方案有Lily HBase Indexer,Phoenix自带的二级索引,... 阅读全文
摘要:
一、Hive简介什么是Hive为什么使用Hive面临的问题:为什么要使用Hive:二、Hive结构三、Hive支持的格式四、表的操作创建表删除表清空表修改表修改字段名与字段类型增加列修改列的顺序删除列替换表修改字段顺序其他操作查看表信息查看建表信息查看格式信息改变表文件格式查看函数五、数据操作1.插入数据从文件读取数据从其他结果集插入2.分区和分桶创建分区表查看分区插入分区数据添加分区重命名分区删... 阅读全文
摘要:
一、配置hive-site.xml二、建表三、操作四、总结 一、配置hive-site.xml CDH版本先进入Hive配置页 选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项 点击+号,增加如下配置项 hive.support.concurrency = true hive.enforce.bucketing = true hive.e... 阅读全文
摘要:
一、为什么要使用Solr做二级索引二、实时查询方案三、部署流程3.1 安装HBase、Solr3.2 增加HBase复制功能3.3创建相应的 SolrCloud 集合3.4 创建 Lily HBase Indexer 配置3.5创建 Morphline 配置文件3.6 注册 Lily HBase I 阅读全文
摘要:
一、问题描述二、分析步骤2.1 查看日志2.2 修改Solr的硬提交2.3 寻求StackOverFlow帮助2.4 修改了read-row="never"后,丢失部分字段2.5 修改代码2.6 重新打包分发三、结果四、思考 一、问题描述 部分业务需要使用HBase的数据进行多维度分析,我们采用了将 阅读全文
摘要:
一、为什么使用Phoenix二、安装Phoenix2.1 兼容问题?2.2 编译CDH版本的Phoenix2.3 安装Phoenix到CDH环境中三、Phoenix的使用3.1 phoenix的4种调用方式3.1.1 批处理方式3.1.2 命令行方式3.1.3 GUI方式3.1.4 JDBC调用3.2 Phoenix的数据操作操作3.2.1 支持的数据类型3.2.2 插入数据3.2.3 删除数据3... 阅读全文